Previo:
- Se verifica que el contenido en los nodos del archivo /etc.dat.conf sea el correcto.
- Se verifica la salida del comando "ibstatus" en los nodos para verificar que las interfaces están activas.
- Verificar que el servicio "opensmd" esta ejecutandose en cada uno de los nodos.
1.- Variable de entorno para uso de la red Infiniband en el script en PBS con la cual aparece el el error:
export I_MPI_DEVICE=rdssm
2.- Primer variable de entorno agregada al script en PBS para identificar el error (se comentó antes I_MPI_DEVICE=rdssm):
#export I_MPI_DEVICE=rdssm
export I_MPI_DEBUG=63.- Segunda variable de entorno agregada al script en PBS para identificar el error (se comentaron las anteriores):#export I_MPI_DEVICE=rdssm#export I_MPI_DEBUG=6export I_MPI_DEBUG=+64.- Se verifica el parametro ulimit -l en la consola del usuario el cual debe ser al menos de 3000000):user# ulimit -l5.- Se abre una sesion interactiva al script en PBS para verificar el parametro ulimit del usuario bajo el sistema de colas:user# qsub -I5.- Se detectó que el parámetro ulimit del usuario bajo el sistema de colas era muy bajo, por lo que se hizo lo siguiente:-Se agregó lo siguiente al demonio pbs_mom de cada nodo:ulimit -l unlimitedulimit -s unlimited- Se reinicia el demonio pbs_mom de cada nodo:user# /etc/init.d/pbs_mom reloaduser# /etc/init.d/pbs_mom restartReferencia:

No hay comentarios:
Publicar un comentario