Previo:
- Se verifica que el contenido en los nodos del archivo /etc.dat.conf sea el correcto.
- Se verifica la salida del comando "ibstatus" en los nodos para verificar que las interfaces están activas.
- Verificar que el servicio "opensmd" esta ejecutandose en cada uno de los nodos.
1.- Variable de entorno para uso de la red Infiniband en el script en PBS con la cual aparece el el error:
export I_MPI_DEVICE=rdssm
2.- Primer variable de entorno agregada al script en PBS para identificar el error (se comentó antes I_MPI_DEVICE=rdssm):
#export I_MPI_DEVICE=rdssm
export I_MPI_DEBUG=6
3.- Segunda variable de entorno agregada al script en PBS para identificar el error (se comentaron las anteriores):
#export I_MPI_DEVICE=rdssm#export I_MPI_DEBUG=6
export I_MPI_DEBUG=+64.- Se verifica el parametro ulimit -l en la consola del usuario el cual debe ser al menos de 3000000):
user# ulimit -l
5.- Se abre una sesion interactiva al script en PBS para verificar el parametro ulimit del usuario bajo el sistema de colas:
user# qsub -I
5.- Se detectó que el parámetro ulimit del usuario bajo el sistema de colas era muy bajo, por lo que se hizo lo siguiente:
-Se agregó lo siguiente al demonio pbs_mom de cada nodo:
ulimit -l unlimited
ulimit -s unlimited
- Se reinicia el demonio pbs_mom de cada nodo:user# /etc/init.d/pbs_mom reloaduser# /etc/init.d/pbs_mom restartReferencia:
No hay comentarios:
Publicar un comentario