lunes, 11 de noviembre de 2013

Error open_hca: get lid ERR for mlx4_0 > port=2, err=Invalid argument (TORQUE PBS+ OpenMPI + Red Infiniband)



Previo:

- Se verifica que el contenido en los nodos del archivo /etc.dat.conf sea el correcto.
- Se verifica la salida del comando "ibstatus" en los nodos para verificar que las interfaces están activas.
- Verificar que el servicio "opensmd" esta ejecutandose en cada uno de los nodos.

1.- Variable de entorno para uso de la red Infiniband  en el script en PBS con la cual aparece el el error:

export I_MPI_DEVICE=rdssm

2.- Primer variable de entorno agregada al script en PBS para identificar el error  (se comentó antes I_MPI_DEVICE=rdssm):


#export I_MPI_DEVICE=rdssm
export I_MPI_DEBUG=6

3.- Segunda variable de entorno agregada al script en PBS para identificar el error (se comentaron las anteriores):
#export I_MPI_DEVICE=rdssm
#export I_MPI_DEBUG=6
export I_MPI_DEBUG=+6
4.- Se verifica el parametro ulimit -l en la consola del usuario el cual debe ser al menos de 3000000):

user# ulimit -l

5.- Se abre una sesion interactiva al script en PBS para verificar el parametro ulimit del usuario bajo el sistema de colas:

user# qsub -I
5.- Se detectó que el parámetro ulimit del usuario bajo el sistema de colas era muy bajo, por lo que se hizo lo siguiente:

-Se agregó lo siguiente al demonio pbs_mom de cada nodo:


ulimit -l unlimited
ulimit -s unlimited
- Se reinicia el demonio pbs_mom de cada nodo:
user# /etc/init.d/pbs_mom reload
user# /etc/init.d/pbs_mom restart
Referencia:



No hay comentarios: