[Jderobot-admin] Caída del servidor del finde pasado

Jue Nov 1 16:22:20 CET 2012

Hola a todos,

He estado analizando lo que pasó el finde pasado en el servidor para ver
qué es lo que había provocado su caída. No he sacado muchas conclusiones,
eso sí, pero allá van.

Se quedó sin swap y a las 22:54:40 lanzó el oom-killer. Oom viene de "out
of memory", y si buscamos "free swap" en el syslog podemos ver que tenía
0KB libres de swap... Por lo que se dedicó a matar programas en ejecución.

Después de analizar cómo estaba el sistema (o así interpreto yo todo lo que
hay antes del siguiente oom-killer) mató el servidor apache. Después de
varias llamadas a oom-killer (en las que no sé exactamente qué es lo que
está haciendo) terminó por matar la base de datos, mysqld.

Mysqld_safe notifica un reinicio de la base de datos. A partir de ahí el
ordenador parece que va más o menos bien, al menos sigue adelante con sus
tareas, aunque InnoDB empieza a notificar que se está recuperando de un mal
apagado de la base de datos. Al final, a las 23:20:21 informa de que se ha
restablecido correctamente. Después de relanzar la base de datos dice que
la tabla './wordpress_jde/wp_options' hay que repararla (trece minutos
después de lo anterior).

A las 00:05:57 se tiene el último log, por lo que tampoco se puede
determinar en qué momento terminó de caer el servidor. Lo que sí está claro
es que desde que se mató al servidor apache ya no se pudo volver a levantar.

¿El problema? Que se quedase sin swap. No sé a qué puede responder
exactamente. Lo peor es que he leído que no tiene por qué solucionarse
añadiendo más memoria RAM al sistema [1], si no que habría que recurrir a
otras alternativas como se explican en ese enlace. Lo que sí estaría bien
es, tal y como comentó Óscar, instalar herramientas de monitorización del
sistema. Pero aquí nos topamos con el problema del libc de ayer...

Durante todo el rato que he estado analizando el fichero de log he ido
mirando cuánta memoria disponible hay en el servidor. Tiene 2GB instalados,
y normalmente hay usados unos 1650MB (unas veces más y otras veces menos,
pero por ahí); eso sí, la swap está completamente libre.

Veo poco probable el hecho de que hubiera un ataque al servidor para
tirarlo abajo, aunque también se podría intentar mirar (en estos momentos
no sé exactamente cómo, tendría que investigarlo) si hubo un aumento
inusual del tráfico en la noche del sábado al domingo. Seguramente fuese
algún proceso que se terminase de comer toda la memoria disponible del
sistema, pero es algo que no he alcanzado a ver con el syslog.

A día de hoy no hay nada que indique que no se pueda volver a producir, así
que de momento, mientras no se pueda arreglar lo de la dependencia de libc,
hay que andarse con mucho ojo.

Un saludo,

Borja.

[1] - http://linux.derkeiler.com/Mailing-Lists/RedHat/2007-08/msg00061.html

PD: he vuelto a enviar este e-mail porque el anterior tenía un fichero
adjunto con el syslog donde aparecía todo lo que os he contado, pero se
excede del tamaño permitido y tiene que dar José María el consentimiento
para que se distribuya en la lista... Así que os lo envío sin adjunto y así
lo vais leyendo. Si necesitáis el syslog, pedídmelo ;-)
------------ próxima parte ------------
Se ha borrado un adjunto en formato HTML...
URL: http://gsyc.escet.urjc.es/pipermail/jderobot-admin/attachments/20121101/0899e259/attachment.htm