[Jderobot-admin] Caída de zabbix_server este fin de semana

Oscar Garcia oscar.robotica en linaresdigital.com
Mar Dic 4 07:48:36 CET 2012


El 03/12/2012 22:26, Borja Mon Serrano escribió:
>
>     Paginando... ¿te dio tiempo a hacer un reboot?
>
> No, no me dio tiempo, se quedó congelada la máquina en cuanto copié aquí
> la salida de top e iotop y escribí el correo :(


Lástima, para la próxima en cuanto tomes capturas reinicias o bien 
ejecutas el script de análisis que creamos y reinicias inmediatamente. 
Este tipo de situaciones no se arreglan conforme avanza el tiempo, todo 
lo contrario.


>     ¿Llegaste a configurar watchdog para que reiniciara la máquina al
>     superar un umbral de carga? Viendo la monitorización el valor podría ser
>     100 para la media de los últimos 5 minutos (max-load-5).
>
> Sí, pero ahora mismo no recuerdo el valor...


Bien, luego compruebas si pasamos de modo "no action" a producción, si 
no quitamos la opción de /etc/default/watchdog no reiniciará la máquina 
cuando ésta se quede cuajada.

No entiendo, en otro caso, el motivo por el que no se reinició la 
máquina, la comprobación de la carga de sistema creo que provoca siempre 
un reset brusco, e incluso si fuera un reset suave al mandar un kill a 
los procesos de apache la carga del sistema y el uso de memoria hubiera 
permitido seguir adelante con el reinicio.

Luego me cuentas el umbral y si estaba ya en producción o no.



>     A ver si te da tiempo, haz un "ssh root en jderobot.org
>     <mailto:root en jderobot.org> killall -9 apache2"
>     para hacer un killall inmediatamente tras poner la clave de root, luego
>     te será más sencillo entrar con un ssh normal y reiniciar la máquina con
>     un reboot.
>
> Lleva ya un rato intentando entrar en la máquina.


Nada, al menos ya vemos que el problema lo genera el proceso apache. En 
zabbix estaba monitorizado (fue la primera plantilla que hicimos si 
recuerdas, suele ser el proceso que tira servidores web), así que voy a 
ver las gráficas del número de procesos que estaban ejecutándose en el 
servidor en el momento de la caída del servidor zabbix para limitar el 
número de procesos que ejecute el servidor y, en todo caso, sería buena 
idea plantearse instalar y configurar un acelerador web como squid.

Entre otras cosas squid puede limitar el número de conexiones 
simultáneas a un "peer" que hace de parent o de origin server, a parte 
de servir de RAM (con más frecuencia que de disco) datos accedidos de 
manera frecuente y estáticos (imágenes, iconos, hojas de estilo, 
javascripts, etc) sin "molestar" al servidor apache.

Un saludo.


More information about the Jderobot-admin mailing list