[Jderobot-admin] Caída de zabbix_server este fin de semana
Oscar Garcia
oscar.robotica en linaresdigital.com
Mar Dic 4 07:48:36 CET 2012
El 03/12/2012 22:26, Borja Mon Serrano escribió:
>
> Paginando... ¿te dio tiempo a hacer un reboot?
>
> No, no me dio tiempo, se quedó congelada la máquina en cuanto copié aquí
> la salida de top e iotop y escribí el correo :(
Lástima, para la próxima en cuanto tomes capturas reinicias o bien
ejecutas el script de análisis que creamos y reinicias inmediatamente.
Este tipo de situaciones no se arreglan conforme avanza el tiempo, todo
lo contrario.
> ¿Llegaste a configurar watchdog para que reiniciara la máquina al
> superar un umbral de carga? Viendo la monitorización el valor podría ser
> 100 para la media de los últimos 5 minutos (max-load-5).
>
> Sí, pero ahora mismo no recuerdo el valor...
Bien, luego compruebas si pasamos de modo "no action" a producción, si
no quitamos la opción de /etc/default/watchdog no reiniciará la máquina
cuando ésta se quede cuajada.
No entiendo, en otro caso, el motivo por el que no se reinició la
máquina, la comprobación de la carga de sistema creo que provoca siempre
un reset brusco, e incluso si fuera un reset suave al mandar un kill a
los procesos de apache la carga del sistema y el uso de memoria hubiera
permitido seguir adelante con el reinicio.
Luego me cuentas el umbral y si estaba ya en producción o no.
> A ver si te da tiempo, haz un "ssh root en jderobot.org
> <mailto:root en jderobot.org> killall -9 apache2"
> para hacer un killall inmediatamente tras poner la clave de root, luego
> te será más sencillo entrar con un ssh normal y reiniciar la máquina con
> un reboot.
>
> Lleva ya un rato intentando entrar en la máquina.
Nada, al menos ya vemos que el problema lo genera el proceso apache. En
zabbix estaba monitorizado (fue la primera plantilla que hicimos si
recuerdas, suele ser el proceso que tira servidores web), así que voy a
ver las gráficas del número de procesos que estaban ejecutándose en el
servidor en el momento de la caída del servidor zabbix para limitar el
número de procesos que ejecute el servidor y, en todo caso, sería buena
idea plantearse instalar y configurar un acelerador web como squid.
Entre otras cosas squid puede limitar el número de conexiones
simultáneas a un "peer" que hace de parent o de origin server, a parte
de servir de RAM (con más frecuencia que de disco) datos accedidos de
manera frecuente y estáticos (imágenes, iconos, hojas de estilo,
javascripts, etc) sin "molestar" al servidor apache.
Un saludo.
More information about the Jderobot-admin
mailing list