[Jderobot-dev] Servidor caído

Vie Nov 16 21:13:30 CET 2012

Perdonad mi ausencia, he estado muy liado. Me pedí el día libre en el 
trabajo debido a que tenía que hacer unas gestiones y no he podido 
seguir lo que ha pasado como es debido.

El 16/11/12 17:14, JoseMaria escribió:
> Bien. Vaya con el watchdog.
> Estas herramientas de monitorización del sistema nos van a ser muy
> útiles. Con ellas tendremos un servidor mucho más sólido cuando
> superemos el transitorio inestable hasta que te hagas con ellas.

De nuevo siento los problemas que os ha creado, ya sabéis que podéis 
consultar conmigo para lo que haga falta. Hubiera sido buena idea 
discutir previamente qué es lo que se recomienda monitorizar y qué no.

Precisamente monitorizar los servicios ssh y apache2 no es una buena idea.

> On Thu, 2012-11-15 at 17:49 +0100, Borja Menéndez Moreno wrote:
>> A ver, que leo esto que he escrito y ni casi yo lo entiendo...
>> Watchdog te da la posibilidad de vigilar procesos a través de su
>> fichero de pid, los que se sitúan en /var/run y acaban en .pid; en
>> teoría puedes poner tantos procesos a vigilar como te dé la gana, pero
>> en este caso no sé por qué no encuentra los procesos de apache y ssh,
>> cuando están bien puestos. Al no encontrar los .pid de esos procesos
>> reinicia la máquina, supongo que como medida de seguridad, y al
>> iniciarse de nuevo vuelve a ejecutar la configuración de su fichero de
>> configuración, volviendo a intentar leer esos .pid, no encontrarlos y
>> volviendo a reiniciar... Y así hasta el infinito.

A ver, antes de poner en producción cualquier modificación en watchdog 
es buena idea hacer unas pruebas.

Para ello existe la opción "-q" o "-no-action", que permite probar una 
configuración antes de que te empiece a reiniciar el servidor si no lo 
has hecho bien.

Esa opción se activa añadiendo en /etc/default/watchdog la siguiente 
línea (reiniciando posteriormente watchdog y mirando en syslog que ha 
sido activada la misma):

watchdog_options="-q"

Cuando se compruebe que todo va bien mirando que en los logs no aparecen 
advertencias o señales de que watchdog hubiera decidido reiniciar la 
máquina por error entonces se comenta esa línea y se reinicia watchdog.

Que un servidor caiga (como el servidor ssh o el servidor web) no 
debería ser motivo de reinicio de la máquina. Si se hace un apt-get 
upgrade, durante la configuración de los paquetes, en el que el servicio 
es detenido, el servidor se reiniciaría dejando en un estado lamentable 
el sistema (posiblemente se podría arreglar de manera sencilla, pero ya 
sería un quebradero de cabeza más).

No recomiendo, repito: NO RECOMIENDO, monitorizar con watchdog un 
archivo pid. Es una buena idea monitorizar la carga del sistema en los 
últimos 10 o 15 minutos, pero no los últimos 5 minutos si usáis un 
sistema de backup nocturno que dure más de ese tiempo, se reiniciaría la 
máquina a medias de cada backup si éste carga el sistema.

Levantar un servicio como es apache, ssh, etc debería estar monitorizado 
por un operador, que reciba la alerta de un sistema de monitorización, 
como zabbix, y decida si debe arrancar el servicio porque ha caído 
accidentalmente o si debe dejarlo apagado porque sabe que se está 
realizando una operativa en dicha máquina.

Un saludo.
------------ próxima parte ------------
Se ha borrado un adjunto en formato HTML...
URL: http://gsyc.escet.urjc.es/pipermail/jde-developers/attachments/20121116/cef48ece/attachment.htm