[Jderobot-dev] Servidor caído
Oscar Garcia
oscar.robotica en linaresdigital.com
Vie Nov 16 21:13:30 CET 2012
Perdonad mi ausencia, he estado muy liado. Me pedí el día libre en el
trabajo debido a que tenía que hacer unas gestiones y no he podido
seguir lo que ha pasado como es debido.
El 16/11/12 17:14, JoseMaria escribió:
> Bien. Vaya con el watchdog.
> Estas herramientas de monitorización del sistema nos van a ser muy
> útiles. Con ellas tendremos un servidor mucho más sólido cuando
> superemos el transitorio inestable hasta que te hagas con ellas.
De nuevo siento los problemas que os ha creado, ya sabéis que podéis
consultar conmigo para lo que haga falta. Hubiera sido buena idea
discutir previamente qué es lo que se recomienda monitorizar y qué no.
Precisamente monitorizar los servicios ssh y apache2 no es una buena idea.
> On Thu, 2012-11-15 at 17:49 +0100, Borja Menéndez Moreno wrote:
>> A ver, que leo esto que he escrito y ni casi yo lo entiendo...
>> Watchdog te da la posibilidad de vigilar procesos a través de su
>> fichero de pid, los que se sitúan en /var/run y acaban en .pid; en
>> teoría puedes poner tantos procesos a vigilar como te dé la gana, pero
>> en este caso no sé por qué no encuentra los procesos de apache y ssh,
>> cuando están bien puestos. Al no encontrar los .pid de esos procesos
>> reinicia la máquina, supongo que como medida de seguridad, y al
>> iniciarse de nuevo vuelve a ejecutar la configuración de su fichero de
>> configuración, volviendo a intentar leer esos .pid, no encontrarlos y
>> volviendo a reiniciar... Y así hasta el infinito.
A ver, antes de poner en producción cualquier modificación en watchdog
es buena idea hacer unas pruebas.
Para ello existe la opción "-q" o "-no-action", que permite probar una
configuración antes de que te empiece a reiniciar el servidor si no lo
has hecho bien.
Esa opción se activa añadiendo en /etc/default/watchdog la siguiente
línea (reiniciando posteriormente watchdog y mirando en syslog que ha
sido activada la misma):
watchdog_options="-q"
Cuando se compruebe que todo va bien mirando que en los logs no aparecen
advertencias o señales de que watchdog hubiera decidido reiniciar la
máquina por error entonces se comenta esa línea y se reinicia watchdog.
Que un servidor caiga (como el servidor ssh o el servidor web) no
debería ser motivo de reinicio de la máquina. Si se hace un apt-get
upgrade, durante la configuración de los paquetes, en el que el servicio
es detenido, el servidor se reiniciaría dejando en un estado lamentable
el sistema (posiblemente se podría arreglar de manera sencilla, pero ya
sería un quebradero de cabeza más).
No recomiendo, repito: NO RECOMIENDO, monitorizar con watchdog un
archivo pid. Es una buena idea monitorizar la carga del sistema en los
últimos 10 o 15 minutos, pero no los últimos 5 minutos si usáis un
sistema de backup nocturno que dure más de ese tiempo, se reiniciaría la
máquina a medias de cada backup si éste carga el sistema.
Levantar un servicio como es apache, ssh, etc debería estar monitorizado
por un operador, que reciba la alerta de un sistema de monitorización,
como zabbix, y decida si debe arrancar el servicio porque ha caído
accidentalmente o si debe dejarlo apagado porque sabe que se está
realizando una operativa en dicha máquina.
Un saludo.
------------ próxima parte ------------
Se ha borrado un adjunto en formato HTML...
URL: http://gsyc.escet.urjc.es/pipermail/jde-developers/attachments/20121116/cef48ece/attachment.htm
More information about the Jde-developers
mailing list