[Jderobot-admin] [Jderobot-dev] Servidor caído
JoseMaria
jmplaza en gsyc.es
Lun Nov 19 09:01:22 CET 2012
[retomo el hilo en la lista de administración, que es la buena para esto
(me colé en el último envío)]
Gracias Oscar!
JoseMaria
On Fri, 2012-11-16 at 21:13 +0100, Oscar Garcia wrote:
> Perdonad mi ausencia, he estado muy liado. Me pedí el día libre en el
> trabajo debido a que tenía que hacer unas gestiones y no he podido
> seguir lo que ha pasado como es debido.
>
> El 16/11/12 17:14, JoseMaria escribió:
>
> > Bien. Vaya con el watchdog.
> > Estas herramientas de monitorización del sistema nos van a ser muy
> > útiles. Con ellas tendremos un servidor mucho más sólido cuando
> > superemos el transitorio inestable hasta que te hagas con ellas.
>
>
> De nuevo siento los problemas que os ha creado, ya sabéis que podéis
> consultar conmigo para lo que haga falta. Hubiera sido buena idea
> discutir previamente qué es lo que se recomienda monitorizar y qué no.
>
> Precisamente monitorizar los servicios ssh y apache2 no es una buena
> idea.
>
>
> > On Thu, 2012-11-15 at 17:49 +0100, Borja Menéndez Moreno wrote:
> > > A ver, que leo esto que he escrito y ni casi yo lo entiendo...
> > > Watchdog te da la posibilidad de vigilar procesos a través de su
> > > fichero de pid, los que se sitúan en /var/run y acaban en .pid; en
> > > teoría puedes poner tantos procesos a vigilar como te dé la gana, pero
> > > en este caso no sé por qué no encuentra los procesos de apache y ssh,
> > > cuando están bien puestos. Al no encontrar los .pid de esos procesos
> > > reinicia la máquina, supongo que como medida de seguridad, y al
> > > iniciarse de nuevo vuelve a ejecutar la configuración de su fichero de
> > > configuración, volviendo a intentar leer esos .pid, no encontrarlos y
> > > volviendo a reiniciar... Y así hasta el infinito.
>
>
> A ver, antes de poner en producción cualquier modificación en watchdog
> es buena idea hacer unas pruebas.
>
> Para ello existe la opción "-q" o "-no-action", que permite probar una
> configuración antes de que te empiece a reiniciar el servidor si no lo
> has hecho bien.
>
> Esa opción se activa añadiendo en /etc/default/watchdog la siguiente
> línea (reiniciando posteriormente watchdog y mirando en syslog que ha
> sido activada la misma):
>
> watchdog_options="-q"
>
> Cuando se compruebe que todo va bien mirando que en los logs no
> aparecen advertencias o señales de que watchdog hubiera decidido
> reiniciar la máquina por error entonces se comenta esa línea y se
> reinicia watchdog.
>
> Que un servidor caiga (como el servidor ssh o el servidor web) no
> debería ser motivo de reinicio de la máquina. Si se hace un apt-get
> upgrade, durante la configuración de los paquetes, en el que el
> servicio es detenido, el servidor se reiniciaría dejando en un estado
> lamentable el sistema (posiblemente se podría arreglar de manera
> sencilla, pero ya sería un quebradero de cabeza más).
>
> No recomiendo, repito: NO RECOMIENDO, monitorizar con watchdog un
> archivo pid. Es una buena idea monitorizar la carga del sistema en los
> últimos 10 o 15 minutos, pero no los últimos 5 minutos si usáis un
> sistema de backup nocturno que dure más de ese tiempo, se reiniciaría
> la máquina a medias de cada backup si éste carga el sistema.
>
> Levantar un servicio como es apache, ssh, etc debería estar
> monitorizado por un operador, que reciba la alerta de un sistema de
> monitorización, como zabbix, y decida si debe arrancar el servicio
> porque ha caído accidentalmente o si debe dejarlo apagado porque sabe
> que se está realizando una operativa en dicha máquina.
>
> Un saludo.
> _______________________________________________
> Jde-developers mailing list
> Jde-developers en gsyc.es
> http://gsyc.escet.urjc.es/cgi-bin/mailman/listinfo/jde-developers
--
http://gsyc.es/jmplaza
Universidad Rey Juan Carlos
More information about the Jderobot-admin
mailing list