[Jderobot-admin] [Jderobot-dev] �Servidor web jderobot.org ca�do?

JoseMaria josemaria.plaza en gmail.com
Mar Oct 30 09:14:32 CET 2012


�Qu� buena pinta tienen las herramientas que mencionas! Habr� que
probarlas.

He creado la lista de correo jderobot-admin en gsyc.es para estas
conversaciones. Usemosla a partir de ahora.

Saludos,

JoseMaria
On Mon, 2012-10-29 at 20:32 +0100, Oscar Garcia wrote:
> El lun, 29-10-2012 a las 17:50 +0100, JoseMaria escribi�:
> > La paginaci�n no tendr�a que tirar la m�quina, si acaso, ralentizarla,
> > no?. S�lo respond�a a pings. Servidor web tostado y conexi�n por ssh
> > imposible. En local pon�a peri�dicamente un mensajito un poco cr�ptico
> > sobre disco duro, imposible acceder en local tambi�n. Entender�a que
> > ocurriera paginaci�n si tiene much�simos procesos ejecutando y se queda
> > corta de memoria. El servidor en principio no ejecuta demasiados
> > procesos. Igual se ha ido la mano a alg�n demonio... Pero vamos, no
> > tengo idea de qu� pas�, no descarto nada. Habr� que seguir buscando la
> > causa.
> 
> 
> La paginaci�n tiene muchos efectos en la m�quina. Cuando es una
> paginaci�n leve se produce ralentizaci�n del sistema, pero cuando es una
> paginaci�n excesiva se producen diferentes efectos que son detectables
> para predecir el estado "zombi" en el que se quedar� la m�quina.
> 
> Uno de ellos es que se produce un cuello de botella en el disco duro que
> hace aumentar el n�mero de procesos en estado iowait y, por ende, la
> carga del sistema aumenta debido a que se acumulan los procesos que
> est�n en ejecuci�n esperando que termine una operaci�n de
> entrada/salida.
> 
> Por otro lado se producen timeouts de lectura o escrita en disco (los
> errores que suelen salir por consola) junto con mensajes de procesos
> matados para intentar liberar memoria entre otros mensajes (incluso
> algunos kernel panic). Una vez llegado a este estado no se puede hacer
> nada m�s que un reset hardware (pulsando el bot�n) o reset software
> (provocado por el watchdog software que te coment�, por ejemplo)
> 
> Se produce la paginaci�n en muchos casos. Uno de ellos es cuando se
> levantan procesos ssh para dar servicio a aplicaciones (como rsync o svn
> sobre ssh, etc) que se pueden ir quedando colgados hasta colapsar la
> memoria.
> 
> Tambi�n puede provocarse por tareas de cron que tardan mucho en
> finalizar o que tienen algo que las hace detener y se van acumulando o
> incluso scripts de PHP en un servidor apache que se queden esperando una
> operaci�n de entrada/salida (como acceder a un archivo en un sistema de
> archivos NFS que no responde, por ejemplo).
> 
> Son muchas las formas de provocar que una m�quina se quede en ese
> estado. La monitorizaci�n puede ayudar a determinar la fuente del
> problema.
> 
> 
> > No tenemos zabbix instalado, igual conviene ponerlo para monitorizar la
> > red...
> 
> 
> M�s que monitorizar la red se debe monitorizar uso de CPU, memoria,
> sistema de archivos, etc. 
> 
> En mi empresa tenemos desplegamos un millar de agentes zabbix (sin
> exagerar) entre m�quinas de producci�n, calidad y desarrollo.
> 
> 
> > > Hace tiempo te coment� los problemas de DNS del dominio y c�mo 
> > > solucionarlos, sigue en pie mi oferta de colaboraci�n en lo que haga falta.
> > 
> > Claro que s�, tu ayuda es m�s que bienvenida, vendr� muy bien. Los
> > problemas de DNS al final los solucionamos usando el servidor de nombres
> > de la propia empresa que nos alquila el dominio. Antes me empe�aba en
> > usar el servidor de nombres de GSYC, pero ha dado muchos problemas...
> > asi que al carajo. Desde entonces creo que no tenemos problemas de
> > nombres.
> 
> 
> Ma�ana puedo volver a hacer las pruebas. Una de las cosas que no
> funcionaba era que no coincid�an los registros del registrador con las
> entradas DNS y que los servidores DNS adicionales (los que supuestamente
> son de backup) respond�an con que ellos no sab�an nada de dicho dominio,
> etc...
> 
> 
> 
> > > Por otro lado, �has probado a usar watchdog en esa m�quina para que se 
> > > reinicie autom�ticamente cuando entre en paginaci�n o se vuelva inestable?
> > Interesante... �C�mo detecta que se vuelve inestable o 'entra en
> > paginaci�n'?
> 
> 
> Tiene muchos m�todos.
> 
> Uno de ellos es cuando la m�quina tenga una carga superior a un l�mite
> dado.
> 
> Normalmente cuando la m�quina empieza a paginar los procesos se van
> acumulando aumentando la carga del sistema.
> 
> Por otro lado se puede lanzar la ejecuci�n de un proceso o comprobar la
> fecha de �ltima modificaci�n de un archivo, etc. Cuando la m�quina se
> queda sin memoria no se pueden levantar ni procesos de shell para
> atender dichas comprobaciones, por lo que al minuto de hacer el intento
> y que �sta no responda la m�quina se resetear�a (bueno, con la opci�n
> "-b" se le har�a un "reboot", pero si la m�quina est� tan mal como para
> no levantar un proceso entonces tampoco podr� levantar los scripts de
> parada por lo que saltar�a el reset). Por eso se suele poner un umbral
> de carga para que se resetee antes de que sea tarde.
> 
> En /usr/share/doc/watchdog/examples/ hay scripts de ejemplo. Uno de
> ellos es un script vac�o s�lo para comprobar que se puede levantar una
> shell.
> 
> Un par�metro de /wtc/watch.conf que merece la pena descomentar es:
> max-load-5             = 18
> 
> No lo hag�is con el max-load-1 ya que el ordenador puede tener picos de
> proceso elevado que al poco tiempo terminen, pero si se mantienen
> durante 5 minutos entonces es diferente y algo va mal.
> 
> Por �ltimo, desde zabbix, se pueden crear triggers cuando aumenten el
> numero de procesos ssh por encima de un umbral para que haga un killall
> ssh (por ejemplo).
> 
> Un saludo.
> 

-- 
http://gsyc.es/jmplaza 
Universidad Rey Juan Carlos




More information about the Jderobot-admin mailing list