3 de Octubre, 2005

Solucionado problema clave 22.50

Desde hace varios meses, antes del verano seguro (no recuerdo con exactitud), venimos disfrutando del último fenómeno extraño de scuba (elxwifi): a las 22:50 el tráfico se detiene hasta las 23:05 aproximadamente, que todo vuelve a la normalidad.

Como todo efecto, tiene una causa, y aplicando el principio de incertidumbre de elxwifi, no sabemos al 100% qué pasa. Pero esta vez casi ;).

En estas ocasiones que scuba se 'bloquea' Felipe ha comprobado la señal de radio y es perfectamente normal, con lo que suponíamos que era algo local que no permitía al hardware, bastante viejo por otra parte, actuar adecuadamente como punto de acceso.

Lo primero es mirar los procesos programados en cron(8), tanto el crontab de root como el del sistem; pero no hay nada que se ejecute siquiera cerca de esa hora.

Posteriormente comprobamos los procesos corriendo en la máquina, por si alguno llevaba a cabo una tarea pesada a esa hora, pero menos que nada :(.

Como última medida probamos a lanzar un script a esa hora para que guardara en un fichero la información de los procesos, la memoria virtual, la carga del sistema. Nada de nada :'(.

Incluso Xavi nos apuntó la buena idea de cambiar la hora del sistema para ver si era un problema local o inducido por un factor externo (que no estaría enterado del cambio de hora y seguiría afectando al nodo puntualmente).

Gracias a esto conseguimos descartar un problema local, ya que el problema persistía. Lo malo es que con este perfil ya estábamos ante un caso claro de sabemos que no sabemos porqué pasan las cosas.

Hasta que Rubén ha echado luz en el asunto:

De: 	Rubén Navarro Huedo <eb5esx@>
Para: 	Colaboradores Elche Wireless <elxwifi@>
Asunto: Re: [Elxwifi] Pruebas elxwifi
Fecha: 	Sun, 2 Oct 2005 12:18:53 +0200

Nosotros tenemos unas copias de seguridad desde clubradio hasta URE  
sobre esa hora:

xxxxx    ftpd6167     ea5elx.elxwifi   Sat Oct  1 22:47 - 23:01  (00:14)

Duran como 15 minutos y se transfiere una gran cantidad de megas.

¿Puede ser esto?

¿En que canal esta scuba?
¿Seguimos scuba y clubradio en el mismo?

De ser así podria ser este el problema.

Pero vayamos por partes. Primero echemos un vistazo a la disposición física de los distintos nodos implicados, porque es importante.

Disposición física
Un trocito de elxwifi

Los nodos club radio y scuba están separados apenas 500 metros y ambos cuentan con una antena omnidireccional externa en la tarjeta que hace de punto de acceso.

La red está segmentada adecuadamente, es decir, los paquetes entre los nodos URE y club radio nunca pasarán a scuba; porque club radio es el enrutador entre las subredes 10.1.1.0/24 (club radio) y 10.1.2.0/24 (scuba).

Así que el tráfico intenso entre dos nodos de la subred de club radio no deberían afectar a los clientes de scuba. En una red normal no, pero esto es radio. El problema no está a nivel de red, sino a nivel de enlace: 802.11b.

Resulta que scuba y club radio empleaban ambos el canal 3 para el punto de acceso. ¿Por qué? Bueno, ese canal con el hardware que tenemos parece resonar mejor que otros. En scuba Santi ha tenido problemas cuando hemos probado los canales 1 y 6, así que volvimos al 3 aún a sabiendas que lo usaba club radio tan cerca (500 metros no es nada cuando Santi enlaza a unos 8 Km).

Tampoco parecía afectar en absoluto el funcionamiento de los nodos, así que continuamos con esta configuración tan poco recomendable, al menos en teoría.

Bien, Rubén ha cambiado a club radio al canal 5 y... hacía mucho tiempo que scuba no respondía a un ping con 2 msecs a las 22:55h :). ¡Problema (aparentemente) solucionado! Espero que Jaime lo confirme durante esta semana, porque es uno de los usuarios que sufría los ataques de tos de scuba :).

Finalmente quiero apuntar que Rubén nunca programa backups a esas horas :P. El reloj de URE no funciona bien y parece que las coincidencias han movido un proceso programado a las 3:00 de la mañana a nuestra hora mágica de las 22:50 :). Esto ya se ha corregido instalando rdate(8) en ese nodo para que sincronice con la hora de blackshell.

En realidad no puedo confirmar que la magia haya estado en el cambio de canal, pero que el arreglo en la hora haya terminado con un problema que solo tiene explicación por particularidades del medio (radio y CSMA/CA concretamente) es bastante sospechoso. Así que sigamos la teoría: para puntos de acceso próximos, separar al menos en 2 el canal (1, 3, 5, 7, 9, 11 es la serie ideal).

Anotación por Juan J. Martínez, clasificada en: wireless.

Hay 1 comentario

Gravatar

Confirmado, SCUBA ya no se va de "copas" a las 22'50H.
Anoche estuve descargando los videos de las II JORNADAS del ftp de blackshell y sin ningun problema... de hecho sigo descargando !!!

por jaimesm, en 2005-10-05 07:49:19

Los comentarios están cerrados: los comentarios se cierran automáticamente una vez pasados 30 días. Si quieres comentar algo acerca de la anotación, puedes hacerlo por e-mail.

Algunas anotaciones relacionadas: