30 de Enero, 2007

Otras aplicaciones del teorema de Bayes

He hablado muchas veces de filtros bayesianos, con el ya célebre ensayo de Paul Graham para combatir el spam, pero hay otras aplicaciones que pueden ser interesantes.

Hace tiempo estuve mirando una de ellas que me pareció muy curiosa: un filtro bayesiano de logs.

Se trata de una prueba del concepto, o más bien que no tiene demasiada utilidad real más que demostrar que es posible. Enseñamos al filtro qué eventos son importantes y eso nos permite procesar los logs para que el programa discrimine lo que a priori no nos interesa.

Me he acordado de btail porque ayer mismo leía como Miguel nos presentaba una pequeña aplicación con filtros bayesianos para clasificar feeds de una forma más o menos automática :).

Además el mismo autor nos habla de otra iniciativa llamada tu periódico que también implementa la idea, aunque el código de Miguel es lo suficientemente simple como para parecerme sexy (está en ruby), así que recomiendo echarle un vistazo rápido.

La verdad es que también soy de la opinión de que entrenar el script puede ser un poco tedioso, pero quizás se pueda realizar algún tipo de educación rápida como se hace con bogofilter. Algo así como pasarle de forma automatizada un conjunto de entradas interesantes y no tan interesantes, lo que nos daría un buen punto de partida al que haríamos correcciones con el uso diario.

Muy interesante. Estaría genial que los lectores de sumarios emplearan estas tecnologías para ayudarnos a lidiar con el problema de la infoxicación que tendemos a sufrir todos cuando seguimos más feeds de los que nuestro tiempo nos permite digerir.

Anotación por Juan J. Martínez, clasificada en: ruby, scripting, blog, hacks.

Hay 3 comentarios

Gravatar

Me alegro de que te haya parecido interesante mi "juguetito". Me lo pasé muy bien programándolo y es posible que alguien se lo pueda pasar bien retocándolo a su gusto...

Lo de la educación rápida podría ser una buena idea, si... si te animas... ;)

A lo que está detrás del juguete, el exceso de feeds, o el exceso de actualización de algunos feeds potencialmente interesantes (digg, menéame o slashdot -barrapunto no, que lo sigo más de cerca :) -) es algo a lo que no le veo solución fácil de momento, pero si le ha encontrado algún parche que lo diga, que quizás sea útil para otros...

Un saludo

por miguel (mig21), en 2007-01-31 12:27:24

Gravatar

Hombre, la idea es muy buena... pero sin la integración con los lectores de feeds más para 'usuario final', no deja de ser más que un juguetito, ¿no te parece?
Tampoco creo que supusiera una modificación bestial... Liferea ya lleva la posibilidad de destacar artículos (flag lo llaman). Solo faltaría una carpeta virtual que mostrara los no leídos candidatos a ser interesantes.

¿Algún hacker de Liferea en la sala? ;)

por Juanjo, en 2007-01-31 16:09:22

Gravatar

no deja de ser más que un juguetito, ¿no te parece?
Si duda, ES un jugetito, que me sirvió de divertimento... como comentaba en mi blog, la idea, lo realmente interesante es de manje (http://barrapunto.com/~manje/journal) y lo tiene implementado en "tu periódico"...

Por otra parte, la integración en un lector como liferea es lo que yo pensaba que se le habría ocurrido a alguien. Si dispusiera de más tiempo libre me animaba... (bien pensado igual le echo un vistazo al código)

Saludos

por miguel (mig21), en 2007-01-31 18:04:04

Los comentarios están cerrados: los comentarios se cierran automáticamente una vez pasados 30 días. Si quieres comentar algo acerca de la anotación, puedes hacerlo por e-mail.

Algunas anotaciones relacionadas: