Una reseña sobre LDA

Hace un tiempo estuve probando para el desarrollo mi tesis una herramienta llamada MALLET (MAchine Learning for LanguagE Toolkit). MALLET es un producto de la universidad de Massachusetts  Amherst realizada bajo la dirección de el profesor Andrew McCallum cuyo primer lanzamiento fue en el año 2002, pero fue años mas tarde cuando empezó a recibir un interés mas considerable.

David Blei, autor de la técnica LDA.

El corazón de MALLET aplica una técnica llamada LDA (Latent Dirichlet Allocation) que ayuda a explorar grandes cantidad de textos. Esta técnica se encarga de  buscar clusters de palabras que aparecen con mayor frecuencia juntas, también llamados “tópicos” o temas. Con mas detalle el algoritmo imagina que cualquier texto o documento es un “mix” de diferentes tópicos. Cada uno de los tópicos se puede ver como una distribución de probabilidades de los términos que los componen a través de todo el cuerpo del documento.

Read the Rest