[Qualipso-a4] instalación y pruebas de las herramientas de NLP

Javier Pueyo javier.pueyo en gmail.com
Mie Dic 9 14:09:12 CET 2009


El mié, 09-12-2009 a las 12:48 +0100, Jose Gato Luis escribió:
> He conseguido reproducir el bug de anoche, en algún momento me devuelve 
> el siguiente error, y esto si que detiene el proceso:

Gracias Jose. El problema es que no había generalizado sobre la
presencia o no de backslashes. Antes solo tenía en cuenta si apararecía
uno suelto en el item: " I like it / I dont like it ", ahora compruebo
si hay cualquier número de ellos por ahí sueltos " I like
it / // //// //////////// /////////////// I dont like it ". Los ficheros
afectados son:

floss_nlp/NLP_POST/floss_item_classifier.py
floss_nlp/NLP_POST/floss_item_info_extractor.py

Ya está corregido en SVN.

El problema era con los backslashes es que los procesos de NLP los
utilizan para crear y leer los tripletes: cantó/VB/cantar y si aparecen
sueltos por ahí tenemos algo como //Fz// y los procesos no lo entienden
como un triplete sino como un error ... de ahí la excepción.

Saludos,

Javier

> 
> 
> Traceback (most recent call last):
>    File 
> "/home/jgato/proyectos/Qualipso/A4/svn/qualipso/private/work/A4/3rdIteration/src/jpueyo/floss_nlp/NLP_POST/floss_item_classifier.py", 
> line 216, in <module>
>      (topics, extracted_entities_clean) = classify_item(doc_item)
>    File 
> "/home/jgato/proyectos/Qualipso/A4/svn/qualipso/private/work/A4/3rdIteration/src/jpueyo/floss_nlp/NLP_POST/floss_item_classifier.py", 
> line 210, in classify_item
>      topic = classifier.classify(item_features(item_info,dictionary_info))
>    File "/usr/lib/python2.5/site-packages/nltk/classify/naivebayes.py", 
> line 89, in classify
>      return self.prob_classify(featureset).max()
>    File "/usr/lib/python2.5/site-packages/nltk/classify/naivebayes.py", 
> line 122, in prob_classify
>      return DictionaryProbDist(logprob, normalize=True, log=True)
>    File "/usr/lib/python2.5/site-packages/nltk/probability.py", line 
> 623, in __init__
>      value_sum = sum_logs(self._prob_dict.values())
>    File "/usr/lib/python2.5/site-packages/nltk/probability.py", line 
> 1776, in sum_logs
>      return reduce(add_logs, logs[1:], logs[0])
> AttributeError: 'module' object has no attribute 'reduce'
> ***** ||/Fz||/
> 
> 
> Tiene pinta, de que se cuelga alguna expresión regular por algún sitio ;)
> 
> Saludos,
> 
> El 09/12/09 12:37, Javier Pueyo escribió:
> > [Escribo desde @gmail porque desde @gsyc o @libresoft me sale un mensaje de error por relay!]
> >
> > El mié, 09-12-2009 a las 00:47 +0100, Jose Gato Luis escribió:
> >>
> >> Genial!!!! Arreglando este problema, he empezado a tener nuevos mensajes
> >> de error, muy constructivos, que me indicaban módulos de perl que no
> >> tengo instalados. Antes, estos mensajes se estarían perdiendo. Son
> >> módulos relativos al análisis de correo, por eso tenía tantos problemas
> >> integrando el extractor de correos ;)
> >>
> >> Estoy analizando cientos de correos, y no estoy teniendo problemas.
> >
> > Me alegro de leer esto. Ya empezaba a preocuparme ;-)
> >
> >
> >> Tenemos que ver, como capturar warnings y excepciones. Ahora mismo, he
> >> encontrado un problema, cuando no encuentra entidades, suelta la
> >> siguiente excepción:
> >
> > Upsss! Pues tampoco me había pasado... siempre me ha encontrado alguna
> > entidad, aunque fuera una URL... de hecho si el identificador de tópicos
> > devuelve cosas como [noissue, nolicense, nocode...] era precisamente
> > para evitar que me devolviera en ocasines listas vacías cuando el topic
> > de un mensaje no puede ser identificado...
> >
> >> Habrá que detectar el momento, en el que no se detectan entidades, para
> >> que no ocurra. De todos modos, he hecho un "apaño", en la función
> >> str_to_list, compruebo si la cadena es vacía y devuelvo [], he subido el
> >> cambio al svn. Aunque esta soltando esta excepción, el programa no se
> >> detiene, y estoy haciendo las primeras pruebas serias, con buenos
> >> resultados.
> >
> > ¿No resulta un poco lento al analizar tantos mensajes?
> >
> >>
> >> Javier, vamos muy bien, muchas gracias ;)
> >
> > No, gracias a ti por pelearte con ese código infernal...
> >
> > Un saludo,
> >
> > Javier
> >
> >>
> >
> >
> >
> >
> > _______________________________________________
> > Qualipso-a4 mailing list
> > Qualipso-a4 en gsyc.escet.urjc.es
> > http://gsyc.escet.urjc.es/cgi-bin/mailman/listinfo/qualipso-a4
> 



More information about the Qualipso-a4 mailing list