[Qualipso-a4] instalación y pruebas de las herramientas de NLP
Jose Gato Luis
jgato en libresoft.es
Mie Dic 9 17:29:11 CET 2009
llevo más de 3 horas analizando correos sin problemas. Creo que podemos
dar por hecho, que tenemos una versión bastante estable ;)
El 09/12/09 14:09, Javier Pueyo escribió:
> El mié, 09-12-2009 a las 12:48 +0100, Jose Gato Luis escribió:
>> He conseguido reproducir el bug de anoche, en algún momento me devuelve
>> el siguiente error, y esto si que detiene el proceso:
>
> Gracias Jose. El problema es que no había generalizado sobre la
> presencia o no de backslashes. Antes solo tenía en cuenta si apararecía
> uno suelto en el item: " I like it / I dont like it ", ahora compruebo
> si hay cualquier número de ellos por ahí sueltos " I like
> it / // //// //////////// /////////////// I dont like it ". Los ficheros
> afectados son:
>
> floss_nlp/NLP_POST/floss_item_classifier.py
> floss_nlp/NLP_POST/floss_item_info_extractor.py
>
> Ya está corregido en SVN.
>
> El problema era con los backslashes es que los procesos de NLP los
> utilizan para crear y leer los tripletes: cantó/VB/cantar y si aparecen
> sueltos por ahí tenemos algo como //Fz// y los procesos no lo entienden
> como un triplete sino como un error ... de ahí la excepción.
>
> Saludos,
>
> Javier
>
>>
>>
>> Traceback (most recent call last):
>> File
>> "/home/jgato/proyectos/Qualipso/A4/svn/qualipso/private/work/A4/3rdIteration/src/jpueyo/floss_nlp/NLP_POST/floss_item_classifier.py",
>> line 216, in<module>
>> (topics, extracted_entities_clean) = classify_item(doc_item)
>> File
>> "/home/jgato/proyectos/Qualipso/A4/svn/qualipso/private/work/A4/3rdIteration/src/jpueyo/floss_nlp/NLP_POST/floss_item_classifier.py",
>> line 210, in classify_item
>> topic = classifier.classify(item_features(item_info,dictionary_info))
>> File "/usr/lib/python2.5/site-packages/nltk/classify/naivebayes.py",
>> line 89, in classify
>> return self.prob_classify(featureset).max()
>> File "/usr/lib/python2.5/site-packages/nltk/classify/naivebayes.py",
>> line 122, in prob_classify
>> return DictionaryProbDist(logprob, normalize=True, log=True)
>> File "/usr/lib/python2.5/site-packages/nltk/probability.py", line
>> 623, in __init__
>> value_sum = sum_logs(self._prob_dict.values())
>> File "/usr/lib/python2.5/site-packages/nltk/probability.py", line
>> 1776, in sum_logs
>> return reduce(add_logs, logs[1:], logs[0])
>> AttributeError: 'module' object has no attribute 'reduce'
>> ***** ||/Fz||/
>>
>>
>> Tiene pinta, de que se cuelga alguna expresión regular por algún sitio ;)
>>
>> Saludos,
>>
>> El 09/12/09 12:37, Javier Pueyo escribió:
>>> [Escribo desde @gmail porque desde @gsyc o @libresoft me sale un mensaje de error por relay!]
>>>
>>> El mié, 09-12-2009 a las 00:47 +0100, Jose Gato Luis escribió:
>>>>
>>>> Genial!!!! Arreglando este problema, he empezado a tener nuevos mensajes
>>>> de error, muy constructivos, que me indicaban módulos de perl que no
>>>> tengo instalados. Antes, estos mensajes se estarían perdiendo. Son
>>>> módulos relativos al análisis de correo, por eso tenía tantos problemas
>>>> integrando el extractor de correos ;)
>>>>
>>>> Estoy analizando cientos de correos, y no estoy teniendo problemas.
>>>
>>> Me alegro de leer esto. Ya empezaba a preocuparme ;-)
>>>
>>>
>>>> Tenemos que ver, como capturar warnings y excepciones. Ahora mismo, he
>>>> encontrado un problema, cuando no encuentra entidades, suelta la
>>>> siguiente excepción:
>>>
>>> Upsss! Pues tampoco me había pasado... siempre me ha encontrado alguna
>>> entidad, aunque fuera una URL... de hecho si el identificador de tópicos
>>> devuelve cosas como [noissue, nolicense, nocode...] era precisamente
>>> para evitar que me devolviera en ocasines listas vacías cuando el topic
>>> de un mensaje no puede ser identificado...
>>>
>>>> Habrá que detectar el momento, en el que no se detectan entidades, para
>>>> que no ocurra. De todos modos, he hecho un "apaño", en la función
>>>> str_to_list, compruebo si la cadena es vacía y devuelvo [], he subido el
>>>> cambio al svn. Aunque esta soltando esta excepción, el programa no se
>>>> detiene, y estoy haciendo las primeras pruebas serias, con buenos
>>>> resultados.
>>>
>>> ¿No resulta un poco lento al analizar tantos mensajes?
>>>
>>>>
>>>> Javier, vamos muy bien, muchas gracias ;)
>>>
>>> No, gracias a ti por pelearte con ese código infernal...
>>>
>>> Un saludo,
>>>
>>> Javier
>>>
>>>>
>>>
>>>
>>>
>>>
>>> _______________________________________________
>>> Qualipso-a4 mailing list
>>> Qualipso-a4 en gsyc.escet.urjc.es
>>> http://gsyc.escet.urjc.es/cgi-bin/mailman/listinfo/qualipso-a4
>>
>
> _______________________________________________
> Qualipso-a4 mailing list
> Qualipso-a4 en gsyc.escet.urjc.es
> http://gsyc.escet.urjc.es/cgi-bin/mailman/listinfo/qualipso-a4
--
José Gato Luis | Libre Software Engineering Lab (GSyC)
Tel: (+34)-914 888 105 | Universidad Rey Juan Carlos
jgato en libresoft.es | Edif. Departamental II - Despacho 121
http://libresoft.urjc.es/ | c/Tulipán s/n 28933 Móstoles (Madrid)
More information about the Qualipso-a4
mailing list