[Qualipso-a4] instalación y pruebas de las herramientas de NLP
Javier Pueyo
javier.pueyo en gmail.com
Mie Dic 9 17:36:23 CET 2009
El día 9 de diciembre de 2009 11:29, Jose Gato Luis
<jgato en libresoft.es> escribió:
> llevo más de 3 horas analizando correos sin problemas. Creo que podemos dar
> por hecho, que tenemos una versión bastante estable ;)
Gracias Jose... :-)))
>
>
> El 09/12/09 14:09, Javier Pueyo escribió:
>>
>> El mié, 09-12-2009 a las 12:48 +0100, Jose Gato Luis escribió:
>>>
>>> He conseguido reproducir el bug de anoche, en algún momento me devuelve
>>> el siguiente error, y esto si que detiene el proceso:
>>
>> Gracias Jose. El problema es que no había generalizado sobre la
>> presencia o no de backslashes. Antes solo tenía en cuenta si apararecía
>> uno suelto en el item: " I like it / I dont like it ", ahora compruebo
>> si hay cualquier número de ellos por ahí sueltos " I like
>> it / // //// //////////// /////////////// I dont like it ". Los ficheros
>> afectados son:
>>
>> floss_nlp/NLP_POST/floss_item_classifier.py
>> floss_nlp/NLP_POST/floss_item_info_extractor.py
>>
>> Ya está corregido en SVN.
>>
>> El problema era con los backslashes es que los procesos de NLP los
>> utilizan para crear y leer los tripletes: cantó/VB/cantar y si aparecen
>> sueltos por ahí tenemos algo como //Fz// y los procesos no lo entienden
>> como un triplete sino como un error ... de ahí la excepción.
>>
>> Saludos,
>>
>> Javier
>>
>>>
>>>
>>> Traceback (most recent call last):
>>> File
>>>
>>> "/home/jgato/proyectos/Qualipso/A4/svn/qualipso/private/work/A4/3rdIteration/src/jpueyo/floss_nlp/NLP_POST/floss_item_classifier.py",
>>> line 216, in<module>
>>> (topics, extracted_entities_clean) = classify_item(doc_item)
>>> File
>>>
>>> "/home/jgato/proyectos/Qualipso/A4/svn/qualipso/private/work/A4/3rdIteration/src/jpueyo/floss_nlp/NLP_POST/floss_item_classifier.py",
>>> line 210, in classify_item
>>> topic =
>>> classifier.classify(item_features(item_info,dictionary_info))
>>> File "/usr/lib/python2.5/site-packages/nltk/classify/naivebayes.py",
>>> line 89, in classify
>>> return self.prob_classify(featureset).max()
>>> File "/usr/lib/python2.5/site-packages/nltk/classify/naivebayes.py",
>>> line 122, in prob_classify
>>> return DictionaryProbDist(logprob, normalize=True, log=True)
>>> File "/usr/lib/python2.5/site-packages/nltk/probability.py", line
>>> 623, in __init__
>>> value_sum = sum_logs(self._prob_dict.values())
>>> File "/usr/lib/python2.5/site-packages/nltk/probability.py", line
>>> 1776, in sum_logs
>>> return reduce(add_logs, logs[1:], logs[0])
>>> AttributeError: 'module' object has no attribute 'reduce'
>>> ***** ||/Fz||/
>>>
>>>
>>> Tiene pinta, de que se cuelga alguna expresión regular por algún sitio ;)
>>>
>>> Saludos,
>>>
>>> El 09/12/09 12:37, Javier Pueyo escribió:
>>>>
>>>> [Escribo desde @gmail porque desde @gsyc o @libresoft me sale un mensaje
>>>> de error por relay!]
>>>>
>>>> El mié, 09-12-2009 a las 00:47 +0100, Jose Gato Luis escribió:
>>>>>
>>>>> Genial!!!! Arreglando este problema, he empezado a tener nuevos
>>>>> mensajes
>>>>> de error, muy constructivos, que me indicaban módulos de perl que no
>>>>> tengo instalados. Antes, estos mensajes se estarían perdiendo. Son
>>>>> módulos relativos al análisis de correo, por eso tenía tantos problemas
>>>>> integrando el extractor de correos ;)
>>>>>
>>>>> Estoy analizando cientos de correos, y no estoy teniendo problemas.
>>>>
>>>> Me alegro de leer esto. Ya empezaba a preocuparme ;-)
>>>>
>>>>
>>>>> Tenemos que ver, como capturar warnings y excepciones. Ahora mismo, he
>>>>> encontrado un problema, cuando no encuentra entidades, suelta la
>>>>> siguiente excepción:
>>>>
>>>> Upsss! Pues tampoco me había pasado... siempre me ha encontrado alguna
>>>> entidad, aunque fuera una URL... de hecho si el identificador de tópicos
>>>> devuelve cosas como [noissue, nolicense, nocode...] era precisamente
>>>> para evitar que me devolviera en ocasines listas vacías cuando el topic
>>>> de un mensaje no puede ser identificado...
>>>>
>>>>> Habrá que detectar el momento, en el que no se detectan entidades, para
>>>>> que no ocurra. De todos modos, he hecho un "apaño", en la función
>>>>> str_to_list, compruebo si la cadena es vacía y devuelvo [], he subido
>>>>> el
>>>>> cambio al svn. Aunque esta soltando esta excepción, el programa no se
>>>>> detiene, y estoy haciendo las primeras pruebas serias, con buenos
>>>>> resultados.
>>>>
>>>> ¿No resulta un poco lento al analizar tantos mensajes?
>>>>
>>>>>
>>>>> Javier, vamos muy bien, muchas gracias ;)
>>>>
>>>> No, gracias a ti por pelearte con ese código infernal...
>>>>
>>>> Un saludo,
>>>>
>>>> Javier
>>>>
>>>>>
>>>>
>>>>
>>>>
>>>>
>>>> _______________________________________________
>>>> Qualipso-a4 mailing list
>>>> Qualipso-a4 en gsyc.escet.urjc.es
>>>> http://gsyc.escet.urjc.es/cgi-bin/mailman/listinfo/qualipso-a4
>>>
>>
>> _______________________________________________
>> Qualipso-a4 mailing list
>> Qualipso-a4 en gsyc.escet.urjc.es
>> http://gsyc.escet.urjc.es/cgi-bin/mailman/listinfo/qualipso-a4
>
> --
> José Gato Luis | Libre Software Engineering Lab (GSyC)
> Tel: (+34)-914 888 105 | Universidad Rey Juan Carlos
> jgato en libresoft.es | Edif. Departamental II - Despacho 121
> http://libresoft.urjc.es/ | c/Tulipán s/n 28933 Móstoles (Madrid)
>
More information about the Qualipso-a4
mailing list