[Qualipso-a4] BD de mails

Miguel Angel Tinte García matinte en libresoft.es
Jue Feb 11 14:51:27 CET 2010


El mié, 10-02-2010 a las 17:13 +0100, José Antonio Quiles escribió:
> Vale,
> pues si puedes, sería perfecto. Mándame un nuevo export de la BD sólo
> con los textos.
Ahí van adjuntos. 

Aparte de esto, me he dado cuenta que en refers_to admitimos duplicados
porque entity_name no es UNIQUE. Debríamos hacerlo unique ya que va a
guardar uris y estás deben ser únicas. Así eliminamos la posibilidad de
repeticiones de la misma referencia. Por ejemplo, esta referencia
aparece muchas veces debido a ese problema:

257 |             NULL | http://qualipso.org/evince/file/ev-window.c 

> Gracias
De nada
> Vai
Ciao
> 
> 
> Miguel Angel Tinte García escribió: 
> > El mié, 10-02-2010 a las 16:26 +0100, José Antonio Quiles escribió:
> >   
> > > Hola,
> > >     
> > Hola Jose,
> > 
> >   
> > > estoy viendo un pequeño problema en la tabla de mails, en el campo body.
> > > Hay muchos casos en que el contenido es HTML. Esto da muchos problemas a 
> > > la hora de indexar.
> > > Yo creo que se debería extraer el texto plano, y meterlo en la BD sin 
> > > los tags HTML.
> > > ¿Cómo lo veis?
> > >     
> > Por mí no hay problema, con expresiones regulares se puede eliminar
> > fácilmente los tags html:
> > 
> > txt = re.sub('<(?!(?:a\s|/a|!))[^>]*>','',html)
> > 
> >   
> > > Vai
> > >     
> > Ciao
> >   
-- 
Miguel Ãngel Tinte García        
Libre Software Engineering Lab (GSyC)  | Universidad Rey Juan Carlos
matinte en libresoft.es         
http://libresoft.urjc.es/   
------------ próxima parte ------------
Se ha borrado un mensaje que no está en formato texto plano...
Nombre     : qualipso_NO_HTML.sql
Tipo       : text/x-sql
Tamaño     : 1285885 bytes
Descripción: no disponible
Url        : http://gsyc.escet.urjc.es/pipermail/qualipso-a4/attachments/20100211/e68734be/attachment-0001.bin 


More information about the Qualipso-a4 mailing list