[Qualipso-a4] BD de mails
Miguel Angel Tinte García
matinte en libresoft.es
Jue Feb 11 14:51:27 CET 2010
El mié, 10-02-2010 a las 17:13 +0100, José Antonio Quiles escribió:
> Vale,
> pues si puedes, serÃa perfecto. Mándame un nuevo export de la BD sólo
> con los textos.
Ahà van adjuntos.
Aparte de esto, me he dado cuenta que en refers_to admitimos duplicados
porque entity_name no es UNIQUE. DebrÃamos hacerlo unique ya que va a
guardar uris y estás deben ser únicas. Asà eliminamos la posibilidad de
repeticiones de la misma referencia. Por ejemplo, esta referencia
aparece muchas veces debido a ese problema:
257 | NULL | http://qualipso.org/evince/file/ev-window.c
> Gracias
De nada
> Vai
Ciao
>
>
> Miguel Angel Tinte GarcÃa escribió:
> > El mié, 10-02-2010 a las 16:26 +0100, José Antonio Quiles escribió:
> >
> > > Hola,
> > >
> > Hola Jose,
> >
> >
> > > estoy viendo un pequeño problema en la tabla de mails, en el campo body.
> > > Hay muchos casos en que el contenido es HTML. Esto da muchos problemas a
> > > la hora de indexar.
> > > Yo creo que se deberÃa extraer el texto plano, y meterlo en la BD sin
> > > los tags HTML.
> > > ¿Cómo lo veis?
> > >
> > Por mà no hay problema, con expresiones regulares se puede eliminar
> > fácilmente los tags html:
> >
> > txt = re.sub('<(?!(?:a\s|/a|!))[^>]*>','',html)
> >
> >
> > > Vai
> > >
> > Ciao
> >
--
Miguel Ãngel Tinte GarcÃa
Libre Software Engineering Lab (GSyC) | Universidad Rey Juan Carlos
matinte en libresoft.es
http://libresoft.urjc.es/
------------ próxima parte ------------
Se ha borrado un mensaje que no está en formato texto plano...
Nombre : qualipso_NO_HTML.sql
Tipo : text/x-sql
Tamaño : 1285885 bytes
Descripción: no disponible
Url : http://gsyc.escet.urjc.es/pipermail/qualipso-a4/attachments/20100211/e68734be/attachment-0001.bin
More information about the Qualipso-a4
mailing list