[Qualipso-a4] Base de datos FLOSS_NLP
Jose Gato Luis
jgato en gsyc.es
Mie Feb 18 11:08:41 CET 2009
Genial Javier, muchas gracias. La tabla floss_sources, te permitirá
trabajar con cierta independencia con respecto a las herramientas que
hacemos en Qualipso.
Javier Pueyo escribió:
> Hola,
>
> Adjunto el schema MySQL de la base de datos que usaremos para el NLP de
> las fuentes. Como nunca había usado MySQL Workbench el diagrama es
> solamente orientativo porque al dibujar las relaciones me ha creado
> "foreign keys" que no sé cómo eliminar, simplemente ignorad esas
> columnas. [OFFTOPIC: la versión alfa de linux no lee bien la posición de
> los objetos y cada vez que lo abres monta unas tablas encima de otras,
> así que si queréis leer o modificar el *.mbw no queda más remedio que
> usar la versión windows, quizá funcione con wine :-(.]
>
> La tabla más importante en este momento es "floss_sources", que comunica
> la estructura NLP con la base de datos de información que estáis
> diseñando por vuestro lado. La columna "itemid" es la que las relaciona.
>
> La tabla "sequential_ngram" contiene cada palabra del "corpus" (columna
> "w5"), cada lema de dicha palabra "l5" y también su categoría gramatical
> "pos5". Además cada fila contiene el <span-4> (w1-w4) y el <span+4>
> respecto al <node> (es decir, respecto a "w5"). Además, cada palabra del
> span se asocia con su lema (l1-l4, l6-l9) y su categoría (pos1-pos4,
> pos6-pos9). Esto nos permite hacer búsquedas complejas de forma sencilla
> (por ejemplo: cualquier adjetivo/participio/gerundio (open, closed,
> pending, fixed) seguido de cualquiera de las formas de la palabra BUG
> (bug, bugs) seguida de una regex "[0-9]*"). El <span+4-4> supuestamente
> es el óptimo para extraer información relevante en el contexto, como las
> "collocations".
>
> La tabla "floss_topics" contiene el diccionario general de temas para el
> sublenguaje FLOSS. Su expresión en el corpus se almacena en la columna
> "topicid" de la tabla "floss_sources".
>
> La tabla "floss_entities" contiene el diccionario general de entidades
> para el sublenguaje FLOSS. Su expresión en el corpus se almacena en la
> tabla "corpus_entities". Los posibles parámetros de estas entidades se
> definen (columna "name") y almacenan (columna "value") en la tabla
> "entitie_params", que se relaciona con "corpus_entities". Por ejemplo
> una entidad "bug" tendrá los posibles parametros de "state" (values del
> tipo "fixed", "open") y "number" (values del tipo "1245698", etc).
>
> Las tablas "floss_unigrams", "floss_bigrams", "floss_trigrams",
> "floss_collocates" (y alguna que falta como "floss_colligates")
> almacenan las frecuencias y estadísticas sobre diferentes combinaciones
> de keywords.
>
> Faltan otras tablas que iré creando según se necesiten ("floss_chunks",
> "floss_sents", "floss_stopwords", "floss_colligates", etc.) pero cuya
> información no es interesante de momento para su uso general.
>
> No incluyo la base de datos "wordnet" ya que está disponible aquí:
>
> http://sourceforge.net/project/showfiles.php?group_id=135112&package_id=219735
>
>
>
> Tal y como discutimos con José Antonio crearemos una BBDD con la misma
> estructura ("floss_wordnet") que contendrá los synsets propios de FLOSS
> que no están en wordnet.
>
> Un saludo,
>
> Javier
>
>
--
José Gato Luis | Libre Software Engineering Lab (GSyC)
Tel: (+34)-914 888 105 | Universidad Rey Juan Carlos
jgato en gsyc.escet.urjc.es | Edif. Departamental II - Despacho 121
http://libresoft.urjc.es/ | c/Tulipán s/n 28933 Móstoles (Madrid)
More information about the Qualipso-a4
mailing list