[Qualipso-a4] Base de datos FLOSS_NLP

Jose Gato Luis jgato en gsyc.es
Mie Feb 18 11:08:41 CET 2009


Genial Javier, muchas gracias. La tabla floss_sources, te permitirá 
trabajar con cierta independencia con respecto a las herramientas que 
hacemos en Qualipso.


Javier Pueyo escribió:
> Hola,
> 
> Adjunto el schema MySQL de la base de datos que usaremos para el NLP de 
> las fuentes. Como nunca había usado MySQL Workbench el diagrama es 
> solamente orientativo porque al dibujar las relaciones me ha creado 
> "foreign keys" que no sé cómo eliminar, simplemente ignorad esas 
> columnas. [OFFTOPIC: la versión alfa de linux no lee bien la posición de 
> los objetos y cada vez que lo abres monta unas tablas encima de otras, 
> así que si queréis leer o modificar el *.mbw no queda más remedio que 
> usar la versión windows, quizá funcione con wine :-(.]
> 
> La tabla más importante en este momento es "floss_sources", que comunica 
> la estructura NLP con la base de datos de información que estáis 
> diseñando por vuestro lado. La columna "itemid" es la que las relaciona.
> 
> La tabla "sequential_ngram" contiene cada palabra del "corpus" (columna 
> "w5"), cada lema de dicha palabra "l5" y también su categoría gramatical 
> "pos5". Además cada fila contiene el <span-4> (w1-w4) y el <span+4> 
> respecto al <node> (es decir, respecto a "w5"). Además, cada palabra del 
> span se asocia con su lema (l1-l4, l6-l9) y su categoría (pos1-pos4, 
> pos6-pos9). Esto nos permite hacer búsquedas complejas de forma sencilla 
> (por ejemplo: cualquier adjetivo/participio/gerundio (open, closed, 
> pending, fixed) seguido de  cualquiera de las formas de la palabra BUG 
> (bug, bugs) seguida de una regex "[0-9]*"). El <span+4-4> supuestamente 
> es el óptimo para extraer información relevante en el contexto, como las 
> "collocations".
> 
> La tabla "floss_topics" contiene el diccionario general de temas para el 
> sublenguaje FLOSS. Su expresión en el corpus se almacena en la columna 
> "topicid" de la tabla "floss_sources".
> 
> La tabla "floss_entities" contiene el diccionario general de entidades 
> para el sublenguaje FLOSS. Su expresión en el corpus se almacena en  la 
> tabla "corpus_entities". Los posibles parámetros de estas entidades se 
> definen (columna "name") y almacenan (columna "value") en la tabla 
> "entitie_params", que se relaciona con "corpus_entities". Por ejemplo 
> una entidad "bug" tendrá los posibles parametros de "state" (values del 
> tipo "fixed", "open") y "number" (values del tipo "1245698", etc).
> 
> Las tablas "floss_unigrams", "floss_bigrams", "floss_trigrams", 
> "floss_collocates" (y alguna que falta como "floss_colligates") 
> almacenan las frecuencias y estadísticas sobre diferentes combinaciones 
> de keywords.
> 
> Faltan otras tablas que iré creando según se necesiten ("floss_chunks", 
> "floss_sents", "floss_stopwords", "floss_colligates", etc.) pero cuya 
> información no es interesante de momento para su uso general.
> 
> No incluyo la base de datos "wordnet" ya que está disponible aquí:
> 
> http://sourceforge.net/project/showfiles.php?group_id=135112&package_id=219735 
> 
> 
> 
> Tal y como discutimos con José Antonio crearemos una BBDD con la misma 
> estructura ("floss_wordnet") que contendrá los synsets propios de FLOSS 
> que no están en wordnet.
> 
> Un saludo,
> 
> Javier
> 
> 


-- 
José Gato Luis                   | Libre Software Engineering Lab (GSyC)
Tel: (+34)-914 888 105           | Universidad Rey Juan Carlos
jgato en gsyc.escet.urjc.es         | Edif. Departamental II - Despacho 121
http://libresoft.urjc.es/        | c/Tulipán s/n 28933 Móstoles (Madrid)


More information about the Qualipso-a4 mailing list