RT Generic
T1 Extracción automática de tópicos en biología a partir de la literatura científica
A1 Nogales Cadenas, Rubén
AB Los recientes avances en Biología Molecular y en Informática son responsables de la acumulación de muchos y cada vez más complejos tipos de datos. Este incremento se ha visto también reflejado en el elevado número de publicaciones relacionadas. Todo esto se debe a los experimentos a gran escala que ahora se pueden llevar a cabo en este tipo de investigación. Genomas completospueden ser secuenciados en meses o semanas, métodos computacionales permiten la identificación de miles de genes en el DNA secuenciado y se han desarrollado herramientas que analizan automáticamente las propiedadesde los genes y las proteínas.No obstante, no sólo los resultados de los distintos experimentos sirven para encontrar información biológica, actualmente es posible explorar la literatura biomédica en busca de evidencias biológicas. Sin embargo, ese proceso de extracción de información a partir de las publicaciones es, en su gran mayoría, manual. Un grupo de anotadores se encarga de leer todos los artículos científicos, extraer evidencias biológicas y almacenarlas en las bases de datos y ontologías biológicas públicas accesibles a través de internet.Debido a la gran acumulación de documentos científicos, se necesita desarrollar métodos y herramientas que automaticen el proceso de extracción de información.En este contexto se propone un método de extracción de información biológica a partir de la literatura biomédica basado en la extracción de anotaciones enriquecidas en términos encontrados en publicaciones y bases de datos. Un posterior análisis estadístico, utilizando varios test como el de χ2 o el de la distribución hipergeométrica y corrigiendo el problema de la hipoótesis múltiple, nos permitirá evaluar el nivel de relevancia de las anotaciones recuperadas. Esta metodología permite integrar datos obtenidos de la literatura con otras fuentes de información como anotaciones funcionales o reguladores transcripcionales y es de gran utilidad para el descubrimiento de asociaciones entre información biológica de los genes y proteínas y documentos o conjuntos de palabras.
YR 2007
FD 2007
LK https://hdl.handle.net/20.500.14352/54519
UL https://hdl.handle.net/20.500.14352/54519
LA spa
NO Master en Investigación en Informática, Facultad de Informática, Departamento de Arquitectura de Computadores y Automática , curso 2007-2008
DS Docta Complutense
RD 25 jul 2026