Extracción automática de tópicos en biología a partir de la literatura científica

dc.contributor.advisorPascual Montano, Alberto
dc.contributor.authorNogales Cadenas, Rubén
dc.date.accessioned2023-06-20T14:26:53Z
dc.date.available2023-06-20T14:26:53Z
dc.date.issued2007
dc.descriptionMaster en Investigación en Informática, Facultad de Informática, Departamento de Arquitectura de Computadores y Automática , curso 2007-2008
dc.description.abstractLos recientes avances en Biología Molecular y en Informática son responsables de la acumulación de muchos y cada vez más complejos tipos de datos. Este incremento se ha visto también reflejado en el elevado número de publicaciones relacionadas. Todo esto se debe a los experimentos a gran escala que ahora se pueden llevar a cabo en este tipo de investigación. Genomas completos pueden ser secuenciados en meses o semanas, métodos computacionales permiten la identificación de miles de genes en el DNA secuenciado y se han desarrollado herramientas que analizan automáticamente las propiedades de los genes y las proteínas. No obstante, no sólo los resultados de los distintos experimentos sirven para encontrar información biológica, actualmente es posible explorar la literatura biomédica en busca de evidencias biológicas. Sin embargo, ese proceso de extracción de información a partir de las publicaciones es, en su gran mayoría, manual. Un grupo de anotadores se encarga de leer todos los artículos científicos, extraer evidencias biológicas y almacenarlas en las bases de datos y ontologías biológicas públicas accesibles a través de internet. Debido a la gran acumulación de documentos científicos, se necesita desarrollar métodos y herramientas que automaticen el proceso de extracción de información. En este contexto se propone un método de extracción de información biológica a partir de la literatura biomédica basado en la extracción de anotaciones enriquecidas en términos encontrados en publicaciones y bases de datos. Un posterior análisis estadístico, utilizando varios test como el de χ2 o el de la distribución hipergeométrica y corrigiendo el problema de la hipoótesis múltiple, nos permitirá evaluar el nivel de relevancia de las anotaciones recuperadas. Esta metodología permite integrar datos obtenidos de la literatura con otras fuentes de información como anotaciones funcionales o reguladores transcripcionales y es de gran utilidad para el descubrimiento de asociaciones entre información biológica de los genes y proteínas y documentos o conjuntos de palabras.
dc.description.departmentDepto. de Arquitectura de Computadores y Automática
dc.description.facultyFac. de Informática
dc.description.refereedTRUE
dc.description.statusunpub
dc.eprint.idhttps://eprints.ucm.es/id/eprint/10280
dc.identifier.urihttps://hdl.handle.net/20.500.14352/54519
dc.language.isospa
dc.page.total108
dc.rightsAtribución-NoComercial 3.0 España
dc.rights.accessRightsopen access
dc.rights.urihttps://creativecommons.org/licenses/by-nc/3.0/es/
dc.subject.cdu004.657:61(043.3)
dc.subject.cdu61:004.657(043.3)
dc.subject.cdu025.4.03(043.3)
dc.subject.keywordMinería de datos
dc.subject.keywordMinería de Textos
dc.subject.keywordExtracción de la Información
dc.subject.keywordBioinformática
dc.subject.keywordReglas asociativas
dc.subject.keywordBases de datos
dc.subject.keywordAnálisis estadístico
dc.subject.ucmBases de datos (Informática)
dc.titleExtracción automática de tópicos en biología a partir de la literatura científica
dc.typemaster thesis
dspace.entity.typePublication

Download

Original bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
RubenNogales.pdf
Size:
1.17 MB
Format:
Adobe Portable Document Format