Desarrollo de un sistema para la integración de nomenclatura y campos textuales sobre genes y
proteínas

Arce Abaitua, Amaia Begoña; Baena Moya, Ignacio; Díaz Baeza, Ignacio

Desarrollo de un sistema para la integración de nomenclatura y campos textuales sobre genes y proteínas

dc.contributor.advisor	Chagoyen Quiles, Mónica
dc.contributor.author	Arce Abaitua, Amaia Begoña
dc.contributor.author	Baena Moya, Ignacio
dc.contributor.author	Díaz Baeza, Ignacio
dc.date.accessioned	2023-06-20T14:22:35Z
dc.date.available	2023-06-20T14:22:35Z
dc.date.issued	2007
dc.description	Trabajo de la asignatura Sistemas Informáticos (Facultad de Informática, Curso 2006-2007)
dc.description.abstract	Una de las áreas de más actividad investigadora en el análisis de texto biomédico es el reconocimiento de los nombres y abreviaturas utilizadas para referirse a dos entidades biológicas de gran relevancia: genes y proteínas. Muchos de los métodos propuestos se basan en vocabularios control construidos a partir de la información almacenada en distintas bases de datos utilizadas en bioinformática. Debido a la ambigüedad existente en la nomenclatura de genes y proteínas dentro del mundo de la bioinformática, el objetivo de este proyecto es el de diseñar y desarrollar un sistema que integre información normalizada sobre genes/proteínas, susceptible de ser utilizada para el reconocimiento automático de dicha nomenclatura en textos científicos. La normalización se realizará en base a los identificadores únicos (claves externas) de diversas bases de datos. Para ello se desarrollará una base de datos centralizada (datawarehouse), sobre la que se incorporarán los datos pertinentes de varias bases de datos públicas (ej. UniProt, NCBI Entrez, Gene Ontology), así como los mecanismos de actualización necesarios. Finalmente se proporcionará la funcionalidad para su acceso programático. Este sistema será consultado por las herramientas de análisis de texto biomédico desarrolladas en nuestro grupo de investigación. [ABSTRACT] Among the areas of principal activities’ investigation in biomedic text analysing field we find the recognition of names and abbreviations used to talk about two main entitys: genes and proteins. Many of the proposed methods are based in control vocabularies builded up from information stored in several databases used in bioinformatic. Designing and developing a system that integrates information about genes/proteins, susceptible of being used for the automatic recognise in science texts. This integration will be achieved by using the id numbers (foreign keys) from the main bioinformatics’ data bases (UniProt, NCBI Entrez) building up a datawarehouse that includes the principal features of this genes/proteins. This system will be used by the tools developed in the Department of Architecture and Automatic Engineering.
dc.description.department	Depto. de Arquitectura de Computadores y Automática
dc.description.faculty	Fac. de Informática
dc.description.refereed	TRUE
dc.description.status	unpub
dc.eprint.id	https://eprints.ucm.es/id/eprint/9183
dc.identifier.uri	https://hdl.handle.net/20.500.14352/54389
dc.language.iso	spa
dc.page.total	50
dc.relation.ispartofseries	Trabajos de curso (Departamento de Arquitectura de Computadores y Automática, FDI)
dc.rights.accessRights	open access
dc.subject.cdu	57:004(043.3)
dc.subject.cdu	004:57(043.3)
dc.subject.cdu	004.6(043.3)
dc.subject.keyword	Bioinformática
dc.subject.keyword	Datawarehouse
dc.subject.keyword	ProteinUpload
dc.subject.keyword	ProteinSeek
dc.subject.keyword	Gen
dc.subject.keyword	Proteína
dc.subject.keyword	Base de datos
dc.subject.keyword	SQL
dc.subject.keyword	XML
dc.subject.keyword	Integración de datos
dc.subject.ucm	Sistemas expertos
dc.title	Desarrollo de un sistema para la integración de nomenclatura y campos textuales sobre genes y proteínas
dc.type	coursework
dspace.entity.type	Publication

Download

Original bundle

Now showing 1 - 1 of 1

Name:: TC2007-51.pdf
Size:: 675.76 KB
Format:: Adobe Portable Document Format

Download

Collections

Trabajos de curso