Desarrollo de un sistema de indexación y búsqueda sobre la base de datos de biomedicina MEDLINE

Loading...
Thumbnail Image
Official URL
Full text at PDC
Publication date

2007

Advisors (or tutors)
Editors
Journal Title
Journal ISSN
Volume Title
Publisher
Citations
Google Scholar
Citation
Abstract
Nuestro proyecto consiste en crear dos sistemas de indexación y búsqueda sobre la base de datos de biomedicina MEDLINE, con dos tecnologías distintas de manera que se pueda evaluar cual de ellas es la más adecuada para tratar con MEDLINE. MEDLINE es la mayor base de datos de referencias bibliograficas en el área biomédica, tiene mas de 15 millones de referencias recopiladas por la Librería Nacional de Medicina Estadounidense (NML) desde el año 1965. MEDLINE se distribuye en formato XML y ocupa alrededor de 55 GB, lo cual hace imprescindible una evaluación del rendimiento a la hora de elegir una tecnología para manejar los datos. Las tecnologías elegidas son Lucene y PostgreSQL. PostgreSQL es un sistema de bases de datos relacional similar MySQL o Oracle, pero suele ser mas robusta que estas cuando trata con bases de datos muy grandes y Lucene es una Scalable Information Retrieval Library (IR) implementada en java y parte de la familia de proyectos de Apache Jakarta, es decir, Lucene crea bases de datos totalmente textuales y permite realizar búsquedas sobre ellas. [ABSTRACT] The current project consists of creating two indexing and searching systems over the biomedicine database MEDLINE, with two different technologies in order to evaluate which one of them is more suited to deal with MEDLINE. MEDLINE is the largest database of bibliography references in the biomedical area; it has more than fifteen millions of references collected by the United States National Medicine Library (NML) since year 1965. MEDLINE is distributed in XML format and its size is about fifty five Gigabytes, which makes an evaluation of the performance of each technology definitely essential to make a proper choice to handle the data processing. The chosen technologies are Lucene and PostgreSQL. PostgreSQL is a system of relational databases similar to MySQL or Oracle, but tends to be stronger when processing massive databases. Lucene is one Scalable Information Retrieval Library (IR) implemented using Java and part of the projects family known as Apache Jakarta, that is to say Lucene create fully textual databases and allows performing searches through them.
Research Projects
Organizational Units
Journal Issue
Description
Trabajo de la asignatura Sistemas Informáticos (Facultad de Informática, Curso 2006-2007)
Unesco subjects
Keywords