Evaluación y selección de software: extracción automática de texto en ficheros PDF

Fernández Martínez, Enrique; López Rubio, Alberto

Evaluación y selección de software: extracción automática de texto en ficheros PDF

dc.contributor.advisor	Chagoyen Quiles, Mónica
dc.contributor.author	Fernández Martínez, Enrique
dc.contributor.author	López Rubio, Alberto
dc.date.accessioned	2023-06-20T14:22:19Z
dc.date.available	2023-06-20T14:22:19Z
dc.date.issued	2008
dc.description	Trabajo de clase de la asignatura Sistemas Informáticos (Facultad de Informática, Curso 2007-2008)
dc.description.abstract	Se trata de un proyecto de consultoría/evaluación tecnológica con el objeto de definir un sistema para la extracción "estructurada" del texto de artículos científicos (concretamente en el área de biomedicina) almacenados en formato PDF. PubMed Central (www.pubmedcentral.nih.gov) es el archivo digital del NIH estadounidense (National Institutes of Health) que ofrece acceso a los artículos publicados en las áreas de biomedicina y ciencias de la vida . PubMed Central ha definido un estandar (en formato DTD) para la estructuración del contenido de dichos artículos. Sin embargo el uso de este estándar no está muy extendido y la mayoría de publicaciones se encuentran en formato PDF. La cantidad de publicaciones hoy en día en tan grande que hace casi imposible encontrar la información que pueda estar relacionada con un proyecto sin un formato estándar. De ahí nace la iniciativa del NIH y la necesidad de una herramienta para convertir documentos en otros formatos a un mismo estándar. En la actualidad existen diversos programas para la conversión de archivos en formato PDF a texto, el objetivo del proyecto es determinar cual sería el software más adecuado para esta conversión. En un primer análisis se han realizado varias pruebas con algunos de los programas más destacados con distinto tipo de licencias. Entre ellos se han elegido los mejores y se ha hecho un análisis más exhaustivo comprobando todas las funcionalidades de cada uno de ellos. Cabe destacar el XPDF cuyo código fuente está disponible bajo licencia GNU y que permitiría trabajar sobre él para una futura adaptación al formato NCBI DTD. [ABSTRACT] The project is about the technology consulting/evaluation for the definition of a “structured” extraction system of text for scientific publications(more exactly in the biomedicine area) stored in PDF format. PubMed Central (www.pubmedcentral.nih.gov) is the U.S. National Institutes of Health (NIH) digital archive of biomedical and life sciences journal literature. PubMed Central has established a standard (in DTD format) for the organization of article contents. However the use of this standard is not very spread and nowadays most of publications are in PDF format. The quantity of publications is so huge that make it impossible to find the related information to a project without a standard format. This was the reason for the NIH initiative and the need of a tool to convert documents in other formats to a common standard. Nowadays there are different programs for the conversion of PDF formatted files to text files,the goal of this project is to determine wich would be the most relevant software to make this convertion. In a first analysis we have done different tests with some of the best programs with different licence type. Among them we have chosen the bests and make a more detailed test checking all available functions. It is worth pointing out XPDF that its source code is available under the GNU licence so it would allow to work on it for a future adaptation to the NCBI DTD format.
dc.description.department	Depto. de Arquitectura de Computadores y Automática
dc.description.faculty	Fac. de Informática
dc.description.refereed	TRUE
dc.description.status	unpub
dc.eprint.id	https://eprints.ucm.es/id/eprint/9122
dc.identifier.uri	https://hdl.handle.net/20.500.14352/54363
dc.language.iso	spa
dc.page.total	104
dc.relation.ispartofseries	Trabajos de curso (Departamento de Arquitectura de Computadores y Automática, FDI)
dc.rights.accessRights	open access
dc.subject.cdu	004.42Acrobat(043.3)
dc.subject.cdu	004.41(043.3)
dc.subject.keyword	Consultoría
dc.subject.keyword	Extracción
dc.subject.keyword	Conversión
dc.subject.keyword	Automática
dc.subject.keyword	Ficheros
dc.subject.keyword	Texto
dc.subject.keyword	PDF
dc.subject.keyword	TXT
dc.subject.keyword	XPDF
dc.subject.ucm	Sistemas expertos
dc.title	Evaluación y selección de software: extracción automática de texto en ficheros PDF
dc.type	coursework
dspace.entity.type	Publication

Download

Original bundle

Now showing 1 - 1 of 1

Name:: TC2008-27.pdf
Size:: 1.08 MB
Format:: Adobe Portable Document Format

Download

Collections

Trabajos de curso