Aviso: para depositar documentos, por favor, inicia sesión e identifícate con tu cuenta de correo institucional de la UCM con el botón MI CUENTA UCM. No emplees la opción AUTENTICACIÓN CON CONTRASEÑA
 

Evaluación y selección de software: extracción automática de texto en ficheros PDF

dc.contributor.advisorChagoyen Quiles, Mónica
dc.contributor.authorFernández Martínez, Enrique
dc.contributor.authorLópez Rubio, Alberto
dc.date.accessioned2023-06-20T14:22:19Z
dc.date.available2023-06-20T14:22:19Z
dc.date.issued2008
dc.descriptionTrabajo de clase de la asignatura Sistemas Informáticos (Facultad de Informática, Curso 2007-2008)
dc.description.abstractSe trata de un proyecto de consultoría/evaluación tecnológica con el objeto de definir un sistema para la extracción "estructurada" del texto de artículos científicos (concretamente en el área de biomedicina) almacenados en formato PDF. PubMed Central (www.pubmedcentral.nih.gov) es el archivo digital del NIH estadounidense (National Institutes of Health) que ofrece acceso a los artículos publicados en las áreas de biomedicina y ciencias de la vida . PubMed Central ha definido un estandar (en formato DTD) para la estructuración del contenido de dichos artículos. Sin embargo el uso de este estándar no está muy extendido y la mayoría de publicaciones se encuentran en formato PDF. La cantidad de publicaciones hoy en día en tan grande que hace casi imposible encontrar la información que pueda estar relacionada con un proyecto sin un formato estándar. De ahí nace la iniciativa del NIH y la necesidad de una herramienta para convertir documentos en otros formatos a un mismo estándar. En la actualidad existen diversos programas para la conversión de archivos en formato PDF a texto, el objetivo del proyecto es determinar cual sería el software más adecuado para esta conversión. En un primer análisis se han realizado varias pruebas con algunos de los programas más destacados con distinto tipo de licencias. Entre ellos se han elegido los mejores y se ha hecho un análisis más exhaustivo comprobando todas las funcionalidades de cada uno de ellos. Cabe destacar el XPDF cuyo código fuente está disponible bajo licencia GNU y que permitiría trabajar sobre él para una futura adaptación al formato NCBI DTD. [ABSTRACT] The project is about the technology consulting/evaluation for the definition of a “structured” extraction system of text for scientific publications(more exactly in the biomedicine area) stored in PDF format. PubMed Central (www.pubmedcentral.nih.gov) is the U.S. National Institutes of Health (NIH) digital archive of biomedical and life sciences journal literature. PubMed Central has established a standard (in DTD format) for the organization of article contents. However the use of this standard is not very spread and nowadays most of publications are in PDF format. The quantity of publications is so huge that make it impossible to find the related information to a project without a standard format. This was the reason for the NIH initiative and the need of a tool to convert documents in other formats to a common standard. Nowadays there are different programs for the conversion of PDF formatted files to text files,the goal of this project is to determine wich would be the most relevant software to make this convertion. In a first analysis we have done different tests with some of the best programs with different licence type. Among them we have chosen the bests and make a more detailed test checking all available functions. It is worth pointing out XPDF that its source code is available under the GNU licence so it would allow to work on it for a future adaptation to the NCBI DTD format.
dc.description.departmentDepto. de Arquitectura de Computadores y Automática
dc.description.facultyFac. de Informática
dc.description.refereedTRUE
dc.description.statusunpub
dc.eprint.idhttps://eprints.ucm.es/id/eprint/9122
dc.identifier.urihttps://hdl.handle.net/20.500.14352/54363
dc.language.isospa
dc.page.total104
dc.relation.ispartofseriesTrabajos de curso (Departamento de Arquitectura de Computadores y Automática, FDI)
dc.rights.accessRightsopen access
dc.subject.cdu004.42Acrobat(043.3)
dc.subject.cdu004.41(043.3)
dc.subject.keywordConsultoría
dc.subject.keywordExtracción
dc.subject.keywordConversión
dc.subject.keywordAutomática
dc.subject.keywordFicheros
dc.subject.keywordTexto
dc.subject.keywordPDF
dc.subject.keywordTXT
dc.subject.keywordXPDF
dc.subject.ucmSistemas expertos
dc.titleEvaluación y selección de software: extracción automática de texto en ficheros PDF
dc.typecoursework
dspace.entity.typePublication

Download

Original bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
TC2008-27.pdf
Size:
1.08 MB
Format:
Adobe Portable Document Format