Um modelo de migração de dados UNIMARC para repositórios Linked Open Data
Loading...
Official URL
Full text at PDC
Publication date
2015
Authors
Advisors (or tutors)
Editors
Journal Title
Journal ISSN
Volume Title
Publisher
Universidad Complutense de Madrid
Citation
Abstract
Um importante desafio se coloca ao controlo bibliográfico perante as oportunidades da Web Semântica, enquanto potencial fonte de informação para conjuntos de dados ligados: como produzir linked open datasets que sejam semanticamente expressivos e ricos de ligações? Este desafio associa-se, do ponto de vista operacional, a um outro: como realizar esse potencial a partir dos atuais e tradicionais produtos do controlo bibliográfico, sem alterar o fundamental das suas práticas e saber fazer mas, ao mesmo tempo, sendo capaz de integrar e interagir com desenvolvimentos que lhe são exteriores?
Em resposta a estas duas questões, este trabalho apresenta um modelo leve de expressão de dados bibliográficos MARC como linked open data e um exemplo da sua aplicação em dados reais em formato UNIMARC. A construção do modelo apoia-se nas tecnologias XML para a esquematização, expressão e transformação de dados, ainda que permitindo o recurso a outras tecnologias, quando a capacidade de transformação XSL não é suficiente.
No coração deste modelo está colocado um esquema que define o conjunto de elementos da norma bibliográfica. Baseando-se neste esquema, identificam-se, para cada um dos elementos que constitui o formato, os processadores que lhe estão associados e que têm funcionalidade variável: de identificação; de extração; de validação; de resolução; e de ligação. Tipicamente, estes processadores são constituídos por folhas de transformação mas que integram – em particular os processadores de ligação – o recurso a serviços Web para enriquecimento das conexões do conjunto de dados final.
Esta abordagem permite definir uma cadeia automatizada de processamento que parte da esquematização da norma bibliográfica para construir um controlador dos processadores que são aplicados a uma coleção de registos bibliográficos e que geram, no final, um repositório de linked data. Permite, igualmente, alargar as capacidades de expressão e ligação destes dados, através da adição de novos elementos e processadores à instância do esquema.
The Semantic Web movement poses an important challenge to bibliographic control, as a potential source for linked information: how to produce linked open datasets that are semantically expressive and rich in connectivity? Also, how to satisfy that goal by setting the current and traditional bibliographic products as a starting point, without changing the fundamentals of practices and know-how of bibliographic agencies, while integrating and interacting with outside developments? This paper tries to address these two questions by presenting a lightweight model for the expression of MARC-based bibliographic data as linked open data and an example of its application to UNIMARC data. The model is built upon XML technologies for the formalization, expression and transformation of data, although allowing to resort to other technologies when the capabilities of the XSL transformation are not sufficient. At the core of the model resides a schema that hosts the formalization of the bibliographic format element set. An instance of the schema associates the element set to processors that execute different types of functional actions: identification, extraction, validation, resolution, and linking. These processors are, typically, transformation stylesheets that may invoke Web Services, especially in the case of the linking processors that have the purpose of establishing semantic relations with other linked datasets. This approach defines an automatized processing chain, built on the formalization of a bibliographic format and on the automatic generation of a processing controller, which ultimately produces a linked data repository. It also allows to extend the capabilities of the expression and connectivity of the data, by incorporating new elements and processors to the schema instance.
The Semantic Web movement poses an important challenge to bibliographic control, as a potential source for linked information: how to produce linked open datasets that are semantically expressive and rich in connectivity? Also, how to satisfy that goal by setting the current and traditional bibliographic products as a starting point, without changing the fundamentals of practices and know-how of bibliographic agencies, while integrating and interacting with outside developments? This paper tries to address these two questions by presenting a lightweight model for the expression of MARC-based bibliographic data as linked open data and an example of its application to UNIMARC data. The model is built upon XML technologies for the formalization, expression and transformation of data, although allowing to resort to other technologies when the capabilities of the XSL transformation are not sufficient. At the core of the model resides a schema that hosts the formalization of the bibliographic format element set. An instance of the schema associates the element set to processors that execute different types of functional actions: identification, extraction, validation, resolution, and linking. These processors are, typically, transformation stylesheets that may invoke Web Services, especially in the case of the linking processors that have the purpose of establishing semantic relations with other linked datasets. This approach defines an automatized processing chain, built on the formalization of a bibliographic format and on the automatic generation of a processing controller, which ultimately produces a linked data repository. It also allows to extend the capabilities of the expression and connectivity of the data, by incorporating new elements and processors to the schema instance.