Aviso: para depositar documentos, por favor, inicia sesión e identifícate con tu cuenta de correo institucional de la UCM con el botón MI CUENTA UCM. No emplees la opción AUTENTICACIÓN CON CONTRASEÑA
 

Entity Resolution y Deduplication con Blocking paralelo en Spark

dc.contributor.advisorGregorio Rodríguez, Carlos
dc.contributor.authorHerranz Álvarez, Guillermo
dc.date.accessioned2023-06-17T10:55:50Z
dc.date.available2023-06-17T10:55:50Z
dc.date.issued2020-06
dc.degree.titleDoble Grado en Matemáticas y Fı́sica
dc.description.abstractEn este trabajo planteamos un algoritmo que permite identificar qué registros de un dataset, aún no siendo idénticos, se corresponden con la misma entidad real (Entity Resolution). El algoritmo clásico para este proceso consiste en la comparación directa de todos los registros dos a dos y, por tanto, tiene por lo menos complejidad cuadrática. Nuestra solución mejora el algoritmo clásico utilizando paralelización y, por consiguiente, garantizando la escalabilidad del mismo. Además, el diseño del algoritmo es genérico. Permite la definición de unos parámetros de configuración para adaptarlo al dataset concreto que se desee estudiar. Las ejecuciones realizadas para analizar el comportamiento de este algoritmo han resultado muy satisfactorias, obteniendo resultados muy similares al caso clásico en unos tiempos de ejecución significativamente menores. Esta diferencia temporal es aún mayor conforme aumentemos el tamaño de los datasets sobre la que se trabajen.
dc.description.abstractIn this work we present and algorithm that allows the user to identify which registers from a dataset, while not being identical, represent the same real-world entity (Entity Resolution). The classical algorithm for this process consists of direct comparisons between all registers and, as a result, has at least quadratic complexity. Our solution improves upon this classical algorithm by using parallelization, granting its scalability. In addition, its design is generic. It allows for some configuration parameters to be defined depending on the concrete dataset that wants to be studied. The executions performed to analyse its behaviour have been very successful, obtaining very similar results to the classical algorithm using significantly less execution time. This time difference is even bigger as the dataset’s size increases.
dc.description.departmentSección Deptal. de Sistemas Informáticos y Computación
dc.description.facultyFac. de Ciencias Matemáticas
dc.description.refereedTRUE
dc.description.statussubmitted
dc.eprint.idhttps://eprints.ucm.es/id/eprint/68124
dc.identifier.urihttps://hdl.handle.net/20.500.14352/10533
dc.language.isospa
dc.rightsAtribución-NoComercial-CompartirIgual 3.0 España
dc.rights.accessRightsopen access
dc.rights.urihttps://creativecommons.org/licenses/by-nc-sa/3.0/es/
dc.subject.cdu51:004
dc.subject.keywordResolución de entidades
dc.subject.keyworddeduplicación
dc.subject.keywordalgoritmo paralelo
dc.subject.keywordspark
dc.subject.keywordEntity Resolution
dc.subject.keywordDeduplication
dc.subject.keywordParallel blocking algorithm
dc.subject.keywordSpark
dc.subject.ucmInformática (Informática)
dc.subject.ucmMatemáticas (Matemáticas)
dc.subject.unesco1203.17 Informática
dc.subject.unesco12 Matemáticas
dc.titleEntity Resolution y Deduplication con Blocking paralelo en Spark
dc.title.alternativeEntity Resolution and Deduplication with parallel blocking using Spark
dc.typebachelor thesis
dcterms.references[1] Vassilis Christophides y col. “End-to-end entity resolution for big data: A survey”. En: arXiv preprint arXiv:1905.06397 (2019). [2] Dimas Cassimiro do Nascimento, Carlos Eduardo Santos Pires y Demetrio Gomes Mestre. “Exploiting block co-occurrence to control block sizes for entity resolution”. En: Knowl. Inf. Syst. 62.1 (2020), págs. 359-400. doi: 10.1007/s10115-019-01347-0. url: https://doi.org/10.1007/s10115-019-01347-0. [3] Luciano Barbosa. “Learning representations of Web entities for entity resolution”. En: IJWIS 15.3 (2019), págs. 346-358. doi: 10.1108/IJWIS-07-2018-0059. url: https://doi.org/10.1108/IJWIS-07-2018-0059. [4] Chenchen Sun y col. “A genetic algorithm based entity resolution approach with active learning”. En: Frontiers Comput. Sci. 11.1 (2017), págs. 147-159. doi:10.1007/s11704- 015-5276-6. url: https://doi.org/10.1007/s11704-015-5276-6. [5] Muhammad Sadiq y col. “A Vertex Matcher for Entity Resolution on Graphs”. En: 14th International Conference on Ubiquitous Information Management and Communication, IM- COM 2020, Taichung, Taiwan, January 3-5, 2020. IEEE, 2020, págs. 1-4. doi: 10.1109/IMCOM48794.2020.9001799. url: https://doi.org/10.1109/IMCOM48794.2020.9001799. [6] Omar Benjelloun y col. “Swoosh: a generic approach to entity resolution”. En: VLDB J. 18.1 (2009), págs. 255-276. doi: 10.1007/s00778-008-0098-x. url: https://doi.org/10.1007/s00778-008-0098-x. [7] Peter Christen. “A Comparison of Personal Name Matching: Techniques and Practical Issues”. En: Workshops Proceedings of the 6th IEEE International Conference on Data Mining (ICDM 2006), 18-22 December 2006, Hong Kong, China. IEEE Computer Society, 2006, págs. 290-294. doi: 10.1109/ICDMW.2006.2. url: https://doi.org/10.1109/ICDMW.2006.2.
dspace.entity.typePublication
relation.isAdvisorOfPublication05a01c46-aac8-42b2-a6bc-4b95860cf5bf
relation.isAdvisorOfPublication.latestForDiscovery05a01c46-aac8-42b2-a6bc-4b95860cf5bf

Download

Original bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
HerranzAlvarezGuillermo.pdf
Size:
535.1 KB
Format:
Adobe Portable Document Format