Characterizing asymmetries in the TenTen corpus family membership: an implicit hierarchy in multilingual digital tools

dc.contributor.authorBordonaba Plou, David
dc.contributor.authorJreis Navarro, Laila M
dc.date.accessioned2025-07-03T08:43:37Z
dc.date.available2025-07-03T08:43:37Z
dc.date.issued2025
dc.descriptionEste trabajo se ha realizado en el marco del Grupo de Investigación “Clarisel”, con el apoyo financiero del Departamento de Ciencia, Tecnología y Universidad del Gobierno de Aragón y el Fondo Social Europeo y financiado con fondos FEDER.
dc.description.abstractIn this work, we examine the limitations of digital tools in facilitating cross-linguistic and cross-cultural research from a humanistic perspective. Our primary objective is to draw comparisons between the TenTen corpora, assessing their degree of similarity. In order to achieve this goal, we will conduct cluster analysis on the 43 corpora within the TenTen Corpus Family using a set of parameters that characterize this family membership. This analysis pinpoints the TenTen corpora that exhibit the most similar characteristics within the family, bringing to the surface an implicit hierarchy within the Sketch Engine platform, a multilingual digital tool environment. This hierarchy is structured into four distinct clusters, definable by size, number of functional tools, versions, and Part-of-Speech (PoS) tagging. The findings of the current study call for prudence when comparing the TenTen corpora, but also suggest a way of improving a multilingual environment; the examination and establishment of connections among the TenTen corpora are imperative for a comprehensive understanding of multilingualism in Digital Humanities.
dc.description.abstractDans ce travail, nous examinons les limites des outils numériques dans la facilitation de la recherche interlinguistique et interculturelle d’un point de vue humaniste. Notre objectif principal est de comparer les corpus TenTen, en évaluant leur degré de similarité. Pour atteindre cet objectif, nous réaliserons une analyse de regroupement sur les 43 corpus de la famille des corpus TenTen en utilisant un ensemble de paramètres caractérisant cette appartenance familiale. Cette analyse identifie les corpus TenTen qui présentent les caractéristiques les plus similaires au sein de la famille, révélant une hiérarchie implicite au sein de la plateforme Sketch Engine, un environnement d’outils numériques multilingues. Cette hiérarchie est structurée en quatre groupes distincts, définis par la taille, le nombre d’outils fonctionnels, les versions et le marquage des parties du discours (PoS). Les résultats de l’étude actuelle appellent à la prudence lors de la comparaison des corpus TenTen, mais suggèrent également un moyen d’améliorer un environnement multilingue ; l’examen et l’établissement de connexions entre les corpus TenTen sont impératifs pour une compréhension complète du multilinguisme dans les Humanités Numériques.
dc.description.departmentDepto. de Lógica y Filosofía Teórica
dc.description.facultyFac. de Filosofía
dc.description.refereedTRUE
dc.description.sponsorshipMinisterio de Ciencia, Innovación y Universidades (España)
dc.description.sponsorshipEuropean Commission
dc.description.sponsorshipGobierno de Aragón
dc.description.statuspub
dc.identifier.citationBordonaba-Plou, David, and Laila M. Jreis-Navarro. 2025. “Characterizing Asymmetries in the TenTen Corpus Family Membership: An Implicit Hierarchy in Multilingual Digital Tools.” Digital Studies/Le champ numérique 15(1): 1–18. https://doi.org/10.16995/dscn.16533.
dc.identifier.doi10.16995/dscn.16533
dc.identifier.issn1918-3666
dc.identifier.officialurlhttps://doi.org/10.16995/dscn.16533
dc.identifier.relatedurlhttps://www.digitalstudies.org/article/id/16533/
dc.identifier.relatedurlhttps://produccioncientifica.ucm.es/documentos/6804ce28ffa972638d8cce6a
dc.identifier.urihttps://hdl.handle.net/20.500.14352/122147
dc.issue.number1
dc.journal.titleDigital Studies/Le champ numérique
dc.language.isoeng
dc.page.final18
dc.page.initial1
dc.publisherAlliance of Digital Humanities Organizations
dc.relation.projectIDinfo:eu-repo/grantAgreement/MICIU/Plan Estatal de Investigación Científica y Técnica y de Innovación 2021-2023/PID2023-150396OA-I00/ES/INSTITUCIONES Y FILOSOFÍA EXPERIMENTAL DEL LENGUAJE/IFEL
dc.relation.projectIDinfo:eu-repo/grantAgreement/MICIN/Plan Estatal de Investigación Científica y Técnica y de Innovación 2021-2023/PID2021-122872NB-C21/ES/TRANSFORMACIONES DEL ESPACIO MAGREBI EN PERSPECTIVA HISTORICA/TRAMAGHIS
dc.rightsAttribution 4.0 Internationalen
dc.rights.accessRightsopen access
dc.rights.urihttp://creativecommons.org/licenses/by/4.0/
dc.subject.cdu1
dc.subject.cdu81
dc.subject.keywordMultilingualism
dc.subject.keywordCorpora
dc.subject.keywordDigital tools
dc.subject.keywordCluster analysis
dc.subject.keywordCross-linguistics
dc.subject.keywordMultilinguisme
dc.subject.keywordOutils numériques
dc.subject.keywordAnalyse de regroupement
dc.subject.keywordInterlinguistique
dc.subject.ucmFilología árabe
dc.subject.ucmLingüística
dc.subject.ucmFilosofía
dc.subject.unesco5505.10-1 Filología Árabe
dc.subject.unesco72 Filosofía
dc.subject.unesco57 Lingüística
dc.titleCharacterizing asymmetries in the TenTen corpus family membership: an implicit hierarchy in multilingual digital tools
dc.typejournal article
dc.type.hasVersionVoR
dc.volume.number15
dspace.entity.typePublication
relation.isAuthorOfPublication5f5cd501-3e2c-47fc-8383-5a867a43724c
relation.isAuthorOfPublication.latestForDiscovery5f5cd501-3e2c-47fc-8383-5a867a43724c

Download

Original bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
Characterizing asymmetries in the TenTen corpus.pdf
Size:
952.22 KB
Format:
Adobe Portable Document Format

Collections