Characterizing asymmetries in the TenTen corpus family membership: an implicit hierarchy in multilingual digital tools

Loading...
Thumbnail Image

Full text at PDC

Publication date

2025

Advisors (or tutors)

Editors

Journal Title

Journal ISSN

Volume Title

Publisher

Alliance of Digital Humanities Organizations
Citations
Google Scholar

Citation

Bordonaba-Plou, David, and Laila M. Jreis-Navarro. 2025. “Characterizing Asymmetries in the TenTen Corpus Family Membership: An Implicit Hierarchy in Multilingual Digital Tools.” Digital Studies/Le champ numérique 15(1): 1–18. https://doi.org/10.16995/dscn.16533.

Abstract

In this work, we examine the limitations of digital tools in facilitating cross-linguistic and cross-cultural research from a humanistic perspective. Our primary objective is to draw comparisons between the TenTen corpora, assessing their degree of similarity. In order to achieve this goal, we will conduct cluster analysis on the 43 corpora within the TenTen Corpus Family using a set of parameters that characterize this family membership. This analysis pinpoints the TenTen corpora that exhibit the most similar characteristics within the family, bringing to the surface an implicit hierarchy within the Sketch Engine platform, a multilingual digital tool environment. This hierarchy is structured into four distinct clusters, definable by size, number of functional tools, versions, and Part-of-Speech (PoS) tagging. The findings of the current study call for prudence when comparing the TenTen corpora, but also suggest a way of improving a multilingual environment; the examination and establishment of connections among the TenTen corpora are imperative for a comprehensive understanding of multilingualism in Digital Humanities.
Dans ce travail, nous examinons les limites des outils numériques dans la facilitation de la recherche interlinguistique et interculturelle d’un point de vue humaniste. Notre objectif principal est de comparer les corpus TenTen, en évaluant leur degré de similarité. Pour atteindre cet objectif, nous réaliserons une analyse de regroupement sur les 43 corpus de la famille des corpus TenTen en utilisant un ensemble de paramètres caractérisant cette appartenance familiale. Cette analyse identifie les corpus TenTen qui présentent les caractéristiques les plus similaires au sein de la famille, révélant une hiérarchie implicite au sein de la plateforme Sketch Engine, un environnement d’outils numériques multilingues. Cette hiérarchie est structurée en quatre groupes distincts, définis par la taille, le nombre d’outils fonctionnels, les versions et le marquage des parties du discours (PoS). Les résultats de l’étude actuelle appellent à la prudence lors de la comparaison des corpus TenTen, mais suggèrent également un moyen d’améliorer un environnement multilingue ; l’examen et l’établissement de connexions entre les corpus TenTen sont impératifs pour une compréhension complète du multilinguisme dans les Humanités Numériques.

Research Projects

Organizational Units

Journal Issue

Description

Este trabajo se ha realizado en el marco del Grupo de Investigación “Clarisel”, con el apoyo financiero del Departamento de Ciencia, Tecnología y Universidad del Gobierno de Aragón y el Fondo Social Europeo y financiado con fondos FEDER.

Keywords

Collections