Aviso: para depositar documentos, por favor, inicia sesión e identifícate con tu cuenta de correo institucional de la UCM con el botón MI CUENTA UCM. No emplees la opción AUTENTICACIÓN CON CONTRASEÑA
 

Generador de un conjunto de datos de entrenamiento de un sistema inteligente para predicción de género a partir del contenido de mensajes públicos de Twitter

dc.contributor.advisorRomán Navarro, Sara
dc.contributor.authorLlamas Do Espíritu Santo, Pedro
dc.date.accessioned2023-06-17T10:53:06Z
dc.date.available2023-06-17T10:53:06Z
dc.date.issued2021
dc.degree.titleIngeniería Informática
dc.descriptionTrabajo de Fin de Grado en Ingeniería Informática, Facultad de Informática UCM, Departamento de Arquitectura de Computadores y Automática, Curso 2020/2021
dc.description.abstractEn este trabajo se ha desarrollado una aplicación generadora de conjuntos de datos de entrenamiento (dataset) a partir del texto contenido en los mensajes de un usuario de Twitter, con la finalidad de predecir, mediante el uso de sistemas inteligentes, el género de la persona detrás de un usuario en esa plataforma. Tras obtener el acceso a la información de la plataforma utilizando las APIs de la misma, se identificó con un proceso automático una cantidad igual de usuarios hombres y mujeres cuyos mensajes estuvieran escritos en español además de otras características; y posteriormente se recolectaron los mensajes de los mismos. A partir de estos mensajes se extrajeron y cuantificaron una serie de características lingüísticas, las mismas para cada usuario. Finalmente, a partir de las características cuantificadas, se creó el correspondiente conjunto de datos con la información debidamente diferenciada por género. Para llegar a la conclusión de que el conjunto de datos generado sirve para entrenar sistemas inteligentes, se validó con un clasificador basado en Máquinas de Vectores de Soporte, entrenándolo con dicho conjunto y comparando los resultados con los de estudios previos similares
dc.description.abstractIn this work, an application has been developed that generates training data sets (dataset) from the text contained in the messages of a Twitter user, in order to predict, through the use of intelligent systems, the gender of the person behind a user on that platform. After gaining access to the information on the platform using its APIs, an equal number of male and female users were identified with an automatic process whose messages were written in Spanish in addition to other characteristics; and later their messages were collected. From these messages, a set of linguistic characteristics were extracted and quantified, the same for each user. Finally, based on the quantified characteristics, the corresponding data set was created with the information duly differentiated by gender. To reach the conclusion that the generated data set is valid for training intelligent systems, it was validated with a classifier based on Support Vector Machines, training it with the generated set and comparing the results with those of previous similar studies.
dc.description.departmentDepto. de Arquitectura de Computadores y Automática
dc.description.facultyFac. de Informática
dc.description.refereedTRUE
dc.description.statusunpub
dc.eprint.idhttps://eprints.ucm.es/id/eprint/64842
dc.identifier.urihttps://hdl.handle.net/20.500.14352/10362
dc.language.isospa
dc.page.total52
dc.rightsAtribución-NoComercial 3.0 España
dc.rights.accessRightsopen access
dc.rights.urihttps://creativecommons.org/licenses/by-nc/3.0/es/
dc.subject.cdu004(043.3)
dc.subject.keywordTwitter
dc.subject.keywordGénero
dc.subject.keywordSistema inteligente
dc.subject.keywordMáquina de Vectores de Soporte
dc.subject.keywordEntrenamiento
dc.subject.keywordConjunto de datos
dc.subject.keywordGender
dc.subject.keywordIntelligent system
dc.subject.keywordSupport Vector Machine
dc.subject.keywordTraining
dc.subject.keywordDataset
dc.subject.ucmInformática (Informática)
dc.subject.unesco1203.17 Informática
dc.titleGenerador de un conjunto de datos de entrenamiento de un sistema inteligente para predicción de género a partir del contenido de mensajes públicos de Twitter
dc.title.alternativeTraining dataset generation from public messages in Twitter for a gender prediction intelligent system
dc.typebachelor thesis
dspace.entity.typePublication
relation.isAdvisorOfPublication6c46af4c-7d3b-4b59-8ef7-1e866f45423b
relation.isAdvisorOfPublication.latestForDiscovery6c46af4c-7d3b-4b59-8ef7-1e866f45423b

Download

Original bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
LLAMAS_DO_ESPIRITU_SANTO_Generador_de_un_conjunto_de_datos_de_entrenamiento_de_un_sistema_inteligente_para_prediccion_de_genero_a__1824096020.pdf
Size:
1.65 MB
Format:
Adobe Portable Document Format