Análisis Automatizado de sentimientos en YouTube: Un enfoque basado en Machine Learning
dc.contributor.advisor | García Merayo, María De Las Mercedes | |
dc.contributor.advisor | Méndez Hurtado, Manuel | |
dc.contributor.author | Villacorta de Aza, Jorge | |
dc.contributor.author | Tabernero Pérez, Alejandro | |
dc.contributor.author | Mata Fernández de Valderrama, Alonso | |
dc.date.accessioned | 2024-07-02T14:25:57Z | |
dc.date.available | 2024-07-02T14:25:57Z | |
dc.date.issued | 2024 | |
dc.degree.title | Grado en Ingeniería Informática | |
dc.description | Trabajo de Fin de Grado en Ingeniería Informática, Facultad de Informática UCM, Departamento de Sistemas Informáticos y Computación, Curso 2023/2024. | |
dc.description.abstract | El propósito fundamental de este Trabajo de Fin de Grado radica en examinar detenidamente los sentimientos de la población en torno a un tema polémico, haciendo uso de modelos y técnicas de machine learning con el fin de extraer información relevante y realizar un análisis exhaustivo de la opinión pública. Las redes sociales, como Twitter o YouTube, se presentan como fuentes de información excepcionalmente valiosas para captar la percepción sobre diversos temas, independientemente de su temática o naturaleza. Por lo tanto, los comentarios que conformarán nuestro corpus de análisis serán extraídos de una de estas dos plataformas, como detallaremos más adelante. Una vez obtenidos estos comentarios, se requerirá llevar a cabo un proceso de preprocesamiento que incluirá una limpieza de texto, eliminando elementos como emoticonos, marcas de tiempo y demás información no relevante. Posteriormente, se realizará un procesamiento de lenguaje natural con el objetivo de transformar los comentarios en datos que un modelo de aprendizaje automático pueda utilizar de manera efectiva. Una vez completado este preprocesamiento, se procederá a la selección de diversos modelos de aprendizaje y a su correspondiente entrenamiento. La elección de estos modelos es crucial, especialmente en el ámbito de análisis de sentimientos, donde algunos modelos son más apropiados para esta casuística que otros, como se detallará en los capítulos siguientes. En nuestro caso particular, hemos optado por emplear seis modelos distintos, los cuales analizaremos posteriormente. Esta cantidad nos proporciona una variedad suficiente para llevar a cabo un entrenamiento completo y contar con diversas opciones al momento de realizar nuestro análisis final. En la etapa final, llevaremos a cabo la evaluación de todos los modelos, comparando sus métricas y extrayendo atributos esenciales del conjunto de datos. Entre estos atributos se incluyen las palabras más relevantes para cada clase, el balance de clases en sí, así como métricas clave como precisión, exhaustividad y puntuación F1. Herramientas adicionales, como la matriz de confusión de cada modelo, servirán como referencia para seleccionar el modelo que mejor se ajuste a nuestro conjunto de datos, permitiéndonos realizar análisis de sentimientos futuros con un alto nivel de precisión. | |
dc.description.abstract | The fundamental purpose of this Bachelor’s Thesis lies in thoroughly examining the sentiments of the population regarding a controversial topic, utilizing models and machine learning techniques to extract relevant information and conduct a comprehensive analysis of public opinion. Social media platforms, such as Twitter or YouTube, emerge as exceptionally valuable sources of information to grasp perceptions on various subjects, regardless of their theme or nature. Therefore, the comments that will constitute our analytical corpus will be extracted from one of these two platforms, as detailed later on. Once these comments are obtained, it will be necessary to undergo a preprocessing process, including text cleaning by eliminating elements such as emoticons, timestamps, and other non-relevant information. Subsequently, a natural language processing will be performed with the aim of transforming the comments into data that a machine learning model can effectively utilize. Upon completion of this preprocessing, the selection of various learning models and their respective training will take place. The choice of these models is crucial, especially in the field of sentiment analysis, where some models are more suitable for this scenario than others, as detailed in the following chapters. In our particular case, we have opted to employ six different models, which we will analyze later on. This quantity provides us with sufficient variety to carry out comprehensive training and have different options when conducting our final analysis. In the concluding stage, we will undertake the evaluation of all models, comparing their metrics and extracting essential attributes from the dataset. Among these attributes are the most relevant words for each class, the class balance itself, as well as key metrics such as precision, recall, and F1 score. Additional tools, such as the confusion matrix for each model, will serve as a reference to select the model that best fits our dataset, allowing us to conduct future sentiment analyses with a high level of precision. | |
dc.description.department | Depto. de Sistemas Informáticos y Computación | |
dc.description.faculty | Fac. de Informática | |
dc.description.refereed | TRUE | |
dc.description.status | unpub | |
dc.identifier.uri | https://hdl.handle.net/20.500.14352/105450 | |
dc.language.iso | spa | |
dc.page.total | 116 | |
dc.rights | Attribution-NonCommercial-NoDerivatives 4.0 International | en |
dc.rights.accessRights | open access | |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/4.0/ | |
dc.subject.cdu | 004(043.3) | |
dc.subject.keyword | Análisis de sentimientos | |
dc.subject.keyword | YouTube | |
dc.subject.keyword | Comentarios | |
dc.subject.keyword | Web Scraping | |
dc.subject.keyword | Procesamiento del lenguaje natural | |
dc.subject.keyword | NLP | |
dc.subject.keyword | Clasificación de texto | |
dc.subject.keyword | Opinión pública | |
dc.subject.keyword | Redes sociales | |
dc.subject.keyword | Inteligencia artificial | |
dc.subject.keyword | Python | |
dc.subject.keyword | Aprendizaje automático | |
dc.subject.keyword | OpenAI | |
dc.subject.keyword | Sentiment Analysis | |
dc.subject.keyword | Comments | |
dc.subject.keyword | Natural Language Processing | |
dc.subject.keyword | Text Classification | |
dc.subject.keyword | Public Opinion | |
dc.subject.keyword | Social Media | |
dc.subject.keyword | Artificial Intelligence | |
dc.subject.ucm | Informática (Informática) | |
dc.subject.unesco | 33 Ciencias Tecnológicas | |
dc.title | Análisis Automatizado de sentimientos en YouTube: Un enfoque basado en Machine Learning | |
dc.title.alternative | Automated Sentiment Analysis on YouTube: A Machine Learning Approach | |
dc.type | bachelor thesis | |
dc.type.hasVersion | AM | |
dspace.entity.type | Publication | |
relation.isAdvisorOfPublication | 28ca46b8-d1eb-42e6-a6e2-f31b193b055b | |
relation.isAdvisorOfPublication.latestForDiscovery | 28ca46b8-d1eb-42e6-a6e2-f31b193b055b |
Download
Original bundle
1 - 1 of 1
Loading...
- Name:
- Análisis Automatizado de sentimientos en YouTube: Un enfoque basado en Machine Learning.PDF
- Size:
- 5.47 MB
- Format:
- Adobe Portable Document Format
- Description:
- Análisis Automatizado de sentimientos en YouTube: Un enfoque basado en Machine Learning