Análisis de Sentimientos de Tweets en Español Basado en Técnicas Aprendizaje Supervisado
Loading...
Official URL
Full text at PDC
Publication date
2021
Advisors (or tutors)
Editors
Journal Title
Journal ISSN
Volume Title
Publisher
Citation
Abstract
Durante los últimos años, plataformas tales como Twitter o Facebook, han ganado fuerza y el número de personas que las usan ha crecido exponencialmente. En el año 2021 se envían de media alrededor de 500 millones de Tweets al día Twitter (2020). En este contexto, con tal cantidad de información, y gracias al aumento de la capacidad de procesamiento, muchas empresas, atraídas por las ventajas que conllevaba, han optado por minar información de estas redes sociales. Esto hace que el campo del Análisis de Sentimientos cobre gran importancia a la hora de obtener lo que la gente piensa acerca de algo. Este trabajo consiste en, dado un dataset de Tweets en castellano etiquetado con dos categorías (positiva y negativa) según el sentimiento del tweet, añadir una categoría más para ampliar la información que pudiera extraerse de los datos. En este paso de añadir la nueva categoría, se utiliza un etiquetador automático. Dado que los etiquetadores VADER y Textblob funcionan solo con textos en inglés, se hace una traducción con los traductores de Google y de Bing. Es decir, se prueban las cuatro combinaciones, y la mejor de estas es la que se usa finalmente para etiquetar esta nueva categoría. A continuación, se comprueba cual es el mejor número de palabras a la hora de crear la matriz TF-IDF, y a continuación se transforma el corpus a dicha matriz. Finalmente, se analiza una serie de clasificadores para obtener uno que sea capaz de predecir lo mejor posible la
categoría a la que pertenece un tweet. Los resultados fueron los siguientes: la mejor combinación traductor-etiquetador fue el traductor de bing y el etiquetador VADER, obteniendo solo un 39,4% de tweets etiquetados como neutros, y un 67% de acierto con el dataset original. El mejor clasificador fue el Descenso del Gradiente Estocástico, el cual obtuvo una accuracy del 75,94%, una precision media del 76,53% y un recall del 74,5%.
In the last few years, platforms like Twitter or Facebook have become more important and people using them has increased exponentially. In 2021 was sent an average of 500 million twetts every day Twitter (2020). In this context, with so much information and proccesing increased, many companies have started minning social media due to the many advantages it has. This has caused an increase on the importance of Sentiment Analysis when you want to know what people thinks about a topic. Using a dataset of spanish tweets with two labels(positive and negative), in this paperwork we are going to classify another label to extract more information from the data. To add this new label an authomatic labeling was used. Due to the fact that Valence Aware Dictionary y Sentiment Reasoner (VADER) and TextBlob labeling works only on English text, a previous translation was made using Google and Bing translators. In other words, four different combinations was tested and only the best one was chosen to add the new label. The next step was to find out the best number of words using Term Frecuency (TF)-Inverse Document Frecuency (IDF) matrix, consequently transforming the corpus using that matrix. Finally, several classifiers were tested to get the best one predicting the correct tweet labels. The results obtained were the following ones: The best translator-labeler combination was Bing and VADER respectively, labeling 39.4% of the original dataset as neutral and having 67% accuracy when excluding neutral tweets. The best classifier was Stochastic Gradient Descent with 75.94% accuray, 76.53% precision on average and 74.5% recall.
In the last few years, platforms like Twitter or Facebook have become more important and people using them has increased exponentially. In 2021 was sent an average of 500 million twetts every day Twitter (2020). In this context, with so much information and proccesing increased, many companies have started minning social media due to the many advantages it has. This has caused an increase on the importance of Sentiment Analysis when you want to know what people thinks about a topic. Using a dataset of spanish tweets with two labels(positive and negative), in this paperwork we are going to classify another label to extract more information from the data. To add this new label an authomatic labeling was used. Due to the fact that Valence Aware Dictionary y Sentiment Reasoner (VADER) and TextBlob labeling works only on English text, a previous translation was made using Google and Bing translators. In other words, four different combinations was tested and only the best one was chosen to add the new label. The next step was to find out the best number of words using Term Frecuency (TF)-Inverse Document Frecuency (IDF) matrix, consequently transforming the corpus using that matrix. Finally, several classifiers were tested to get the best one predicting the correct tweet labels. The results obtained were the following ones: The best translator-labeler combination was Bing and VADER respectively, labeling 39.4% of the original dataset as neutral and having 67% accuracy when excluding neutral tweets. The best classifier was Stochastic Gradient Descent with 75.94% accuray, 76.53% precision on average and 74.5% recall.
Description
Trabajo de Fin de Grado en Ingeniería Informática / Ingeniería de Computadores, Facultad de Informática UCM, Departamento de Sistemas Informáticos y Computación, Curso 2020/2021