An empirical study on the imbalance phenomenon of data from recommendation questionnaires in the tourism sector

Citation

Martin-Duque, C., Fernández-Muñoz, J. J., Moguerza, J. M., & Ruiz-Rua, A. (2023b). An empirical study on the imbalance phenomenon of data from recommendation questionnaires in the tourism sector. Journal of Tourism Futures. https://doi.org/10.1108/jtf-09-2022-0228

Abstract

Objetivo Los sistemas de recomendación son una herramienta fundamental para que los hoteles adopten una estrategia competitiva diferenciadora. El objetivo principal de este trabajo es utilizar técnicas de aprendizaje automático para tratar conjuntos de datos desequilibrados, que hasta ahora no se habían aplicado en el ámbito turístico. Estas técnicas han permitido a los autores analizar la influencia de los datos desequilibrados en los modelos de recomendación hotelera y cómo este fenómeno afecta a la insatisfacción de los clientes. Diseño/metodología/enfoque Se realizó una encuesta de opinión entre clientes de hoteles de diferentes categorías en 120 países diferentes. Se recopilaron un total de 135 102 encuestas a lo largo de once trimestres. Durante este periodo se llevó a cabo un diseño longitudinal. Se aplicó un modelo logístico binario utilizando la función del modelo lineal generalizado (GLM). Resultados Mediante el análisis de una cantidad representativa de datos, los autores demuestran empíricamente que el fenómeno del desequilibrio está presente de forma sistemática en las encuestas de recomendación de hoteles. Además, los autores muestran que el desequilibrio existe independientemente del período en el que se realiza la encuesta, lo que significa que es intrínseco a las encuestas de recomendación sobre este tema. Los autores demuestran la mejora de los sistemas de recomendación destacando la presencia de datos desequilibrados y las consecuencias para las estrategias de marketing. Originalidad/valor La principal contribución del presente trabajo es aplicar al sector turístico el marco para datos desequilibrados, que se utiliza normalmente en el aprendizaje automático, mejorando los modelos predictivos.
Purpose Recommendation systems are a fundamental tool for hotels to adopt a differentiating competitive strategy. The main purpose of this work is to use machine learning techniques to treat imbalanced data sets, not applied until now in the tourism field. These techniques have allowed the authors to analyse the influence of imbalance data on hotel recommendation models and how this phenomenon affects client dissatisfaction. Design/methodology/approach An opinion survey was conducted among hotel customers of different categories in 120 different countries. A total of 135.102 surveys were collected over eleven quarters. A longitudinal design was conducted during this period. A binary logistic model was applied using the function generalized lineal model (GLM). Findings Through the analysis of a representative amount of data, the authors empirically demonstrate that the imbalance phenomenon is systematically present in hotel recommendation surveys. In addition, the authors show that the imbalance exists independently of the period in which the survey is done, which means that it is intrinsic to recommendation surveys on this topic. The authors demonstrate the improvement of recommendation systems highlighting the presence of imbalance data and consequences for marketing strategies. Originality/value The main contribution of the current work is to apply to the tourism sector the framework for imbalanced data, typically used in the machine learning, improving predictive models.

Research Projects

Organizational Units

Journal Issue

Description

Keywords

Collections