UNIVERSIDAD COMPLUTENSE DE MADRID FACULTAD DE INFORMÁTICA MÁSTER EN INTERNET DE LAS COSAS TRABAJO FIN DE MÁSTER CURSO 2017-2018 VISUALIZACIÓN DE DATOS Y PERSONALIZACIÓN INTELIGENTE DE EXPLICACIONES PARA SU UTILIZACIÓN EN LA MEDICINA DEL DEPORTE Autor: Jaime Nicolás García Giménez Directores: María Belén Díaz Agudo Juan Antonio Recio García Convocatoria: Septiembre 2018 Calificación: Notable 8 D.ª MARÍA BELÉN DÍAZ AGUDO Y D. JUAN ANTONIO RECIO GARCÍA, DOCTORES DEL GRUPO DE APLICACIONES DE INTELIGENCIA ARTIFICIAL DE LA FACULTAD DE INFORMÁTICA DE LA UNIVERSIDAD COMPLUTENSE DE MADRID. CERTIFICAN: Que la presente memoria titulada “VISUALIZACIÓN Y PERSONALIZACIÓN DE SISTEMAS INTELIGENTES DE ELECTROMIOGRAFÍA PARA SU UTILIZACIÓN EN LA MEDICINA DEL DEPORTE” constituye la Memoria de Trabajo Fin de Máster presentada como requisito para optar al título de Máster en Internet de las Cosas por la Universidad Complutense de Madrid, y ha sido realizada bajo nuestra tutela. Y para que así conste, firman el presente certificado en Madrid a 20 de septiembre de 2018. Fdo.: María Belén Díaz Agudo Fdo.: Juan Antonio Recio García Autorización de difusión y utilización El autor del presente Trabajo Final de Máster firma la autorización de difusión y utilización del material académico que en este mismo se incluye, cuyo desarrollo se encuentra dentro del marco de los proyectos TIN2014-55006-R y TIN2017-87330-R. En Madrid a 20 de septiembre de 2018. Fdo.: Jaime Nicolás García Giménez Resumen El presente documento refleja el Trabajo Final correspondiente al Máster Universitario en Internet de las Cosas, y se ubica en el área de aplicación de sistemas inteligentes. En el desarrollo del proyecto se tratan generalmente los principios de visualización aplicables en cualquier entorno del Internet de las Cosas y que pueden estar dirigidos a equipos y usuarios de todo tipo. Hoy en día se tratan métodos de recogida y procesamiento de datos altamente heterogéneos, orientando la capacidad de conocimiento de esos datos a una cantidad de usuarios también muy heterogénea. De este modo, la generación de explicaciones visuales e interactivas dentro de plantillas de informes se puede optimizar mediante el uso de técnicas de Inteligencia Artificial (IA) como el Case-Based Reasoning (CBR), capaz de abordarse junto al diseño e implementación de herramientas de visualización avanzada. Este conjunto de aportaciones inteligentes se traduce en una personalización total de los informes, y posee la finalidad última de facilitar la cognición y detección de relaciones entre patrones dentro de los casos tratados mediante técnicas avanzadas de visualización de datos, además de capacitar la automatización de decisiones a partir de la observación y evaluación de los datos asociados a dichos casos. Así pues, resulta de especial interés el hecho de trasladar este objetivo a la Medicina y aplicar técnicas de IA como el CBR en sistemas compuestos por sensores de electromiografía (EMG), con tal de explicar a los expertos las características de los datos de pacientes y así poder facilitar a la toma de decisiones en el día a día. Este Trabajo Final de Máster conforma una división importante dentro de un ambicioso proyecto de investigación, y el objetivo primordial definido para su ejecución se basa en el desarrollo de un prototipo de mecanismo inteligente de generación de explicaciones visuales personalizables e interactivas con capacidad de aprendizaje a partir de la interacción. Aunque el mecanismo y la metodología se establecen de forma genérica, la prueba de concepto se realiza con datos correspondientes al dominio de la Medicina del Deporte, concretamente proporcionando soporte al profesional médico en el proceso de interpretación de características de datos asociados a pacientes que se corresponden con análisis de electromiografía. Para ello, en primer lugar, se describen los procesos y jerarquías CBR en la reutilización de elementos visuales en informes. Seguidamente, se analiza la naturaleza de las técnicas de visualización de datos de una forma genérica, con tal de a posteriori focalizar en un perfil de entidad concreto dentro del campo que ocupa la Medicina del Deporte. Este enfoque se aborda a lo largo del proyecto a modo de estudio práctico, y en todo momento se persigue explotar la funcionalidad de la herramienta perteneciente a dicha entidad para seguidamente potenciar su evolución tanto desde la perspectiva descriptiva como predictiva. Este análisis de datos médicos es causante de que, en última instancia, se estudien los procedimientos legislativos para el tratamiento de los propios datos dentro del ámbito sanitario. Palabras clave: Visualización, CBR, IA, Big Data, Medicina del Deporte, EMG, storytelling, interacción, explicaciones, análisis, conocimiento, reutilización, adaptación, gráficos, automatización, legalidad. Abstract This document reflects the Final Master Project corresponding to the Master's Degree in Internet of Things, developed within the area of intelligent systems’ application. During the progress of the project, the visualization principles applicable in any environment of the Internet of Things are explained generally and aimed to any kind of equipment and final user. Nowadays, highly heterogeneous data collection and processing methods are used, orienting the knowledge capacity of these data to a very heterogeneous number of users. In this way, the generation of visual and interactive explanations within report templates can be optimized through the use of Artificial Intelligence (AI) techniques such as Case- Based Reasoning (CBR), capable of being addressed alongside the design and implementation of advanced visualization tools. This set of intelligent contributions translates into a total personalization of the reports, and has the ultimate purpose of facilitating the cognition and detection of relationships between patterns within the cases treated by advanced data visualization techniques, in addition to enabling the automation of decisions based on the observation and evaluation of the data associated with these cases. Therefore, it is of special interest to transfer this objective to Medicine and apply AI techniques such as CBR in systems composed of electromyography (EMG) sensors, in order to explain to the experts the characteristics of patient data and thus facilitate day-to-day decision making. This Master's Final Project forms an important division within an ambitious research project, and the main objective defined for its implementation is based on the development of a prototype of an intelligent mechanism for generating customizable and interactive visual explanations with the ability to learn from interaction. Although the mechanism and methodology are established in a generic way, the proof of concept is made with data corresponding to the domain of Sports Medicine, specifically providing support to the medical professional in the process of interpreting characteristics of data associated with patients that correspond to electromyography analysis. To do this, first of all, the CBR processes and hierarchies in the reuse of visual elements in reports are described. Next, the nature of the data visualization techniques is analysed in a generic way, in order to subsequently focus on a specific entity profile within the field of Sports Medicine. This approach is approached throughout the project as a practical study, and at all times the aim is to exploit the functionality of the tool belonging to this entity in order to then enhance its evolution from both a descriptive and predictive perspective. This analysis of medical data ultimately leads to a review of the legislative procedures for the processing of the data themselves in the health field. Keywords: Visualization, CBR, IA, Big Data, Sports Medicine, EMG, storytelling, interaction, explanations, analysis, knowledge, reuse, adaptation, learning, graphics, automation, legality. Agradecimientos Quisiera expresar mi más profundo reconocimiento y agradecimiento a todas aquellas personas que, gracias a su colaboración, han contribuido a la realización de este Trabajo Final de Máster. En primer lugar, quisiera agradecer a Belén Díaz Agudo y Juan Antonio Recio García, los directores, la oportunidad que me han brindado de llevar a cabo este ambicioso proyecto, desarrollado dentro del grupo de investigación GAIA de la UCM (Group 921330) y del marco del proyecto TIN2017-87330-R, RAZONAMIENTO BASADO EN CASOS PARA LA EXPLICACION DE SISTEMAS INTELIGENTES, del MINISTERIO DE ECONOMÍA, INDUSTRIA Y COMPETITIVIDAD. Gracias a Ignacio y todo el equipo de mDurance, por ser una fuente proactiva de colaboración en este proyecto y sobre todo por tener una propuesta de valor para el bien de la sociedad. En general, gracias a todos los profesores de los cuales he tenido el honor de aprender en el último año, bien sea desde el punto de vista académico o bien como referentes profesionales. Es un privilegio pertenecer a la primera promoción del Máster Universitario de Internet de las Cosas, y personalmente considero casi un deber agradecer a quién ha puesto todo su empeño y esfuerzo en promover el aprendizaje en un área con semejante potencial. Por último y muy especialmente, gracias a mi familia y a Beatriz, por comprender y animarme como nadie en esta breve pero intensa etapa que me ha hecho crecer como profesional y, con todo su apoyo, también como persona. A todos, MUCHAS GRACIAS. Índice Capítulo 1. Introducción ................................................................................................ 1 1.1 Objetivos del Trabajo Final de Máster ............................................................... 3 1.2 Estructura del Trabajo Final de Máster .............................................................. 3 Introduction ..................................................................................................................... 4 Objectives of the Final Master’s Project ....................................................................... 6 Structure of the Final Master’s Project ......................................................................... 6 Capítulo 2. Estado del arte ............................................................................................. 7 2.1 Tratamiento masivo de datos .............................................................................. 7 2.1.1 Concepto de Big Data ................................................................................. 7 2.1.2 ¿Quién hace uso de Big Data y quién no? .................................................. 8 2.2 Sistemas Basados en Conocimiento ................................................................... 8 2.2.1 Fundamento del CBR .................................................................................. 9 2.2.2 CBR como proceso y jerarquía ................................................................. 10 2.3 La visualización de datos como inteligencia .................................................... 11 2.3.1 Percepción humana en DataViz ................................................................ 11 2.3.2 Principios de diseño visual ........................................................................ 12 2.3.3 La teoría del color ..................................................................................... 14 2.3.4 Elementos gráficos en DataViz ................................................................. 18 2.3.5 Storytelling: la importancia del contexto .................................................. 21 2.4 Ámbito de aplicación ....................................................................................... 22 2.4.1 Análisis y representación de datos en el ámbito sanitario ........................ 22 2.4.2 La electromiografía como ciencia ............................................................. 23 2.4.3 A quién se dirige ....................................................................................... 23 2.4.4 Responsables del análisis médico ............................................................. 24 2.4.5 Alcance tecnológico del análisis ............................................................... 24 2.5 Recapitulación del estado de la materia ........................................................... 25 Capítulo 3. Metodología .............................................................................................. 26 3.1 Alcance del desarrollo ...................................................................................... 26 3.2 Generación de plantillas de informes ............................................................... 26 3.3 Sistemas de automatización de datos ............................................................... 28 3.3.1 Ciclo CBR para la finalización de informes ............................................. 28 3.3.2 Jerarquía CBR para la finalización de informes ....................................... 29 3.3.2.1 Tarea de recuperación ........................................................................ 30 3.3.2.2 Tarea de reutilización ........................................................................ 31 3.3.2.3 Tarea de revisión ............................................................................... 32 3.3.2.4 Tarea de retención ............................................................................. 33 3.4 Caracterización de datos ................................................................................... 35 3.4.1 Etiquetas sintácticas .................................................................................. 36 3.4.1.1 Etiquetas estadísticas ......................................................................... 36 3.4.1.2 Etiquetas probabilísticas .................................................................... 37 3.4.2 Etiquetas semánticas ................................................................................. 39 3.5 Caracterización de gráficos .............................................................................. 39 3.5.1 Gráficos de barras ..................................................................................... 41 3.5.2 Gráficos de líneas ...................................................................................... 42 3.5.3 Gráficos de caja ......................................................................................... 43 3.5.4 Gráficos de dispersión ............................................................................... 44 3.5.5 Gráficos de burbujas ................................................................................. 45 3.5.6 Gráficos de pastel ...................................................................................... 46 3.5.7 Diagrama de Venn .................................................................................... 47 3.5.8 Mapa de árbol ........................................................................................... 48 3.5.9 Mapa geográfico ....................................................................................... 50 3.6 Recapitulación de la metodología genérica propuesta ..................................... 51 Capítulo 4. Caso práctico de estudio y aplicación ....................................................... 52 4.1 mDurance ......................................................................................................... 52 4.2 Exploración del contenido de la plataforma as-is ............................................ 53 4.2.1 Exploración de los modelos de informes iniciales .................................... 53 4.2.2 Exploración de contenido de datos ........................................................... 54 4.2.3 Exploración de elementos visuales ........................................................... 55 4.3 Experimentación ............................................................................................... 58 4.3.1 Características del estudio ......................................................................... 58 4.3.2 Características de la población .................................................................. 58 4.3.3 Instrumentación y tecnologías .................................................................. 59 4.3.3.1 Dispositivo IoT utilizado ................................................................... 59 4.3.3.2 Tecnologías empleadas ...................................................................... 60 4.3.4 Movimientos ............................................................................................. 62 4.3.4.1 Pruebas de movimientos isotónicos ................................................... 63 4.3.4.2 Pruebas de movimientos isométricos ................................................ 64 4.4 Procesamiento de datos .................................................................................... 65 4.4.1 Filtrado ...................................................................................................... 67 4.4.2 Eliminación de ruido ................................................................................. 68 4.5 Análisis de datos ............................................................................................... 68 4.6 Etiquetado de datos .......................................................................................... 71 4.6.1 Etiquetas sintácticas .................................................................................. 72 4.6.2 Etiquetas semánticas ................................................................................. 74 4.7 Optimización de la plataforma, estado to-be .................................................... 76 4.7.1 Modelos de informes propuestos .............................................................. 77 4.7.2 Ejemplo general de utilización de los informes ........................................ 77 4.8 Diseño de elementos visuales objeto de reutilización y adaptación ................. 79 4.8.1 Estudio de la población de pacientes ........................................................ 80 4.8.2 Estudio del estado físico de un paciente ................................................... 87 4.8.3 Comparación entre dos pacientes .............................................................. 93 4.8.4 Comparación entre un paciente y el resto de población ........................... 96 4.8.5 Ejemplo pormenorizado de utilización de los informes ......................... 100 Capítulo 5. Legalidad en el contexto ......................................................................... 105 5.1 Anonimización de los datos ........................................................................... 105 5.2 Punto de partida .............................................................................................. 105 5.3 Antecedentes reguladores: LOPD .................................................................. 106 5.4 Nueva regulación en vigor: GDPR ................................................................. 107 5.4.1 Consentimiento explícito ........................................................................ 107 5.4.2 DPO ........................................................................................................ 107 5.4.3 Aumento del nivel de información ......................................................... 108 5.4.4 Medidas organizativas y de seguridad .................................................... 108 5.4.5 Evaluación del impacto ........................................................................... 110 5.4.6 Comunicación de los datos personales ................................................... 110 Capítulo 6. Conclusiones ........................................................................................... 111 6.1 Limitaciones ................................................................................................... 113 6.2 Próximos pasos ............................................................................................... 113 Conclusions ................................................................................................................. 115 Limitations ................................................................................................................ 117 Next steps .................................................................................................................. 117 Bibliografía ................................................................................................................. 118 Anexos ................................................................................................................. 123 Anexo 1: Especificaciones del wearable Shimmer 3 EMG [71] ............................... 123 Anexo 2: Paletas de color utilizadas ......................................................................... 126 1 Capítulo 1. Introducción En ningún momento histórico como en el que nos encontramos se ha podido contemplar un auge de tal magnitud en la capacidad inteligente generada por agentes no humanos. Desde que científicos y matemáticos comenzaron a recoger las primeras inspiraciones allá por la década de 1950 y de forma totalmente ininterrumpida hasta hoy día, los sistemas de Inteligencia Artificial (IA) han evolucionado a un ritmo que nos atrevemos a decir no tiene comparación con ningún otro fenómeno tecnológico. Ya durante los años 70 y 80 se hacían realidad múltiples desarrollos y simulaciones que abrían nuevas vías de investigación para estas técnicas, y fue algo antes de la entrada del nuevo milenio cuando las principales empresas se vieron metidas casi de forma inintencionada en una carrera tecnológica que avanzaba sin precedentes de cara a esta nueva industria. Ninguna compañía quería perder detalle en las ramas referentes a la teoría de la información, redes neuronales, computación, abstracción y creatividad [1]. No obstante, si bien es cierto que son muchos los paradigmas que se arrastran en esta ciencia a lo largo de estas tres últimas décadas, echando la vista unos pocos años atrás nos topamos con uno de los acontecimientos que ha resultado ser el detonante: el aumento masivo de las cantidades y variedades de los conjuntos de datos. Uno de los causantes clave en esta revolución de los datos [2] es la forma en la que se ha hecho efectiva la incorporación de los mismos en el mundo físico. Hasta hace relativamente poco acostumbrábamos a recoger conjuntos de datos únicamente desde el entorno web, donde las virtudes y complejidades de los procesos en cierto modo son conocidos. Actualmente, la procedencia de los datos deriva de flujos de todo tipo y destaca cada vez más la constante aportación del entorno Internet of Things (IoT) gracias a sensores y wearables que, utilizados en conjunto con otras plataformas Cloud, dejan atrás la utilización de mecanismos tradicionales para cualquiera de las fases de procesado, almacenamiento, análisis e interpretación. De forma inevitable, este conjunto de tecnologías lleva consigo la utilización de sistemas inteligentes capaces de aportar valor y veracidad a tal cantidad de datos mediante capacidades de percepción, razonamiento, decisión y actuación autónoma sobre dichos conjuntos de datos. Desafortunadamente, en todo sistema inteligente de estas características existe un hándicap que pone la confianza del usuario humano en contra del razonamiento artificial, y no es otra cosa que el comportamiento de los sistemas a modo de cajas negras [3], lo que se traduce en cierta incapacidad a la hora de explicar las acciones y decisiones tomadas por parte de estos sistemas, así como el hecho de poder justificar las recomendaciones y predicciones que autónomamente llevan a cabo. Pues bien, es debido a este conjunto de incapacidades por las que el usuario humano requiere de una necesidad adicional que le lleve a entender las razones mediante las cuales un sistema de IA llega a una conclusión sobre el contexto. Para tratar de solventar esto, en primer lugar, es imprescindible asegurar la calidad del dato [4] como pilar fundamental del procedimiento. De esta forma es posible hacer un uso eficiente del Razonamiento Basado en Casos (CBR) que permite incorporar explicaciones en última instancia sobre el contexto. Por tanto, gracias al paradigma CBR se puede dotar de sentido tanto la inmensidad de datos heterogéneos recogidos por sensores IoT como los generados en la aplicación de 2 técnicas de IA en distintos entornos. Así pues, una forma de optimizar el razonamiento en estas áreas – IoT e IA – está enfocada a la generación de informes que permitan explicar la inmensa cantidad de información generada según un contexto determinado y de la forma más visual posible hacia el usuario humano. Cabe decir que es precisamente en este punto donde el campo de Data Visualization (DataViz) juega un papel crucial, al estar dedicado a la investigación de representaciones gráficas encargadas de facilitar al usuario humano el reconocimiento y detección de relaciones entre patrones entre conjuntos de datos. Además, esta área tiende a ir más allá pues se caracteriza por su habilidad para revelar y contar historias con los datos. El llamado storytelling [5] es un medio de comunicación cada vez más utilizado para la obtención de ideas sobre conjuntos formados por tres componentes: datos, elementos visuales y parte narrativa. Muy adecuado, por tanto, para la generación de informes. Con todo lo anterior, se puede afirmar que el conjunto de sistemas IoT e IA complementados con las técnicas CBR y DataViz permiten obtener conocimiento en un contexto y hacer predicciones sobre ocurrencias futuras. Esto hace que este conjunto se convierta casi de forma automática en un caso de éxito independientemente del campo de aplicación en el que se ubique, pudiéndose trasladar a cualquier mercado [6] donde los beneficios se traducen en incrementos de productividad multiplataforma y multicanal gracias, por un lado, a la automatización de procesos y el ahorro en consumos; y por otro, al incremento del grado de personalización de servicios, que aumenta proporcionalmente al número de interacciones del usuario con el sistema. No obstante, es muy importante contemplar esta ciencia más allá del punto de vista del área de negocios, pues a nivel de aplicación puede trabajar transversalmente con otras ramas de la ciencia y ser determinante en necesidades sociales de primer nivel como bien es el ámbito sanitario [7]. Aquí, los profesionales y responsables encargados de la prevención de riesgos médicos pueden beneficiarse de la alta eficiencia en la recogida de datos mediante sistemas IoT así como de la aplicación de técnicas inteligentes para proporcionar, entre otros, informes visuales que ayuden a crear un mayor nivel de transparencia acorde a los principios éticos en la toma de decisiones en el campo de la Medicina. A esto se le ha de sumar la amplia cantidad de dominios donde el uso de CBR ha supuesto una tremenda capacidad de resolver problemas complejos recordando experiencias previas, llegando a abordar múltiples sistemas de reconocimiento de patrones y de soporte en la toma de decisiones. De este modo, desde el punto de vista del experto Médico, el conjunto de sistemas inteligentes con CBR y herramientas avanzadas de visualización no solamente crea fiabilidad en la obtención del conocimiento sobre estos datos, sino que también sirve de precedente para aplicar unos algoritmos de análisis u otros y de forma simultánea aprovechar la interacción del profesional para dar retroalimentación al sistema y así crear predicciones sobre lo que podrá ocurrir o no en el futuro. Este caso es particularmente útil en el dominio de aplicación de la electromiografía, donde los datos recogidos de múltiples sensores a priori carecen de sentido y suponen en la mayoría de ocasiones una fuente de preocupación entre los expertos en la materia. Claramente estamos ante un área con un potencial tremendo y que la sociedad en general es capaz de aprovechar muy positivamente. La explicación de datos mediante informes visuales y textuales en el campo de la Medicina ayuda tanto al experto como al usuario a comprender los detalles de los patrones establecidos en pruebas a distintos 3 niveles, así como a interpretar de manera automática, fiable y precisa los enormes conjuntos de datos en base a un contexto. 1.1 Objetivos del Trabajo Final de Máster El objetivo de este Trabajo Final de Máster se basa en la prueba de concepto de un prototipo de herramienta inteligente capaz de generar explicaciones visuales e interactivas dentro de informes, particularizando a posteriori en la interpretación por parte de los profesionales médicos sobre las características de los datos asociados a pacientes. Además, también se persigue dotar de capacidad de aprendizaje a dicha herramienta mediante la interacción del propio experto de modo que el sistema sea capaz de aumentar su grado de personalización. Se propone desarrollar un prototipo de herramienta inteligente de generación de explicaciones visuales personalizables e interactivas con capacidad de aprendizaje a partir de la interacción. Aunque la herramienta y la metodología se establecen de forma genérica, la prueba de concepto se realiza con datos correspondientes al dominio de la Medicina del Deporte. Para ello, el Trabajo Final de Máster se puede desglosar en una serie de objetivos específicos, que se pueden resumir en: • Presentación de los fundamentos que conforman el estado del arte de la materia a tratar en el transcurso de todo el proyecto. • Análisis del marco teórico que sigue la metodología CBR en la generación de explicaciones interactivas dentro de informes dependiendo de las características genéricas de los modelos de datos. • Estudio del alcance del proyecto y metodología seguida en la recomendación automática de elementos de visualización sobre una plantilla de informes y un modelo de datos caracterizado en cualquier ámbito de aplicación. • Diseño de técnicas inteligentes para la personalización de informes dentro del campo de la Medicina del Deporte, capacitando el aprendizaje a partir de la observación y evaluación de datos asociados a pacientes. • Descripción de los procedimientos legales tenidos en cuenta a la hora de tratar y representar datos de carácter personal y especialmente protegidos. 1.2 Estructura del Trabajo Final de Máster Este documento se estructura en un total de 6 capítulos. El primero de ellos consiste en el presente capítulo introductorio del Trabajo Final de Máster, y el segundo abarca la situación de la materia a tratar, en líneas generales. Seguidamente, mediante el tercer capítulo se tratan los conceptos a considerar tanto en la metodología CBR del proyecto global como la parte concerniente y aplicable en este Trabajo Final de Máster. Así pues, el cuarto capítulo entra en materia práctica mediante el desarrollo de técnicas para la generación de explicaciones visuales particularizadas en el dominio de la Medicina del Deporte, concretamente con datos procedentes de análisis EMG, con tal de conseguir un alto nivel de personalización en plantillas de informes enfocados a casos de pacientes. Para finalizar, se da paso al estado legislativo que respecta la utilización y el tratamiento de datos dentro de este campo de la Medicina del Deporte; y por último, en el sexto capítulo se exponen las conclusiones obtenidas a raíz de este proyecto. 4 Introduction At no time in history has it been possible to contemplate a boom of such magnitude in the intelligent capacity generated by non-human agents. Since scientists and mathematicians began to collect the first inspirations back in the 1950s and completely uninterruptedly until today, Artificial Intelligence (AI) systems have evolved at a pace that we dare to say has no comparison with any other technological phenomenon. Already during the 70's and 80's, multiple developments and simulations became reality that opened new ways of researching for these techniques, and it was some time before the entry of the new millennium when the main companies were almost unintentionally involved in a technological race that was advancing without precedent in the face of this new industry. No company wanted to lose any single detail in the branches of information theory, neural networks, computing, abstraction and creativity [1]. However, while it is true that there are many paradigms that drag this science through these last three decades, looking back a few years we came across one of the events that has turned out to be the trigger: the massive increase in the quantities and varieties of data sets. One of the key causes of this data revolution [2] is the way in which the incorporation of data into the physical world has become effective. Until relatively recently we used to collect data sets only from the web environment, where the virtues and complexities of the processes are somehow known. On the other hand, currently, the origin of the data derives from all kinds of flows and the constant contribution of the Internet of Things (IoT) environment is increasingly highlighted thanks to sensors and wearables that, used in conjunction with other Cloud platforms, leave behind the use of traditional mechanisms for any of the processing, storage, analysis and interpretation phases. Unavoidably, this set of technologies entails the use of intelligent systems capable of adding value and truthfulness to such a quantity of data by means of capacities of perception, reasoning, decision and autonomous action on these sets of data. Unfortunately, in any intelligent system of these characteristics there is a handicap that turns the trust of the human user against artificial reasoning, and it is nothing other than the behavior of the systems in the form of black-boxes [3], which translates into a certain inability to explain the actions and decisions taken by these systems, as well as the fact of being able to justify the recommendations and predictions that they autonomously carry out. Well, it is because of this set of inabilities that the human user requires an additional need to understand the reasons by which an AI system reaches a conclusion about the context. In order to solve this, first of all, it is essential to ensure data quality [4] as a fundamental pillar of the procedure. In this way, it is possible to make efficient use of Case Based Reasoning (CBR), which allows the incorporation of explanations over the context. Therefore, thanks to the CBR paradigm, both the immensity of heterogeneous data collected by IoT sensors and those generated in the application of AI techniques in different environments can be given meaning. Thus, one way to optimize reasoning in these areas - IoT and AI - is focused on the generation of reports that can explain the immense amount of information generated according to a given context and in the most visual way possible to the final human user. 5 It is precisely at this point where the Data Visualization (DataViz) field plays a crucial role, as it is dedicated to the investigation of graphic representations in charge of facilitating the human user the recognition and detection of relationships between patterns between data sets. In addition, this area tends to go further as it is characterized by its ability to reveal and tell stories with the data. Storytelling [5] is a mean of communication increasingly used to obtain ideas about data sets composed by three components: data, visual elements and narrative part. Very suitable, therefore, for the generation of reports. With all the above, it is said that the conglomeration of IoT and AI systems complemented with CBR and DataViz techniques allow to obtain knowledge in a context and make predictions about future occurrences. This means that this kind of conglomeration becomes almost automatically a success case regardless of the field of application in which it is located, being able to be transferred to any market [6] where the benefits are translated into cross-platform and cross-channel productivity increases thanks, on the one hand, to the automation of processes and savings in consumption; and on the other hand, to the increase in the personalization services’ degree, which extends proportionally to the number of interactions between the user and the system. Nevertheless, it is very important to contemplate this science beyond the point of view of the business area, since at the application level it can work transversally with other branches of science and be a determining factor in some first-level social needs such as the health field [7]. Here, professionals and those responsible for the prevention of medical risks can benefit from the high efficiency in the collection of data through IoT systems as well as the application of intelligent techniques to provide, among others, visual reports that help to create a higher level of transparency in line with ethical principles in decision-making in the field of medicine. It also must be added the large number of application domains where the use of CBR has meant a tremendous ability to solve complex problems by remembering previous experiences, going so far as to deal with multiple systems of pattern recognition and support in decision making. Thus, from the point of view of the medical expert, the set of intelligent systems with CBR and advanced visualization tools not only creates reliability in obtaining knowledge about these data, but is also a good precedent to apply some analysis algorithms and simultaneously take advantage of the professionals’ interaction to give feedback to the system and thus create predictions about what may or may not happen in the future. This case is particularly useful in the field of application of electromyography, where all the collected data from multiple sensors a priori are meaningless and in most cases a source of concern among experts in the field. Clearly, we are dealing with an area with tremendous potential that society in general is capable of exploiting very positively. The explanation of data through visual and textual reports in the field of Medicine helps both the expert and the user to understand the details of the patterns established in tests at different levels, as well as to interpret automatically, reliably and accurately the huge data sets based on a context. 6 Objectives of the Final Master’s Project The objective of this Master's Final Project is based on the proof of concept of an intelligent tool prototype capable of generating visual and interactive explanations within reports, subsequently specializing in the interpretation by medical professionals of the characteristics of the data associated with patients. In addition, it also aims to provide learning capacity to this tool through the interaction of the expert himself so that the system is able to increase its degree of customization. It is proposed to develop a prototype of an intelligent tool for generating customizable and interactive visual explanations with the capacity to learn from interaction. Although both tool and its methodology are established in a generic way, the proof of concept is carried out with data corresponding to the domain of Sports Medicine. To this end, the Master's Final Project can be broken down into a series of specific objectives, which can be summarized as follows: • Presentation of the fundamentals that make up the matter of the subject to be dealt through the project. • Analysis of the theoretical framework that follows the CBR methodology in the generation of interactive explanations within reports depending on the generic characteristics of the data models. • Study of the scope of the project and methodology followed in the automatic recommendation of visualization elements on a report template and a data model characterized in any field of application. • Design of intelligent techniques for the personalization of reports within the field of Sports Medicine, enabling learning from the observation and evaluation of data associated with patients. • Description of the legal procedures taken into account when processing and representing personal and specially protected data. Structure of the Final Master’s Project This document is structured in a total of 6 chapters. The first of them consists of the present introductory chapter of the Final Master's Project, and the second covers the situation of the subject to be dealt with, in general terms. Next, the third chapter deals with the concepts to be considered both in the CBR methodology of the global project and the part concerning and applicable to this Final Master's Project. Thus, the fourth chapter enters into practical matter through the development of techniques for the generation of particularized visual explanations in the field of Sports Medicine, specifically with data from EMG analysis, in order to achieve a high level of customization in templates of reports focused on patient cases. Finally, the legislative status is explained regarding the use and processing of data within this field of Sports Medicine; and finally, in the sixth chapter, the conclusions obtained as a result of this project are presented. 7 Capítulo 2. Estado del arte Independientemente de cuál sea el nivel de abstracción de la disciplina Data Visualization, es completamente necesario analizar el estado del arte de esta rama y todas las influyentes dentro del ámbito de las tecnologías de la información y la comunicación. Es por ello que en el presente capítulo se realiza un recorrido teórico partiendo del concepto de Big Data en la sección 2.1y se da paso a los Sistemas Basados en Conocimiento en el apartado 2.2, en concreto del CBR como metodología perteneciente a la rama de Inteligencia Artificial. Además, en el apartado 2.3 se realiza un estudio de DataViz como ciencia y forma de conocimiento y; por último, en la sección 2.4, se abre paso al contexto que va a ser tratado en los siguientes capítulos, la electromiografía como Medicina del Deporte. 2.1 Tratamiento masivo de datos Hoy en día el concepto Big Data se encuentra presente en cada movimiento que la sociedad hace frente dentro del ámbito de las Tecnologías de la Información. Según la materia que resulte de interés para el portavoz, el enfoque puede llegar a variar, llegando a tener incluso definiciones contradictorias. 2.1.1 Concepto de Big Data La descripción que se arrastra desde hace unos años [8] habla de “todo conjunto datos (estructurados, no estructurados y semiestructurados) con información que no puede ser procesada o analizada mediante procesos o herramientas tradicionales”. En base a esta definición podrían surgir una fuente de discrepancias en función de tres aspectos, fundamentalmente: • En primer lugar, el volumen de la información, ya que no se podría especificar siquiera una magnitud concreta en la que se pudiera aclarar el término “Big”. • Por otro lado, la variedad en la que se disponen los datos, bien sea por la tipología en la que se presentan o por las fuentes de datos cada vez sobre tecnologías más avanzadas. • Seguidamente, la velocidad y movimiento de procesado de datos, debido a la heterogeneidad de herramientas emergentes con distinta capacidad para abarcar servicios. Es por ello que la definición nombrada anteriormente puede crear cierta ambigüedad sobre cualquier entidad o institución que pretenda hacer uso del Big Data. A la hora de examinar un posible diseño, desconocería la cantidad mínima de datos y carecería de una especificación sobre fuentes de información, límites de tasas de velocidad en cualquiera de las fases del tratamiento de los datos. 8 2.1.2 ¿Quién hace uso de Big Data y quién no? No obstante, han sido precisamente las tres fuentes de discrepancias nombradas las que han ido dejando atrás este término inicial y han condicionado su evolución, junto al constante crecimiento de herramientas de software de código abierto utilizadas en organizaciones públicas y privadas pertenecientes a sectores altamente dispares. Esto ha provocado paulatinamente que hoy en día el término Big Data sea un reto mayor, y posea la madurez suficiente como para ser considerado más bien como un conjunto de tecnologías, algoritmos y sistemas empleados para la recolecta de datos a una escala y variedad no alcanzada hasta ahora, con el valor añadido de posibilitar extracciones de información de valor mediante sistemas analíticos avanzados. Este nuevo enfoque tecnológico adquirido en los últimos años quiere decir que hoy en día no se considera únicamente Big Data los cientos de Zettabytes de datos que procesan y almacenan información en formato digital, sino que se pretende ir más allá y focalizar en el pequeño porcentaje de datos que son útiles entre estos inmensos conjuntos y que permiten realmente proporcionar conocimiento [9]. De modo que: • Por un lado, habría que tener en cuenta la veracidad de los datos que se disponen, pues en múltiples ocasiones se tiene un concepto equivocado de lo que realmente se tiene una vez se realiza cualquier display. • Otra consideración surge en si los datos recogidos y representados realmente tienen o no valor, ya que de aquí pende la utilidad final de los mismos y el conocimiento que puede aportar realmente. Ésta sería, por tanto, una de las justificaciones sobre las que se apoyan un elevado número de entidades e instituciones ya que, a pesar de no tratar las mayores cantidades de datos de forma absoluta, sí hacen uso realmente del Big Data debido a las herramientas y tecnologías que implican la transmisión de información fiable y con capacidad de aportar conocimiento a un grupo de usuarios finales. De cualquier forma, siempre surge la verdadera necesidad de comprender los datos que se han adquirido y, por consiguiente, de sistemas que generen explicaciones y supongan una fuente de valor y veracidad. 2.2 Sistemas Basados en Conocimiento En relación a lo anterior cabe decir que el uso de sistemas Big Data no es factible sin un propósito final capaz de aportar conocimiento. Hoy día es muy común disponer de un entorno donde el IoT, Big Data, y las técnicas de IA formen un sólido equipo [10] y se complementen entre sí para generar valor descriptivo y predictivo a los conjuntos de datos: 9 Figura 1. Sistema data-driven para la obtención y regeneración de conocimiento. Este campo de sinergias es totalmente imprescindible ya que, en primera instancia, los datos recogidos por los microcontroladores IoT no tienen sentido si no disponen de un acceso Cloud donde se realice un análisis inmediato de los mismos y sean agrupados con otras fuentes de datos. Las tecnologías Big Data, por su parte, son las encargadas de crear un entorno IoT en conjunto con otros muchos flujos para realizar segmentaciones eficaces y así poder aplicar técnicas de IA que lleven a cabo una tarea considerada como esencial en la actualidad: la interpretación de datos para la resolución de problemas. Este término de resolución de problemas se toma en este proyecto en el sentido amplio dentro de la Ingeniería del Conocimiento [11], una rama de la IA concerniente a la extracción y representación de conocimientos que normalmente requieren un alto nivel de experiencia humana. Esta rama se encarga de diseñar y hacer funcionar los Sistemas Basados en Conocimiento (SBC), capaces de mejorar las prestaciones de otros sistemas mediante la incorporación de conocimiento y sin necesidad de manipular la estructura global del sistema en cuestión. Esto es realmente valioso ya que permite obtener varias soluciones y razonar cómo se llega a dicha solución. Así pues, un SBC procesa la información recogida y la incorpora a los recursos de razonamiento interpretables por un humano o por una máquina. Para ello, es muy común utilizar una memoria permanente en la cual se almacenen de manera explícita las soluciones dentro del dominio de aplicación en el que se trabaje. Este método en realidad es una de las formas más eficaces de razonamiento y aprendizaje dentro de los SBC, y no es otro que el paradigma Case-Based Reasoning (CBR) [12]. 2.2.1 Fundamento del CBR El CBR es una técnica de IA cuyo funcionamiento es equivalente a un sistema de razonamiento por analogía, ya que reutiliza casos anteriores para facilitar la adquisición de conocimiento. Esto tiene como justificación el hecho de que el ser humano tiende a resolver problemas en base a experiencias pasadas, y no a partir de un conocimiento explícitamente detallado, por lo que se puede afirmar que el CBR comprende una poderosa fuente de resolución de problemas para el humano. En la terminología CBR, un caso supone una situación de problema y, por consiguiente: • Una situación experimentada previamente es denominada como un caso pasado, previo, almacenado o retenido. • El conjunto de problemas resueltos es la Base de Casos. 10 • Un nuevo caso es toda aquella situación del nuevo problema a resolver. 2.2.2 CBR como proceso y jerarquía Por la suma de lo anterior, el CBR es considerado como un proceso cíclico, ya que se involucra en la recurrencia de los problemas y en el aprendizaje a partir de los mismos única y exclusivamente cada vez que el sistema lo necesita (metodología Lazy Learning). Para que esto se haga efectivo el ciclo CBR se describe según cuatro procesos [13]: 1. Recuperación de casos similares dentro de la Base de Casos. 2. Reutilización de la información y conocimiento en el caso capaz de resolver el problema. 3. Revisión de la solución propuesta. 4. Retención de las partes dentro de la resolución del problema que pueden ser útiles en experiencias posteriores. Para poder interpretar este proceso secuencial es necesario orientar el sistema CBR de modo que la resolución de tareas siga un orden jerárquico donde cada subproceso es interpretado por el sistema como un caso o problema. Esta jerarquía describe un sistema CBR desde tres perspectivas: • Como punto de partida, las tareas que comprenden los objetivos del sistema. • Cada una de esas tareas se compone de uno o más métodos, y para que un método sea capaz de cumplir una tarea, necesita: • Conocimiento sobre el dominio de aplicación, así como del problema en cuestión y su contexto. De este modo, la tarea de nivel superior es la resolución de problemas y el aprendizaje a partir de la experiencia, que se implementa por el método CBR para así descomponerse en cuatro tareas de segundo nivel que se corresponden con las cuatro fases del proceso CBR: recuperación, reutilización, revisión y retención. Estas cuatro tareas son las que consiguen llevar a cabo la tarea de orden superior, y del mismo modo se segmentan en otras tareas de tercer nivel y así consecutivamente. Cabe decir que, a partir de las tareas que suponen cada una de las fases del ciclo CBR no existen unos métodos predefinidos para cada dominio de aplicación, sino que el hecho de establecer esta jerarquía supone precisamente el reto de los sistemas CBR. 11 2.3 La visualización de datos como inteligencia Como ya se ha comentado, uno de los puntos más importantes dentro de la revolución Big Data y los Sistemas Basados en Conocimiento consiste en la disposición de los conjuntos de datos a la hora de transmitir y comunicar la información, para así poder aportar conocimiento tanto al ser humano como a otros sistemas sobre tendencias descriptivas, iniciativas analíticas y modelos predictivos [14]. Bien es cierto que el camino del dato es rigurosamente complejo y hemos visto que depende de múltiples entornos. No obstante, en última instancia, la obtención de un valor analítico efectivo tiene como responsable final la ciencia DataViz, pues es un hecho que ofrece una forma de generar explicaciones y ampliar el conocimiento mucho más fácil que mediante cualquier otro modelo estadístico de computación convencional. Es por ello que en los siguientes subapartados se analiza en profundidad la importancia de la percepción visual humana, la influencia de los elementos visuales en la transmisión de información, y por último algunas de los métodos generalmente más efectivos en las explicaciones gráficas. 2.3.1 Percepción humana en DataViz La generación de explicaciones visuales tiene como foco de origen el propio procesamiento de la atención humana, que distingue entre una fase pre-consciente [15] donde se observan características como el color, la forma, la textura, el movimiento y la posición de los objetos en un intervalo temporal de menos de 200ms; con otra fase consciente en la cual el ser humano focaliza la atención de manera objetiva en una cantidad de tiempo mucho mayor. Es por esto que la ciencia de DataViz se hace efectiva cuando distribuye eficazmente la percepción y la cognición humana [16]. Si analizamos cómo se comportan estas dos partes en nuestro cerebro, se obtienen las siguientes conclusiones: • La percepción visual es manejada por la corteza de cerebro posicionada en la parte trasera, que es extremadamente rápida y eficiente. Es por eso que la vista actúa de forma inmediata y con poco esfuerzo. • La percepción cognitiva, por otro lado, es manejada por la parte delantera del cerebro, que es mucho más lenta y menos eficiente. Es por ello que dotar sentido de forma aislada a un conjunto de datos requiere ocupar toda esta parte de cognición, y una carga de trabajo importante. La visualización de datos consigue un balance entre estas dos partes, que se traduce en una visualización e interpretación instantánea y eficiente (sin mucha carga de trabajo) de los conjuntos de datos en nuestro cerebro. Se puede decir, por tanto, que la ciencia de DataViz permite obtener todas las ventajas de las habilidades cerebrales que engloban la percepción visual y cognitiva. En la siguiente tabla se muestran ejemplos de atributos comúnmente utilizados a la hora de representar información, junto a sus capacidades de percepción humana. Dichas capacidades se miden por niveles en función del grado de asimilación en nuestro cerebro: 12 Display Atributo Comparación y Orden Valores útiles Cantidad Número Categorías Relaciones Posición Sí Infinitos Muy Bueno Bueno Bueno Bueno Etiquetas de texto Sí Infinitos Muy Bueno Bueno Bueno Bueno Longitud Sí Muchos Muy Bueno Bueno N/A N/A Tamaño Sí Muchos Bueno Bueno N/A N/A Orientación Sí Medio N/A Bueno N/A N/A Densidad Sí Pocos Bueno Bueno N/A N/A Grosor Sí Pocos Bueno Bueno N/A N/A Saturación, luminancia Sí Pocos Bueno Bueno N/A N/A Color No Muy pocos N/A N/A Bueno N/A Forma No Medio N/A N/A Bueno N/A Textura No Medio N/A N/A Bueno N/A Conexiones y cajas No Infinitos N/A N/A Bueno Bueno Modelo de línea No Pocos N/A N/A N/A Bueno Fin de línea No Pocos N/A N/A N/A Bueno Grosor de línea Sí Pocos N/A Bueno N/A N/A Tabla 1. Atributos de codificación visual según la percepción humana y las capacidades que los cualifican [17]. Así pues, recapitulando para una capacidad de elevado interés como es la percepción cuantitativa que proporcionan los atributos visuales de la tabla anterior, contemplamos que (aparte de los números) atributos como la longitud y la posición son los que mejor precisión proporcionan, seguidos de la densidad, tamaño, saturación y brillo. No obstante, otros como la orientación, forma, cierre o conexiones no ofrecen percepción cuantitativa. Por último, cabe decir que este tipo de codificación visual es efectiva exclusivamente si se considera de forma conjunta, ya que a la hora de generar elementos gráficos se agrupan gran parte de los atributos que aparecen en la tabla. 2.3.2 Principios de diseño visual Una vez vistos los distintos tipos de codificación se puede contemplar la relación entre los patrones desde el punto de vista del diseño. Una teoría muy consistente acerca de la 13 percepción humana y la comunicación entre objetos se basa en los llamados principios de Gestalt [17]. Se resumen a través de la siguiente tabla: Ley Explicación Ejemplo Simplicidad El ser humano prefiere objetos simples, claros y ordenados, pues son concebidos más rápidamente y sin necesidad de reorganización visual. Cierre Si se proporciona la cantidad exacta de información, el ojo humano es capaz de completar el resto por sí mismo y tratar a los distintos objetos o formas como un conjunto. Simetría y orden La simetría precede a la proximidad, y eso se demuestra en formas que el ojo humano tiende a asimilar de forma rápida. Figura y fondo Los objetos de forma convexa y de tamaño más pequeño tienden a ser considerados como figura, mientras que los de forma cóncava y de mayor dimensión se consideran como fondo. Conexiones Los objetos conectados entre sí tienden a concebirse visualmente como un conjunto, aunque existan otros pares de objetos con su misma forma. Regiones comunes Los objetos encerrados conjuntamente tienden a tratarse como un grupo a pesar de que se tengan objetos de su misma forma fuera de esa separación. Proximidad Los objetos separados conjuntamente tienden a tratarse como un grupo a pesar de que se tengan objetos de su misma forma fuera de esa separación espacial. Continuidad Los elementos con una disposición en línea recta o curva son concebidos con relación entre sí por la asimilación de los puntos origen-final. Sincronía Los objetos orientados de la misma forma se conciben con relación entre sí por “dirigirse” a un mismo destino. Paralelismo Los elementos que son paralelos entre sí se consideran que tienen relación o que se pueden tratar como un conjunto aparte del resto. Similitud Los objetos que comparten características similares como forma, color, tamaño y textura son considerados por guardar una relación entre sí. Focalización Los objetos con un punto particular de interés tienden a llamar la atención visual, aunque existan otros muchos de distintas características. Experiencias anteriores Existen ciertos elementos visuales que se conciben de acuerdo a la experiencia con esas características, como por ejemplo asociación de colores. Tabla 2. Leyes de Gestalt sobre el diseño gráfico y la percepción humana. 14 Lo anterior define cómo el ser humano concibe los elementos visuales y de la forma que tiende a agruparlos o buscar relaciones entre ellos a la hora de ser representados. Esto es realmente útil a la hora de resaltar un conjunto de datos del resto y también a la hora de dotar de sentido a lo que a priori parece incoherente [18]. 2.3.3 La teoría del color El sentido que se le puede dotar al color está abierto a subjetividad en todo lo referente al diseño de elementos de visualización de datos. La posible reacción de un sujeto ante determinados conjuntos de colores puede variar en función de múltiples aspectos, partiendo de la edad y llegando incluso a factores éticos y culturales de dicho observador. Desde el punto de vista de DataViz, la teoría del color [19] engloba el modelo HSL que es caracterizado por tres componentes claves: el propio tono de color, la saturación y la luminosidad. Estos se muestran a través de la figura 2 [20]: Figura 2. Componentes de color y sus respectivas escalas en el modelo HSL. • El propio tono de color que se puede encontrar en la paleta de colores convencional, y que en este sistema se puede representar mediante una escala de 0º a 360º en forma de rueda. • La saturación, que marca la intensidad del color. La escala HSL se encarga de medir la diferencia del color con el gris neutro, que tiene 0% de saturación. Los colores con un alto nivel de saturación parecen más brillantes y vivos. • La luminancia describe el rango de variación de un tono de color desde la oscuridad hasta la claridad del mismo. El criterio para ello es la cantidad de color negro añadido. El primer paso en la decisión de colores en una herramienta DataViz determinada es conocer los datos que se quieren representar mediante el color. Hay que ser coherente para poder determinar si realmente los atributos de datos son representables mediante 15 color. Tal y como se ha contemplado en la codificación humana en la percepción visual (ver tabla 1), el tono de color es muy apropiado para representar categorías, mientras que la saturación y la luminancia se asocian generalmente a valores cuantitativos. Una vez se decide que un determinado atributo se va a representar mediante color, el siguiente paso es entender la escala de los datos correspondientes a dicho atributo para poder elegir los tonos de color. Generalmente se puede discernir entre tres tipos de series de datos en función de las cuales se puede hacer una estimación de la cantidad de colores a utilizar: • Datos secuenciales: Cuando se parten de valores bajos que se conoce que tienden a ir hacia valores más altos. Este tipo de datos requieren un solo tono de color y la variación se puede llevar a cabo con el uso de la saturación y luminancia. No obstante, cualquier cambio sutil en estos dos componentes puede resultar difícil de apreciar, por lo que si se tiene un amplio rango de datos reducido se pueden utilizar dos tonos de color distintos. • Datos divergentes: Cuando existen puntos determinantes en el principio y fin de la escala, así como otros puntos importantes justo en mitad de la distribución. Es por ello que este tipo de series de datos requieren dos tonos de color, descendiendo en saturación o luminancia hacia a un tono neutral de gris, blanco o negro. • Datos cualitativos: Son aquellos que no tienen un orden de magnitud claro, y por tanto requieren tantos tonos de color como número de valores. Ante este tipo de serie de datos es importante tener en cuenta que la percepción visual humana comentada anteriormente tiene limitaciones al contemplar un elevado número de colores. Está demostrado que el uso 7 u 8 colores distintos ya requiere de percepción cognitiva además de visual, mientras que el uso de más de 12 provoca problemas de diferenciación en la capacidad humana. Además, la elección de los propios tonos de color dentro de la paleta determina considerablemente la eficacia de la visualización. Esto se basa en la correcta combinación de los colores, pues es cierto que existen ciertos tonos que funcionan juntos mejor que otros. Hoy en día se pueden encontrar herramientas [21] que mediante una rueda de colores computan estas combinaciones en base a la regla de color que convenga para cada caso. Estas reglas de colores se establecen en base a una serie de criterios que se definen a continuación: • La escala monocromática se encarga de jugar con las sombras dentro de un mismo tono de color, lo cual hace que sea ideal para las series de datos secuenciales. 16 Figura 3. Ejemplo de aplicación de regla monocromática en el modelo HSL. • La escala de colores análogos se encarga de establecer un alineamiento de colores entre sí dentro de la rueda de color, por lo que son una alternativa muy correcta desde el punto de vista estético en la representación de datos secuencial. Figura 4. Ejemplo de aplicación de regla de analogía en el modelo HSL. • La escala de colores complementarios son los que se sitúan en lados opuestos de la rueda. Éstos tienen como fortaleza el área de representación que se componga de dos tonos de color, aunque es cierto que si se emparejan con colores neutros (blanco o gris) suponen una combinación perfecta para la representación de datos divergentes. 17 Figura 5. Ejemplo de aplicación de regla de complementación en el modelo HSL. • La triada de colores es una combinación de tres colores espaciados equitativamente entre sí a lo largo de la rueda. Estos suponen un buen punto de comienzo en una serie de datos cualitativa e ir jugando con las sombras de cada uno de ellos. Figura 6. Ejemplo de aplicación de regla de triada en el modelo HSL. Cabe decir que estas cuatro reglas no son ni mucho menos definitivas, pues para acercarse al caso de éxito que persigue una herramienta DataViz éstas se han de complementar con otras buenas pautas. Entre ellas, se encuentra por ejemplo la de no utilizar colores excesivamente saturados en una misma escala, pues podrían abrumar 18 demasiado el gráfico; o la de evitar colores con baja saturación y alto nivel de luminancia, ya que de esta forma no se apreciarían correctamente sin un fondo oscuro. Además, es importante destacar en última instancia que existen ciertos tonos de color que ya están predefinidos o inculcados coherentemente en la sociedad. Un ejemplo de estos últimos podría surgir en la representación de series de datos del partido demócrata o republicano, ya que se podrían asociar los colores azul y rojo respectivamente. 2.3.4 Elementos gráficos en DataViz Ahora que ya nos hemos familiarizado con los fundamentos de la percepción visual y una vez contempladas algunas de las nociones generales de diseño gráfico, se puede dar paso a la visualización de datos como disciplina y a los prototipos de herramientas que la componen. Recordemos que la materia DataViz se encarga de representar ideas complejas llevadas a cabo de forma clara, precisa y eficiente [22]. Para ello, es necesario que los elementos gráficos presentes en cualquiera de sus herramientas posean las siguientes funcionalidades: Figura 7. Esquema de funcionalidades de los elementos gráficos en DataViz. De cualquier forma, todo se resumen a un mismo concepto: la transmisión de información, enfocada a todo usuario que busque cualquier método de razonamiento o conocimiento acerca del dato y a través de un conjunto de imágenes, texto y números. Pues bien, la verdadera utilidad de las herramientas DataViz se tiene cuando estas tres partes (imágenes, texto y números) trabajan como un único mecanismo. Por ejemplo, 19 mostrando en un gráfico numéricamente los datos de los que el visualizador realmente quiere obtener ideas, aportando ciertos comentarios narrativos o ecuaciones a modo de justificación, integrando una leyenda para facilitar la identificación de series de datos, e incluso añadiendo pequeñas tablas con números con tal de ofrecer una mejor relación de la información. Claro está que en la mayoría de ocasiones se dispone de demasiada información y se dedica poco tiempo a gestionarla, por lo que es complicado encontrar la forma de generar elementos visuales que proporcionen una idea clara de los datos y a la vez resulten atractivas para el usuario final. El conjunto de herramientas DataViz que se encarga de esto y por consiguiente de implementar todas las funcionalidades comentadas sobre la figura 7, se dividen en dos partes: la visualización de datos estática y dinámica. Por un lado, la visualización de datos estática es aquella que muestra la información de forma plana, sin permitir al usuario interactuar con el material visual. Un ejemplo de este tipo de DataViz estática son las infografías [23], que tienen como objetivo principal convertir la transmisión de información compleja en una tarea sencilla, tratando de explicar esa información de la forma más amena y artística posible. Estas infografías realmente no solo se muestran gráficos, sino también hechos, líneas de tiempo, historias, recetas, estudios de mercado, tendencias, encuestas, mapas, rutas, ubicaciones, biografías… En la siguiente figura se muestra un ejemplo de infografía: Figura 8. Ejemplo de infografía temporal. 20 Tal y como se puede observar, la infografía anterior representa los eventos que han ocurrido en la evolución del mítico personaje Mario Bros, ofreciendo una fácil comprensión sobre los distintos eventos históricos. No obstante, es una comunicación plana en la que el usuario no puede indagar sobre determinados puntos, y donde no se establecen variaciones en los datos. No obstante, la visualización de datos dinámica se encarga de resolver el problema que deja el anterior, permitiendo al usuario final interactuar con los elementos visuales y navegar entre los datos para poder centrarse en los diferentes puntos de interés aplicando filtros, zoom, y otros muchos elementos de configuración y personalización. Un ejemplo claro de este tipo de herramientas DataViz dinámicas son los dashboards [18], donde en una sola hoja se muestra una visualización gráfica orientada a los objetivos de negocio y monitorización de KPIs (Key Performance Indicator) con tal de optimizar las estrategias en las empresas. A continuación, se representa un ejemplo de dashboard mediante la figura 9: Figura 9. Ejemplo de dashboard orientado a experiencia de cliente. En el anterior dashboard se observa el estado global de los principales indicadores de un negocio, concretamente los enfocados a la experiencia de cliente. Esto quiere decir que en caso de existir algún problema con los parámetros monitorizados se podría detectar y tomar decisiones al respecto; no obstante, en ningún momento se permitiría analizar las causas que originaron dicho problema. 21 2.3.5 Storytelling: la importancia del contexto Es totalmente cierto que los tipos de elementos gráficos explicados anteriormente son altamente influyentes en la creación de herramientas DataViz. Pues bien, a todo esto cabe añadir un factor que en múltiples ocasiones se pasa por alto y tiene un elevado nivel de importancia en esta ciencia: el concepto de Storytelling, o lo que es lo mismo, el talento para contar historias [24]. Esto, en realidad, está ligado en cierto modo al apartado anterior, pues las historias son una forma maravillosa de enfocar la atención humana y ayudar a discernir por qué los datos presentados son importantes o relevantes en alguna parte de nuestra vida. En la siguiente figura [25] se puede observar la importancia del Storytelling en la ciencia DataViz: Figura 10. Relación de Storytelling y DataViz. Las capacidades que ofrece la técnica de Storytelling son las siguientes [26]: • Ilustrar un proceso con la ayuda de herramientas DataViz simples y que el usuario considere fáciles de digerir. • Remarcar líneas de tendencia a través de acontecimientos ocurridos, con el soporte de gráficos de línea, mapas, pie charts, etc… • Apoyar un argumento sólidamente con gráficos personalizados que hagan al usuario interesarse por el contexto. • Conducir las emociones del usuario presentando contenidos visuales de noticias que sigan el hilo y puedan provocar un impacto positivo en el público. • Crear interactividad en las herramientas DataViz ofrecidas al contar la historia para proporcionar al usuario una experiencia personalizada. Claro está que existen algunos conjuntos de datos que únicamente son significativos en un determinado contexto, y aquí es precisamente donde contar una historia a través de ellos se convierte en una acción de valor. Además, la parte del público receptora de 22 cualquiera de estas técnicas de Storytelling tiende a ubicar como punto central de la historia las percepciones gráficas sobre las que ha ido “viajando” en el transcurso de la misma; y esto es debido a que no se está meramente informando al usuario final, sino que se le está aportando entretenimiento de forma constructiva mediante la experiencia [27]. De este modo, la inteligencia de esta metodología se basa en conseguir una mezcla equilibrada entre informar y contar la experiencia, pues es lo que realmente se traduce como un caso de éxito en la comunicación. No obstante, no toda visualización requiere necesariamente una historia, pero sí una meta u objetivo específico en el cual es necesario dotar de un contexto. 2.4 Ámbito de aplicación Ya se ha comentado que el presente Trabajo Final de Máster se enfoca primeramente desde una perspectiva genérica para posteriormente pasar a un caso práctico concreto usando datos de electromiografía. Esto quiere decir que en el próximo capítulo se estudia la metodología CBR que propone recuperar y adaptar visualizaciones en base a una caracterización sintáctica y semántica tanto de las características de los datos, la visualización y los requisitos del usuario; para en el capítulo 4 ser aplicada sobre un caso de estudio en particular y diseñar herramientas DataViz efectivas en plantillas de informes. La coordinación de estas dos materias – CBR y DataViz – para la optimización de informes realmente podría orientarse realmente a cualquier de campo de aplicación donde se la generación de datos por sistemas IoT requieran de explicación visual: • Niveles de contaminación en Smart Cities. • Estado de congestión de las carreteras y otras infraestructuras urbanísticas. • Niveles de consumo en la monitorización de maquinaria en factorías. • Evolución de los niveles de actividad en plantas de producción. • Medición de glucosa, fructosa, sacarosa y otros muchos factores influyentes en la monitorización de pacientes dentro del campo de la Medicina. En nuestro caso, la iniciativa práctica se centra en la toma de respuestas neuromusculares de pacientes asociados a la Medicina del Deporte. Para ello, se parte de una serie de pacientes (o casos), a los que se les ha de asignar (como resolución al problema) una explicación visual personalizada y ajustada a las necesidades de los datos y herramientas DataViz acordes al contexto. Llegados a este punto y hasta el final del presente capítulo se procede a entrar en el contexto que a posteriori va a suponer este caso práctico, por lo que se estudian las técnicas y procesos llevados a cabo en la colecta y tratamiento de datos en una población de pacientes. 2.4.1 Análisis y representación de datos en el ámbito sanitario De forma general, el campo de la Medicina hoy en día es claramente hot-topic en materia de análisis y representación de datos, pues cada vez es mayor la variedad de dispositivos y sistemas encargados de recoger y tratar la información de los usuarios. Esto es, sin duda, consecuencia directa de que el mundo de Internet of Things se esté incorporando en este campo a una velocidad sin precedentes. 23 Por extensión, todo lo referente al ámbito específico de la Medicina de la Educación Física y el Deporte juega un papel clave en el análisis de datos de pacientes debido al tremendo alcance que posee. Dicho alcance se justifica debido a que, de forma general, los datos sanitarios no solamente se componen de la historia clínica, sino que también de cualquier otro recurso relativo a la salud. Esto se traduce en un extenso conjunto datos que contienen información que, a día de hoy, resultaría impensable facilitar a desconocidos [28]. Entre ellos: • Datos que recopilan información y valoraciones sobre la situación o evolución clínica de un deportista o paciente. • Datos relativos al padecimiento (o riesgo) de lesiones, enfermedades o discapacidades. 2.4.2 La electromiografía como ciencia La electromiografía [29] es un procedimiento de diagnóstico que evalúa la condición física de los músculos y las neuronas motrices que los controlan. Por naturaleza, un movimiento neuromuscular consiste en la emisión de señales eléctricas que causan flexión y relajación de los músculos; por lo que un análisis EMG se encarga de traducir estas señales a modo de gráficos o series numéricas que ayudan a los doctores a llevar un diagnóstico. Es así que los médicos (o cualquier experto otro sanitario asiduo) requieren de un análisis EMG para un paciente que tiene algún tipo de síntoma o desorden en las neuromuscular. Estos síntomas incluyen, entre otros: dolor, insensibilidad, debilidad en las extremidades e incluso hormigueos. Para la realización de una prueba EMG se utilizan pequeños dispositivos llamados electrodos que actúan a modo de sensores recogiendo impulsos eléctricos en los movimientos de flexión y contracción de los músculos del paciente. Estos impulsos son los que el especialista requiere de análisis e interpretación para la detección de anomalías. 2.4.3 A quién se dirige Un análisis EMG, al igual que el campo de La Medicina del Deporte en general, está enfocado a [30]: • Personas en busca de soluciones efectivas ante cualquier impedimento físico, enfermedad o discapacidad. • Personas que se quieran iniciar en el deporte y quieran conocer su estado neuromuscular y su riesgo de padecer enfermedades. • Personas con patologías traumatológicas del aparato locomotor que impidan el desgaste físico o incluso ciertos hábitos cotidianos. • Personas que quieran mejorar su actividad física y les permita obtener un mejor performance en los entrenamientos. 24 2.4.4 Responsables del análisis médico Es así que existen una enorme cantidad de entidades por las que pueden pasar los conjuntos de datos desde que se obtienen en la realización de una prueba EMG hasta que se almacenan y se consultan a modo de representación visual. Dichas entidades engloban una serie de expertos que pertenecen a distintas áreas patrimoniales y funcionales [31]. De cualquiera forma, para el caso que nos ocupa se pueden listar de la siguiente forma: • Hospitales y centros de salud. • Clínicas especializadas y farmacias. • Mutuas y compañías aseguradoras. • Empresas dedicadas al desarrollo y gestión de herramientas de uso por profesionales de la salud. • Empresas terceras contratadas con capacidad de acceso y almacenamiento de los datos. 2.4.5 Alcance tecnológico del análisis Así pues, todos los datos recogidos en las pruebas EMG son susceptibles de ser tratados, bien sea de forma escrita en un informe médico o automatizada mediante el soporte técnico más adecuado. Desde un punto de vista tecnológico [32] estos conjuntos de datos podrían ser estructurados mediante un sistema de capas como se muestra en la siguiente tabla junto a un posible ejemplo práctico: Capa Contenido Fuente de datos Origen de la información recogida por los electrodos. Esto es, los impulsos eléctricos correspondientes a los movimientos flexión-relajación de la prueba EMG. Integración Adquisición e incorporación de los datos en las distintas plataformas de software del centro sanitario. Storage Almacenamiento de datos en sistemas Cloud o, como alternativa, en bases de datos de gran envergadura. Computación Cloud Manejo de datos del análisis EMG junto a otros recursos del historial clínico del paciente. Representación y análisis Visualización y generación de informes interactivos que permitan al experto focalizar en la detección de anomalías para un análisis EMG determinado en combinación con otros aspectos recuperados del historial clínico. Tabla 3. Implementación tecnológica del análisis EMG. Para comprobar la envergadura del anterior conjunto de capas y para finalizar la puesta en escena del estado del arte del contexto, se nombran algunas de las muchas aplicaciones prácticas en el campo de la medicina del Deporte y donde se aprecia considerablemente la presencia del análisis EMG como parte sustancial del IoT así como la necesidad de herramientas DataViz [33] para la optimización del análisis: 25 • Monitorización remota de los signos vitales de los deportistas, bien estén en situaciones atléticas normales, de riesgo extremo o bajo supervisión médica. • Tracking del stock de medicación para deportistas o pacientes. • Ubicación tanto de deportistas que hacen uso de wearables como de personas dependientes de profesionales. • Control de la instrumentación de bombeado, paneles analíticos, camas de hospital, etc… 2.5 Recapitulación del estado de la materia El presente capítulo es un precedente claro de cómo el CBR, como técnica de IA, es un sistema que se adecúa perfectamente a cualquier entorno donde existan conjuntos de datos masivos. Cabe añadir que, hoy día, es un hecho que estos conjuntos de datos procedan de numerosas fuentes de dispositivos IoT con un alto nivel de heterogeneidad y en muchas ocasiones totalmente opacos al usuario final, por lo que una propuesta de valor que los sistemas CBR pueden ofrecer en este aspecto es la visualización inteligente de estos datos. Tal y como se ha visto, la ciencia DataViz supone un punto de inflexión en la capacidad de razonamiento humana, convirtiéndose la generación de explicaciones visuales en una forma de inteligencia. Si extrapolamos esto al ámbito sanitario, vemos que la incorporación de nuevos dispositivos IoT encargados de la recogida de datos en este entorno y toda la pila tecnológica que llevan de la mano hace que los expertos sientan real necesidad por disponer de informes donde se puedan interpretar estos datos de forma automática y con la mayor precisión posible, facilitando así la toma de decisiones en sus tareas. En los siguientes capítulos entran en análisis las distintas fases para un sistema CBR genérico e independiente de dominio, de modo que pueda ser reutilizable en cualquier caso de uso que se requiera la recuperación de plantillas de informes donde primen la reutilización y adaptación de elementos gráficos. Esto se lleva a cabo teniendo en cuenta en todo momento el alcance del proyecto global en el que se engloba el presente Trabajo Final de Máster, particularizando en el área de operación del mismo: la propia reutilización y adaptación de elementos DataViz. A pesar de que en el transcurso del tercer capítulo todo esto se toma desde una perspectiva totalmente genérica, a posteriori – en el capítulo 4 – sí se particulariza dentro de este sistema CBR general un sub-sistema que pertenece al dominio específico de la Medicina del Deporte con datos EMG y que consiste en una herramienta de reutilización y adaptación de elementos gráficos. 26 Capítulo 3. Metodología Una vez analizado el estado de la materia que constata el presente Trabajo Final de Máster, se procede mediante este capítulo a describir la parte teórica que corresponde al diseño y desarrollo de un mecanismo inteligente de visualización basado en el paradigma CBR. 3.1 Alcance del desarrollo Antes de nada, cabe decir que el presente Trabajo Final de Máster está ligado a un proyecto con una pretensión global que equivale a la metodología explicada en la sección 2.2: 1. Se dispone de una base de casos de plantillas. 2. Estas plantillas se caracterizan según los tipos de datos a visualizar y la función de visualización apropiada acorde al mensaje que se desea transmitir. 3. La información ha de ser etiquetada correctamente para adaptarla a un caso, que se corresponde con un tipo de plantilla. 4. La plantilla más adecuada se recupera para ser completada con las herramientas visuales reutilizadas y adaptadas a los datos previamente etiquetados. Es por ello que estamos ante un sistema genérico e independiente del dominio que sigue una metodología CBR aplicable a cualquier caso de uso donde prime la recuperación de plantillas de informes. Esto supone lo que en adelante se denomina como sistema CBR general. No obstante, el desarrollo que abarca este Trabajo no se corresponde con todo este ciclo CBR general, sino que toma una parte crucial dentro de éste. Esta parte se corresponde con las acciones de reutilización y adaptación de las visualizaciones, y supone un sub-sistema CBR dentro del ciclo general de la recuperación de plantillas de informes. En el presente capítulo se parte de la comprensión de la base del sistema en su totalidad con tal de profundizar progresivamente en la metodología que ocupa este proyecto. Es precisamente por este motivo que ha de quedar clara la terminología que distingue el sistema CBR general del sub-sistema CBR propuesto para la reutilización y adaptación de elementos gráficos. Todo esto se abarca de forma genérica e independiente del dominio para otorgar de particularización al siguiente capítulo de la memoria. 3.2 Generación de plantillas de informes Tal y como se ha comentado en el capítulo 2, a la hora de transmitir información, independientemente del medio que se trate, es imprescindible tener en cuenta tres necesidades básicas: • La competencia literaria, que define la habilidad para pensar y comunicar con palabras, bien sea en lenguaje hablado o escrito. • El ámbito numérico, que permite la transmisión de información mediante el alfabeto que comprenden los números. • La parte gráfica, que habilita la comunicación mediante imágenes y todo tipo de representaciones visuales. 27 Para una comunicación efectiva estas tres competencias han de tratarse en total concordancia, y un sujeto perfecto para su utilización podría ser un informe correspondiente a cualquier tipo de área funcional [34]. En este caso, resulta más que factible narrar una historia con los datos y tener la capacidad de aportar valor a la vez que se transmite la información, con la finalidad de crear un cierto nivel de fidelización en el público al cual va dirigido. Si un informe se divide de forma sustancial se pueden diferenciar claramente el contenido comentado en los tres puntos anteriores, teniendo la parte numérica como un punto de la narrativa que complementa la parte literaria y permite cuantificar los datos de forma alternativa a las palabras. En la figura 11 queda representado un pequeño esquema: Figura 11. Partes sustanciales de un informe. El uso de estos informes en nuestra metodología se basa un sistema CBR general donde los casos son las propias plantillas de informes. No obstante, además existe otro CBR que se utiliza para recuperar y adaptar los gráficos, es decir, son los elementos visuales los propios casos que se recuperan y adaptan para ser objeto de reutilización junto a elementos de texto. Esto se muestra en la figura 12: Figura 12. Esquemas de ciclo general para la recuperación de informes y ciclo secundario para la reutilización y adaptación de sus elementos sustanciales. 28 Ya se ha comentado en el transcurso de los anteriores apartados que en este proyecto se propone un enfoque CBR para aportar explicaciones visuales dentro de plantillas de informes y representar información de forma cuantitativa y cualitativa. Además, también se ha aclarado en el capítulo 1 que el objetivo específico de este Trabajo Final de Máster se centra en la parte visual de las explicaciones, y no en los textos, por lo cual el resto de documento se enfoca única y exclusivamente la información visual que ocupa dicha parte de los informes. 3.3 Sistemas de automatización de datos Los sistemas CBR que se encargan de resolver la tarea principal de presentar datos en forma gráfica de manera automática ofrecen un conjunto de reglas que eligen por sí mismas entre distintos enfoques de representaciones visuales, lo cual hace que se simplifiquen notablemente las actividades de un programador de diseño de herramientas de DataViz evitando la necesidad de ajuste y representación de los datos cada vez que se actualiza un campo de salida dentro del conjunto. 3.3.1 Ciclo CBR para la finalización de informes El ciclo CBR general propuesto que se encarga de la recuperación de informes tiene como caso base el conjunto de plantillas cuyos huecos se pretenden rellenar con información visual. Así pues, tiene el aspecto que se indica en la siguiente figura: Figura 13. Ciclo CBR para la agregación de elementos gráficos en plantillas de informes [13]. 29 Con respecto a este ciclo se destacan los siguientes puntos: 1. Primeramente, la petición de entrada es el propio material visual (chart), que a su vez viene acompañado de: a. Conjunto de datos que se pretende agregar al informe. b. El sujeto al cuál se dirige el mensaje del informe. c. Las principales funciones de visualización. 2. En segundo lugar, la fase de recuperación de la plantilla de informe se basa en los modelos previos de plantillas de los que se dispone como caso base. 3. Seguidamente, la etapa de reutilización es la que comprende el segundo ciclo CBR para la recuperación y la adaptación de gráficos. Es decir, se consigue sustituir los huecos con los gráficos adecuados según la función de visualización y el conjunto de datos. Aquí se ha de tener en cuenta el tipo de gráfico apropiado a la función de visualización y a los datos de los que se disponen, así como los colores, formas y tamaños a utilizar para causar un buen impacto en el espectador. Los principios de Gestalt comentados en el capítulo anterior juegan un papel muy importante en la utilización de gráficos para captar la atención del usuario final. Cabe decir también que otro elemento de importancia en este segundo ciclo CBR que comprende la reutilización sería la adaptación de elementos textuales, lo cual queda fuera de los objetivos iniciales de este trabajo. 4. Una vez se recupera el gráfico, se sugieren los elementos visuales que mejor se adaptan a los datos de entrada y a los huecos del informe. 5. Así pues, a continuación se hace efectiva la fase de revisión para comprobar que los gráficos aportan valor al texto en el Storytelling, y por consiguiente que el informe es efectivo en su totalidad. Esto da paso a la siguiente etapa, que consiste en: 6. La interacción del usuario con los elementos visuales de dicho informe para posibilitar el aprendizaje, basándose en la observación y memorización de las configuraciones realizadas: vista general, zoom en las distintas partes, selección de rangos, exploración, extracción, filtrado, conexión… 7. Por último, en base a esta personalización, el sistema establece el caso aprendido eligiendo el valor inicial para las características visuales. Características como el tamaño de línea, color y grosor son retroalimentados de acuerdo a los datos y funciones de visualización tomados en el proceso. Estos cambios se almacenan en los ajustes del caso base. 3.3.2 Jerarquía CBR para la finalización de informes Para diseñar los elementos de visualización acordes a este ciclo y cumplir la efectividad en la transmisión de información [35] es necesario disponer de una serie de criterios que se apoyen básicamente sobre: • Las propiedades de la información que se pretende visualizar en base a los objetivos y las preferencias que el usuario persigue con la visualización. • Las relaciones que tienen los datos entre sí y con el contexto, tratando la información dentro de un dominio específico y definiendo una taxonomía de análisis de datos que se pueda utilizar para caracterizar información heterogénea. • Las técnicas visuales más apropiadas dentro de un determinado diseño, conociendo todos sus principios y sumando el valor que aporta la metodología del storytelling. 30 Un sistema muy apropiado para la generación y explicación de gráficos automáticos es el llamado SAGE [36], cuyo funcionamiento se basa en representar las principales características de los datos de un usuario considerando en todo momento las funcionalidades y estructuras soportadas por cada tipo de forma gráfica. La arquitectura de dicho sistema se representa mediante la Figura 14: Figura 14. Arquitectura SAGE para la comunicación entre aplicaciones y sistemas gráficos. En el anterior proceso se puede contemplar que el sistema SAGE se encarga principalmente de articular una aplicación con su correspondiente parte gráfica con tal de obtener una salida en forma de explicación visual. La aplicación que se expone en la figura 14 puede ser cualquier interfaz de generación de informes encargada de realizar consultas al sistema Cloud o de bases de datos responsable de almacenar y estructurar la información según las entradas de los datasets. Una vez se obtiene esta información útil, la aplicación debe comunicar al sistema gráfico las necesidades de representación que requieren las salidas de los conjuntos de datos, de modo que finalmente se apliquen conocimientos de diseño DataViz para la selección y síntesis de técnicas gráficas apropiadas para una eficiente transmisión de las explicaciones al usuario final. Si nos fijamos, esto es totalmente acorde al objetivo del sub-sistema CBR comentado, que se encarga de la reutilización y adaptación de elementos visuales. Es más, echando la vista a lo comentado en el anterior apartado de informes, vemos que esta metodología encaja perfectamente de la siguiente forma: en cada informe (correspondiente al ciclo CBR general) existen huecos para gráficos y, dependiendo de la descripción y particularización de dicho hueco, se pueden recuperar unos datos u otros expresados de forma gráfica (sub-ciclo CBR de reutilización y adaptación). A continuación, se comentan las cuatro fases del proceso CBR como cuatro tareas estructuradas de forma jerárquica y que han de realizarse para cumplir con la tarea principal que propone SAGE, que no es otra que la óptima generación de explicaciones visuales. 3.3.2.1 Tarea de recuperación La primera tarea de la jerarquía se divide en cuatro subtareas, mediante las cuales se identifican y procesan las entradas de datos, se asocian a casos anteriores parecidos, y finalmente se selecciona el óptimo. Se muestra la siguiente figura: 31 Figura 15. Jerarquía de subtareas para la recuperación de un gráfico en un hueco de informe. Tal y como se observa, el conocimiento de los diseños no depende específicamente de la aplicación y por tanto el sistema no reconoce a priori de forma particular el tipo de datos ni las relaciones que existen entre ellos mientras están almacenados, sino que esto es necesario expresarlo en términos de caracterización de la información. La caracterización de información permite entender las entradas de datos para un gráfico de una forma personalizada, lo cual hace que se entienda la elección del gráfico en base a un contexto determinado. Debido a la alta importancia que cobra esta subtarea, en los siguientes apartados se definirá y representará explícitamente la caracterización de datos y gráficos para que un sistema pueda tomar decisiones a la hora de presentar la información gráfica en plantillas de informes. Una vez caracterizada la información, se tienen los gráficos candidatos a completar un hueco de la plantilla y se puede realizar un primer tanteo en el que se evalúe el acercamiento del gráfico al contexto de la información. Este acercamiento permite a posteriori elegir el gráfico correcto en función de los casos similares anteriores y la red semántica definida. 3.3.2.2 Tarea de reutilización La reutilización del caso recuperado se enfoca desde dos perspectivas. Por un lado, las diferencias entre gráfico previamente seleccionado y el actual; y por otro, la adaptación de funcionalidades que el gráfico anterior puede ser transferido al nuevo gráfico. Se muestra en la figura 16: 32 Figura 16. Jerarquía de subtareas para la reutilización de un gráfico en un hueco de informe. La reutilización trivial de un gráfico es su propio duplicado; no obstante, la aplicación de este método normalmente no implica la resolución de la tarea ya que se necesita una adaptación entre el gráfico previo y el nuevo. Por un lado, se contempla la equivalencia entre gráficos, por lo que se requiere una fuerte dependencia de las características contextuales con tal de generar los operadores transformacionales ligados a los atributos del nuevo gráfico. Por otro lado, también se contempla la forma en la que se resolvió la tarea de recuperación en el gráfico que se duplica. Esto es, el gráfico original posee metadatos sobre la resolución de la tarea de recuperación sobre sí mismo, justificando el tipo de caracterización gráfica que se realizó, el tipo de informe para el cual estaba preparado, etc… Este gráfico original ahora duplicado es el más similar a al nuevo gráfico, y lo que se plantea es una serie de alternativas para el nuevo caso de contexto. Un ejemplo de esto podría ser la modificación de los colores para el nuevo gráfico en caso de que se quieran representar unas características acordes a una paleta determinada. 3.3.2.3 Tarea de revisión Cuando un gráfico reutilizado no es el correcto, la metodología CBR sugiere una oportunidad de aprender del fallo generado. Para completar esta tarea se sigue la jerarquía mostrada en la figura 17: 33 Figura 17. Jerarquía de subtareas para la revisión de un gráfico en un hueco de informe. En primer lugar, se evalúa el gráfico dotándolo de opción de consulta; por un lado, a un experto en DataViz para comprobar la reutilización de los atributos gráficos; y por otro, a un experto en la materia contextual que sea capaz de asegurar si el gráfico elegido realmente proporciona conocimiento sobre los conjuntos de datos que originalmente se introdujeron en el sistema CBR. Al requerir de operación externa al sistema, esta tarea implica que nuestra metodología tome tiempo para la evaluación del caso. En caso de que el gráfico necesite ser modificado el sistema aprende la solución tomada para revisar de nuevo que se encuentra ante el gráfico adecuado al hueco del informe. No obstante, si el fallo persiste, se puede tomar acción manual para la personalización de los atributos visuales a los datos de entrada. 3.3.2.4 Tarea de retención Tras la correcta personalización del gráfico para las entradas de datos propuestas, la última tarea del proceso se basa en la retención de la información por parte del sistema para incorporarlo en su base de conocimiento. El aprendizaje de acierto o fallo en la personalización del gráfico viene determinado por el proceso de evaluación y posible reparación del gráfico, pues en base a esto se determina qué información del gráfico hay que retener, en qué forma se debe hacerlo, cómo indexar este gráfico para otros casos de informes similares y cómo integrar el nuevo caso en la estructura de la memoria del sistema. Para completar esta tarea se sigue la jerarquía mostrada en la figura 18: 34 Figura 18. Jerarquía de subtareas para la retención de un gráfico en un hueco de informe. La Base de Casos de elementos visuales para la complementación de plantillas de informes se actualiza independientemente de la forma en la que se elija el gráfico. De modo que: • Si se resuelve mediante el uso de un gráfico anterior, se podría construir uno nuevo a partir del caso similar, tal y como se ha comentado previamente. • Si el gráfico se construye por otros medios (como por ejemplo con la ayuda externa de un usuario), de forma irrevocable habría que generar un nuevo gráfico de forma completa. De cualquier manera, además del propio gráfico se ha de extraer siempre una explicación u otra forma de justificación de la personalización del mismo, así como otros valores descriptivos relevantes. Sin ir más lejos, un buen hábito en la retención de información es la diferenciación de los casos de fallo en la tarea de revisión y la asociación entre ellos. Esto permite buscar patrones y establecer recordatorios en el sistema para en la reutilización de casos similares tomar acciones apropiadas, así como entender y corregir de forma inmediata fallos parecidos en la tarea de revisión. Así pues, una vez se extrae la cantidad de información adecuada, se indexa de forma directa en función de la caracterización de datos de entrada; y de forma indirecta mediante las justificaciones tomadas en el proceso. Esto quiere decir que las características primarias indexadas son en realidad la propia caracterización de datos y 35 gráficos, y cuando entra un nuevo tipo de datos éstas se reajustan para mantener un mismo patrón en la memoria de casos. De otra forma, las características asociadas a las primarias son las indexadas como secundarias y tienen información relativa a las acciones tomadas en el proceso. Un ejemplo de ajuste de índices puede resultar efectivo con el uso de una matriz capaz de relacionar características sintácticas con características semánticas, para así asignar unos pesos a cada relación y que estos pesos se vayan actualizando en función del feedback por parte de expertos en el contexto. Esta valoración indicaría el acierto o fallo de la personalización del gráfico y por tanto el reajuste de los índices primarios. Con todo esto, la tarea principal de personalización de gráficos para la complementación de informes en un proceso CBR termina con la subtarea de integración y actualización de la base de conocimiento del sistema, donde se queda a la espera de la introducción de un nuevo conjunto de datos a representar. 3.4 Caracterización de datos Se ha visto que la caracterización de datos supone una tarea imprescindible en el ciclo CBR general de la recuperación de plantillas de informes. Esta caracterización de datos persigue primordialmente el reconocimiento y la clasificación de nuevas entradas de datos para aplicar algoritmos y técnicas de captura de características, patrones, predicciones, anomalías y dependencias con otros tipos de variables. Así pues, aquí entran en juego diversas técnicas que engloban desde procesos de filtrado y limpieza de datos hasta algoritmos de analítica avanzada. Esto permite, entre otros aspectos, el estudio de los conjuntos de datos y su evolución en distintos periodos temporales, establecer patrones y buscar tendencias inesperadas; y cómo no, analizar cómo se relacionan los datos con el contexto. Toda caracterización efectiva de datos [37] ha de presentar un enfoque lo suficientemente flexible para acomodar nuevos tipos de datos, así como un alto nivel de comprensibilidad para capturar la relación entre la información y el entorno gráfico apropiado. Los puntos para proceder a explicar la caracterización de datos son: • Análisis de las características utilizadas. • Relación entre los conjuntos de información de carácter heterogéneo, tanto cuantitativa como cualitativa, en entornos dinámicos y estáticos. • Características de datos que se han de mapear con técnicas gráficas. De forma general, el sistema SAGE comentado anteriormente sobre la figura 14 divide en tres las dimensiones utilizadas para describir las características de los datos. Se esquematizan a continuación: Dimensión Definición Orden Orden en el que se exponen los datos. Bien sea cuantitativamente, ordinalmente e incluso sin seguir un orden determinado Tipo Si se dispone de factores de medida o cantidades de datos en función de unas coordenadas. Dominio Categorías conocidas como el tiempo, espacio, masa… Tabla 4. Categorización de las características de los datos impuestas en el sistema de automatización SAGE. 36 Las entradas de datos se categorizan según las anteriores dimensiones, y para cada elemento de los conjuntos se tiende a observar unas determinadas relaciones o reglas de mapeado, que se basan en las siguientes premisas: • Qué elemento de un conjunto de datos tiene al menos otro elemento en común con otro conjunto. Es decir, la búsqueda de relaciones como tal. • La cantidad de elementos que pueden ser mapeados desde un conjunto de datos de procedencia a otro, como bien pueden ser el conjunto de características básicas entre dos datos con la misma estructura. • Si existe una exclusividad para el mapeado, en caso de que los elementos de un conjunto de datos estén estrictamente ligados a otros, como bien puede ser un número identificador. En el caso que nos ocupa, para la reutilización y adaptación de gráficos en un hueco de informe se han de establecer una serie de etiquetas y concebir un lenguaje común entre los datos cuantitativos y el contexto. 3.4.1 Etiquetas sintácticas De forma general, las etiquetas sintácticas son parámetros que encargan de describir cálculos numéricos sobre una población, de modo que se haga referencia a algunos de sus aspectos estadísticos y probabilísticos que influyen sobre ella. Así pues, la utilidad del dato desde el punto de vista matemático implica que exista cierta distinción entre la ciencia de la estadística y la probabilidad [38]. Esto se justifica ya que la estadística ofrece compresión y análisis, por un lado; mientras que la probabilidad ofrece una predicción y unas posibles consecuencias en base a modelos aleatorios. De cualquier forma, se estudian a continuación ambos tipos de etiquetado sintáctico. 3.4.1.1 Etiquetas estadísticas Para comenzar nos centramos en la perspectiva estadística, que permiten entender los datos numéricos (o parámetros) presentados de una forma ordenada y, en cierto modo, sistemática. Estos conjuntos de datos estadísticos se dividen en cuatro grupos [39]. Por un lado, las etiquetas sintácticas referentes a la posición de los datos dentro de la población dividen un conjunto de datos en grupos con la misma cantidad de muestras. Se debe destacar el término: • Cuartil: Valor que establece un cuatro de la distribución de datos. En toda muestra existen tres cuartiles; de modo que el primero deja un cuarto de distribución por debajo, y el tercero deja un cuarto por encima. El segundo, por tanto, es precisamente el que establece la mitad de la muestra (mediana) dentro de esas cuatro partes proporcionalmente iguales. • Percentil: Valor de variable por debajo del cual se encuentra el porcentaje de una frecuencia acumulada dentro de la muestra. Por ejemplo, el percentil de orden 30 deja por debajo al 30% de los datos de una muestra, mientras que el 70% quedaría por encima. En segundo lugar, las medidas de centralización indican valores con respecto a los que los datos parecen agruparse. Éstas son: 37 • Valor medio: Describe la tendencia central de los datos en base a todas las observaciones. Ésta puede verse afectada por los picos de distribución. • Mediana: Hace referencia al valor que divide las observaciones en dos grupos con el mismo número de muestras. Es conveniente utilizarlo cuando los datos no son asimétricos. Equivale al percentil 50. • Moda: Equivale a los valores donde la distribución de frecuencia de los datos alcanza su máximo. Así pues, las etiquetas que marcan la dispersión de una muestra son las que indican la mayor o menor concentración de los datos con respecto a las anteriores medidas de centralización. • Picos de distribución: Son los valores críticos dentro de la muestra, tanto por la parte que respecta a valores elevados como a valores bajos. De cualquier forma, ambos permiten identificar un posible valor atípico o un error en los inputs. • Rangos: Se trata de la diferencia entre los valores mayores y menores dentro de una misma población. • Varianza: Mide la dispersión alrededor de la media. Cuanto más pequeña sea, quiere decir que más concentrados se encuentran los puntos alrededor de dicho valor promedio. Sus unidades son el cuadrado de las de la variable, por tanto es muy sensible a valores extremos, que se alejan de la media notablemente. • Desviación típica: Es la raíz cuadrada de la varianza, y por ello posee la misma dimensionalidad que la variable. Cabe destacar dos factores con respecto a esto: o Centrando en la media y a una unidad de desviación típica de distancia, se tiene más de la mitad (68%) de las observaciones. o A dos unidades de desviación típica con respecto a la media se tiene casi todas las muestras (95%). Por último, las etiquetas sintácticas de distribución se encargan de informar sobre la forma en la que se organizan los datos dentro de la población. Aquí destacan: • Coeficiente de simetría: Se encarga de medir si la muestra de datos se distribuye de igual forma en ambos lados de la media. o Si el coeficiente es negativo, la dispersión se vuelca mayoritariamente hacia la izquierda de la media. o Si el coeficiente es cero, la muestra es simétrica alrededor de la media. o Si el coeficiente es positivo, la dispersión se vuelca mayoritariamente hacia la derecha de la media. 3.4.1.2 Etiquetas probabilísticas Distinguiendo de lo anterior, las etiquetas probabilísticas comprenden el conjunto de datos numéricos que, además de haber realizado cálculos sobre ellos, tienen un determinado grado de aleatoriedad. Como las etiquetas sintácticas se particularizan por tener varios tipos de variables independientes, es completamente necesario determinar los modelos probabilísticos más utilizados [40] en la relación de dichas variables. Para ello nos vamos a basar en el diagrama de dispersión donde cada punto hace referencia a una muestra, y donde se pretende reconocer si existe relación entre las variables, de qué tipo es ésta y la posibilidad de predecir el valor de una de ellas en función de la otra [41]. 38 Por un lado, la correlación comprende el grado de asociación entre dos variables [42]. Se expresa mediante un coeficiente (r), que se define según la ecuación 3.2: 𝑟 = 𝑛 𝑥%𝑦% − 𝑥% 𝑦% 𝑛 𝑥%) – ( 𝑥%) ) 𝑛 𝑦%) – ( 𝑦%) ) (3.1) El rango de valores de r oscila entre -1 y 1, de modo que: • Si r=1, existe una correlación positiva perfecta; es decir, una relación directa entre las variables. Cuando una aumenta, la otra también lo hace de forma proporcional. • Si 0