Aviso: para depositar documentos, por favor, inicia sesión e identifícate con tu cuenta de correo institucional de la UCM con el botón MI CUENTA UCM. No emplees la opción AUTENTICACIÓN CON CONTRASEÑA
 

easyMahout : entorno de ejecución de algoritmos inteligentes de Mahour para Hadoop y Big Data

dc.contributor.advisorGarmendia Salvador, Luis
dc.contributor.advisorAlcaraz Calero, José María
dc.contributor.authorSánchez González, Javier
dc.contributor.authorLaurentiu Dulceanu, Anghel
dc.contributor.authorSan Gabino Moreno, Daniel
dc.date.accessioned2023-06-19T16:06:35Z
dc.date.available2023-06-19T16:06:35Z
dc.date.issued2014
dc.descriptionProyecto de Sistemas Informáticos (Facultad de Informática, Curso 2013-2014)
dc.description.abstract"easyMahout" es un proyecto que tiene como objetivo hacer fácil lo difícil. Nos referimos a la utilización de algoritmos de minería de datos a través de Apache Mahout y Apache Hadoop. Hasta este momento, para utilizar las herramientas que nos ofrecían tanto Mahout como Hadoop necesitábamos de un conocimiento alto en lo referente al sistema operativo GNU/Linux, al uso de comando Shell y una gran inversión de tiempo en aprendizaje y configuración. El objetivo de este proyecto es ofrecer al usuario una interfaz gráfica fácil, simple y sencilla, es decir, intuitiva. Aunque a primera vista podría parecer una interfaz demasiado simple, easyMahout esconde en sus entrañas una completísima funcionalidad y configuración de sus algoritmos, permitiéndonos hacer fácilmente, lo que hasta ahora era una serie interminable de comandos para construir sistemas de recomendación, agrupamiento o clasificación. El modo de empleo es directo, el usuario ofrecerá los datos de entrada a la aplicación, así como una serie de parámetros necesarios para la correcta ejecución de los mismos, y obtendrá los resultados. El usuario podrá cambiar ciertos parámetros desde la interfaz, ajustando los algoritmos a sus necesidades y podrá observar la variación de los resultados hasta encontrar la configuración óptima para sus datos. La aplicación tiene la posibilidad de generar sistemas de recomendación, clustering y clasificación de datos genéricos de cualquier tipo, siempre y cuando tengan una estructura homogénea. El software “easyMahout” está dirigido a usuarios con cierto conocimiento en el uso de estos algoritmos de minería de datos, pudiendo así explotar el 100% de la funcionalidad que ofrece nuestra aplicación. Sin embargo, el funcionamiento es tan sencillo que cualquier persona será capaz de utilizarla con la ayuda de la lectura de esta memoria. Una vez entendida la utilidad de la aplicación, también es importante explicar el ámbito en el que se encuentra. Hasta ahora, el lector podría pensar que no ofrecemos nada nuevo con respecto a otras aplicaciones de minería de datos. Esto es porque todavía no hemos introducido Apache Hadoop, ni el concepto de Big Data. Apache Hadoop es un framework para trabajar con aplicaciones altamente distribuidas, es decir, trabajar con miles de nodos y petabytes de datos usando un relativamente nuevo paradigma de programación: MapReduce. ¿Qué ofrece nuestra aplicación que no ofrece ninguna otra? La posibilidad de ejecutar estos algoritmos escritos en MapReduce, con todos los beneficios que ello conlleva, a través de una aplicación fácil como la propuesta en este proyecto.
dc.description.abstract"easyMahout" aims to make the use of distributed data mining algorithms available in Apache Mahout and Apache Hadoop easier. Currently, in order to use the algorithms offered by both Mahout and Hadoop, it is required a high knowledge of the GNU/Linux operating system, Shell command and a large investment in time discovering how to run and set up the framework. The main aim of this project is to offer the user an intuitive, easy and simple graphical user interface. At first glance, it might seem too simple; easyMahout hides in her womb a very complete functionality and configuration of its algorithms, allowing easily for new functionalities which right now entails an endless series of commands to build recommender, clustering or classification systems. The usage of easyMohout is straightforward, the user provides the input data to the application as well as a number of parameters required for the proper execution of the same, and he gets the results.The user is able to change certain parameters adjusting the algorithms to better suits his needs and he will see the variation in the results to find the proper configuration for his data. The application has the ability to generate recommender, clustering and classification systems of generic data of any kind, with the only restriction that they have to have a homogeneous structure. The "easyMahout" software is intended for users with some knowledge in the use of these data mining algorithms in order to exploit 100% of the functionality offered in easyMahout. However, the operation is so simple that anyone will be able to use it with the help of reading this document. Once the utility of the application has been presented to the reader, it is also important to explain the context in which it is developed. The reader might think that this project does not offer something new to those other data mining applications. The reason is because we have not introduced Apache Hadoop, and Big Data concepts yet. Apache Hadoop is a framework to work with highly distributed applications, like for instance, works with thousands of nodes and petabytes of data using a relatively new programming paradigm: MapReduce. What makes our application unique? The ability to run these algorithms written in MapReduce language, with all its benefits, through an easy application like ours.
dc.description.departmentDepto. de Ingeniería de Software e Inteligencia Artificial (ISIA)
dc.description.facultyFac. de Informática
dc.description.refereedTRUE
dc.description.statusunpub
dc.eprint.idhttps://eprints.ucm.es/id/eprint/26534
dc.identifier.urihttps://hdl.handle.net/20.500.14352/36263
dc.language.isospa
dc.page.total127
dc.relation.ispartofseriesTrabajos de curso (Departamento de Ingeniería del Software e Inteligencia Artificial, FDI)
dc.rights.accessRightsopen access
dc.subject.cdu004.6(043.3)
dc.subject.cdu004.41(043.3)
dc.subject.keywordInterfaz gráfica
dc.subject.keywordRecomendación
dc.subject.keywordClustering
dc.subject.keywordClasificación
dc.subject.keywordMahout
dc.subject.keywordHadoop
dc.subject.keywordMinería
dc.subject.keywordBig Data
dc.subject.keywordMapReduce
dc.subject.keywordAlgorithmos distribuidos
dc.subject.keywordGraphic interface
dc.subject.keywordRecommendation
dc.subject.keywordClassification
dc.subject.keywordMAhout
dc.subject.keywordMining
dc.subject.keywordDistributed
dc.subject.ucmBases de datos (Informática)
dc.subject.ucmSoftware
dc.subject.unesco3304.16 Diseño Lógico
dc.titleeasyMahout : entorno de ejecución de algoritmos inteligentes de Mahour para Hadoop y Big Data
dc.typecoursework
dspace.entity.typePublication
relation.isAdvisorOfPublication3da93fd6-23bb-4122-a8e6-e2cee2ed6749
relation.isAdvisorOfPublication.latestForDiscovery3da93fd6-23bb-4122-a8e6-e2cee2ed6749

Download

Original bundle

Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
Memoria easyMahout - Sistemas Informáticos.pdf
Size:
4.51 MB
Format:
Adobe Portable Document Format