Person: Piñuel Moreno, Luis
Loading...
First Name
Luis
Last Name
Piñuel Moreno
Affiliation
Universidad Complutense de Madrid
Faculty / Institute
Ciencias Físicas
Department
Arquitectura de Computadores y Automática
Area
Arquitectura y Tecnología de Computadores
Identifiers
15 results
Search Results
Now showing 1 - 10 of 15
Publication Estructura de Computadores. Manual de Laboratorio.(Autoeditado, 2020) Tenllado van der Reijden, Christian; Piñuel Moreno, LuisEste manual se ha diseñado como soporte para el laboratorio Estructura de Computadores (EC), impartida en la titulación de Ingeniería Electrónica de Comunicaciones de la Facultad de CC. Físicas de la UCM. La asignatura de EC presenta al alumno una visión global del funcionamiento de un computador y su comunicación con el mundo exterior, a partir de los conocimientos adquiridos en las asignaturas previas de Circuitos Digitales e Informática. Concretamente se estudia el modelo de computador von Neumann y se analiza un posible diseño de procesador básico con subsistemas de memoria y entrada/salida simplificados. El laboratorio asociado se centra principalmente en estudiar en detalle el modelo de máquina ofrecido al programador, es decir, la arquitectura del repertorio de instrucciones (interfaz HW/SW), y los mecanismos de entrada/salida (comunicación del computador con el mundo exterior). El estudio del lenguaje ensamblador es por tanto un vehículo fundamental para que el alumno comprenda el funcionamiento básico de un computador y que entienda qué tipo de código máquina podrá ser generado a partir del código de alto nivel que escriba. Por ello, en este laboratorio describimos el proceso de compilación, ensamblado y enlazado para que el alumno pueda comprender el problema que resuelve cada una de estas etapas, y, en caso de error, sepa en cuál de ellas se produce. Para montar este laboratorio se escogió una plataforma experimental económica basada en la placa Raspberry Pi 1, con un ARM1176JZF-S. La selección de la familia ARM se debe principalmente a la sencillez de su repertorio de instrucciones RISC y al enorme éxito que dicha familia tiene en el mercado de los sistemas empotrados. Cuando se montaron los laboratorios esta placa ofrecía una buena relación calidad/precio y parecía adaptarse bien al laboratorio. Sin embargo, hoy en día podemos encontrar otras placas en el mercado más adecuadas para este laboratorio, a un coste similar y con mejor documentación. Por ello, en un futuro próximo se pretende adaptar este laboratorio al uso de otra placa. Este manual servirá tanto de apoyo para la realización de las prácticas de laboratorio como de libro de texto para la programación en ensamblador y la arquitectura del repertorio de instrucciones del ARM1176JZF-S.Publication Short term cloud nowcasting for a solar power plant based on irradiance historical Data(Universidad Nacional de La Plata, 2018-12) Caballero Roldán, Rafael; Zarzalejo Tirado, Luis Fernando; Otero Martín, Álvaro; Piñuel Moreno, Luis; Wilbert, StefanThis work considers the problem of forecasting the normal solar irradiance with high spatial and temporal resolution (5 minutes). The forecasting is based on a dataset registered during one year from the high resolution radiometric network at a operational solar power plan at Almeria, Spain. In particular, we show a technique for forecasting the irradiance in the next few minutes from the irradiance values obtained on the previous hour. Our proposal employs a type of recurrent neural network known as LSTM, which can learn complex patterns and that has proven its usability for forecasting temporal series. The results show a reasonable improvement with respect to other prediction methods typically employed in the studies of temporal series.Publication A power-efficient and scalable load-store queue design(Springer-Verlag Berlin, 2005) Castro, F.; Chaver Martínez, Daniel Ángel; Piñuel Moreno, Luis; Prieto Matías, Manuel; Huang, M. C.; Tirado Fernández, FranciscoThe load-store queue (LQ-SQ) of modem superscalar processors is responsible for keeping the order of memory operations. As the performance gap between processing speed and memory access becomes worse, the capacity requirements for the LQ-SQ increase, and its design becomes a challenge due to its CAM structure. In this paper we propose an efficient load-store queue state filtering mechanism that provides a significant energy reduction (on average 35% in the LSQ and 3.5% in the whole processor), and only incurs a negligible performance loss of less than 0.6%.Publication Write-aware replacement policies for PCM-based systems(Oxford Univ Press, 2015-09) Rodríguez, Rodríguez; Castro Rodríguez, Fernando; Chaver, D.; González Alberquilla, R.; Piñuel Moreno, Luis; Tirado Fernández, FranciscoThe gap between processor and memory speeds is one of the greatest challenges that current designers face in order to develop more powerful computer systems. In addition, the scalability of the Dynamic Random Access Memory (DRAM) technology is very limited nowadays, leading one to consider new memory technologies as candidates for the replacement of conventional DRAM. Phase-Change Memory (PCM) is currently postulated as the prime contender due to its higher scalability and lower leakage. However, compared with DRAM, PCM also exhibits some drawbacks, like lower endurance or higher dynamic energy consumption and write latency, that need to be mitigated before it can be used as the main memory technology for the next generation of computers. This work addresses the PCM endurance constraint. For this purpose, we present an analysis of conventional cache replacement policies in terms of the amount of writebacks to main memory that they imply and we also propose some new replacement algorithms for the last-level cache (LLC) with the goal of cutting down the write traffic to memory and consequently, to increase PCM lifetime without degrading system performance. In this paper, we target general purpose processors provided with this kind of non-volatile main memory and we exhaustively evaluate our proposed policies in both single- and multi-core environments. Experimental results show that, on average, compared with a conventional Least Recently Used (LRU) algorithm, some of our proposals manage to reduce the amount of writes to main memory up to 20-30% depending on the scenario evaluated, which leads to memory endurance extensions of up to 20-45%, also reducing the energy consumption in the memory hierarchy by up to 9% and hardly degrading performance.Publication Wavelet transform for large scale image processing on modern microprocessors(Springer-Verlag Berlin, 2003) Chaver Martínez, Daniel Ángel; Tenllado van der Reijden, Christian; Piñuel Moreno, Luis; Tirado Fernández, FranciscoIn this paper we discuss several issues relevant to the vectorization of a 2-D Discrete Wavelet Transform on current microprocessors. Our research is based on previous studies about the efficient exploitation of the memory hierarchy, due to its tremendous impact on performance. We have extended this work with a more detailed analysis based on hardware performance counters and a study of vectorization, in particular, we have used the Intel Pentium SSE instruction set. Most of our optimizations are performed at source code level to allow automatic vectorization, though some compiler intrinsic functions have been introduced to enhance performance. Taking into account the abstraction at which the optimizations are performed, the results obtained on an Intel Pentium III microprocessor are quite satisfactory, even though further improvement can be obtained by a more extensive use of compiler intrinsics.Publication SUPERSONIC-V: deSarrollo de entornos virtUales Para dEspliegue de haRdware baSadO eN rIsC-V(2023-07-14) del Barrio García, Alberto Antonio; Botella Juan, Guillermo; Piñuel Moreno, Luis; Roa Romero, Carlos; Murillo Montero, Raúl; Mallasén Quintana, DavidTradicionalmente la docencia en el área de Arquitectura y Tecnología de Computadores durante todo el grado se centra en explicar conceptos relacionados con la construcción de un procesador. No obstante, las prácticas de laboratorio en general no tratan con la implementación de un procesador real. Desde 2010 ha aparecido la ISA open-source RISC-V, la cual permite añadir instrucciones y modificar los cores desarrollados a partir de ésta. Una muestra de esta característica son los 89 cores RISC-V que se encuentran disponibles en la comunidad científica. No obstante, para trabajar con las herramientas que hacen posible modificar la ISA y simular programas, es necesario invertir mucho tiempo en general, con lo que los estudiantes no emplean tanto tiempo en aplicar conceptos arquitectónicos de manera práctica, sino que lo pierden instalando las toolchain RISC-V, simuladores, etc. Por tanto, en este proyecto planteamos el desarrollo de entornos virtuales que contengan las herramientas necesarias para trabajar con la ISA RISC-V, de tal forma que los estudiantes solo tengan que centrarse en las prácticas per sé. Como caso de uso, se presentan una máquina virtual y un docker con todo lo necesario para trabajar con el core CVA6.Publication Framework libre para el desarrollo de aplicaciones en el escenario de “Internet of Things”(2017-05-26) Del Barrio García, Alberto Antonio; Roa Romero, Carlos; Recas Piorno, Joaquín; Botella Juan, Guillermo; Tenllado Van Der Reijden, Christian Tomas; Piñuel Moreno, LuisCada placa de desarrollo tiene su propio entorno de trabajo. El objetivo del proyecto es preparar un framework único para desarrollar aplicaciones en múltiples placas. Estará basado en software libre, por lo que será accesible a todos los alumnos.Publication 2-D wavelet transform enhancement on general-purpose microprocessors: memory hierarchy and SIMD parallelism exploitation(Springer-Verlag Berlin, 2002) Chaver Martínez, Daniel Ángel; Tenllado van der Reijden, Christian; Piñuel Moreno, Luis; Prieto Matías, Manuel; Tirado Fernández, FranciscoThis paper addresses the implementation of a 2-D Discrete Wavelet Transform on general-purpose microprocessors, focusing on both memory hierarchy and SIMD parallelization issues. Both topics are somewhat related, since SIMD extensions are only useful if the memory hierarchy is efficiently exploited. In this work, locality has been significantly improved by means of a novel approach called pipelined computation, which complements previous techniques based on loop tiling and non-linear layouts. As experimental platforms we have employed a Pentium-III (P-III) and a Pentium-4 (P-4) microprocessor. However, our SIMD-oriented tuning has been exclusively performed at source code level. Basically, we have reordered some loops and introduced some modifications that allow automatic vectorization. Taking into account the abstraction level at which the optimizations are carried out, the speedups obtained on the investigated platforms are quite satisfactory, even though further improvement can be obtained by dropping the level of abstraction (compiler intrinsics or assembly code).Publication Fundamentos de Computadores. Manual de Laboratorio.(Autoeditado, 2014) Tenllado van der Reijden, Christian; Piñuel Moreno, LuisEste manual se ha diseñado como soporte para el laboratorio de segundo cuatrimestre de la asignatura de Fundamentos de Computadores (FC), impartida en todas las titulaciones de la Facultad de Informática de la UCM. El objetivo principal del laboratorio es estudiar en detalle el modelo de máquina ofrecido al programador en un computador actual. El estudio del lenguaje ensamblador es por tanto un vehículo fundamental para que el alumno comprenda el funcionamiento básico de un computador y que entienda qué tipo de código máquina podrá ser generado a partir del código de alto nivel que escriba y el impacto que tendrá en el rendimiento de su programa. El manual se ha organizado en cinco prácticas que el alumno debe hacer en orden. Cada una presenta los objetivos que persigue e introduce algunos conceptos teóricos nuevos que el alumno debe asimilar para realizarla. La última sección de cada guión explica al alumno lo que debe hacer para completar la práctica. Todas las prácticas excepto la última pueden realizarse sobre simulador, sin necesidad por tanto de tener ningún equipamiento de laboratorio. En la última sin embargo, será necesario utilizar una placa de prototipado, puesto que se diseña un programa que maneja algunos dispositivos de entrada/salida, con el fin de que el alumno comprenda los mecanismos básicos por los que el computador puede comunicarse con el resto del mundo.Publication Reducing cache hierarchy energy consumption by predicting forwarding and disabling associative sets(World Scientific Publ co Pte LTD, 2012-11) Carazo, Pablo; Apollini, Ruben; Castro Rodríguez, Fernando; Chaver Martínez, Daniel Ángel; Piñuel Moreno, Luis; Tirado Fernández, FranciscoThe first level data cache in modern processors has become a major consumer of energy due to its increasing size and high frequency access rate. In order to reduce this high energy consumption, we propose in this paper a straightforward filtering technique based on a highly accurate forwarding predictor. Specifically, a simple structure predicts whether a load instruction will obtain its corresponding data via forwarding from the load-store structure - thus avoiding the data cache access - or if it will be provided by the data cache. This mechanism manages to reduce the data cache energy consumption by an average of 21.5% with a negligible performance penalty of less than 0.1%. Furthermore, in this paper we focus on the cache static energy consumption too by disabling a portion of sets of the L2 associative cache. Overall, when merging both proposals, the combined L1 and L2 total energy consumption is reduced by an average of 29.2% with a performance penalty of just 0.25%.