Proyecto de Innovación y Mejora de la Calidad Docente

PIMCD 91/2014

Implementación y puesta en práctica de técnicas de
evaluación masiva, evaluación por pares y

autoevaluación para MOOCs.

Carlos Gregorio Rodríguez

Facultad de Ciencias Matemáticas

Departamento de Sistemas Informáticos y Computación

16 de julio de 2015


Resumen

Entre los nuevos retos que tiene que afrontar la Universidad están los cambios de paradig-
mas educativos que propician las tecnologías de la información.

Los dispositivos y redes que actualmente permiten la comunicación a Internet de forma
continua y ubicua a miles de millones de personas, posibilitan la existencia de los MOOC
(Massive Open Online Courses). La Universidad tiene sin duda que considerar este escenario,
en el que millones de personas pueden llamar a su puerta a interesarse por todo aquello que
tiene que ofrecer, y tomar las medidas adecuadas para prepararse para un futuro inminente.

Como todo proceso incipiente y en desarrollo, la planificación y creación de MOOCs plantea
numerosas incógnitas que habrá que ir estudiando y para las que habrá que buscar soluciones.

Uno de los grandes retos que plantea el paradigma educativo de los MOOCs es la eva-
luación. Este proyecto propone hacer una reflexión y una puesta en práctica experimental de
diferentes modelos de evaluación (autoevaluación, evaluación continua y evaluación por pares)
adecuados para cursos con elevado número de participantes.

Índice

1. Objetivos propuestos en la presentación del proyecto 2

2. Objetivos alcanzados 3

3. Metodología empleada en el proyecto 6
3.1. Metodología de trabajo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
3.2. Metodología de desarrollo de software . . . . . . . . . . . . . . . . . . . . . . . . . 6
3.3. Metodología del experimento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

4. Recursos humanos 7

5. Desarrollo de las actividades 8

6. Conclusiones 12

1


1. Objetivos propuestos en la presentación del proyecto

Si bien las metodologías educativas están cambiando –como demuestran, por ejemplo, los
proyectos presentados en las convocatorias de PIMCD de la UCM– y es fácil encontrar ex-
periencias de innovación en materiales, en didácticas, en herramientas, etc., los métodos de
evaluación, por el contrario, evolucionan mucho más lentamente.

Sin embargo, son los métodos de evaluación uno de los aspectos pedagógicos en los que
más se fijan los estudiantes. No sin razón, pues son ellos los que finalmente tienen que so-
meterse a dicha evaluación y los que van a tener que enfrentar el éxito o el fracaso en dichas
pruebas.

El profesorado que promueve este proyecto sigue varias directrices esenciales a la hora de
diseñar en los objetivos de la formación, que son precisamente los que guían la evaluación:

El acceso a la información no es un problema. No es necesario conocer datos e información
de memoria. Contamos con conexión casi constante y ubicua a Internet y a otras personas.
Un objetivo esencial de la educación es, por tanto, aprender a utilizar y a discriminar la
información.

En un mundo que cambia tan rápidamente es esencial formar a las personas para que pue-
dan continuar aprendiendo. Autoaprendizaje y autoevaluación son habilidades esenciales,
que están intrínsecamente ligadas, y que debemos fomentar.

El futuro es desconocido y los retos y problemas que tendrán que enfrentar nuestros estu-
diantes en ese futuro necesitarán también de nuevas soluciones. Consideramos imprescin-
dible fomentar la capacidad de síntesis y creatividad para generar soluciones a problemas
y la capacidad de comparación y evaluación entre distintas alternativas.

Los aspectos sociales y grupales ocupan cada vez más espacio en nuestra realidad. La
cooperación y colaboración entre personas es algo natural y es el modo en el que la ciencia
y la cultura en sus sentidos más amplios se construyen. El aprendizaje colaborativo es aún
un área poco explorada que consideramos tiene que fomentarse y estudiarse.

Con este proyecto nos proponemos pensar sobre los métodos de evaluación y aprovechar
el surgimiento de los MOOC para plantear estrategias que se adapten a este nuevo contexto
educativo. El problema que plantea la evaluación de miles de participantes en un curso no puede
resolverse con un simple test estándar online.

Nuestro proyecto quiere promover y experimentar estos nuevos modelos de evaluación que
están íntimamente ligados a las herramientas informáticas que darán soporte a dichos métodos
innovadores. Por ejemplo, igual que cada vez la navegación en la red es más particular para
cada usuario, se puede pensar en técnicas de evaluación que sean adaptables a los distintos
perfiles y recorridos de los participantes en los cursos, en particular en los MOOC; se pueden
implementar métodos que permitan autoevaluaciones personalizadas en función del progreso en
el curso; se puede fomentar conceptos tan importantes como colaboración, capacidad crítica y
responsabilidad con buenas metodologías de evaluación por pares; podemos utilizar la versatili-
dad y potencia de los actuales sistemas informáticos, y de los desarrollos en inteligencia artificial,
para proponer técnicas y tecnologías que permitan una evaluación lo más abierta posible, de tal
forma que no haya una única respuesta correcta...

Teniendo en cuenta estas consideraciones, los objetivos planteados en el proyecto de inno-
vación educativa son:

Realizar un estudio del estado del arte en técnicas y metodologías de evaluación en las
principales plataformas de MOOCS (Coursera, edX, Udacity, MiríadaX, Udemy...).

Reflexionar sobre la adecuación de las distintas alternativas de evaluación a diferentes
estudios o materias así como los requisitos técnicos necesarios para llevarlas a cabo.

2


Planificar y adecuar unas estrategias de evaluación que permitan experimentar con téc-
nicas de evaluación masiva, evaluación por pares y autoevaluación para la asignatura de
Informática de primer curso en los grados ofertados en la Facultad de Matemáticas.

Implementar e integrar en módulos de Moodle las herramientas adecuadas para llevar a
cabo estas evaluaciones.

2. Objetivos alcanzados

Gracias a la generosa implicación de la mayoría de los integrantes del proyecto, éste ha
podido desarrollarse en bastante profundidad y hemos podido diseñar y experimentar diferentes
técnicas de seguimiento y evaluación. Concretando, algunos de los objetivos más destacables
desarrollados para el primer curso de Informática en los grados de matemáticas son:

Hemos incorporado técnicas denominadas de rastreo y seguimiento al diseño de las ac-
tividades y materiales que se incorporan en el campus virtual de la asignatura. De esta
forma, la asignatura se va desplegando de forma particular para cada alumno en función
de su trabajo y de sus resultados. Para poner un ejemplo muy sencillo, se puede hacer
que una determinada actividad, digamos una entrega de prácticas, no sea posible, hasta
que el alumno haya completado otras partes del curso: realizado ejercicios, cuestionarios,
consultado materiales, etc. En la figura 1 puede verse una de las muchas formas en las que
Moodle puede utilizar esa información, por ejemplo para mostrar un listado de actividades
completadas por alumno.

Figura 1: Vista de las actividades completadas

Hemos utilizado cuestionarios de autoevaluación interactivos en los que los participantes
pueden ir comprobando su comprensión de los aspectos más básicos de la asignatura.

Uno de los aspectos más destacados ha sido introducir en la asignatura la evaluación por
pares de ejercicios prácticos. Esta técnica de evaluación es la que ha resultado más costo-
sa y exigente para los integrantes del proyecto. Cada vez que se diseñaba una evaluación
por pares había que:

• definir una rúbrica precisa que considerara la mayor parte de la casuística posible;

3


• proporcionar ejemplos de evaluación para que los partipantes fueran adquiriendo unos
criterios comunes;

• evaluar las prácticas con los mismos criterios que los participantes en el curso para
así poder tener una evaluación objetiva con la que comparar las evaluaciones de los
alumnos, y poder proporcionar así una calificación a la evaluación de los pares.

En la figura 2 puede verse una de las muchas vistas de la herramienta. En ella aparece
cada participante con las evaluaciones recibidas, las evaluaciones realizadas (o no rea-
lizadas), cada una de las notas recibidas, cada una de las calificaciones otorgadas, las
calificaciones finales por entrega y por evaluación de trabajos, las notas obtenidas por las
herramientas automáticas (segunda columna después del nombre), etc.

Figura 2: Vista de la actividad Workprog desarrollada e integrada en Moodle

También hemos podido adaptar e integrar en el desarrollo de la asignatura una herramien-
ta de corrección automática, desarrollada en anteriores proyectos de innovación (PIMCD
33/2007 y PIMCD 220/2013), denominada FLOP. Esta herramienta proporciona una eva-
luación automática para ejercicios de programación.

Todos estos aspectos comentados anteriormente han sido adaptados e integrados en la
plataforma Moodle en la que se ha desarrollado el campus virtual para la asignatura de
Informática, común en el primer curso de todos los grados impartidos en la Facultad de
Matemáticas. Para ello, hemos exprimido las posibilidades más avanzadas del propio ges-
tor de cursos Moodle y, en otras ocasiones, hemos tenido que desarrollar las aplicaciones
informáticas necesarias e integrarlas.

Por último, un aspecto que no estaba inicialmente contemplado en el proyecto y que tam-
bién hemos tenido que considerar, y en cierta forma se mantiene dentro del espíritu del
proyecto y lo completa aún más, es el uso de una herramienta automática de detección de
plagios. La herramienta considerada se denomina MOSS y ha sido desarrollada en la Uni-
versidad de Standford (http://theory.stanford.edu/~aiken/moss/. Esta herramienta a
ayudado a detectar exitosamente, y evaluar adecuadamente, los plagios en las entregas

4


obligatorias de prácticas de programación. En las figuras 3 y 4 pueden verse ejemplos de
uso de dicha herramienta. En la primera de ellas vemos el porcentaje de similaridad en-
tre trabajos y el número de líneas que comparten. En la figura 4 vemos la comparación
de dos trabajos concretos, con distintos cósigos de color nos muestran las zonas que ha
identificado como muy similares.

Figura 3: Informe del detector de plagios Moss

Figura 4: Detalle de la comparación de dos trabajos

5


3. Metodología empleada en el proyecto

Metodología es una palabra amplia y que se puede aplicar a múltiples facetas. Comentamos
brevemente las metodologías más importantes relacionadas con el desarrollo del proyecto.

3.1. Metodología de trabajo

El equipo de profesores que integra el proyecto tiene una amplia experiencia en trabajo con-
junto, tanto en investigación como en innovación educativa. La metodología de trabajo que habi-
tualmente utilizamos es muy horizontal y colaborativa. Aparte de reuniones en las que considera-
mos y discutimos los diferentes aspectos para decidir las líneas a seguir, utilizamos repositorios
compartidos con control de versiones en los que el trabajo de todos se va integrando y en el que
cualquier participante pueden corregir, mejorar o completar el trabajo de los demás.

3.2. Metodología de desarrollo de software

Con respecto a la metodología de desarrollo de las herramientas software, también contamos
con una nutrida experiencia y todos los integrantes hemos desarrollado con anterioridad herra-
mientas para su uso tanto en docencia como en investigación, algunas de ellas con un uso muy
continuado.

Una metodología que nos parece muy adecuada para el desarrollo de herramientas es la de
prototipado, que consiste en desarrollar modelos de las aplicaciones de software básicos que se
van enriqueciendo a medida que se va experimentando con ellos. La metodología de prototipado
es además muy adecuada para el trabajo en grupos pequeños.

3.3. Metodología del experimento

Para poder evaluar de forma rigurosa la experiencia con las diferentes formas de evaluación,
hemos diseñado, desde el punto de vista estadístico un experimento.

La Facultad de Matemáticas ofrece 5 grupos de primero, 4 de mañana y uno de tarde. To-
dos los grupos de primero están estrechamente coordinados en la asignatura de Informática
desde hace años. Los contenidos, pruebas de evaluación intermedia (entrega de prácticas de
programación) y exámenes son comunes a todos los grupos.

Para realizar el experimento hemos elegido los 4 grupos de la mañana por su homogeneidad
en cuanto a tamaño y perfil del alumnado. De estos 4 grupos uno de ellos se ha dejado como
grupo de control. En el grupo de control, el profesor ha realizado básicamente el mismo trabajo
que en cursos anteriores. En los otros tres grupos hemos introducido en el campus virtual todas
las actividades comentadas anteriormente, en particular aquellas detalladas en el apartado 2.

Todos los alumnos de los 4 grupos de la mañana realizaron un cuestionario inicial para identi-
ficar conocimientos y habilidades iniciales. También un cuestionario intermedio y un cuestionario
final sobre el desarrollo de la asignatura. Los 3 grupos del experimento tenían alguna pregunta
más que el grupo de control sobre aspectos concretos de las técnicas utilizadas.

Todos estos cuestionarios están identificados (no son anónimos) y, por tanto, permiten análi-
sis muy detallados. Por ejemplo, podremos discernir las valoraciones y apreciaciones por rango
de calificación o por perfil inicial, etc.

Para respetar y fomentar la libre participación por parte de los alumnos en la evaluación del
experimento, el compromiso al que llegamos era que el análisis de todos estos cuestionarios,
junto con toda la información que almacena el sistema referente al seguimiento y complección
de las diferentes tareas no se procesará hasta que el curso haya finalizado. Esperamos que el
estudio de estos datos permita generar una publicación con los resultados de la evaluación de
la experiencia llevada a cabo durante el curso y promovida por el PIMCD.

6


4. Recursos humanos

El grupo de personas que ha llevado a cabo el proyecto es el siguiente: Luis Llana Díaz, Cris-
tóbal Pareja Flores, Antonio Sarasa Cabezuelo, Jorge Carmona Ruber, Adrián Riesco Rodríguez
y Carlos Gregorio Rodríguez. Todos ellos profesores del Departamento de Sistemas Informáticos
y Computación.

Todos los integrantes tienen una larga trayectoria en innovación educativa que se refleja de
forma objetiva en dos puntos concretos: la participación continua en proyectos de innovación
educativa, especialmente en aquellos promovidos por la UCM, y las publicaciones de carácter
docente.

La lista de proyectos de innovación en los que han participado alguno de los miembros del
equipo es la siguiente: PIE 99/32, PIE 2001/28, PIE 2002/02, PIMCD 2005/34, PIMCD 2006/67,
PIMCD 2008/33, PIMCD 2009/185, PIMCD 2009/160, PIMCD 2010/152, PIMCD 2010/248, PIMCD
2011/174, PIMCD 2011/334, PIMCD 2011/150, PIMCD 2013/220. El responsable del actual pro-
yecto ya ocupó esa función con anterioridad en los proyectos PIE 2001/28 y PIMCD 2010/248.

Lista de publicaciones docentes de los miembros del equipo:

Carlos Gregorio Rodriguez. Ergotracer: An Internet User Behaviour Tracer. Lecture Notes
in Computer Science. 2346, pp. 121 - 132. 2002. ISSN 0302-9743

Carlos Gregorio Rodriguez; Raquel Martinez Unanue; Angel Herranz Nieva. Computing
Curricula 2001. Novatica. pp. 47 - 54. 2002. ISSN 0211-2124

Carlos Gregorio Rodríguez, Luis Llana Díaz, Raquel Martínez Unanue, Pedro Palao Gos-
tanza, Cristóbal Pareja Flores y Ángel Velázquez Iturbide. EXercita: Automatic Publishing
of Programming Exercises. ACM SIGCSE/SIGCUE International Conference on Innovation
and Technology into Computer Science Education, ITiCSE’01. ACM Press. ISBN: 1-58113-
330-8

Carlos Gregorio Rodríguez, Luis Llana Díaz, Raquel Martínez Unanue, Pedro Palao Gos-
tanza, Cristóbal Pareja Flores y Ángel Velázquez Iturbide. EXercita: A System for Archiving
and Publishing Programming Exercises. Computers and Education, Towards an Intercon-
nected Society, p.187–198, Kluwer, 2001. ISBN 0–7923–7188–7.

Luis Llana, Enrique Martín, Cristóbal Pareja-Flores: FLOP, a Free Laboratory Of Program-
ming. KOLI Calling 2012.

Manuel Rubio-Sánchez, Päivi Kinnunen, Cristóbal Pareja-Flores, J. Ángel Velázquez-Iturbide:
Lessons learned from using the automated assessment tool "Mooshak". Proceedings of
SIIE’12: 209-214

Alaeddin M. H. Alawawdeh, César Andrés, Luis Llana: CLAT: Collaborative Learning Adap-
tive Tutor. SEKE 2012: 747-752

J. Ángel Velázquez-Iturbide, Cristóbal Pareja-Flores, Jaime Urquiza-Fuentes: An approach
to effortless construction of program animations. Computers & Education (CE) 50(1):179-
192 (2008)

I. Hernán, C. Pareja, J. Ángel Velázquez: Testing-Based Automatic Grading: A Proposal
from Bloom’s Taxonomy. ICALT 2008: 847-849

Cristóbal Pareja, J. Ángel Velázquez-I: Program Execution and Visualization on the Web.
Encyclopedia of Information Science and Technology (IV) 2005: 23

Cristóbal Pareja-Flores, J. Ángel Velázquez-Iturbide: Local versus comprehensive assign-
ments: two complementary approaches. SIGCSE Bulletin 32(4): 48-51 (2000)

7


Isabel Pita y Adrián Riesco. A Tool for Testing Data Type Implementations from Maude
Algebraic Specifications. PROLE 2011. Electronic Notes in Theoretical Computer Science
282, páginas 61-71. Elsevier, 2012.

M. Clavel y A. Riesco, The Web ITP Tool: A Quick Overview, en las actas del Segun-
do Congreso Internacional de Herramientas para la Enseñanza de la Lógica, Salamanca,
Septiembre 2006.

A Sarasa Un modelo de virtualización de los estudios superiores como marco para desa-
rrollo de la convergencia europea en la educación superior Virtual Educa,2010

A Sarasa, JM Dodero, ¿Cómo complementar la formación mediante proyectos de gene-
ración de contenidos web para una asignatura? Revista Latinoamericana de Tecnología
Educativa-RELATEC 3 (1), 2007

A Sarasa, J Miguel Cleva, S Estévez, N Morón, ¿Debemos superar WebCT?: hacia un
modelo basado en objetos de aprendizaje Editorial Complutense ,2007

A Sarasa, Usando la Wikipedia como motivación en el proceso de aprendizaje. RELATEC:
Revista Latinoamericana de Tecnología Educativa 5 (2), 433-442, 2006

A Sarasa, S Estévez, FJ Crespo, Creación de un curso sobre Metodología y Tecnología de
la Información para su uso en un Campus Virtual Editorial Complutense, 2005

A Sarasa, JM Dodero, ¿Son útiles los campus virtuales en la enseñanza superior?, JUTE
2005

Junto con el equipo del proyecto y de forma puntual, ha colaborado con nosotros una pro-
gramadora pagada, como se especificaba en la petición del proyecto, con el dinero solicitado.
Debido a la escasa financiación, no fue posible contar con sus servicios nada más que un perio-
do de tiempo muy pequeño (4 semanas). Este tiempo es muy insuficiente para llevar a cabo el
desarrollo software de una herramienta, por tanto, la mayor parte del trabajo de programación,
además del diseño, prueba y depuración del mismo, ha recaído sobre los miembros del equipo.

5. Desarrollo de las actividades

A grandes líneas, el desarrollo del trabajo estaba previsto en 3 fases, que tal y como figuraban
el la propuesta de proyecto eran estas:

Fase 1: Análisis del estado del arte sobre la evaluación en MOOCs. En esta fase, además de
la experiencia que tenemos en este ámbito, estudiaremos en más profundidad y reflexionaremos
sobre los diferentes sistemas de evaluación usados en los MOOCs, tanto desde el punto de vista
metodológico como técnico, pues estamos interesados no solamente en su uso sino también en
su adaptación a las herramientas de las que disponemos, como por ejemplo Moodle.

Fase 2: Diseño, implementación e integración de las herramientas software necesarias pa-
ra realizar diversas modalidades de evaluación para MOOCs. Construcción de los módulos de
Moodle adecuados para soportar estas herramientas.

Fase 3: Experimentación de las metodologías de evaluación en un grupo grande. Deseamos
poner en práctica diversas técnicas de evaluación de interés para los MOOCs, entre ellas habrá,
al menos, evaluación masiva, evaluación por pares y autoevaluación. Utilizaremos para ello los
alumnos matriculados en la asignatura de Informática obligatoria en primer curso en los grados
que oferta la Facultad de Matemáticas.

Y además, ya adelantábamos que sería necesaria una última fase posterior a la terminación
del proyecto dedicada a la publicación y difusión de los resultados y las experiencias obtenidas
en congresos y revistas especializadas.

Si bien todas las fases se han cumplido, las mismas se han dilatado en el tiempo mucho más
de lo inicialmente previsto. Por un lado, por la implicación del equipo y por la profundidad con la

8


que se han abordado muchos de los aspectos, por otro, por la mayor dificultad y carga de trabajo
de los desarrollos e implementaciones de las herramientas, y, por último, pero muy importante,
por la gran dedicación docente que tiene el correcto diseño de las nuevas actividades propuestas.
Por ejemplo, para una actividad de evaluación por pares, es necesario: Diseñar cuidadosamente
una rúbrica en la que aparezcan claramente los aspectos a evaluar. Cada aspecto a evaluar
tiene una escala y cada elemento de la escala necesita una explicación detallada para evitar en lo
posible ambigüedades en la interpretación. Antes de evaluar trabajos reales de sus compañeros,
los alumnos evalúan unos trabajos de prueba cuya evaluación comparan con la dada por el
profesorado. Estos trabajos de prueba tienen que estar muy bien pensados para que recojan
mucha de la casuística posible y hagan hincapié en los aspectos que pueden ser más difíciles
de evaluar.

A continuación describimos la duración aproximada y los trabajos ejecutados en cada una de
las fases propuestas en el proyecto.

Figura 5: Detalle de la herramienta de corrección automática FLOP

Fase 1: Mayo-Julio 2014. En estas primeras semanas se hizo un estudio y un análisis de téc-
nicas, metodologías y herramientas utilizadas en la evaluación de los MOOCs, para ello, aparte
de la experiencia personal como participantes en MOOCs, se hizo un estudio en las principales
plataformas Coursera, EdX, Udacity y MiriadaX.

En esta etapa, también recopilamos bibliografía especializada (bastante escasa) sobre el
tema:

Joanna Smith, Joe Tessler, Elliot Kramer, and Calvin Lin. Using Peer Review to Teach Soft-
ware Testing. In Proceedings of the 9th annual international conference on International
computing education research, ICER 2012, pages 93-98. ACM 2012.

9


Jacob Lowell Bishop and Matthew A Verleger. The Flipped Classroom: A Survey of the
Research. In Proceedings of the 120th ASEE Annual Conference & Exposition, June, 2013.

Ihantola, P., Ahoniemi, T., Karavirta, V., & Seppälä, O. (2010). Review of recent systems for
automatic assessment of programming assignments. In Proceedings of the 10th Koli calling
international conference on computing education research. Koli Calling ’10 (pp. 86–93).
New York, NY, USA: ACM.

Douce, C., Livingstone, D., & Orwell, J. (2005). Automatic test-based assessment of pro-
gramming: A review. Journal of Educational Resources in Computing, 5(3) (article 4).

Sheard, J., Dick, M., Markham, S., Macdonald, I., & Walsh, M. (2002). Cheating and plagia-
rism: Perceptions and practices of first year it students. SIGCSE Bulletin, 34, 183–187.

Figura 6: Detalle de una respuesta de la herramienta FLOP

Fase 2: Septiembre-Octubre 2014. El trabajo en estas semanas se dedicó a diseñar y definir
las necesidades de las herramientas de software a utilizar para la evaluación; a estudiar el uso
y la integración de herramientas existentes; y los requerimientos de los desarrollos de softwa-
re a llevar a cabo para integrar en Moodle las actividades que permitían realizar este tipo de
evaluaciones.

Utilizando un servidor propio de Moodle, que lleva años funcionando para las asignaturas de
muchos de los profesores que forman parte del equipo, pudimos utilizar mucha de la funcionali-
dad más novedosa para permitir realizar un seguimiento detallado de la actividad del alumnado y
diseñar las actividades de manera que se van ’desplegando’ ante los participantes a medida que
éstos avanzan por el curso (acceden a los documentos que se les facilita, realizan cuestionarios,
entregan tareas, etc.)

10


En estas semanas también se diseñó de forma global el experimento en el que se englobarían
el uso de las distintas técnicas de evaluación. Fue aquí cuando se decidió utilizar la metodología
que se describe con detalle en el apartado 3.3. Puesto que el experimento se realizaría sobre
una asignatura concreta y tendría repercusión en la evaluación de la misma, junto con el dise-
ño del experimento, era también imprescindible realizar el diseño de la asignatura, no solo de
contenidos, sino sobre todo de la forma adecuada de integrar las nuevas metodologías de eva-
luación por pares, autoevaluación y evaluación continua y, la forma en la que estas evaluaciones
repercutirían en la evaluación final de la asignatura.

Figura 7: Algunos ejemplos de las estadísticas recopiladas

Fase 3: Noviembre 2014-Junio 2015. Esta fase se hizo un gran esfuerzo por integrar y poner
todas las herramientas a funcionar. Dentro de esta fase, durante los últimos meses del 2014, se
contrataron los servicios de un programador (de hecho una programadora) para que realizara
las implementaciones de las herramientas diseñadas. Debido a la escasa financiación con la
que cuentan estos proyectos, sólo se pudo contratar a una persona durante un mes, tiempo muy
insuficiente para llevar a cabo un desarrollo de software.

El mayor peso en la implementación e integración de las herramientas ha recaído en los
miembros del equipo, sobre todo de los profesores Luis Llana Díaz, Adrián Riesco Rodríguez,
Jorge Carmona Ruber y Carlos Gregorio Rodríguez. Una breve descripción de las mismas es:

Gestión y administración avanzada en Moodle para permitir el seguimiento y la particulari-
zación del campus virtual al avance personal de cada uno de los participantes.

11


Desarrollo de una nuevo módulo de gestión de evaluaciones por pares para entregas de
prácticas de programación. Este módulo gestiona las entregas, el reparto de trabajos a
evaluar por cada alumno, las calificaciones obtenidas, etc. Además, también enlaza con un
corrector automático FLOP (véanse las figuras 5 y 6) y con otra herramienta de evaluación
de la calidad del código Pylint para obtener otras calificaciones de las tareas entregadas
por los participantes. Con todos estos ingredientes, se pueden elaborar las calificaciones
a la actividad de forma muy sofisticada.

Diseño e integración de los tests de prueba que permiten automatizar la evaluación de la
corrección de los trabajos de programación.

Diseño e integración de las rubricas de evaluación para cada una de las entregas. Diseño
de ejemplos de rúbricas para ejercitar los criterios de evaluación antes de comenzar a
evaluar.

Diseño e integración de los formularios de autoevaluación con comportamiento dinámico.

Búsqueda y utilización de una herramienta adecuada para la detección de plagios en las
entregas de trabajos.

Diseño y puesta en práctica de los cuestionarios y herramientas de evaluación del desa-
rrollo de la experiencia por parte de los alumnos participantes.

Esta última fase se ha extendido durante todo el curso pues algunas de las tareas tenían
que hacerse a medida de las actividades que se iban proponiendo, pero, sobre todo, porque a
medida que avanzábamos en la asignatura y en el uso de las herramientas íbamos depurando
errores y aumentando la funcionalidad y usabilidad.

Actualmente estamos desarrollando la última fase de estudio y análisis de resultados y pre-
paración de publicaciones docentes en las que se muestre la experiencia y los resultados del
proyecto de innovación llevado a cabo.

6. Conclusiones

El proyecto de innovación y mejora de la calidad docente que hemos desarrollado durante el
curso 2014-2015 ha permitido utilizar técnicas novedosas de evaluación, en particular, evalua-
ción automática y evaluación por pares, que pueden ser utilizadas en grupos grandes (MOOCs),
aunque sin duda también son interesantes en grupos más reducidos.

Para ello, hemos tenido que trabajar y desarrollar tres aspectos fundamentales:

Diseño de una asignatura que integrara las metodologías con las que queríamos experi-
mentar autoevaluación, evaluación automática y evaluación por pares.

Implementación e integración de las herramientas informáticas necesarias para poder lle-
varlas a cabo.

Seguimiento del experimento para intentar medir las impresiones de los participantes y los
resultados del mismo.

Actualmente, y una vez que el curso prácticamente ha concluido (aún falta la evaluación de la
convocatoria de septiembre), estamos comenzando con el estudio y análisis de los resultados.
Ésta es una tarea compleja, pues tenemos muchos datos que considerar: por un lado están los
resultados obtenidos en las actividades planteadas a lo largo de todo el curso, por otro lado los
resultados medidos de forma más clásica en exámenes tradicionales (necesarios por la obligada
coordinación de todos los grupos de la asignatura), tenemos también todos los datos almacena-
dos de forma pasiva por el servidor Moodle sobre la actividad de cada participante y, finalmente,
también tenemos cuestionarios de evaluación realizados por los alumnos en distintas fases del
experimento (véase por ejemplo la figura 7).

12


Aunque la evaluación de los resultados llevará aún un tiempo, lo que sí que podemos ade-
lantar son algunas percepciones subjetivas de los integrantes del proyecto que además han sido
profesores en los distintos grupos que han participado en el experimento.

El campus virtual con seguimiento, particularizado a cada alumno y los cuestionarios de
autoevaluación dinámicos favorecen el trabajo continuado de los estudiantes.

La evaluación automática de ejercicios, en general, parece que está bien acogida entre los
alumnos. Quizás porque permitíamos acceder a las herramientas de evaluación durante
el desarrollo de los trabajos y así ellos mismos podían comprobar la corrección de sus
prácticas.

La evaluación por pares causa cierto rechazo inicial. La percepción de los alumnos es que
supone un trabajo extra y que no aporta demasiado a su formación. La percepción del
profesorado, sin embargo, es diferente: el rechazo es sobre todo porque no están acos-
tumbrados a evaluar o valorar. El trabajo extra que los estudiantes tienen que realizar es
indudable (hay que estudiar la rúbrica, hay que hacer las evaluaciones de prueba compa-
rándolas con las dadas por el profesorado, finalmente hay que leer/estudiar el trabajo de
los compañeros para proporcionar una calificación en cada uno de los aspectos indicados
en la rúbrica. . . ), pero ese trabajo desarrolla unas habilidades y fija unos estándares (los
que indican las rúbricas) que luego utilizan en sus trabajos posteriores.

Para concluir nos gustaría también dejar algunas reflexiones con respecto al uso de estas
técnicas en grupos muy grandes o en MOOCs. No podemos hablar de resultados definitivos,
pues aún hay aspectos muy importantes a analizar en los datos recopilados, quizás el más
importante es la adecuación de una evaluación por pares pura como método de calificación (en
nuestro experimento, todas las prácticas han sido evaluadas por un profesor y así tenemos una
evaluación experta con la que contrastar las evaluaciones de los participantes).

Las técnicas de seguimiento y autoevaluación integradas en un campus virtual son fácil-
mente escalables a grupos muy grandes, si bien se necesita de un considerable trabajo
inicial de diseño y desarrollo. Este último aspecto, hace que en grupos no muy grandes,
este esfuerzo no sea muy rentable para el profesorado. También, las herramientas y técni-
cas pueden mejorar bastante para hacer que esta tarea sea más sencilla.

La evaluación automática es una técnica que puede ahorrar mucho trabajo al profesorado
siempre que los aspectos evaluables puedan ser objetivamente medibles. Esto claramente
es así en el caso de las prácticas de programación para la asignatura de Informática: la
evaluación se realiza mediante unas pruebas que el programa debe pasar. Los trabajos a
entregar y las pruebas a pasar deben estar cuidadosamente diseñados pues la casuística
de un programa de tamaño medio puede ser muy elevada, al igual que puede ser muy
variada la forma de resolver problemas de los diferentes participantes. Igual que en el caso
anterior, se necesita una masa crítica de estudiantes para que el esfuerzo de diseño de
todos los componentes del sistema valga la pena.

Para la detección de plagio (al menos en ejercicios de programación) existen herramientas
que están funcionando muy bien, si bien su uso requiere de cierto entrenamiento y super-
visión por parte del profesorado. Sin ayuda de una herramienta informática, esta tarea, por
su complejidad y extensión, es difícilmente asumible para el profesorado incluso en grupos
no muy grandes.

La evaluación por pares une dos aspectos muy interesantes: por un lado es una activi-
dad didáctica que fomenta importantes habilidades en los participantes, por otro, puede
utilizarse para evaluar trabajos en grandes grupos.

Consideramos que la primera de las vertientes, la didáctica, es de indudable valor, si bien
hay muchos aspectos interesantes a tener en cuenta.

13


• El estudiante tiene que familiarizarse con la técnica y empezar a utilizarla con ejerci-
cios sencillos y muy guiados.

• La cantidad de trabajos que un participante puede revisar es inversamente proporcio-
nal al interés de estos trabajos. El trabajo de revisión es productivo para el revisor si
el trabajo a revisar es interesante (y éste es un concepto escurridizo). Como el nú-
mero de revisiones para trabajos complejos e interesantes es reducido, hay que tener
especial atención en la forma de repartir los trabajos para que a cada participante
le sean asignados trabajos a revisar que puedan proporcionar un desarrollo de sus
habilidades.

• El adecuado diseño de la actividad: trabajo a entregar, rúbrica, ejemplos, etc. supone
un gran trabajo para el docente.

• Las herramientas de gestión automática permiten escalar bastante bien la tarea de
entrega, reparto, asignación de las evaluaciones, etc.

Con respecto al uso de la evaluación por pares como herramienta de evaluación comple-
tamente independiente (sin intervención directa del profesorado), nos gustaría hacer las
siguientes consideraciones:

• Se necesita un diseño muy cuidadoso de la actividad, además de los aspectos co-
mentados anteriormente que forman parte intrínseca de la actividad, (como la rúbrica,
ejemplos. . . ), cada uno de los aspectos en la rúbrica tiene que ser ponderado de cara
a una calificación final. Este aspecto requiere de cierta práctica pues en ocasiones,
más de las deseadas, hay entregas de trabajos patológicos que pueden tener una
calificación aceptable en la rúbrica y que con un método de evaluación más global no
la tendrían.

• Como comentábamos en el apartado didáctico, si los trabajos son interesantes y, por
tanto, tienen una cierta extensión/complejidad, no se puede pedir a los participantes
que evalúen un gran número de ellos. El que un trabajo tenga pocas evaluaciones
hace que la calificación obtenida por el mismo sea muy sensible a las variaciones en
las formas de evaluar de los diferentes participantes. Este es un tema que requiere de
un buen estudio formal para encontrar medidas de fiabilidad en estas evaluaciones de
los pares.

• Consideramos que un buen complemento a la evaluación por pares, siempre que
pueda llevarse a cabo, es la evaluación automática. De esta forma, hay una evaluación
objetiva con la que contrastar las evaluaciones recibidas.

Todas estas consideraciones seguirán siendo objeto de estudio pues para el curso 2015-2016
seguiremos completando y desarrollando la experiencia en la asignatura de Informática en los
primeros cursos de los grados ofertados en la Facultad de Matemáticas. Esperamos también
reflejar todo este trabajo y los resultados obtenidos del mismo en publicaciones en revistas y
congresos especializados.

14