Proyectos de Innovación  

Convocatoria 2016/2017 

Nº de Proyecto: 184 

 
Título del Proyecto 

Desarrollo de una herramienta para la evaluación de los 

examen tipo test y sus aplicaciones en la mejora de la calidad 

y en los criterios de evaluación de estos exámenes 

 
Nombre del responsable del proyecto 

Diego García Pinto 

Centro 

Facultad de Medicina 

Departamento 

Departamento de Radiología, Rehabilitación y Fisioterapia 


1. OBJETIVOS PROPUESTOS EN LA PRESENTACIÓN DEL PROYECTO 
 

Los objetivos del presente proyecto son varios: 
 

El principal objetivo es el desarrollo de una herramienta multiplataforma que permita el 
análisis de ítems de exámenes tipo test y que pueda ser utilizada por todo el personal 
docente. El software utilizará como entrada los resultados de la corrección de un test en 
un formato sencillo (CVS)  que se haya obtenido de forma manual o de manera 
automática, mediante un software de reconocimiento de caracteres y se obtendrán los 
índices de dificultad, discriminación, homogeneidad, fiabilidad y validez. Se pretende 
que dicho software se de uso fácil e intuitivo y configurable. La información de salida 
podrá ser importada en cualquier hoja de cálculo (Excel, google docs, etc.). 

 
Otro de los objetivos es el estudio del impacto que tiene en la calidad de la elaboración 
de las preguntas de un examen tipo test el uso de la información proporcionada por el 
software desarrollado. Para ello se pretende analizar los resultados de exámenes de 
cursos anteriores para elaborar un modelo de examen siguiendo criterios óptimos de los 
índices calculados. Este examen se propondrá como examen intermedio a los alumnos 
de 1º grado de Medicina, en la asignatura de Física Médica. Posteriormente se 
evaluarán los resultados del examen pudiendo detectar áreas que han sido más difíciles 
de asimilar, preguntas cuyos resultados no han sido los esperados, etc., de modo que 
esta información será utilizada como “feedback” hacia los alumnos. Finalmente se 
volverá a analizar los resultados del examen al finalizar el curso para evaluar la posible 
mejora en la consecución de los objetivos docentes propuestos en la asignatura. 

 
También otro de los objetivos del proyecto será establecer pautas relativas al criterio de 
valoración numérica de cada una de las preguntas incluidas en el examen tipo test, con 
la finalidad de objetivar el resultado de dicho examen, en otras palabras, escalar a los 
alumnos según sus conocimientos. Para ello se deberán tener en cuenta varios 
aspectos que tendrán su repercusión numérica pudiéndose proponer distintos criterios 
de valoración. Estos criterios se aplicarán en la calificación de la asignatura de 
Bioestadística. 

Así mismo, cómo prueba de validación intra-alumnos de los tests llevados a cabo se 
analizará la correlación entre los resultados de los exámenes de Física Médica y 
Bioestadística. 


2. OBJETIVOS ALCANZADOS 
 

El principal objetivo del presente proyecto era la creación de una herramienta para el 
análisis de ítems de exámenes tipo test de multi-respuesta. 

Como se pretendía que fuese multi-plataforma la versión final se ha implementado como 
una hoja de cálculo (en formato Excel y google docs) que permite su ejecución en 
cualquier versión de sistema operativo. Para ello se han desarrollado una serie de 
macros (conjunto de instrucciones que realizan una determinada tarea) que permiten 
realizar todas las operaciones necesarias para obtener  los índices de dificultad y 
discriminación (ANEXO I) de cada una de las preguntas, ambos indicadores 
relacionados con la calidad del examen. Así mismo, permite comprobar la distribución 
de las respuestas de cada una de las preguntas permitiendo detectar errores en la 
elaboración del examen. 

La herramienta, además, permite obtener la calificación de cada uno de los alumnos 
que han realizado el examen y es configurable, posibilitando, por ejemplo, obtener la 
nota con el total de preguntas o por bloques si se desea evaluar determinadas áreas o 
también, modificar el peso de cada una de las preguntas y su correspondiente valor (se 
puede incluir penalizaciones por cada respuesta no acertada). El usuario ha de 
introducir la cadena con las respuestas correctas en la que es posible definir más de 
una posible respuesta correcta para una misma pregunta. 

El software utiliza como datos de entrada los resultados de la corrección del conjunto 
de exámenes realizados por los alumnos en formato CVS, con una fila por cada alumno. 
Este es el formato de salida más común utilizado por los distintos programas OMR 
(optical mark recognition) es decir programas de reconocimiento de marcas empleados 
en la corrección automática de exámenes. 

 
El resultado del análisis de las preguntas se puede exportar como hoja de cálculo si se 
desea para un posterior tratamiento de los datos. 

 
Otro de los objetivos del proyecto es estudiar el impacto que tiene en la calidad de la 
elaboración de las preguntas de un examen tipo test el uso de la información 
proporcionada por el software desarrollado. 

Utilizando la herramienta se analizaron exámenes de cursos anteriores y la información 
obtenida se utilizó en la elaboración de un examen intermedio de carácter voluntario. 
Con el análisis de los resultados de este examen y atendiendo a los resultados previos, 
se elaboró el examen final de la asignatura propuesto en diciembre de 2017. Aunque 
los resultados no son concluyentes ya que ambos exámenes (intermedio y final) no 
corresponden a la misma cantidad de materia si se ha observado cierta mejoría (ANEXO 
II) en los resultados obtenidos por aquellos alumnos que obtuvieron peores 
calificaciones en el primer examen. Además, la metodología se ha mostrado ser muy 
útil para la elaboración de este tipo de pruebas. 

Además, otro de los objetivos era el establecer pautas relativas al criterio de valoración 
numérica de cada una de las preguntas incluidas en el test. Aunque no se han analizado 
en profundidad los criterios de valoración numérica y su influencia en la nota del alumno, 
se han comparado dos modos distintos de puntuar las preguntas para dos exámenes 
distintos, los correspondientes a la asignatura de Física Médica y el de la asignatura de 
Bioestadística ambas pertenecientes a 1º de Grado de Medicina. Si bien el resultado no 
es concluyente, ya que existen muchas variables a tener en cuenta que podrían afectar 
el resultado (distinta materia, elaboración de las preguntas y los distractores, etc.) se ha 
podido comprobar que no existen diferencias significativas entre las puntuaciones 
medias y medianas de ambas asignaturas (ANEXO III). 


3. METODOLOGÍA EMPLEADA EN EL PROYECTO 
 

La metodología empleada durante el desarrollo del presente proyecto puede dividirse 
en tres fases, correspondientes a los distintos objetivos planteados en el proyecto. 

1ª Fase: Desarrollo del software. 
 

En esta primera fase se ha llevado a cabo la implementación de todo el código necesario 
para la obtención de los índices de dificultad y discriminación utilizando como entrada 
el resultado de un examen tipo test. Para su cálculo hay que evaluar el número de 
respuestas correctas e incorrectas de cada una de las preguntas, así como la 
distribución en cuartiles de las notas de los alumnos. 

El código ha sido creado para que pueda ser ejecutado en una hoja de cálculo (Excel o 
Google docs) y atendiendo a las necesidades que pudieran aparecer a la hora de 
evaluar los exámenes. 

 
Posteriormente se utilizó el software en el análisis de varios exámenes para su 
validación. 

 
2ª Fase: Estudio del impacto en la calidad el uso de la información proporcionada por el 
software 

 
Haciendo uso de la herramienta desarrollada se han analizado los resultados de las 
preguntas de exámenes realizados en los cursos 2013-2014, 2014-2015 y 2015-2016, 
de la asignatura de Física Médica de 1º de Grado de Medicina. Dicho análisis nos ha 
permitido clasificar las preguntas en relación con su grado de dificultad y discriminación, 
así como detectar preguntas  formuladas erróneamente y  elaborar  una librería de 
cuestiones. 

 
Con esta librería de preguntas se ha elaborado un examen atendiendo a los índices de 
dificultad y discriminación. El examen fue propuesto en octubre de 2017 para que lo 
realizaran los alumnos de forma voluntaria. 

Posteriormente se analizaron los resultados del examen intermedio para detectar qué 
preguntas resultaron más difíciles, así como descartar posibles errores. Esta 
información se utilizó durante las clases de seminarios para recopilar la información de 
los propios alumnos e identificar qué aspectos hacían que las preguntas fueran difíciles. 
Gracias a ello se pudo detectar los conceptos de la asignatura que necesitaban más 
atención y a su vez, cómo algunos enunciados podían resultar confusos para los 
alumnos. 

La información proporcionada por los alumnos se tuvo en cuenta a la hora de la 
elaboración del examen final de la asignatura realizado en diciembre de 2017. 

 
Finalmente se analizó la repercusión del método en las notas obtenidas por los alumnos. 
 
 
3ª Fase: Criterio de valoración numérica de cada una de las preguntas incluidas en el 
examen tipo test 

 
Con el fin de analizar la repercusión que tendría sobre la nota del alumno los distintos 
criterios de valoración numérica de las preguntas de un examen, se han analizado los 
resultados  obtenidos  por  los  mismos  alumnos  en  dos  pruebas  de  tipo  test 


correspondientes a las asignaturas de Física Médica y Bioestadística, ambas de 1º de 
Grado de Medicina. 

En la asignatura de Física Médica los errores no puntúan negativamente (se compensa 
el azar aumentando el número de preguntas acertadas para aprobar), mientras que en 
la asignatura de Bioestadística penaliza con -1/3. El hecho de que una respuesta 
errónea reste podría implicar que el alumno no responda, aun sabiendo la respuesta 
correcta, por no arriesgarse a una puntuación negativa. 

 
Se han analizado las posibles diferencias entre ambas notas por medio de la correlación 
de Pearson y Spearman. También se han comparado las medias y medianas de datos 
pareados de los tests paramétrico (t de Student) y no paramétrico (pruebas de Wilcoxon 
y signos). Los resultados de los tres tests muestran que no existen diferencias 
significativas entre las puntuaciones medias y medianas de ambas. 


4. RECURSOS HUMANOS 
 

Se ha contado con todos los profesores que forman la unidad de Física Médica del 
Departamento de Radiología y Medicina Física de la facultad de Medicina UCM: 
Eduardo Guibelalde, Gabriel Prieto, Víctor Delgado, Eliseo Vañó, José Miguel 
Fernández, Carlos Prieto, Alfonso López, Margarita Chevalier y Diego García Pinto 
(responsable del proyecto). Su contribución ha consistido en: 

 Validación de la herramienta creada. 

 Elaboración de las preguntas para la creación de los exámenes tipo test. 

 Análisis de los resultados. 

 Discusión con los alumnos de los resultados durante las sesiones de seminario. 

Además, han contribuido al desarrollo del proyecto, Antonia García Salinero (PAS) y 
María Castillo García (estudiante de doctorado) en la corrección de los exámenes y 
clasificación de los mismos. 

 
También ha participado Agustín Turrero Nogues, Prof. de la Sección Departamental de 
Estadística e Investigación Operativa de la Facultad de Medicina UCM, encargado del 
estudio comparativo de los resultados obtenidos en ambas asignaturas. 


5. DESARROLLO DE LAS ACTIVIDADES 
 

Septiembre-Octubre: Desarrollo de todo el código necesario para la creación del 
software para el análisis de los exámenes. 

Octubre: Análisis de los exámenes de la asignatura de Física Médica de los cursos 
2013-2014, 2014-2015, 2015-2016. Elaboración de una base de datos de preguntas 
utilizadas anteriormente atendiendo a criterios de dificultad y discriminación. 

 
Octubre: Realización del examen intermedio por parte de los alumnos de 1º de Grado 
de Medicina. 

 
Noviembre: Discusión de los resultados con los alumnos en las distintas sesiones de 
seminario. 

 
Diciembre: Realización del examen final de la asignatura de Física Médica y análisis de 
los resultados. 

Junio: Realización del examen final de la asignatura de Bioestadística. Análisis de los 
resultados. 


6. ANEXOS 
 
 
ANEXO I. Cálculo de los índices 

Índice de dificultad: Fracción de estudiantes que han acertado la respuesta, esto es 
número de aciertos/ número de estudiantes. Valores bajos de este índice implican un 
alto grado de dificultad. Un buen ejemplo de examen sería aquel que tenga gran 
variedad de valores de dificultad. 

Índice de discriminación: Diferencia entre el valor medio de aciertos de los alumnos del 

1er cuartil y el valor medio de aciertos de los alumnos del 3er cuartil. Un valor alto de 
discriminación (el máximo es 1) implica que los alumnos que mejor han realizado el 
examen han respondido correctamente, por el contrario, un valor bajo (o incluso 
negativo) implica que los alumnos que han realizado mal el examen han respondido 
bien a la pregunta. Sería recomendable que la pregunta tuviese un valor de 
discriminación de al menos > 0,20. 

 
Figura 1: Ejemplo del resultado del análisis de uno de los exámenes evaluados en el 
presente proyecto. 


ANEXO II. Comparación de los resultados entre los exámenes intermedio y final de la 
asignatura de Física Médica 

Con el Objetivo de analizar el impacto que tiene en la calidad del examen se han 
comparado los resultados obtenidos entre los exámenes intermedio y final. Como se 
puede apreciar en la figura 2, se aprecia una mejora en el resultado del examen para 
aquellos alumnos que pero hicieron la prueba intermedia. 

 
Figura 2. Distribución de notas de los alumnos obtenidas en los dos exámenes 


ANEXO III. Comparación de los exámenes de las asignaturas de Física Médica y 
Bioestadística. 

A  continuación  se  muestran  los  resultados  de  la  comparación  estadística  de  los 
exámenes de las dos asignaturas. 

 
206 

 
,299 

 
Las notas medias son 6,627 y 6,255 para Estadística y Física respectivamente. Las 
desviaciones típicas son 2,113 y 1,421 para Estadística y Física, mostrando la mayor 
heterogeneidad de las notas la asignatura de Estadística. Por esta última razón el 
percentil 25 o primer cuartil es inferior en Estadística, el 75% de los alumnos obtiene 
más de 4,8 en Estadística y más de 5,8 en Física. La Mediana (percentil 50) y el percentil 
75 muestran notas más altas en Estadística, 7,3 frente a 6,3 y 8,3 frente a 7,07 
respectivamente. 

 
Finalmente, se incluyen los resultados de las comparaciones de medias y medianas de 
datos pareados de los tests paramétrico (t de Student) y no paramétrico (pruebas de 
Wilcoxon y signos). 

 
Prueba t de muestras emparejadas 

 Diferencias emparejadas 
 
 
t 

 
gl 

 
Sig. (bilateral) 

 
Media 

Desviación 

estándar 

Media de error 

estándar 

Par 1 Estadística - Física ,3719 2,0255 ,2532 1,469 63 ,147 

Estadísticos 

 Estadí stica Física 

N Válido 64 64 

 Perdidos 0 0 

Media  6,627 6,255 

Mediana  7,300 6,300 

Desviación estándar 2,1135
 1,4 

 
Varianza  4,467 2,018 

Asimetría  -,432 - ,568 

Error estándar de asimetría ,299  

Rango  8,5 7,3 

Mínimo  1,5 2,2 

Máximo  10,0 9,5 

Percentiles 25 4,800 5,800 

 50 7,300 6,300 

 75 8,300 7,075 

 
Prueba de Wilcoxon de los rangos con signo 

 
Estadísticos de pruebaa 

 
Física - Estadística 

Z -1,407b 

Sig. asintótica (bilateral) ,159 

Significación exacta (bilateral)  
,161 

Significación exacta (unilateral)  
,080 

Probabilidad en el punto ,001 

a. Prueba de Wilcoxon de los rangos con signo 

b. Se basa en rangos positivos. 

 
Prueba de los signos 

 
Estadísticos de pruebaa 

 
Física - Estadística 

Z -,756 

Sig. asintótica (bilateral) ,450 

Significación exacta (bilateral)  

,450 

Significación exacta (unilateral)  
,225 

Probabilidad en el punto ,068 

a. Prueba de los signos 

 
Los resultados de los tres tests muestran que no existen diferencias significativas entre 
las puntuaciones medias y medianas de ambas asignaturas (los valores de los 
diferentes p-valores, exactos y aproximados, se destacan en azul en las tres tablas 
precedentes).