UNIVERSIDAD COMPLUTENSE DE MADRID FACULTAD DE FILOLOGÍA Departamento de Filología Inglesa I EL C-TEST: ALTERNETIVA O COMPLEMENTO DE OTRAS PRUEBAS EN EL APRENDIZAJE DEL INGLÉS COMO LENGUA EXTRANJERA MEMORIA PARA OPTAR AL GRADO DE DOCTOR PRESENTADA POR María de los Milagros Esteban García Bajo la dirección del doctor Honesto Herrera Soler Madrid, 2007 • ISBN: 978-84-669-3041-3 UNIVERSIDAD COMPLUTENSE DE MADRID FACULTAD DE FILOLOGÍA Departamento de Filología Inglesa I EL C-TEST: ALTERNATIVA O COMPLEMENTO DE OTRAS PRUEBAS EN EL APRENDIZAJE DEL INGLÉS COMO LENGUA EXTRANJERA TESIS DOCTORAL MARÍA DE LOS MILAGROS ESTEBAN GARCÍA Director: Dr. Honesto Herrera Soler Madrid, 2007 A mi familia ÍNDICE AGRADECIMIENTOS i Abreviaturas utilizadas iii Publicaciones previas v INTRODUCCIÓN 1.1 Enunciado del tema de la tesis, motivación y objetivos 1 1.2 Hipótesis 6 1.3 Organización y contenido de la tesis 9 PRIMERA PARTE FUNDAMENTOS TEÓRICOS DE LA EVALUACIÓN DE LA LENGUA EXTRANJERA CAPÍTULO 1. APROXIMACIÓN TEÓRICA AL CONCEPTO DE EVALUACIÓN: LA EVALUACIÓN DE LA LENGUA 1.1. Introducción 13 1.2. El concepto de evaluación de la lengua 15 1.2.1. Aproximación terminológica 17 1.2.1.1. Testing 18 1.2.1.2. Evaluation y assessment 20 1.2.1.3. Measurement 22 1.2.2. Límites de la evaluación 23 1.3. La evaluación en el sistema educativo español 24 1.3.1. Pautas de actuación LOGSE para el profesorado de Lenguas Extranjeras 26 1.3.2. Propuestas LOGSE para la evaluación de Lenguas Extranjeras 27 1.3.3. Panorama actual: La escuela ante las nuevas realidades sociales 29 1.4. Las pruebas de evaluación de la lengua 30 1.4.1. Peculiaridades de las pruebas de evaluación de la lengua 31 1.4.2. Creación y diseño de pruebas 33 1.4.3. Qué evaluar en las pruebas de Lengua Extranjera 35 1.5. Modelos de dominio de la lengua 36 1.5.1 Modelos de componentes 37 1.6. El concepto de redundancia de la lengua 39 1.7. El concepto de “gramática de expectativas” 42 1.8. Tipos de pruebas de lengua 43 1.8.1. Según su propósito 44 1.8.1.1. Pruebas de competencia lingüística 44 1.8.1.2. Pruebas de adquisición de objetivos programados 45 1.8.1.3. Pruebas de diagnóstico 46 1.8.1.4. Pruebas de nivel 46 1.8.2. Según la naturaleza de las tareas propuestas 47 1.8.2.1. Pruebas directas 47 1.8.2.2. Pruebas indirectas 48 1.8.3. Según el número de elementos lingüísticos que se mida 48 1.8.3.1. Pruebas de elementos discretos 49 1.8.3.2. Pruebas integradoras 49 1.8.3.2.1. Pruebas pragmáticas 50 1.8.4. Según el método de corrección 51 1.8.4.1. Pruebas objetivas 51 1.8.4.2. Pruebas subjetivas 51 1.8.5. Según el marco de referencia utilizado 52 1.8.5.1. Pruebas normativas 52 1.8.5.2. Pruebas criteriales 52 1.8.6. Según el ámbito de aplicación y sus consecuencias 53 1.8.6.1. Pruebas de aula 53 1.8.6.2. Pruebas a gran escala 53 CAPITULO 2. PERSPECTIVA HISTÓRICA DE LA EVALUACIÓN DE LA LENGUA 2.1. Introducción 55 2.2. Orígenes de la Lingüística Aplicada 55 2.3. La evaluación de la lengua: trayectoria histórica 57 2.3.1 El movimiento estructuralista 58 2.3.2. El movimiento comunicativo 59 2.3.3. La evaluación en las últimas décadas: estado de la cuestión 60 2.3.3.1. Publicaciones especializadas en Evaluación 61 2.3.3.2. Asociaciones 62 2.4. La Evaluación de la Lengua de 1984 a 1994: State of the Art 63 2.4.1. Teoría de respuesta al ítem (IRT) 65 2.4.2. Análisis de pruebas estandarizadas 66 2.4.3. El problema de la autenticidad de las pruebas 66 2.4.4. La autoevaluación 67 2.4.5. La influencia de otros factores en la evaluación: el contexto y las características del alumno 67 2.4.6. Las técnicas de examen 68 2.5. La evaluación de la lengua desde 1994 hasta nuestros días 69 2.5.1. Introducción y fuentes 69 2.5.2. Principales temas que plantea la evaluación de la lengua en los últimos años 71 2.5.3. Rasgos de las pruebas 73 2.5.3.1 Washback o efecto rebote 74 2.5.3.2 Fiabilidad y validez 75 2.5.3.2.1. Validez de los constructos y teorías sobre el uso de la lengua 75 2.5.3.2.2. Investigaciones sobre validación 77 2.5.3.3. La autenticidad 77 2.5.4. Tipos de pruebas 78 2.5.4.1 Según el constructo 78 2.5.4.1.1. Evaluación de la comprensión escrita 78 2.5.4.1.2. Evaluación de la comprensión oral 79 2.5.4.1.3. Evaluación de la gramática y el vocabulario 79 2.5.4.1.4. Evaluación de la expresión oral 81 2.5.4.1.5. Evaluación de la expresión escrita 82 2.5.4.2. Según el ámbito de aplicación 83 2.5.4.2.1. Los exámenes nacionales o estandarizados 83 2.5.4.2.2. El inglés para fines específicos (IFE) 84 2.5.4.2.3. Autoevaluación 85 2.5.4.2.4. La Evaluación Alternativa 85 2.5.4.3. Diseño de pruebas 86 2.5.5. Nuevos retos en la enseñanza de lenguas 88 2.5.5.1. La ética en la evaluación de lenguas 88 2.5.5.2. Política 89 2.5.5.3. Los estándares en evaluación 90 2.5.5.4. La evaluación en edades tempranas 90 2.5.5.5. Las NuevasTecnologías en la evaluación 91 2.6. Perspectivas de futuro 92 CAPÍTULO 3. RASGOS DE LOS EXÁMENES O PRUEBAS 3.1. Introducción 95 3.2. Validez de las pruebas 96 3.2.1. Validez de constructo 99 3.2.2. Validez de contenido 101 3.2.3. Validez criterial 103 3.2.4. Validez aparente 105 3.3. Fiablilidad 106 3.3.1. Medidas cuantitativas de la fiabilidad 107 3.3.2. La fiabilidad de la corrección 108 3.3.3. Cómo asegurar la fiabilidad de las pruebas 110 3.4. Tensión validez-fiabilidad 112 3.5. Autenticidad 114 3.6. Carácter interactivo 116 3.7. Factibilidad 118 3.8. Impacto 119 3.8.1. Definición del concepto 120 3.8.2. El impacto de las pruebas en el enfoque comunicativo 122 3.8.3. Investigación empírica sobre el impacto 122 3.8.4. El impacto en los individuos: alumnos y profesores 125 3.8.5. El impacto de las pruebas externas en la enseñanza: Enseñar para el examen 126 3.8.6. Cómo conseguir que el efecto rebote sea beneficioso 129 CAPÍTULO 4. LA EVALUACIÓN DEL VOCABULARIO 4.1. Introducción: el vocabulario en la enseñanza de Lenguas Extranjeras 133 4.2. Naturaleza del vocabulario 136 4.2.1. Concepto de palabra 136 4.2.1.1. Amplitud del vocabulario 138 4.2.2. Grado de conocimiento de una palabra 139 4.2.2.1. learning burden 141 4.2.2.2. Conocimiento receptivo y productivo 142 4.2.2.3. Collocations 144 4.2.3. Tipos de palabras 144 4.2.3.1. Types y tokens 145 4.2.3.2. Términos léxicos y funcionales 145 4.2.3.3. Unidades léxicas de más de una palabra 147 4.2.3.4. Tipos de términos según su frecuencia en la lengua 149 4.2.3.4.1. Términos muy frecuentes 150 4.2.3.4.2. Términos académicos 151 4.2.3.4.3. Términos técnicos 152 4.2.3.4.4. Términos poco frecuentes 152 4.2.4. Últimas definiciones del constructo del vocabulario 153 4.3. Adquisición y aprendizaje de vocabulario 154 4.3.1. Diferencias entre la adquisición de L1 y L2 156 4.3.2. Carácter gradual de la adquisición de vocabulario 157 4.3.3. La memoria en la adquisición de vocabulario 158 4.3.4. Incorporación sistemática de vocabulario 159 4.3.5. Incorporación incidental de vocabulario 160 4.3.6. Factores que afectan al aprendizaje de una palabra 161 4.3.7. Pasos en el aprendizaje del vocabulario 165 4.3.8. Estrategias de aprendizaje del vocabulario 165 4.4. Investigaciones sobre evaluación del vocabulario 169 4.4.1. El estudio del vocabulario: Perspectiva histórica 171 4.4.2. La evaluación del vocabulario en el siglo XX 172 4.4.3. Panorama actual en la evaluación del vocabulario 173 4.4.3.1. Tendencias actuales de evaluación del vocabulario 174 4.4.3.2. Estudios recientes sobre el vocabulario en España 176 4.5. Las pruebas de vocabulario 176 4.5.1. Tipos de pruebas de vocabulario 177 4.5.1.1. Pruebas objetivas de elementos discretos 177 4.5.1.2. Holísticas o integradoras 179 4.5.1.3. Pruebas de cierre: Clozes 180 4.5.2. Ejemplos de pruebas estandarizadas de vocabulario 181 CAPÍTULO 5. LAS PRUEBAS DE CIERRE 5.1. Introducción 183 5.2. Concepto de “prueba de cierre” o cloze technique 183 5.3. La Psicología de la Gestalt 184 5.4. Los clozes como expresión de los principios de pregnacia y cierre 186 5.5. Qué miden las pruebas de cierre 189 5.6. Las pruebas de cierre como medida de la comprensión lectora 192 5.7. Rasgos fundamentales de las pruebas de cierre 193 5.7.1. Validez y fiabilidad 193 5.7.2. Factibilidad 194 5.8. Selección de textos para la creación de pruebas de cierre 195 5.9. Tipos de pruebas de cierre 196 5.9.1. De ratio fija 197 5.9.2. De ratio variable 198 5.9.3. De elección múltiple 199 5.9.4. Cloze-elide technique 200 5.9.5. El C-test 201 5.10. Criterios de corrección de las pruebas de cierre 202 5.10.1. Palabra exacta 202 5.10.2. Palabra aceptable 202 5.10.3. Clozentrophy 203 5.10.4. Elección múltiple 203 CAPÍTULO 6. EL C-TEST 6.1. Introducción 205 6.2. Antecedentes del C-test 205 6.3. Deficiencias de las pruebas de cierre tradicionales 206 6.4. Descripción de la técnica para diseñar de C-tests 208 6.5. Aportación del C-test a los clozes 210 6.6. El C-test como prueba de redundancia reducida 211 6.7. Rasgos del C-test: 213 6.7.1. Validez y fiabilidad 214 6.7.1.1. Validez aparente 216 6.7.2. Autenticidad 217 6.7.3. Factibilidad 218 6.7.4. Efecto rebote 218 6.8. Métodos de análisis de los procesos que subyacen a la actuación del alumno en las pruebas de evaluación de la lengua 219 6.8.1. Estrategias para la resolución de C-tests: validez de constructo 220 6.8.2. Qué mide exactamente el C-test 224 6.8.3. C-processing difficulty 227 6.9. Usos del C-test 228 6.10.Variaciones sobre la técnica del C-test 230 6.10.1. La “regla del tres” 230 6.10.2. C-tests “a la medida” 231 6.10.3. L-Test 231 6.10.4.The Productive Vocabulary Levels Test 232 6.10.5. Otras propuestas 233 6.11. Interpretación de los resultados obtenidos en un C-tests 234 6.12. Líneas de futuro 235 SEGUNDA PARTE PERSPECTIVA EMPÍRICA CAPÍTULO 7. ESTUDIOS PILOTO 7.1. Introducción 237 7.2. Prueba piloto I 238 7.2.1. Objetivos del estudio 238 7.2.2. Sujetos 238 7.2.3. Materiales 239 7.2.4. Procedimiento 240 7.2.5. Resultados y discusión 241 7.2.6. Conclusión 245 7.3. Prueba piloto II 246 7.3.1. Objetivos del estudio 246 7.3.2. Sujetos 247 7.3.3. Materiales 248 7.3.4. Procedimiento 249 7.3.5. Resultados y discusión 250 7.3.6. Conclusión 252 CAPÍTULO 8. DESCRIPCIÓN DEL PROCESO METODOLÓGICO 8.1. Introducción 255 8.2. Sujetos 255 8.3. Materiales 259 8.3.1. C-test: Diseño 259 8.3.1.1. Proceso de selección de textos 261 8.3.1.2. Elección del criterio de corrección 265 8.3.1.3. Instrucciones 265 8.3.1.4. Administración a hablantes nativos 266 8.3.2. Cavemen? 267 8.3.3. Calificaciones de Inglés en la 2ª Evaluación 267 8.3.4. Calificaciones del examen de Inglés de las PAAU oficiales 268 8.3.5. Cuestionario 274 8.4. Contexto: Perfil de los IES en que se realizó el estudio 275 8.5. Procedimiento 276 8.5.1. Selección de los sujetos: muestra 277 8.5.2. Distribución del tiempo 277 8.6. Tratamiento de los datos 280 CAPÍTULO 9. ANÁLISIS EMPÍRICO DE LA VALIDEZ DEL C-TEST 9.1. Introducción 283 9.2. Proceso de validación del C-test como prueba de competencia lingüística 284 9.3. Aspectos descriptivos del C-test aplicado: análisis intrínseco 286 9.3.1. Promedios del C-test y los subtests que lo forman 286 9.3.2. Correlaciones entre el C-test y los subtests que lo forman 292 9.3.3. Resultados obtenidos según el modelo de C-test: A y B 294 9.3.4. Incidencia del cambio de formato 297 9.3.4.1. El cambio de formato y la recuperación de algunos ítems 299 9.4. Análisis de los textos a partir de los cuales se creó el C-test aplicado 303 9.4.1. La variable temática 303 9.4.2. Variación y densidad léxicas de los textos 305 9.5. Factores que determinan la facilidad o dificultad de los items 306 9.5.1. Términos léxicos y funcionales 306 9.5.2. Incidencia del tipo de término omitido en la recuperación del texto. Análisis por modelos 310 9.5.2.1. Recuperación de términos léxicos y funcionales 310 9.6. Casuística en la recuperación de las omisiones: Análisis de los errores 316 9.7. Análisis empírico de los resultados obtenidos en Cavemen? 319 9.7.1. Descripción de Cavemen? Estructura e interrelaciones 319 9.7.2. Correlaciones entre Cavemen? y las otras pruebas 325 9.8. Análisis de la validez concurrente del C-test: correlaciones 328 9.9. Validez predictiva 335 9.10. Fiabilidad 336 9.10.1. Análisis por mitades 336 9.10.2. Alfa de Cronbach 337 9.10.3. Validez y fiabilidad 339 9.10.4. Fiabilidad del corrector 340 CAPÍTULO 10. ANÁLISIS DE REGRESIÓN LINEAL DEL C-TEST 10.1. Introducción 343 10.2. Análisis de regresión lineal de la 2ª Evaluación 343 10.3. Análisis de regresión lineal de Cavemen? 349 10.4. Análisis de regresión lineal de la Selectividad de junio de 2001 352 10.5. Conclusión 354 CAPÍTULO 11. ACTUACIÓN EN EL C-TEST EN FUNCIÓN DEL ESTATUS DEMOGRÁFICO 11. 1. Introducción 357 11.2. Incidencia de la variable genérica 357 11.2.1. Características genéricas de la muestra y promedios obtenidos en las pruebas 358 11.2.2. Repercusiones del género en el C-test: modelos y subtests 359 11.2.3. Análisis de promedios mediante el modelo lineal general 362 11.3. Incidencia del IES de procedencia de los sujetos 364 11.3.1. Entorno de los IES en que se realizó el estudio 364 11.3.2. Análisis estadístico de los promedios de cada centro 365 11.3.3. Análisis de varianza univariante de los resultados de los centros 367 11.3.4. Repercusiones de la variable IES de procedencia en el C-test 368 11.3.5. Análisis de varianza univariante de ambas variables 370 CAPÍTULO 12. ANÁLISIS DEL CUESTIONARIO RETROSPECTIVO DE OPINIÓN 12.1. Introducción 375 12.2. La validez aparente del C-test en los estudios piloto 376 12.3. El cuestionario: partes y orígenes 376 12.4. Valoración global de las dificultades planteadas por el C-test 379 12.5. Análisis estadístico 381 12.5.1. Tablas de frecuencias 381 12.4.2. Análisis factorial 390 12.6. Conclusiones 393 CONCLUSIONES Y SÍNTESIS DE RESULTADOS Introducción 395 Conclusiones 397 A. Validez del C-test 398 A.1. Características intrínsecas del C-test y análisis de promedios 398 A.2. Incidencia de factores textuales en el grado de dificultad de la prueba 400 A.3. Validez criterial concurrente del C-test 402 A.4. Análisis de regresión lineal 404 A.5. Validez aparente del C-test: cuestionario retrospectivo 405 B. Fiabilidad 406 C. Incidencia de las variables género e IES 407 C.1. Incidencia del género de los sujetos en el C-test 407 C.2. IES de procedencia de los sujetos 408 D. Implicaciones pedagógicas 409 E. Consejos para la creación de C-tests 410 F. Síntesis de los resultados más relevantes del estudio 412 G. Propuesta de posibles futuras líneas de investigación 415 BIBLIOGRAFÍA 417 APÉNDICE Apéndice 1 441 Apéndice 2 445 Apéndice 3 447 Apéndice 4 449 Apéndice 5 451 Apéndice 6 455 Apéndice 7 457 Apéndice 8 459 Apéndice 9 460 i AGRADECIMIENTOS Esta tesis es el resultado final de varios años de trabajo durante los cuales me he sentido acompañada por muchas personas cercanas, sin cuyo apoyo esta Memoria no habría sido una realidad. En primer lugar, he de agradecer al Dr. D. Honesto Herrera Soler, director de la tesis, su esfuerzo y dedicación, su disponibilidad, paciencia y ayuda en la elaboración de la tesis. Agradezco el seguimiento que ha realizado, su orientación y presencia constantes, desde los primeros momentos hasta la culminación del trabajo. Gracias a él he disfrutado al recorrer este largo camino. Doy las gracias también a su Departamento por la acogida y los ánimos. En segundo lugar, quiero expresar mi agradecimiento sincero a las profesoras de Inglés de Enseñanza Secundaria que han colaborado al aplicar las pruebas de evaluación a sus alumnos, siguiendo siempre fielmente nuestras indicaciones, porque han desarrollado una labor silenciosa pero fundamental para este trabajo. Han puesto a nuestra disposición toda la información necesaria y nos han facilitado la tarea. En especial, a Guillermina Garrido y Pilar Bruguera (IES San Isidoro de Sevilla), María Manso de Zúñiga (IES Ágora), Mª Ángeles Reglero (IES Vicente Aleixandre), Marita Matesanz e Isabel Sanz (IES Humanejos). Gracias por vuestra disponibilidad y ayuda desinteresada. Con vosotras, el agradecimiento a todos los alumnos y más aún a los que formaron parte del estudio empírico. Porque, en definitiva, son ellos los que dan sentido a esta tesis. ii Gracias a tantos profesores, ejemplo de trabajo bien hecho y a menudo poco reconocido. También he de mencionar mi agradecimiento a los amigos, y a todos los que, de una forma u otra, han colaborado en este trabajo. Y, por supuesto, a mi familia. A mis padres, que me enseñaron a valorar desde siempre el trabajo y el afán de superación. A Gemma, por su ayuda en la fase de redacción final, con su experiencia en estas lides. Y a Javier. La fase final de esta Tesis ha podido ser realizada gracias a la concesión de Licencia por Estudios durante el curso 2004-05 por parte de la Consejería de Educación de la Comunidad de Madrid. iii PRINCIPALES ABREVIATURAS UTILIZADAS EN ESTA TESIS AESLA Asociación Española de Lingüística Aplicada AILA Association Internationale de Linguistique Appliquée ALTE Association of Language Testers in Europe ANOVA Analysis of Variance CALL Computer Assisted Language Learning CLA Communicative Language Ability CLA Classical Latent Additive Test Model CLT Communicative Language Testing CRM Criterion-referenced Measurement EAP English for Academic Purposes EFL English as a Foreign Language ESP English for Specific Purposes IFE Inglés para Fines Específicos ILE Inglés como Lengua Extranjera IRT Item Response Theory LDP Letter Deletion Procedure LSP Language for Specific Purposes L1 First Language L2 Second Language LT Language Testing NRM Norm-referenced Measurement MC Multiple Choice PAAU Pruebas de Aptitud para el Acceso a la Universidad RRP Principio de redundancia reducida SLA Second Language Acquisition TLU Target Language Use TOEFL Test of English as a Foreign Language TOEIC Test of English for International Communication UCH Unitary Competence Hypothesis VLS Vocabulary Learning Strategies v PUBLICACIONES PREVIAS RELACIONADAS CON EL TEMA DE TESIS Los resultados obtenidos a partir de los dos estudios piloto previos a esta tesis fueron expuestos en congresos de AESLA y posteriormente publicados: - Esteban, M., Herrera, H. y Amengual, M. (2001) Niveles de correlación entre el C-test y las pruebas de Inglés de Selectividad. Comunicación al XIX Congreso Nacional de AESLA, Universidad de León. - Esteban, M., Herrera, H. y Amengual, M. (2001) ¿Puede el C-test ser una alternativa a otras pruebas en la enseñanza del inglés como segunda lengua? La lingüística española a finales del siglo XX. Ensayos y propuestas, Tomo I. AESLA 1999. Universidad de Alcalá. - Esteban, M. y Herrera, H. (2003) El C-test: instrumento apropiado para la evaluación de la competencia en inglés como lengua extranjera. Las lenguas en un mundo global. Universidad de Jaén, 2003. - Esteban, M. (2005) Niveles de correlación entre el C-test y la prueba de Inglés de Selectividad. En Herrera Soler, H. y García Laborda, J. (Coord.) Estudios y criterios para una Selectividad de calidad en el examen de Inglés. Valencia: Editorial UPV. Introducción 1 INTRODUCCIÓN 1.1. Enunciado del tema de tesis, motivación y objetivos Esta tesis desarrolla el análisis pormenorizado de un tipo de prueba objetiva de elementos discretos: el C-test o “prueba C”1. Es una prueba de cierre que fue desarrollada a partir de los clozes tradicionales. Sus creadores, Klein-Braley y Raatz (1981), lo consideraron un instrumento de evaluación muy adecuado para medir la competencia lingüística global en lengua extranjera. Posteriormente, diversos autores han continuado investigando la validez de la prueba en distintos contextos. Nuestro trabajo supone una revisión de sus características, diseño y aplicación en alumnos de Inglés como Lengua Extranjera en Bachillerato. En él se analizan las ventajas y los puntos débiles que derivan de este diseño. El presente estudio nació de nuestro interés por encontrar instrumentos nuevos, prácticos, válidos y fiables para la evaluación del Inglés como Lengua Extranjera. En el diseño del C-test reconocimos una prueba novedosa llena de posibilidades, que además facilita la labor del profesorado. Actualmente, la investigación lingüística hace uso de los métodos aplicados en las Ciencias Sociales para poder generalizar después los resultados: “Language research is based on data” (Rieveld y van Hout 2005). Se parte de la recopilación de los datos para su posterior análisis e interpretación. Por tanto, para garantizar los valores atribuidos al C-test, no basta con aplicarlo a alumnos españoles y comprobar los resultados de forma aislada, es vital validar con rigor distintos aspectos de la prueba, estudiando, por ejemplo, su correlación con otras pruebas estandarizadas que midan el mismo constructo. En el proceso de validación contamos con la valiosa 1 En este trabajo preferimos respetar el término inglés. El origen de esta denominación, que refleja el fuerte vínculo entre C-test y clozes (Klein-Braley 1997: 63), se explica en el capítulo 6. El C-test: alternativa o complemento de otras pruebas en ILE 2 ayuda de los medios informáticos y estadísticos que nos permitieron el análisis objetivo de los datos. Se eligieron las Pruebas de Aptitud para el Acceso a la Universidad (PAAU) como medida independiente, por ser en este momento un referente objetivo y estandarizado, ya consolidado dentro del sistema educativo español2. Estas pruebas, que se realizan una vez superado el 2º curso de Bachillerato y durante años han supuesto la vía de acceso a las Universidades españolas, incluyen ejercicios de diversas materias comunes y de modalidad. La prueba de Inglés forma parte de las materias comunes. Hasta ahora, todos los alumnos que pretenden entrar en la Universidad han de enfrentarse a dicha prueba de Inglés. Como punto de partida de la tesis se hace necesario el estudio detallado del estado de la cuestión en Evaluación de Lenguas Extranjeras. El marco teórico que justifica y guía la investigación realizada en este trabajo se desarrolla en los primeros capítulos del mismo y desgrana desde los aspectos generales de la Evaluación de la Lengua o Language Testing (LT) hasta los más concretos, relacionados con el C-test. Nos centramos en las pruebas de lengua pragmáticas de elementos discretos y, en particular, en los clozes o pruebas de cierre como expresión del principio de redundancia reducida (RRP) de Spolsky (1973) y del de gramática de expectativas de Oller (1979). Dedicamos nuestra labor fundamental al estudio riguroso del C-test como tipo de prueba de cierre aún no suficientemente explorado. De hecho, como veremos, en la literatura desarrollada en torno al C-test encontramos resultados contradictorios. A continuación, la Perspectiva Empírica, en la segunda parte de la tesis, incluye una descripción de las distintas pruebas aplicadas, la metodología seguida, y por fin, el tratamiento estadístico de los datos obtenidos en la fase experimental y las inferencias correspondientes. Por último, el proceso culmina con las conclusiones e implicaciones pedagógicas derivadas de nuestra investigación. 2 El examen de Selectividad apareció en 1974 como prueba de acceso a los estudios universitarios (Ley 30/1974 de 24 de julio) y, a pesar de los cambios producidos en el sistema educativo, se ha mantenido hasta nuestros días (Fernández y Sanz 2005). En la literatura, dependiendo de la Universidad de referencia, dichas pruebas de acceso aparecen indistintamente con las denominaciones abreviadas PPAU, PAU o PAAU. En esta tesis adoptamos la última versión, y nos referimos a ellas indistintamente como PAAU o Selectividad. La segunda denominación es la más extendida y popular, pues alude claramente al carácter selectivo de la prueba. Introducción 3 El primer capítulo de la tesis plasma el marco teórico sobre Evaluación de la Lengua. Comienza con una mirada retrospectiva, que parte de los orígenes de la disciplina, para luego analizar su actividad en el momento actual y proyectarse hacia el futuro de la misma. Pretende mostrar las investigaciones que se están realizando en el campo de la Lingüística Aplicada y más concretamente en Evaluación de la Lengua, cada vez más numerosas y ricas (Alderson y Banerjee 2001). Desde todos los ámbitos se augura un futuro prometedor para la disciplina. Con este trabajo pretendemos averiguar qué puede aportar el C-test a la realidad educativa española y, en concreto, a los distintos sujetos implicados en la tarea de la enseñanza de lenguas: profesores, alumnos e instituciones educativas. Nos interesa especialmente concretar cómo responde el C-test a las demandas y necesidades del profesorado de idiomas en materia de evaluación, preocupado por encontrar instrumentos apropiados de medida de la competencia en la Lengua Extranjera. Algunos estudios valoran la contribución del C-test como instrumento de evaluación que hace uso del principio de redundancia reducida (Eckes y Grotjahn 2006; Rashid 2002; Babaii y Ansary 2001; Connelly 1997; Klein-Braley 1997; Dörnyei y Katona 1992; Klein-Braley y Raatz 1981, 1984; Raatz 1983), otros cuestionan su validez aparente y de constructo (Bradshaw 1990; Cohen et al. 1984; Jafarpur 1995, 1999; Feldmann y Stemmer 1987; Kokkota 1988). Ante tal panorama, de cierta confusión, los autores insisten en la necesidad de nuevas investigaciones. Nuestro trabajo toma el testigo y, siguiendo las líneas de investigación que sugiere la literatura, intenta determinar: • Qué mide el C-test, como prueba discreta y a la vez holística, y con qué tipos de prueba correlaciona mejor. • Cuáles son sus características en términos de fiabilidad y validez (de constructo, de contenido, concurrente, etc.), a la luz de los criterios que fijan los expertos en la materia. • Qué reacción suscita en los alumnos (validez aparente). • Qué ventajas ofrece este diseño a los profesores de Inglés como Lengua Extranjera (factibilidad). El C-test: alternativa o complemento de otras pruebas en ILE 4 Porque, en definitiva, es nuestro objetivo definir si el C-test: • Demuestra ser una prueba válida y fiable para medir la competencia global de los alumnos españoles de 2º de Bachillerato en Inglés como Lengua Extranjera. • Se podría utilizar como alternativa a otras pruebas en la enseñanza del Inglés como Lengua Extranjera, concretamente a la PAAU de Inglés vigente. • O bien debería utilizarse únicamente como complemento a los tipos de examen tradicionales. De la mano de estos objetivos fundamentales han ido apareciendo otros puntos de estudio colaterales que han contribuido a dar la forma definitiva a nuestra investigación: • Aspectos intrínsecos al propio diseño de la prueba; como las diferencias de recuperación de las omisiones dependiendo de las características del texto de partida (tema, variación léxica, densidad), el tipo de palabra mutilada (términos léxicos y funcionales), y el formato utilizado (con omisiones guiadas o no). • Influencia de variables externas en los resultados (género, formación previa e IES). • Posibles ventajas y/o aplicaciones de este diseño en las clases de Lengua Extranjera. Después de haber llevado a cabo dos estudios piloto, una vez fijados los objetivos, el diseño y las etapas del trabajo empírico, comenzó la fase práctica con la creación de un C-test de 100 omisiones, siguiendo los parámetros de Klein-Braley y Raatz (1981, 1984). Para determinar la validez concurrente y de constructo del C-test debíamos tomar otras pruebas como referencia o criterio externo. Chapelle y Abraham (1990) estudiaron su correlación con diferentes tipos de cloze, con un ensayo y el Group Embedded Figures Test (GEFT); Dörnyei y Katona (1992) tomaron cuatro exámenes Introducción 5 (Department Proficiency Test, TOEIC, un cloze y una entrevista oral); Ikeguchi (1998) usó el STEP exam; tanto Babaii y Ansary (2001) como Babaii y Moghaddam (2006) administraron el TOEFL, y Eckes y Grotjahn (2006), el TestDaF alemán. En nuestro caso, se estudian las correlaciones del C-test con la prueba de Inglés de las PAAU, ya que es actualmente el referente oficial y estandarizado en nuestro país, una prueba externa a la escuela que mantiene su vigencia y cuya validez se da oficialmente por supuesta, a pesar de las voces críticas que reclaman su renovación y la mejora de algunos aspectos (Herrera 1999, 2005; García Laborda 2005; Fernández y Sanz 2005; Watts y García Carbonell 2005). Por ello, elegimos una muestra de alumnos de 2º curso de Bachillerato para desarrollar nuestro trabajo empírico. Pero encontramos algunas limitaciones, como el hecho de que no todos los alumnos que cursan 2º de Bachillerato realicen las PAAU. Por otra parte, la información que aportan las Universidades una vez corregida la prueba se limita a la calificación global de cada sujeto. Teniendo en cuenta estas realidades, decidimos administrar directamente en las aulas otra prueba de Inglés previamente aparecida en Selectividad (Cavemen?), de este modo solucionamos de forma operativa los dos problemas que planteaban las PAAU oficiales al diseño de nuestra investigación. Contamos con la información suministrada por la prueba tipo PAAU realizada en clase por todos los sujetos de la muestra y, además, con la calificación de la prueba de Inglés de los alumnos presentados a las PAAU oficiales de junio de 2001. Como veremos más adelante, de la cuantiosa información suministrada por la prueba tipo PAAU aplicada en el aula surgieron interesantes aportaciones. Además, puesto que nuestra motivación es eminentemente pedagógica, optamos por incluir también como referente las calificaciones de la 2ª Evaluación en la asignatura de Inglés. Este dato aporta la valoración de los profesores respectivos acerca de la competencia, progreso y aprovechamiento del alumno en la lengua. Aglutina los resultados obtenidos en distintas pruebas formales (orales y escritas), datos de la observación sistemática del profesor, apreciación del progreso y esfuerzo personal, etc. según el currículo oficial y la programación de la asignatura. En cuanto a la validez aparente del C-test, fuertemente cuestionada por algunos autores (Bradshaw 1990; Jafarpur 1995), entendimos que la utilización de protocolos think-aloud no respondía a nuestras posibilidades, dado el volumen de la El C-test: alternativa o complemento de otras pruebas en ILE 6 muestra. En su lugar, se optó por la elaboración y administración de un cuestionario retrospectivo de opinión. De este modo, quedaron configurados los elementos centrales de nuestra investigación, que ahora detallamos: • El análisis de los rasgos del C-test como instrumento de evaluación de la lengua, principalmente de su validez de constructo y concurrente, a través del estudio de las correlaciones con otras pruebas y del procedimiento de regresión lineal. • La determinación de los factores que influyen en el diseño de C-tests. • El análisis de la validez aparente del C-test para alumnos españoles a partir de los datos de un cuestionario. • Las perspectivas de futuro de la prueba en el sistema educativo español. Además, se analizó de forma somera la influencia de dos variables externas en los resultados obtenidos: género y centro educativo (IES) de los sujetos de la muestra. 1.2. Hipótesis Movidos por la convicción de que la investigación de todo instrumento de Evaluación de la Lengua debe abordarse desde una perspectiva pedagógica y teniendo en cuenta a todos los sujetos implicados en el proceso de enseñanza- aprendizaje, pretendemos establecer la validez y fiabilidad del C-test y su funcionamiento en el contexto de la Enseñanza Secundaria en España, mediante el análisis de la propia prueba y su correlación con otra prueba estandarizada; el examen de Inglés de las PAAU. Introducción 7 Esta tesis intenta responder a las siguientes hipótesis de trabajo: HIPÓTESIS 1. HIPÓTESIS 2. HIPÓTESIS 3. HIPÓTESIS 4. HIPÓTESIS 5. HIPÓTESIS 6. HIPÓTESIS 7. Partiendo de las características de la prueba podemos predecir que el C-test deberá correlacionar bien con otras pruebas estandarizadas que midan la competencia global en lengua extranjera, como las PAAU, y también con las calificaciones obtenidas por los alumnos en la asignatura de Inglés. De ello se sigue que, por sus características, al ser una prueba objetiva de elementos discretos, para un mismo sujeto, el C-test correlacionará mejor con las pruebas de tipo objetivo que con las de tipo subjetivo y holístico. En este tipo de prueba el alumno recuperará mejor los términos funcionales que los de contenido léxico. Los cambios en el formato influyen directamente en los resultados obtenidos; si se incluye el número de letras que corresponde a cada omisión se facilita la tarea del alumno. Por su novedad y su carácter fragmentario, algo confuso al principio, puede conducir al rechazo. El C-test carece de validez aparente. No habrá diferencias significativas al aplicar la variable de género. No se prevé que existan diferencias de funcionamiento del C-test al aplicar la variable IES (zona de ubicación del centro de enseñanza). El C-test: alternativa o complemento de otras pruebas en ILE 8 En el proceso de validación de las hipótesis planteadas intentaremos responder a las siguientes preguntas de investigación: 1. ¿Discrimina el C-test de forma adecuada y fiable entre los sujetos, atendiendo a su competencia lingüística? 2. ¿Existe correlación significativa entre las puntuaciones obtenidas por un sujeto en un C-test y en la prueba de Inglés de las PAAU? ¿Y con respecto a la valoración que hace el profesor acerca de su progreso en la asignatura? 3. Si subdividimos la prueba de Inglés de las PAAU en las distintas preguntas que la forman, ¿hay diferencias entre la correlación del C-test con las puntuaciones obtenidas en preguntas de tipo objetivo y subjetivo? Si las hay, ¿a qué se deben y cómo se explican? 4. ¿Incide el formato utilizado en el C-test en la recuperación de las omisiones? Es decir, ¿supone una ayuda eficaz guiar las omisiones indicando el número de letras omitidas? 5. ¿Incide el tipo de término, de carácter léxico o funcional, afectado por la mutilación? 6. ¿Sería pertinente plantear un nuevo diseño de C-test, eliminando la “regla del dos” y, en su lugar, incluyendo exclusivamente omisiones “a la medida”? 7. ¿Hasta qué punto depende el funcionamiento del C-test del tipo y características del texto sobre el que esté diseñado? 8. ¿Cómo valoran los sujetos al C-test? ¿Se podría considerar que la prueba carece de validez aparente? ¿Qué datos se extraen del cuestionario de opinión al respecto? Introducción 9 9. ¿Qué influencia ejercen las variables género, formación previa y centro de estudios de los sujetos en los resultados obtenidos? 10. ¿Qué puede aportar el C-test como instrumento de evaluación del Inglés como Lengua Extranjera a nuestra actividad docente? 1.3. Organización y contenido de la tesis En cuanto a la organización de esta tesis, mencionaremos que se divide en dos partes. La primera estudia el estado de la cuestión en Evaluación de la Lengua o Language Testing (LT), revisa y establece el marco teórico que fundamenta este campo, en el que se inscribe la tesis. La segunda aporta la investigación empírica que se ha llevado a cabo: los datos, el desarrollo y resultados de ésta. Incluye además las inferencias y conclusiones alcanzadas a la vista de los resultados, y las implicaciones pedagógicas que derivan de ellas. Además, la tesis se inicia con esta Introducción que pretende presentar la investigación realizada, y concluye con un Apéndice final que recopila algunos materiales de interés utilizados en ella (C-tests, cuestionarios, etc.). La primera parte de la tesis se estructura en torno a seis capítulos, cuyo contenido desglosamos a continuación. El capítulo 1 revisa el concepto de Evaluación de la Lengua, comenzando por acotar los términos relativos a la evaluación. Alude a la legislación y recomendaciones vigentes en el sistema educativo español en materia de evaluación, pero se centra en las peculiaridades de las pruebas de lengua, los modelos de dominio de la lengua y los conceptos de “redundancia de la lengua” (Spolsky 1973) y “gramática de expectativas” (Oller 1979). El capítulo 2 hace un recorrido histórico por la Evaluación de la Lengua desde los orígenes de la Lingüística Aplicada, como disciplina en cuyo seno se inserta la subdisciplina de la Evaluación de Lenguas. Repasa los principales enfoques de LT a lo largo del siglo XX, con especial atención al movimiento comunicativo y a la última década de LT. El análisis de algunas publicaciones periódicas especializadas El C-test: alternativa o complemento de otras pruebas en ILE 10 (Language Testing, Language Learning, Language Teaching Abstracts, etc.) nos permite tomar el pulso a la actualidad en evaluación. Culminamos el capítulo esbozando ciertos rumbos de futuro que podría tomar la disciplina en el siglo XXI. El capítulo 3 está dedicado al estudio de los rasgos de las pruebas. En primer lugar examina los conceptos de validez y fiabilidad. Desglosa los distintos tipos de validez y, con mayor detenimiento, la validez de constructo (Messick 1989). Continúa con el análisis de las demás cualidades de las pruebas: autenticidad, carácter interactivo y factibilidad. Finaliza con una revisión del impacto o efecto rebote de las pruebas. El C-test ha sido considerado a efectos prácticos como prueba específica de vocabulario (Chapelle 1994; Read 2000; Schmitt 2000), a pesar de que no fue ésta la intención de sus creadores. En el capítulo 4 se analiza el rol del vocabulario en el aprendizaje de lenguas extranjeras. Revisa la naturaleza y características del vocabulario: el concepto de palabra y la clasificación de las palabras atendiendo a distintos criterios. Aborda también cuestiones relativas a su adquisición o aprendizaje y a la evaluación del vocabulario. El capítulo 5 es fundamental para el desarrollo de la tesis. En él se identifica al C-test como prueba de cierre. Comienza con una aproximación al concepto de cloze, que se remonta a la Psicología de la Gestalt. Revisa sus características y los distintos tipos de prueba de cierre; de ratio fija, de ratio variable (Bachman 1982, 1985), de elección múltiple y el C-test (Klein-Braley y Raatz 1981). Con el capítulo 6 concluye la primera parte. Profundiza en el C-test como prueba de redundancia reducida que pretende mejorar algunas deficiencias de los clozes tradicionales. Se aportan detalles de su diseño y características, siguiendo las indicaciones de sus creadores, Klein-Braley y Raatz (1981). Finalmente, se analiza la literatura sobre el C-test y las investigaciones recientes más significativas que informan nuestro trabajo experimental. La segunda parte de la tesis, Perspectiva Empírica, incluye el trabajo experimental desarrollado: el diseño de las pruebas, su aplicación en distintos IES, los resultados obtenidos y las conclusiones. El capítulo 7 describe los pasos seguidos en el diseño y aplicación de dos estudios piloto, que supusieron nuestra primera aproximación al C-test como Introducción 11 instrumento de evaluación del Inglés como Lengua Extranjera. Se revisan los resultados obtenidos, las conclusiones y su incidencia posterior en el diseño de la investigación empírica que justifica esta tesis. El capítulo 8 introduce la metodología de la investigación desarrollada. Describe los principales elementos que han constituido nuestro trabajo empírico: los sujetos participantes en el estudio, los distintos materiales utilizados en el mismo y otras características del contexto de la investigación. Culmina con la explicación del procedimiento utilizado y algunos aspectos relativos al tratamiento estadístico de los datos. El capítulo 9 presenta los datos del análisis empírico que se ha desarrollado con los instrumentos estadísticos pertinentes. Parte del análisis intrínseco del C-test aplicado; resultados, diseño, subtests y funcionamiento, para validar la prueba como instrumento de evaluación de la competencia en lengua inglesa. Se centra en el estudio de la validez criterial concurrente del C-test frente a otras pruebas tomadas como medida independiente (PAAU y calificaciones en la 2ª Evaluación) a través, principalmente, del estudio de las correlaciones. Estudia también la fiabilidad del C- test mediante el método de “análisis por mitades” y el Alfa de Cronbach. En el capítulo 10 se utiliza el procedimiento estadístico de regresión lineal para explorar las relaciones entre los subtests del C-test como variable independiente (VI) y las otras pruebas aplicadas: Cavemen?, PAAU de junio de 2001 y calificaciones de la 2ª Evaluación, tomadas como variables dependientes (VDs). El estudio de la incidencia de variables externas en las pruebas completa el análisis empírico del C-test. En el capítulo 11 se valora cómo afectan los factores demográficos en la actuación de los sujetos. Nos centramos en la incidencia del género de los sujetos y el IES de procedencia en los resultados obtenidos en las pruebas. El capítulo 12 aborda la validez aparente del C-test a través del análisis de los datos obtenidos mediante el cuestionario retrospectivo de opinión. A lo largo del proceso de análisis y siguiendo el orden de presentación de los datos, se da respuesta a las preguntas de investigación que aparecen plasmadas en el apartado 1.2 de esta Introducción, para llegar a confirmar o rechazar las hipótesis de trabajo planteadas. El C-test: alternativa o complemento de otras pruebas en ILE 12 La tesis culmina con la síntesis de resultados y las conclusiones alcanzadas. Finalmente, se aportan algunas propuestas de carácter pedagógico y se sugieren ideas para futuras investigaciones. La Evaluación de la Lengua 13 CAPÍTULO 1. APROXIMACIÓN TEÓRICA AL CONCEPTO DE EVALUACIÓN: LA EVALUACIÓN DE LA LENGUA 1.1. Introducción La evaluación forma parte de nuestra vida. De forma más o menos consciente constantemente evaluamos distintos aspectos de la vida, tanto nuestra actuación como la de los que nos rodean, con respecto a unos puntos de referencia. En el ámbito de la enseñanza la evaluación adquiere especial relevancia, es una tarea ineludible para el profesor: “teaching involves assessment” sentencia Rea- Dickins (2004: 249). A pesar de todo no es fácil hacer una delimitación conceptual de la evaluación. Evaluar con intención formativa no equivale a medir o clasificar, ni a aplicar pruebas. Tiene que ver con estas actividades, con las que injustamente se la identifica, pero las trasciende. Según Álvarez Méndez (2001: 11), la evaluación educativa debería entenderse como “actividad crítica de aprendizaje”, también para el profesorado. Bachman y Palmer (1996: 8) parten de la misma idea que Rea-Dickins: “virtually all language teaching programs involve some testing”. Por razones deontológicas los profesores de lenguas no pueden ignorar la evaluación, es su responsabilidad elegir o crear los instrumentos adecuados y formarse en este campo. En los últimos años han tomado especial relevancia los aspectos éticos de la evaluación3. Apelan directamente al rol del profesor, que no termina con la creación y aplicación de pruebas. Canale (1988: 15) expone: “Once one has been involved in 3 Buena muestra de la creciente preocupación por la ética es el volumen 14 (3) de la revista Language Testing (1997), número especial que recoge los artículos presentados en el simposio sobre ética en la evaluación de la lengua dentro del congreso de AILA (1996). En él se plantean algunas cuestiones fundamentales. Incluye las colaboraciones de destacados especialistas (Spolsky y Hawthorne, Elder, Norton y Starfield, Hamp-Lyons, Shohamy, Lynch y Davies) y una clarificadora introducción de Davies acerca de los límites de la ética en este campo. El C-test: alternativa o complemento de otras pruebas en ILE 14 gathering information, one becomes responsible in some way to see that it is used ethically”. Desde el planteamiento de la evaluación como actividad básica y no simplemente “de relleno”, en España ya en la década de los 80, Alcaraz y Ramón (1980: 5) introducen algunos aspectos de la evaluación que retomaremos en capítulos posteriores. Expresan el enorme potencial de la evaluación y la responsabilidad del profesor al respecto en los siguientes términos: La evaluación es una fase importante en el proceso didáctico; no es una actividad de relleno. A ella debe prestar el profesor la atención debida no sólo porque mide y da resultados, sino también porque es un refuerzo del aprendizaje; y si es realista, válida y justa, de acuerdo con las posibilidades del alumno, produce formidables efectos motivadores en el aprendizaje. En el contexto educativo los intentos de evaluar han de estar necesariamente bien estructurados, pero también es importante que exista una actitud de apertura hacia cualquier cambio que pueda mejorar la evaluación. Así lo expresa Hughes (1989: 4): “If it is accepted that tests are necessary, [...] we should do everything that we can to improve the practice of testing”, siempre tomando como punto de partida la premisa de que toda mejora en la evaluación supondrá una mejora de la calidad de la enseñanza (Wragg 2003; Álvarez Méndez 2001). Esta responsabilidad como docentes nos ha llevado al campo de la Evaluación de la Lengua, con la convicción de que toda aportación puede ser útil: “Then I believe that practitioners, rather than being consumers of other´s people research, should adopt a research orientation to their own classrooms” (Nunan 1992: xii). Procede, por tanto: • Revisar y precisar lo que se entiende por Evaluación de la Lengua. • Acotar los términos que hacen referencia a la evaluación en lengua inglesa. • Revisar la legislación y recomendaciones vigentes en materia de evaluación en el sistema educativo español. • Analizar las peculiaridades de las pruebas de lengua y los modelos de dominio de la lengua. La Evaluación de la Lengua 15 • Hacer una primera aproximación a los conceptos de “redundancia de la lengua” (Spolsky 1973) y “gramática de expectativas” (Oller 1979). • Conocer la clasificación de las pruebas de lengua según distintos criterios, con objeto de identificar qué tipo de prueba es el C-test. 1.2. El concepto de Evaluación de la Lengua Resulta paradójico que, como advierte Amengual Pizarro (2003: 45), la definición precisa de este concepto no sea frecuente en la abundante literatura especializada. Es más, en la mayor parte de las obras se omite la definición para enfatizar los objetivos de la evaluación. Incluso la mítica obra de Lado (1961) Language Testing evita una definición explícita, dándola por supuesta. A pesar de todo, la Evaluación de la Lengua (LT) se ha consolidado como disciplina independiente dentro de la Lingüística Aplicada4. Compartimos la idea de Amengual Pizarro (2003) de que la falta de una definición precisa de LT no hace sino aportar amplitud y flexibilidad al concepto. El punto de partida de la inmensa mayoría de las obras sobre evaluación es considerar que la evaluación no es un hecho aislado, sino que se da siempre con un fin y en un contexto concretos (Hughes 1989; Bachman 1990; Bachman y Palmer 1996). Por eso, en evaluación no existe una “receta” que solucione todos los problemas y se adapte a todas las situaciones. Como hemos apuntado en la introducción, los profesores evalúan el progreso de sus alumnos de muchas maneras, desde las informales, que forman parte de la rutina cotidiana del aula, hasta las pruebas más formales propuestas en los distintos sistemas educativos. Según Wragg (2003: 14) el objetivo más frecuente de la evaluación es “ofrecer retroalimentación a los enseñantes y a los alumnos para que sepan qué se ha aprendido y qué no se comprende todavía”, por tanto, la evaluación se relaciona directamente con el aprendizaje de los alumnos. Bachman y Palmer (1996) aconsejan a los profesores que sean prudentes y realistas en sus expectativas acerca de la evaluación. 4 Véase el capítulo 2, apartados 2.1.2 y 2.1.3, sobre la perspectiva histórica de la Evaluación de la Lengua dentro de la Lingüística Aplicada. El C-test: alternativa o complemento de otras pruebas en ILE 16 La naturaleza de la evaluación es muy diversa. No obstante, en los trabajos relevantes sobre el tema se pueden determinar los rasgos más comunes asociados a la evaluación. El primero es su función cuantitativa. Así, Bachman y Palmer (1996: 19) respaldan la idea de las pruebas como instrumento de medida: “the primary purpose of tests is to measure”. Este rasgo prioritario las distingue de otros elementos de los programas educativos. Por otra parte, a partir de los resultados obtenidos en las pruebas, el profesor se verá abocado a emitir una serie de juicios y valoraciones sobre el proceso de enseñanza-aprendizaje (Alcaraz y Ramón 1980; Alderson 1990). Alderson (1990) destaca el aspecto valorativo de la evaluación, que requiere emitir juicios constantemente acerca de la propia actividad y de cada uno de sus elementos. Aunque, como se acaba de comentar, no se prodigan mucho las definiciones de “evaluación del Inglés”, Alcaraz y Ramón (1980: 7-8) se arriesgan y la definen en los siguientes términos: Entendemos por evaluación del inglés la medida del progreso del discente en su aprendizaje de la lengua inglesa con el fin de emitir un juicio de valor. Para llevar a cabo esta medición el profesor se sirve de dos procedimientos: a) La valoración contínua. b) Las pruebas formalizadas. El aspecto valorativo, que puede interpretarse como evaluación cualitativa, nos conduce a la segunda característica de la evaluación reconocida en la literatura: su propósito pedagógico. Rea-Dickins (2004: 249) resalta la importancia de la evaluación en la práctica docente para la toma de decisiones “about lesson content and sequencing, about materials, learning tasks and so forth”. También Bachman y Palmer (1996: 8) hacen una enumeración de objetivos concretos de carácter pedagógico para los que pueden ser utilizadas las pruebas de lengua: They can provide evidence of the results of learning and instruction, and hence feedback on the effectiveness of the teaching program itself. They can also provide information that is relevant to making decisions about individuals [...] Finally, testing can also be used as a tool for clarifying instructional objectives. La Evaluación de la Lengua 17 Cuando se habla de evaluación, el término suele evocar en los profesores automáticamente la idea formal de los exámenes o pruebas. Sin embargo, en la literatura se refiere a cualquier forma de recopilación de información, desde la observación directa del progreso de los alumnos hasta la aplicación de pruebas específicas (Rea-Dickins 2004; Álvarez Méndez 2003; Recomendaciones de la Dirección General de Renovación Pedagógica sobre la LOGSE 1992) y al uso posterior que de todos los datos hace el profesor. Aunque no se ha investigado demasiado sobre el profesor de lengua extranjera como agente de la evaluación del alumno, Rea-Dickins (2004: 253) señala su delicada posición: “sometimes torn between their role as facilitator and monitor of language development and that of assessor and judge of language performance as achievement”. Si consideramos la evaluación en sentido amplio, veremos que no sólo se evalúa al alumno, sino a todos los elementos personales y materiales que intervienen en el proceso, incluida también la actuación del profesor, los programas, los materiales e instrumentos utilizados, el propio proceso de enseñanza-aprendizaje e incluso el sistema educativo en que se inscribe. Pero este tipo más general de evaluación no es objeto de nuestro trabajo. Nos centraremos, pues, en la evaluación de la competencia lingüística del alumno, y el instrumento de evaluación clave para nuestro trabajo será el C-test. 1.2.1. Aproximación terminológica A pesar de la falta de definición explícita comentada en el epígrafe anterior, en la enseñanza del Inglés como Lengua Extranjera es importante clarificar el concepto de Evaluación de la Lengua (LT) y fijar las diferencias entre los distintos términos que aluden a ella en lengua inglesa: testing, measurement, assessment y evaluation. Cada uno de ellos se refiere a un aspecto de la evaluación. Pero a veces se confunden en la literatura y se utilizan como sinónimos, e incluso en la práctica, a menudo, se refieren al mismo tipo de actividad. No resulta fácil fijar sus límites El C-test: alternativa o complemento de otras pruebas en ILE 18 conceptuales, y, sin embargo, para centrar el tema que nos ocupa es necesario precisar desde un punto de vista operativo qué se entiende por cada una de ellas. Bachman (1990: 51) afronta el reto de definir test, measurement y evaluation, pero opta por no hacerlo con los términos assessment y appraisal, que considera ambiguos. Con respecto a assessment, el propio autor (2004: 6) explica: “there seems to be no consensus on what precisely it means. Furthermore, a number of other terms are frequently used more or less synonymously to refer to assessment”. 1.2.1.1. Testing Comenzaremos acotando el concepto de language test por ser el más concreto5. Para referirnos a él en esta tesis utilizaremos indistintamente los términos test, examen o prueba. El diccionario de la Real Academia de la Lengua Española incluye la palabra inglesa test como sinónimo de las anteriores. No obstante, puesto que se suele asociar con las pruebas de tipo objetivo, preferimos optar por el término inglés para referirnos a la prueba en que se basa la tesis: el C-test. Esta denominación nos parece más apropiada que su posible traducción al español como “prueba C”. Como hemos visto en el epígrafe anterior, la literatura coincide en señalar dos aspectos fundamentales que identifican a las pruebas de lengua (language tests): ser instrumento de medida y fuente de información para la posterior emisión de juicios de carácter pedagógico del profesor. En realidad, ambos rasgos son comunes a cualquier examen, sea o no de lengua. Cronbach (1971: 26, citado en MacNamara 1997:10) pone de relieve el carácter cuantitativo al definir el concepto de prueba como “procedimiento 5 Bachman (1990) hace notar que también existe en inglés el término “examination”. A veces se distingue entre test y examination, pero no hay consenso en cuanto a los criterios que se deben seguir a la hora de identificar sus rasgos característicos. Pilliner (1968) apunta que la diferencia puede estar en el grado de objetividad o subjetividad de la prueba. Sin embargo, el Diccionario de la RAE no limita el concepto de test a prueba objetiva. Tampoco lo hace el Diccionario de uso del español de María Moliner (2000), aún así hemos de reconocer que los tests a menudo se identifican con las pruebas objetivas y en concreto con las de elección múltiple. Por eso, el María Moliner recoge la siguiente acepción: “Examen de respuestas breves en que cada pregunta tiene varias opciones como posibles soluciones: “Un examen tipo test””. La Evaluación de la Lengua 19 sistemático para observar el comportamiento de un sujeto y describirlo con la ayuda de una escala numérica o un sistema de clasificación”. Carroll (1968: 46 citado en Bachman 1990: 20) expone que un examen es un instrumento del que se puede inferir un determinado comportamiento: “A psychological or educational test is a procedure designed to elicit certain behavior from which one can make inferences about certain characterisitics of an individual”. Según Bachman (1990: 21) lo que diferencia a la prueba de otros tipos de medida es precisamente esto, que ya desde su diseño pretende obtener “a specific sample of behaviour”. Bachman (1990) y Bachman y Palmer (1996), en la línea de Carroll, subrayan el carácter de instrumento de medida de los exámenes de lengua, pero dan un paso más al introducir los aspectos pedagógicos: Language tests can be valuable sources of information about the effectiveness of learning and teaching. Language teachers regularly use tests to help diagnose student strengths and weaknesses, to assess student progress and to assist in evaluating student achievement... (Bachman 1990: 2-3) Language tests can be a valuable tool for providing information that is relevant to several concerns in language teaching. (Bachman y Palmer 1996: 8) Oller (1979: 2) aporta la definición más clara para el profano. Se fija concretamente en los exámenes de lengua extranjera tal como son percibidos por cualquiera que los haya experimentado: “For them, a language test is a device that tries to assess how much has been learned in a foreign language course, or some part of a course”. Por tanto, un examen o prueba es un acontecimiento puntual en el proceso de evaluación y en el aún más amplio proceso de aprendizaje de una lengua. Teniendo en cuenta las aportaciones de Carroll (1968), Cronbach (1971), Hughes (1989), Bachman (1990), Bachman y Palmer (1996) y Rea-Dickins (2004), entre otros, podemos concluir que los exámenes constituyen un instrumento útil de medida diseñado para suscitar un determinado comportamiento del que se infiere la adquisición de determinadas habilidades, en nuestro caso, lingüísticas. Aportan una información importante acerca del proceso de enseñanza-aprendizaje que el El C-test: alternativa o complemento de otras pruebas en ILE 20 profesor utilizará después según se trate de objetivos clasificatorios y/o educativos o pedagógicos. Otro aspecto destacado de las pruebas es su dimensión social (Canale 1987, 1988)6. En este trabajo no profundizaremos en él, pero sería injusto no mencionar su importancia, especialmente para entender las pruebas estandarizadas externas a gran escala, o las encaminadas a la obtención de un determinado título. Chapelle y Douglas (1993: 15) apuntan: Conceptions of what language tests can and should do derive from a socioacademic consensus on the nature of language and appropriate methods of measurement as well as the perceived necessity for particular types of information. Volvemos a la revisión terminológica relacionada con la evaluación. Hemos acotado el concepto de test, examen o prueba, que es concreto y limitado. Language Testing generalmente se refiere al aspecto cuantitativo de la aplicación de pruebas (tests) más o menos formales para obtener información acerca del aprendizaje lingüístico del alumno. 1.2.1.2. Evaluation y assessment Los conceptos assessment y evaluation son más amplios que el de testing. Abarcan todo un conjunto de procesos y procedimientos utilizados en la toma de decisiones con un propósito educativo. Pueden incluir, por tanto, la administración de pruebas, pero van más lejos. La literatura no siempre evidencia la distinción entre ambos conceptos; Bachman (1990: 51) considera que tanto assessment, como appraisal, son simplemente “stylistic variants of “evaluation” and “test””. 6 Chapelle y Douglas (1993: 14) explican la concepción de Canale (1987, 1988), para quién una prueba es: “[...] an event, conceived of socioacademic beliefs, implemented in academic society where it conveys to test takers and instructors messages about language and learners’ roles (Canale 1987) and where it is used to gain information with social consequences”. La Evaluación de la Lengua 21 A pesar de todo, generalmente, el proceso de valoración o emisión de juicios del profesor a partir de los resultados de las pruebas se denomina assessment. Bachman (2004: 9) comenta: Evaluation, which involves making value judgements and decisions, can best be understood as one possible use of assessment, although judgements and decisions are often made in the absence of information from assessment. Nunan (1992) puntualiza las diferencias entre assessment y evaluation. Determina que el término assessment se refiere al proceso que nos permite decir en qué medida un alumno ha conseguido los objetivos que pretendía alcanzar en su aprendizaje (por medio de pruebas, observación directa, cuestionarios, etc.). La amplitud del concepto de evaluation es aún mayor, supone la recogida de datos pero también implica el análisis y la toma de decisiones con respecto a los propios programas educativos (Nunan 1992: 185). Bachman (1990: 22) define evaluation como “the systematic gathering of information for the purpose of making decisions”, siguiendo a Weiss (1972). Apunta que si la información recopilada (cuantitativa o cualitativa)7 es relevante, aumentan las probabilidades de que se tomen las decisiones correctas. De ahí la importancia de un buen diseño de pruebas. La diferencia entre testing y evaluation es clara: las pruebas en sí mismas sólo miden, no evalúan: Evaluation, therefore, does not necessarily entail testing. By the same token, tests in and of themselves are not evaluative. It is only when the results of tests are used as a basis for making a decision that evaluation is involved. (Bachman 1990: 22-23) Por tanto, concluye Bachman, se puede evaluar sin utilizar pruebas: “evaluation need not involve measurement or testing” (op. cit.: 49). Debemos puntualizar que, aunque las pruebas por sí mismas no evalúan, sobre todo en determinadas situaciones, con frecuencia sí constituyen un referente fundamental de que dispone el profesor para desarrollar la evaluación. 7 La información cuantitativa se refiere a los resultados de las pruebas, la cualitativa a la obtenida a partir de otros instrumentos de evaluación. Véase Bachman 1990: 22. El C-test: alternativa o complemento de otras pruebas en ILE 22 En los contextos educativos, Allan (1999: 20) recomienda una combinación adecuada de testing y assessment para llegar a la evaluación (evaluation) completa y eficaz del alumno. Pone de relieve el carácter instrumental de las pruebas, frente al procedimental de la evaluación (assessment, assessing procedures). A further benefit of assessing learners, rather than just testing them is that the variety of possible approaches allows a number of wider educational objectives to be reflected. [...] Good language teachers need an understanding of, and an ability to use, a wide repertoire of test instruments and assessment procedures. The effective evaluation of learner performance in language programmes does not require teachers to make a choice between testing and assessment, but rather to use the appropriate combination of both. A los problemas conceptuales hay que añadir los que plantea la traducción de estos términos al español. Nuestra lengua no tiene tal diversidad para expresar el concepto de evaluación. En español la palabra “evaluación” puede abarcar y denominar los procesos de testing, assessment y evaluation, que son sin embargo bien distintos, aunque complementarios. De ahí que a veces surjan problemas para traducirlos con precisión. En esta tesis, cuando el contexto no resulta suficiente para la adecuada comprensión, hemos decidido mantener la palabra inglesa con objeto de lograr mayor rigor; en otras ocasiones se ha optado por aportar una explicación aclaratoria. 1.2.1.3. Measurement Por último, un breve comentario relativo al término measurement. Es éste un término general. Hace referencia al carácter cuantitativo de la evaluación y se utiliza sobre todo en Estados Unidos como sinónimo de Testing. Se suele asociar el término measurement al de quantification. Bachman (1990: 18) lo define así: “Measurement in the social sciences is the process of quantifying the characteristics of persons according to explicit procedures and rules”. También puntualiza la diferencia entre measurement y evaluation: “I believe it is important to distinguish the information-providing function of measurement from the decision-making function of evaluation” (op. cit.: 23). La Evaluación de la Lengua 23 Prueba de la equivalencia testing-measurement como término general es la publicación periódica de los volúmenes Educational Measurement del American Council of Education, que agrupan las investigaciones recientes en el campo de la evaluación. Su paralelismo en cuanto a contenido con la publicación europea Language Testing es evidente. 1.2.2. Límites de la evaluación A pesar de que todo profesor desearía tener la seguridad de que su tarea evaluadora es impecable y de que las pruebas que aplica son el mejor instrumento de medida, sabemos que no es así: “our tests are not perfect indicators of the abilities that we want to measure” (Bachman 1990: 30), y que debemos interpretar los resultados obtenidos con prudencia. Según Bachman (1990), las limitaciones de la evaluación vienen dadas por múltiples factores que afectan a la especificación, observación y cuantificación. La situación de un examen de lengua tiene sus propias características, desde las personales y cognitivas hasta las derivadas del contexto (hora del día, lugar, temperatura, tiempo asignado, tipo de tarea requerida, etc.). De todas ellas, la que más afecta es la habilidad lingüística del sujeto, que es precisamente la que se pretende medir. Para ello, hemos de especificar a nivel teórico la destreza que queremos medir y, a nivel operativo, los aspectos de la actuación lingüística que nos servirán como indicadores de que se posee esa habilidad o competencia. Bachman (1990: 31) dice que esta especificación “defines the relationship between the ability and the test score”. Pero nunca podemos tener en cuenta todas las habilidades que refleja una prueba, por razones prácticas hemos de simplificar y, por tanto, nuestra interpretación de los resultados será necesariamente limitada. Por otra parte, los procesos de observación y cuantificación también son limitados, porque toda medida de la habilidad mental es indirecta, incompleta, imprecisa, subjetiva y relativa (Bachman 1990: 32). El C-test: alternativa o complemento de otras pruebas en ILE 24 Cuando definamos la autenticidad como rasgo de las pruebas8, veremos que las pruebas de lengua son indicadores indirectos de las destrezas que queremos medir. Además, tienen una gran carga de subjetividad, que comienza en el mismo diseño. Y la competencia lingüística es por su naturaleza siempre relativa; en una lengua extranjera nunca es nula, ni tampoco perfecta. Estos aspectos limitan la interpretación y el uso de los resultados de las pruebas, por eso Bachman (1990: 50) recomienda seguir tres pasos en la creación de pruebas de lengua: 1. definición teórica clara de las destrezas que queremos medir, 2. especificación de las condiciones en que se va a desarrollar la prueba, 3. utilización de las escalas de medida adecuadas. ...(1) provide clear and unambiguous theoretical definitions of the abilities we want to measure; (2) specify precisely the conditions, or operations that we will follow in eliciting and observing performance, and (3) quantify our observations so as to assure that our measurement scales have the properties we require. 1.3. La evaluación en el sistema educativo español Según Álvarez Méndez (2003: 40), en educación “Cualquier reforma que no parta del análisis de la situación en la que se encuentra la escuela y todo lo que la envuelve está abocada al fracaso”. Hagamos una breve incursión en la historia reciente de nuestro sistema educativo9. Comenzaremos aludiendo a la Ley General de Educación de 1970 (LGE), que supuso la introducción de nuevas perspectivas en el sistema educativo español. En ella se concibe la evaluación como “la valoración del rendimiento educativo” (art. 11.1) teniendo en cuenta “los progresos del alumno en relación con su propia capacidad” (art. 19.1). La evaluación se entiende como actividad sistemática integrada en el proceso de formación del alumno, continua y personalizada. Se enfatiza su función formativa, que la hace parte fundamental de la 8 Véase el apartado 3.5 del capítulo 3. 9 Las distintas leyes de educación españolas pueden consultarse en: www.boe.es y/o www.mec.es. La Evaluación de la Lengua 25 actividad educativa y no la limita a una actividad pospuesta, como son los exámenes. Con la LGE se implantó el Curso de Orientación Universitaria, y en 1974 se aplicó el examen de Selectividad como prueba de acceso a los estudios universitarios. Le siguieron distintas reformas educativas, como la Ley Orgánica 1/1990 de Ordenación General del Sistema Educativo de 3 de octubre (LOGSE). Esta ley incide en el carácter continuo de la evaluación, que no puede verse “reducida a actuaciones aisladas en situaciones de examen o prueba, ni identificarse con las calificaciones o con la promoción” (En Álvarez Méndez 2003: 68). En los Reales Decretos que desarrollan la LOGSE (R. D. 1344 y 1345/1991 de 6 de septiembre) se fijan los criterios de evaluación para la Educación Primaria y Secundaria en cada una de las áreas o materias del currículo. Se descarta la evaluación normativa y se subraya de nuevo el carácter continuo e individualizado que ya proponía la Ley General de Educación (LGE). Además se valora la participación del alumno en el proceso mediante la autoevaluación. También las orientaciones y recomendaciones de la Dirección General de Renovación Pedagógica sobre la LOGSE (1992) reconocen el papel decisivo de la evaluación en la formación integral de los alumnos. En cuanto al proceso concreto de enseñanza-aprendizaje de la Lengua Extranjera, la LOGSE lo planteaba dentro de un contexto de escuela comprensiva. Para ello proporcionaba orientaciones didácticas en las que basaba el diseño de este proceso y que debían servir de guía tanto a la programación como a la actuación del profesor en el aula. A pesar de la afirmación de Álvarez Méndez sobre las reformas educativas con la que comenzábamos este apartado, con frecuencia los cambios en el sistema educativo de un país dependen más de las vicisitudes políticas que del estudio de las necesidades reales detectadas en dicho sistema10. La legislación educativa española afrontó en los últimos años otra reforma educativa con la Ley Orgánica de Calidad de la Educación (LOCE) de 2002, 10 Incluso cuando los cambios afrontan nuevas necesidades o realidades, a menudo se implantan sin que se sepa a ciencia cierta cuál será su funcionamiento. Sólo el tiempo y la evaluación del propio sistema mostrarán los resultados reales obtenidos. Airasian 1998b (en Gipps 1994) lo expresa en los siguientes términos: “Many educational innovations are adopted even though they have high levels of uncertainty; because of the nature of education the wisdom of adopting these innovations and the range of their effects are rarely known in advance”. El C-test: alternativa o complemento de otras pruebas en ILE 26 propuesta para mejorar algunos aspectos de la LOGSE. Una de sus novedades era la desaparición del examen de Selectividad y su sustitución por la Prueba General de Bachillerato (PGB), que sería requisito para la obtención del título, y por tanto, estaría incluida en la Enseñanza Secundaria. Pero el cambio en la política española, en marzo de 2004, abrió un nuevo panorama en Educación. Se paralizó el calendario de aplicación de la Ley de Calidad para incorporar modificaciones, esbozadas en el Proyecto de la nueva Ley Orgánica de Educación (LOE) de 22 de julio de 2005. La actual Ley Orgánica 2/2006 comenzó su vigencia el 3 de mayo y el Real Decreto 806/2006 de 30 de junio, estableció el calendario de aplicación. En este punto de inflexión nos encontramos en el momento actual11. 1.3.1. Pautas de actuación LOGSE para el profesorado de Lenguas Extranjeras Puesto que la LOE está apenas iniciando su vigencia, con muchos aspectos todavía pendientes de desarrollo, la LOGSE sigue siendo un importante punto de referencia para los profesores en materia de evaluación. La Dirección General de Renovación Pedagógica (1992), siguiendo el espíritu de la LOGSE, propuso al profesorado de Educación Secundaria Obligatoria unas líneas de actuación en evaluación de la Lengua Extranjera basadas en criterios pedagógicos y en las últimas teorías vigentes en Lingüística Aplicada. A continuación exponemos algunas ideas clave relativas a la enseñanza de idiomas, que se apuntaron en dicha legislación educativa y no nos parecen obsoletas. 1. El proceso de aprendizaje de una lengua es un proceso de construcción creativa, por tanto, el profesor debe favorecer la actividad mental constructiva del alumno mediante la exposición a la lengua y la propuesta de actividades de diversos tipos. Para que el aprendizaje sea funcional es necesario que se enseñe la lengua extranjera en situaciones reales y variadas de comunicación, 11 Porte (2002: 110) alude a la situación de inestabilidad y confusión en materia educativa, derivada de los recientes avatares políticos: “The last few years in Spain have seen continuous comings-and goings as regards educational proposals and policy at secondary and university levels. Many of these recommendations and ordinances from ministerial level must have left more than one language teaching practitioner at times uncertain or confused”. La Evaluación de la Lengua 27 de la vida cotidiana, y que se proporcione la posibilidad de practicar la lengua. La aplicación práctica constituye un factor motivador. 2. Se pretende conseguir unos contenidos de tipo conceptual, procedimental y actitudinal que se interrelacionan en el acto de comunicación. En la enseñanza de idiomas los contenidos de tipo actitudinal son especialmente importantes; tanto la actitud previa del alumno ante la lengua, como la apertura y respeto a otras formas de expresión. 3. El profesorado debe cuidar la relación de la lengua extranjera con otras áreas del currículo, especialmente con la lengua materna, y plantear temas interdisciplinares. 4. El proceso de aprendizaje ha de estar centrado en el alumno. La escuela atiende a grupos cada vez más heterogéneos. Esta diversidad de los alumnos requiere una metodología variada en el área de idiomas, adaptando las actividades comunicativas a los diversos niveles y ritmos con que podemos encontrarnos en el aula, en un clima de cooperación que fomente el carácter formativo de la comunicación interpersonal. 5. El tratamiento de los temas transversales será más eficaz si hay un clima positivo en el aula, partirá de la realidad de los alumnos para llegar a una aceptación, valoración y respeto por lo extranjero. 1.3.2. Propuestas LOGSE para la evaluación de Lenguas Extranjeras Como hemos visto, la LOGSE planteaba la evaluación educativa como instrumento al servicio del proceso de enseñanza-aprendizaje. Proponía dos tipos de evaluación: sumativa y formativa. La sumativa informa al alumno de su situación con respecto al currículo oficial en cada momento del aprendizaje. El examen es uno de los instrumentos de que dispone el profesor para llevar a cabo la evaluación sumativa, pero no el único. La evaluación formativa le El C-test: alternativa o complemento de otras pruebas en ILE 28 muestra en qué punto del proceso de su propio aprendizaje se encuentra en cada momento. La Dirección General de Renovación Pedagógica, en sus orientaciones didácticas y para la evaluación de Lenguas Extranjeras (1992: 154), fijó como objetivo fundamental de la evaluación: “verificar en qué medida el alumno es capaz de utilizar la lengua aprendida en situaciones de comunicación”, aportó recomendaciones para el profesorado y propuso dos instrumentos básicos: 1. la observación sistemática (a través del diario del alumno, cuestionarios, comentarios escritos de los alumnos, discusiones sobre la marcha de la clase, grabación de actividades, etc.) 2. las pruebas (principalmente de tipo comunicativo, basadas en la interacción) contextualizadas y diversificadas. En el apartado 1.2 hemos comentado que, según Bachman y Palmer (1996), la primera función de las pruebas es la cuantitativa, y la pedagógica quedaría relegada al segundo lugar. La Dirección General de Renovación Pedagógica (1992: 159), por el contrario, expresaba: “La importancia fundamental de una prueba, o de una serie de ellas, reside en que de su resultado el profesor sacará conclusiones que repercutirán en la programación y la metodología”. En el contexto concreto de la Educación Secundaria española los aspectos valorativos o cualitativos toman el papel prioritario. Entre los cambios más discutidos y contestados que pretendía introducir la Ley de Calidad (LOCE) de 2002 estaba el modo de acceso a la Universidad. Desde 1974 se accede mediante las Pruebas Unificadas de Acceso a la Universidad, conocidas como Selectividad o PAAU. La calificación obtenida en dichas pruebas, junto a la media del expediente académico de Bachillerato, define la puntuación de cada alumno y sus posibilidades de acceder a una u otra Facultad. En su lugar, la Ley de Calidad proponía la Prueba General de Bachillerato (PGB), una “reválida” oficial. Las indicaciones sobre las características de la nueva PGB aparecieron en el BOE, Reales Decretos 1741/2003 y 1742/2003. Una de las novedades que más iban a afectar a la enseñanza de lenguas extranjeras era la incorporación de los aspectos La Evaluación de la Lengua 29 orales a la prueba. Pero con la paralización de la Ley de Calidad (LCE) se decidió prolongar la vigencia del sistema de las PAAU, cuyo modelo se mantiene con la nueva Ley de Educación (LOE) (Fernández y Sanz 2005), aunque el RD 806/2006 prevé una nueva prueba de acceso, cuyas características están aún por determinar, para el curso académico 2009-2010. Como aparece reflejado en la Introducción y se verá en capítulos posteriores, este trabajo toma como referencia a las PAAU para analizar, entre otros aspectos, la validez criterial concurrente del C-test, mediante el estudio de las correlaciones entre ambas pruebas. Fue elegida para este propósito como medida independiente por ser una prueba externa, estandarizada y de carácter nacional, de referencia durante años en el sistema educativo español. 1.3.3. Panorama actual: La escuela ante las nuevas realidades sociales Finalmente, debemos hacer notar la situación de cierta inestabilidad que se vive hoy en el sistema educativo español. Crece el fracaso escolar. Es un periodo de ajustes, cambios, y adaptación a nuevas realidades, como la inmigración o el aumento progresivo de la violencia en las aulas (indisciplina, acoso, etc.). Evidentemente los cambios de la sociedad afectan directamente a la escuela12. Ésta responde a las nuevas necesidades con la creación de modelos nuevos, como las denominadas “aulas de enlace” y con la aparición de nuevas figuras dentro del ámbito escolar, como la del trabajador social. Resulta fundamental el trabajo de los Departamentos de Orientación en los centros. El aula de lenguas extranjeras no permanece ajena a este proceso de cambio. La actual globalización propicia la necesidad de comunicarse en varias lenguas para desenvolverse de forma adecuada en el entorno internacional13. El Inglés se consolida como lengua de las Nuevas Tecnologías y de las relaciones 12 Ver el Informe Pisa (2003) de la OECD sobre fracaso escolar en www.pisa.oecd.org y el Informe Cisneros VII (2005) del Instituto de Innovación Educativa y Desarrollo Directivo en www.acosoescolar.com. 13 Esta realidad llevó al Council of Europe a la confección de un marco común de referencia para la enseñanza de lenguas: Common European Framework of Reference for Languages: Learning, Teaching, Assessement (2001). El C-test: alternativa o complemento de otras pruebas en ILE 30 internacionales, lo que supone una “demanda social” que actúa como impulso motivador para su aprendizaje como lengua extranjera. Otra de las circunstancias determinantes es la incorporación a las aulas de alumnos inmigrantes procedentes de países cuya primera lengua no es el español. En nuestro sistema educativo, para muchos la tarea es doble; han de aprender simultáneamente al menos dos lenguas extranjeras: español e inglés. El profesor de Inglés se enfrenta diariamente a nuevos retos, como la diversidad de niveles en un mismo grupo de alumnos. Contar con buenos instrumentos de evaluación supone una gran ayuda en el proceso de enseñanza-aprendizaje. 1.4. Las pruebas de evaluación de la lengua Al comenzar este capítulo hemos apuntado que la evaluación es una fase vital en el proceso de enseñanza aprendizaje, de la que las pruebas constituyen una mínima parte. El proceso de evaluación cada vez tiene más en cuenta otros factores que intervienen en el aprendizaje, no importa sólo el grado de consecución de los objetivos académicos (Alternative Assessment)14. La evaluación se realiza en distintos momentos y con finalidades diferentes. Aunque no todos los contextos escolares requieren obligatoriamente la realización de pruebas escritas específicas, pues depende de múltiples factores, como la ratio de alumnos por clase, la motivación del alumnado, nivel, situación, etc., hemos de reconocer que sí se utilizan con regularidad en el aula. A menudo son los propios alumnos y/o sus padres los que demandan su utilización porque quieren conocer su situación (nivel de conocimientos) con respecto a la asignatura y al resto del grupo. Cuando pensamos en un examen, con frecuencia imaginamos el examen escrito tradicional, y en este trabajo, ciertamente, centraremos la parte experimental en una prueba escrita, el C-test. Pero en realidad hay muchas otras formas de medir la actuación lingüística y todas se complementan. En la práctica docente es el 14 En la actualidad el movimiento conocido como Evaluación Alternativa (Alternative Assessment) incluye todas aquellas formas de evaluación distintas de la tradicional: abarcan un periodo mayor de tiempo, son de tipo formativo más que sumativo, y producen un efecto rebote beneficioso. Uno de estos procedimientos es la autoevaluación (Véase el capítulo 2, apartado 2.5.4.2.4.). La Evaluación de la Lengua 31 profesor quien debe buscar el modo más equilibrado de valerse de varios instrumentos de medida para lograr una evaluación válida y fiable. Así, aunque en el contexto del aula de Lenguas Extranjeras no deben nunca ser la única fuente de información sobre la actuación del alumno, parece claro que los exámenes proporcionan a profesores y alumnos un instrumento útil de información y análisis acerca de la situación individual de cada alumno y su evolución con respecto al grupo, sobre el resultado del proceso de instrucción, los métodos y materiales utilizados, e incluso del propio programa. Por eso nos parece importante definir los rasgos propios de las pruebas de lengua, revisar sus tipos e intentar buscar nuevas fórmulas que los mejoren. En el apartado siguiente estudiaremos las peculiaridades específicas de las pruebas de lengua, sus objetivos y los pasos que implica su diseño. 1.4.1. Peculiaridades de las pruebas de evaluación de la lengua Para comenzar veremos un aspecto importante que constituye una peculiaridad de las pruebas de lengua y, por tanto, no podemos ignorar: en ellas se utiliza la lengua simultáneamente como objeto de la evaluación y como medio15 (Oller 1979; Bachman 1990). Cuando nos referimos a la evaluación del dominio de la lengua, debemos ser conscientes de que, queramos o no, cualquier tarea propuesta al alumno mide de un modo u otro su comprensión lingüística. Por otra parte, toda prueba de cualquier materia depende del manejo de la lengua. In one way or another, practically every kind of significant testing of human beings depends on a surreptitious test of ability to use a particular language. Consider the fact that the psychological construct of “intelligence” or IQ, at least insofar as it can be measured, may be no more than language proficiency. In any case, substantial research (see Oller and Perkins, 1978) indicates that language ability probably accounts for the lion’s share of variability in IQ tests. (Oller 1979: 2) 15 Oller (1979: 34) explica: “Language is both an object and a tool of learning”, siguiendo la idea de Cherry (1957: 28): “this seems to imply that language is not just just a means of expressing the ideas that we already have, but rather that it is a means of discovering ideas that we have not yet fully discovered”. El C-test: alternativa o complemento de otras pruebas en ILE 32 En las pruebas de lengua, según Bachman y Palmer (1996), el objetivo fundamental es medir la competencia lingüística, pero además hay que tener en cuenta las características personales (edad, género, nacionalidad, estatus, lengua nativa, nivel de educación, experiencias previas, etc.), el conocimiento del mundo, la cultura y los esquemas afectivos, ya que influyen en la actuación del alumno (Fig. 1.1). Y toda prueba debe facilitar la actuación del alumno, siempre que sea posible. El uso de la lengua implica la interacción de las variables individuales con las propias de la situación en que se utiliza, en este caso, el examen de lengua. Figura 1.1. Some components of language use and language use performance (Bachman y Palmer 1996: 63) Bachman (1990: 54) describe los objetivos de las pruebas de idiomas: The two major uses of language tests are: (1) as sources of information for making decisions within the context of educational programs; and (2) as indicators of abilities or attributes that are of interest in research on language, language acquisition, and language teaching. In educational settings the major uses of test scores are related to evaluation, or making decisions about people or programs. La Evaluación de la Lengua 33 Bachman y Palmer (1996) aseguran que una prueba de lengua bien diseñada debe enriquecer al alumno y proporcionarle la oportunidad de reflejar todas sus habilidades lingüísticas, y para el profesor ha de suponer un instrumento justo y apropiado de medida. No obstante, en el proceso evaluador, proceso humano por excelencia, los docentes se enfrentarán con problemas que un examen sólo no puede resolver. La ética, profesionalidad y el buen criterio del profesor se imponen en esos momentos. A continuación, citamos textualmente sus propuestas para que los docentes logren una mayor competencia en el uso de las pruebas: Our philosophy of language testing 1. Relate language testing to language teaching and language use. 2. Design your tests so as to encourage and enable test takers to who use your test, accountable for the way your test is used, perform at their highest level. 3. Build considerations of fairness into test design. 4. Humanize the testing process: [...] 5. Demand accountability for test use; hold yourself, as well as any others 6. Recognize that decisions based on test scores are fraught with dilemmas, and that there are no universal answers to these. (Bachman y Palmer 1996: 13) 1.4.2. Diseño y creación de pruebas Bachman y Palmer (1996: 85) definen el concepto de test development como el proceso completo de creación y utilización de una prueba. Es decir, desde “its initial conceptualization and design” hasta que se consigue ”one or more archived tests and the results of their use”. Según la situación y el tipo de prueba, se requerirá una mayor o menor inversión en términos de tiempo y esfuerzo. En cualquier caso, para que la experiencia del desarrollo de una prueba sea satisfactoria, conviene que todo el proceso esté previamente planificado cuidadosamente. Según Bachman y Palmer (1996: 87) este proceso se organiza en tres estadios generalmente secuenciales: “test design, operationalization, test administration” (Véase Fig. 1.2). El C-test: alternativa o complemento de otras pruebas en ILE 34 La fase de diseño de un examen comienza con la descripción del dominio lingüístico (TLU), el constructo y los tipos de tarea que queremos medir según los propósitos de la prueba. Incluye además la descripción de los examinandos, la valoración de la utilidad de la prueba y la identificación de los recursos disponibles (humanos, materiales y de tiempo) para su administración y corrección. La segunda fase supone especificar las tareas que se van a incluir en la prueba, prever la estructura general, detallar las instrucciones que se van a dar al examinando y concretar los procedimientos de corrección. Para medir la habilidad lingüística de un individuo hay que determinar la escala que servirá como medida. Normalmente se utilizan números que indican el grado de adquisición de las distintas destrezas y que después el profesor ha de interpretar. Finalmente, la fase de administración de una prueba supone su aplicación a un grupo de individuos, la recogida de información y el posterior análisis (feedback). Figura 1.2. Test development (Bachman y Palmer 1996: 87) La Evaluación de la Lengua 35 1.4.3. Qué evaluar en las pruebas de Lengua Extranjera El objetivo final del profesor de Lenguas Extranjeras es que los alumnos logren aprender la lengua objeto de estudio, y que sean capaces de utilizarla con éxito en todos los contextos que sea necesario. Por tanto, ha de evaluar el grado de competencia lingüística de los alumnos que previamente han seguido un determinado proceso de aprendizaje de una lengua extranjera (Oller 1979). En este sentido, como ya hemos mencionado, la Dirección General de Renovación Pedagógica (1992: 154) señala en su desarrollo de la LOGSE que “el objetivo principal de la evaluación será verificar en qué medida el alumno es capaz de utilizar la lengua aprendida en situaciones de comunicación reales o simuladas, pero en todo caso auténticas”. Pero surge una pregunta fundamental que retomamos de nuevo en el apartado 1.6 del presente capítulo: ¿qué es exactamente aprender una lengua? Y otra que se sigue de la anterior: ¿cómo sabemos que los resultados obtenidos por un alumno en una prueba reflejan realmente su capacidad de manejar la lengua en otras situaciones de comunicación? Bachman y Palmer (1996: 78) insisten en que para hacer inferencias a partir del nivel de un sujeto en una prueba de lengua “we must be able to demonstrate how test performance corresponds to non-test language use”. A este respecto, Bachman (1990: 21) subrayaba que no toda muestra de lengua es válida para que el profesor infiera la competencia lingüística del alumno: “However, it is precisely because any given sample of language will not necessarily enable the test user to make inferences about a given ability that we need language tests”. Por esta razón, el valor de las pruebas radica en un buen diseño: “the value of tests lies in their capability for eliciting the specific kinds of behaviour that the test user can interpret as evidence of the attributes or abilities which are of interest” (op. cit.: 22). Según Bachman y Palmer (1996: 43), para ello es necesario “to describe the characteristics of language tasks and test tasks”. Estas cuestiones nos llevan directamente al concepto de dominio de la lengua, que revisamos en el apartado siguiente. El C-test: alternativa o complemento de otras pruebas en ILE 36 1.5. Modelos de dominio de la lengua A lo largo del tiempo, y teniendo como base los distintos enfoques sobre enseñanza y evaluación de la lengua, han surgido diversos modelos de dominio de la lengua (language proficiency) que han determinado la aparición de pruebas de evaluación también diferentes. Bachman (1990: 81) reconoce la necesidad de basar las pruebas en una teoría de dominio de la lengua: [...] if we are to develop and use language tests appropriately, for the purposes for which they are intended, we must base them on clear definitions of both the abilities we wish to measure and the means by which we observe and measure these abilities. Chalhoub-Deville (1997: 3) revisa la literatura en busca de los modelos de dominio de la lengua que más han influido en la evaluación durante las dos últimas décadas y constata “a lack of consensus among models in their representation of proficiency” o, dicho de otro modo, ”no single representation of proficiency exists”. Según Alderson (1991) la existencia de distintos modelos de dominio de la lengua plantea un dilema al profesor para decidir cuál de ellos aplicar en el diseño de pruebas. Generalmente el propósito de las pruebas es valorar el grado de competencia lingüística a partir de los resultados que el alumno obtiene en ellas. Spolsky (1973), basándose en la dicotomía competence vs. performance de Chomsky (1965), explica que la competencia subyace a la actuación lingüística. Chalhoub-Deville (1997) clasifica los modelos de dominio de la lengua en dos grupos: modelos de componentes (componential models) y modelos de niveles de competencia (levels of proficiency). Los pertenecientes al primer grupo describen los elementos del domino lingüístico, mientras que los segundos entienden el dominio de la lengua como habilidad progresiva y describen las sucesivas etapas. Chalhoub-Deville se inclina hacia los modelos de dominio de la lengua de tipo componencial, aunque reconoce que falta investigación empírica al respecto. Nos centramos en ellos a continuación. La Evaluación de la Lengua 37 1.5.1 Modelos de componentes Entre los modelos de componentes destacamos el de Oller (1976) denominado Unitary Competence Hypothesis (UCH) y el Communicative Language Ability (CLA) de Bachman (1990), que entronca con el enfoque comunicativo para la enseñanza de lenguas y desarrolla la idea de Canale y Swain (1983). El marco del European Council (2001) para la evaluación de la lengua se basa en el modelo de Bachman. El modelo de Oller (1976) se basa en el análisis de los resultados de distintas pruebas y determina el dominio de la lengua en términos de un único factor general. Fue criticado por no tener en cuenta los aspectos funcionales y sociolingüísticos de la lengua (Cummins 1979). El propio autor reconoció posteriormente (Oller 1983) que el factor general se puede descomponer en otros componentes, tal como reclamaban otros autores (Bachman y Palmer 1982). Por otra parte, Bachman (1990: 107) define su modelo como ”a framework for describing communicative language ability as both knowledge of language and the capacity for implementing that knowledge in communicative language use”. El modelo de competencia comunicativa (CLA) de Bachman (1990) incluye tres componentes interrelacionados: competencia lingüística, competencia estratégica y mecanismos psicofisiológicos (Fig. 1.3). Cada uno de ellos se subdivide en otros rasgos hasta llegar a un modelo completo y detallado cuya intención es ser “a guide, a pointer... to chart directions for research and development in language testing” (op. cit.: 82). Figura 1.3. Componentes de la habilidad lingüística comunicativa (Bachman 1990: 85) El C-test: alternativa o complemento de otras pruebas en ILE 38 Posteriormente Bachman y Palmer (1996: 67) retoman el modelo de Bachman (1990). Explican que la combinación de conocimiento lingüístico y estrategias metacognitivas aporta al sujeto que utiliza la lengua: ”the ability, or capacity, to create and interpret discourse, either in responding to tasks on language tests or in non-test language use”. La actual prueba de Selectividad española se basa en el marco teórico de Bachman (Herrera 1999: 91; Amengual Pizarro 2003: 53). Desarrolla uno de los tres componentes del dominio de la lengua: la competencia lingüística. A su vez, ésta se compone de competencia organizativa y competencia pragmática. La organizativa “comprises those abilities involved in controlling the formal structure of language for producing or recognizing grammatically correct sentences” (Bachman 1990: 87) e incluye competencia gramatical y textual. Bachman también nos dice que la competencia gramatical “includes those competencies involved in language usage [...] such as the knowledge of vocabulary, morphology, syntax and phonology/graphology” (ibíd.), mientras que la textual “includes the knowledge of the conventions for joining utterances together to form a text” (op. cit.: 88). La competencia pragmática se refiere a la relación entre el hablante y el contexto de la comunicación: “includes illocutionary competence, or the knowledge of the pragmatic conventions for performing acceptable language functions, and sociolinguistic competence” (op. cit.: 90). En la parte experimental de la tesis se explica con mayor detalle la estructura de la actual prueba de Selectividad. El marco teórico de CLA de Bachman ha sido ampliamente reconocido y aceptado, aunque McNamara (1990) considera que, precisamente por ser tan completo, su aplicación en el diseño de pruebas puede resultar difícil. A pesar de todo, en su reciente revisión Looking back, looking forward: rethinking Bachman, el autor expresa: Bachman (1990) remains for me the most significant book ever published on language testing, and a great intellectual contribution to the field of applied linguistics; the Bachman model showed that language testing, far from being marginal or peripheral in applied linguistics, could be a central site for the articulation of notions (the nature of language ability) which are fundamental to the whole field. (McNamara 2003: 471) La Evaluación de la Lengua 39 Skehan (1991) y Chalhoub-Deville (1997) auguran que, a pesar de su valía en el momento actual, el modelo de Bachman será superado por otros en el futuro: “God’s truth” models come and go, and while the Bachman model is the best that we have at present, it is inevitable that it will be superseded and weaknesses will be revealed. (Skehan 1991: 15) Finalmente, Chalhoub-Deville (1997: 16) insiste en que los modelos de dominio de la lengua han de ser validados en el contexto concreto en que se utilicen: “operational models, in general, and assessment frameworks, specifically -even if based on sound theoretical models- need to be empirically examined in the contexts in which they are used”. Esta validación periódica es fundamental, sobre todo en exámenes cuya superación suponga importantes consecuencias para el futuro del examinando (i. e. high-stake examinations como las pruebas de Selectividad en España). 1.6. El concepto de redundancia de la lengua También Spolsky (1973) se planteó en qué consiste saber una lengua. Su enfoque nos interesa especialmente porque le llevó a profundizar en una idea fundamental para entender las pruebas de cierre y, más concretamente, el C-test: la redundancia de la lengua. El artículo What does it mean to know a language, or how do you get someone to perform his competence? (1973) refleja sus conclusiones. Spolsky comparte la idea de Fries (1945): saber una lengua no consiste tanto en saber su vocabulario, cuyo conocimiento es limitado incluso para los hablantes nativos16, como en manejar el sistema de sonidos y las estructuras de la lengua de forma automática. Fries reconoce que es necesario conocer un cierto número de palabras para saber un idioma, pero sobre todo es necesario saber utilizarlas en distintos contextos (functional ability). Además hay una serie de elementos discretos que subyacen a la habilidad funcional. 16 Véase el capítulo 4, apartado 4.2.1.1, sobre la evaluación del vocabulario. El C-test: alternativa o complemento de otras pruebas en ILE 40 No obstante, según Spolsky (1973: 167), la teoría de Fries olvida dos importantes aspectos de la lengua: redundancia y creatividad, “the fact that language is redundant and the fact that it is creative”. El aspecto redundante de la lengua se empezó a estudiar con la teoría estadística de la comunicación (Shannon y Weaver 1949), según la cual un mensaje transmite una información que reduce nuestra incertidumbre: “a message carries information to the extent that it effects a reduction in uncertainty by eliminating certain probabilities” (Spolsky 1973: 167). Somos capaces de adivinar o deducir gran parte de la información que se nos transmite, más cuanto mayor conocimiento del funcionamiento de la lengua tengamos. Spolsky (1973: 167) plantea un ejemplo ilustrativo: cuando vemos a alguien escribir su nombre, cada letra que se añade reduce las posibilidades. When I see him write the letter P, the uncertainty has been reduced by a large amount, for he has excluded all the names that begin with any other letter [...] As more letters are added, the amount of information conveyed by each letter becomes less, until certainty is reached. Los mensajes contienen elementos de los que se puede prescindir sin que se rompa la comunicación. La redundancia “reduces the possibility of error and permits communication where there is some interference in the communicating channel” (op. cit.: 168). La persona que no maneja la redundancia en una lengua encuentra problemas y comete más errores, por eso normalmente los hablantes no nativos al comenzar su aprendizaje necesitan todas las redundancias de la lengua, e incluso más: gestos, que se les hable más despacio, etc. La lengua permite la comunicación aunque una parte de los signos del mensaje no aparezcan. Según Spolsky (1973: 170), conocer bien una lengua implica comprender mensajes con redundancia reducida. Y el principio de redundancia de la lengua justifica la utilización de las pruebas de cierre en la evaluación de la lengua extranjera: [...] knowing a language involves the ability to understand a distorted message, to accept a message with reduced redundancy. From this follows the usefulness of such language testing techniques as the noise test referred to and the cloze procedure. La Evaluación de la Lengua 41 El autor (op. cit.: 170) se inclina hacia las pruebas integradoras frente a las de elementos discretos: “the assessment of proficiency in a language must rather be based on functioning in a much more linguistically complex situation that is provided by the one-element test”. En cuanto al aspecto creativo de la lengua, Spolsky (1973: 173) explica que también es expresión de la competencia lingüística del individuo: “the ability to handle new sentences is evidence of knowing the rules that are needed to generate them”. Por tanto, según Spolsky, saber una lengua es tener competencia lingüística en ella, conocer sus normas, y se expresa por la capacidad de crear en ella y de utilizar el principio de redundancia reducida si es necesario. Basándose en la idea chomskiana de que la competencia en una lengua subyace a toda actuación lingüística, Spolsky (1973) sugiere dos posibilidades o tipos de prueba para evaluar el dominio de la lengua: 1. Las pruebas orales. 2. Las de redundancia reducida. La primera opción consiste en hacer pruebas orales o entrevistas que muestren el funcionamiento de la lengua habitual en situaciones normales de comunicación; método inviable cuando se trata de exámenes a gran escala o pruebas de tipo institucional (oposiciones, PAAU, etc.), debido a que requiere muchos medios materiales y personales para su correcta administración (número de profesores, lugar, tiempo, etc.). Supone también fijar unos criterios muy claros de evaluación que aseguren fiabilidad en la puntuación para no sesgar la objetividad de la prueba. Otro problema es que la entrevista en sí misma no es una situación habitual y entran en juego una serie de variables propias del examen oral (desconocimiento del interlocutor, ansiedad, etc.). La segunda opción, y en su opinión la más adecuada, es usar el principio de redundancia reducida, es decir, la habilidad lingüística del alumno para comprender y expresarse en una lengua extranjera cuando introducimos ruidos en el mensaje. Este método tiene varias vías de aplicación práctica: ejercicios de dictado, tests de ruido, tests de cierre, de elección múltiple, etc. Como veremos más adelante, el C-test es un tipo de prueba de cierre y, por tanto, se basa en el principio de redundancia reducida. El C-test: alternativa o complemento de otras pruebas en ILE 42 1.7. El concepto de “gramática de expectativas” El concepto de “gramática de expectativas” (expectancy grammar), clave para entender desde el punto de vista psicológico los procesos que subyacen al uso de la lengua, fue introducido por Oller (1979). Como veremos, según Oller, al adquirir una lengua el ser humano crea un sistema de expectativas. Y un examen de lengua nos pide que “echemos mano” de ese sistema lingüístico: “it is claimed that for a proposed measure to qualify as a language test, it must invoke the expectancy system or grammar of the examinee” (Oller 1979: 16). El análisis lingüístico tradicional se ha ocupado del aspecto cognitivo de la lengua; cómo el ser humano codifica una información en una secuencia de sonidos que forman sílabas, palabras y frases. Pero la lengua codifica también información afectiva o emocional (mediante la expresión gestual, el tono de voz, body language, etc. en la comunicación oral, y mediante otros recursos en la escrita). En el acto de comunicación, los interlocutores estamos continuamente aportando información; anticipando lo que vamos a escuchar o las reacciones e inferencias del otro ante la información que se aporta. Oller denomina “creative inference” a este proceso. Gracias a la gramática que vamos asumiendo (internalized grammar) sabemos lo que podemos esperar desde el punto de vista lingüístico, qué combinaciones de fonemas o palabras son imposibles en un idioma concreto, cuáles aportan una novedad, etc. Para Oller (1979: 24) la “gramática pragmática de expectativas” es un sistema que ordena los elementos lingüísticos de forma secuencial en el tiempo y con relación al contexto extralingüístico: The term pragmatic expectancy grammar further calls attention to the fact that the sequences of classes of elements, and hierarchies of them which constitute a language are available to the language user in real life situations because they are somehow indexed with reference to their appropriateness to extralinguistic contexts. La gramática de expectativas rige el uso de la lengua para cualquier persona que la conozca y maneje: “In the normal use of language, no matter what level of La Evaluación de la Lengua 43 language or mode of processing we think of, it is always possible to predict partially what will come next in any given sequence of elements” (op. cit.: 25). La explicación de Oller completa la teoría de Spolsky sobre la redundancia de la lengua expuesta en el punto anterior, y ambas justifican la utilización de pruebas de cierre. Para Oller (1979: 32) la evaluación de la lengua “is primarily a task of assessing the efficiency of the pragmatic expectancy grammar the learner is in the process of constructing”. Desde esta perspectiva, la validez de una prueba viene dada por su capacidad para medir la gramática de expectativas que va desarrollando el alumno: “Valid language tests are defined as those tests which meet the pragmatic naturalness criteria -namely those which invoke and challenge the efficiency of the learner’s expectancy grammar” (op. cit.: 34). Las pruebas de cierre, y entre ellas el C-test, demandan al alumno la aplicación de la gramática de expectativas. Son pruebas de tipo pragmático: “cloze tests meet both of the naturalness criteria for pragmatic languages tests” (op. cit.: 42). Por tanto, Oller las considera un instrumento válido de medida de la competencia lingüística. Como hemos visto, las pruebas de cierre responden tanto al concepto de redundancia reducida de Spolsky como a la gramática pragmática de expectativas que propone Oller. 1.8. Tipos de pruebas de evaluación de la lengua En el apartado 1.2 hemos comentado que no existe un test ideal, apropiado para todos los alumnos y válido para todas las situaciones, ni una receta para su creación. Elegir o diseñar un buen examen depende del propósito, los destinatarios y la situación en la que se aplique (Hughes 1989; Bachman 1990; Bachman y Palmer 1996). Con objeto de encuadrar al C-test como prueba de lengua, veremos las clasificaciones de los exámenes en el contexto de los cursos de lengua. Las aportan numerosos autores, tales como Oller (1979), Hughes (1989), Bachman (1990), Bachman y Palmer (1996), atendiendo a criterios diversos. El C-test: alternativa o complemento de otras pruebas en ILE 44 Una primera clasificación tiene en cuenta el objetivo de la prueba y las decisiones del profesor que implica. La segunda divide las pruebas según su naturaleza en directas e indirectas. Atendiendo al número de elementos lingüísticos que midan, serán de elementos discretos o integradoras. Dentro de las integradoras situamos todo el elenco de pruebas pragmáticas. Según el método de corrección pueden ser objetivas o subjetivas. Y si tenemos en cuenta el grupo en que se aplican, las dividimos en normativas y criteriales (norm-referenced y criterion- referenced). 1.8.1. Según su propósito Seguimos la taxonomía de Hughes (1989) que clasifica las pruebas según el objetivo con que se aplican. Coincide en gran parte con la que hacen Bachman y Palmer (1996), en este caso, teniendo en cuenta el tipo de decisión que implican por parte del profesor con respecto al alumno. 1.8.1.1. Pruebas de competencia lingüística (Proficiency tests) Son las diseñadas para medir la competencia del alumno en la lengua objeto de estudio, independientemente del proceso de aprendizaje que hayan seguido en esa lengua. Bachman (1990: 71) las considera “theory-based tests” frente a las pruebas de logro, que son “syllabus-based”. Normalmente estas pruebas implican que el profesor tome decisiones para seleccionar a los alumnos: “Selection decisions involve determining which individuals should be admitted to a particular educational program or offered a particular job” (Bachman y Palmer 1996: 97). El contenido de este tipo de examen dependerá de los objetivos que se planteen para considerar que el candidato ha alcanzado el nivel deseado para un propósito concreto: Se basa en “a specification of what candidates have to be able to do in the language in order to be considered proficient” y su función es “to show La Evaluación de la Lengua 45 whether candidates have reached a certain standard with respect to certain specified abilities” (Hughes 1989: 9-10). Ejemplos de esta clase de prueba son las estandarizadas, como las de la Universidad de Cambridge (PET, First Certificate, etc.) u otros exámenes cualesquiera encaminados a la consecución de un determinado título, pero no directamente relacionados con la realización de un curso previo. 1.8.1.2. Pruebas de adquisición de objetivos programados (Achievement tests) Son las pruebas con las que los profesores estamos en contacto más directo en el aula, puesto que se relacionan directamente con los cursos de lengua y pretenden establecer el grado de consecución de los objetivos programados. Se basan en la programación y el currículo (contenidos) que se haya seguido en un curso determinado. El diseño de estos exámenes depende, por lo tanto, de la programación del curso, de los materiales utilizados, etc. (syllabus-content approach). Hughes distingue dos clases de pruebas de adquisición o consecución de objetivos programados: - final tests - progress tests Es decir, las que se realizan al final de un curso, y las que se aplican largo del proceso de aprendizaje para medir el progreso de los alumnos con relación a los objetivos a corto plazo. Estas últimas no tienen porqué ser tan formales y rigurosas como las finales. Cada profesor puede adaptarlas según su estilo, son su responsabilidad, de manera que reflejan “the particular “route” that an individual teacher is taking towards the achievement of objectives” (Hughes 1989: 13). La información que se obtiene a partir de las pruebas de adquisición de objetivos puede ser útil tanto para la evaluación formativa del alumno “to help students guide their own subsequent learning, or for helping teachers modify their El C-test: alternativa o complemento de otras pruebas en ILE 46 teaching methods and materials” como para la sumativa “of students’ achievement or progress at the end of a course of study” (Bachman y Palmer 1996: 98). Hughes (1989: 12) hace notar que las pruebas finales de este tipo pueden coincidir en sus características con las de competencia lingüística en algunas ocasiones: “If a test is based on the objectives of a course, and these are equivalent to the language needs on which a proficiency test is based”. Éste sería el caso de las PAAU, por una parte la prueba de Inglés podría considerarse de competencia lingüística, pues superación supone alcanzar un determinado nivel de competencia que permite el acceso a la Universidad. Pero, por otra, se basa en unos objetivos directamente relacionados con el currículo y la programación didáctica de la asignatura para el segundo curso de Bachillerato. El trabajo experimental de nuestra tesis debe inscribirse en este epígrafe. No obstante, más adelante veremos que el C-test es una prueba versátil que podría utilizarse casi en cualquiera de los tipos de prueba que estamos mencionando. 1.8.1.3. Pruebas de diagnóstico (Diagnostic Tests) Se aplican antes de comenzar un determinado curso de lengua. Sirven como indicador de los problemas y necesidades de los alumnos. Permiten al profesor detectarlos para planificar la enseñanza posterior. Hughes (1989: 13) define la finalidad u objetivo de las pruebas de diagnóstico: “They are intended primarily to ascertain what further teaching is necessary”. El citado autor lamenta la falta de buenos tests de diagnóstico, que serían muy útiles para la enseñanza personalizada y el autoaprendizaje. 1.8.1.4. Pruebas de nivel (Placement Tests) Las pruebas de nivel sirven para situar al alumno en el nivel que le corresponda dentro de un programa de cursos, o para organizar al alumnado en grupos homogéneos en cuanto al grado de conocimiento o manejo de las destrezas lingüísticas. Bachman y Palmer (1996: 97) explican: “Placement decisions involve La Evaluación de la Lengua 47 determining in which of several different levels of instruction it would be most appropriate to place the test taker”. Aunque existen algunos estandarizados, lo ideal es que se preparen los adecuados para cada situación concreta. 1.8.2. Según la naturaleza de las tareas propuestas A continuación, abordamos la división de las pruebas atendiendo a la naturaleza de las tareas que proponen al alumno. Distinguimos entre pruebas directas e indirectas. 1.8.2.1 Pruebas directas Comenzaremos con la definición de Rea (1985: 26): A test may be defined as “direct” to the extent that it requires the integration of linguistic, situational, cultural, and affective constraints which interact in the process of communicating. [...] ”Directness” is therefore crucially concerned with situational and communicative realism. Así pues, son directas aquellas pruebas que proponen al alumno la realización de la tarea concreta que se pretende medir. Hughes (1989: 15) explica: “If we want to know how well candidates can write compositions, we get them to write compositions”. Es obvio que resulta más sencillo cuando se quieren medir las destrezas de tipo productivo. Hughes recomienda que tanto las tareas como los textos utilizados sean auténticos en la medida de lo posible, aunque la propia situación de las pruebas impida la total autenticidad. El autor (1989: 15) subraya el atractivo de las pruebas directas frente a las indirectas porque: ...it is relatively straightforward to create the conditions which will elicit the behaviour on which to base our judgements [...] the assessment and interpretation of students’ performance is also quite straightforward. El C-test: alternativa o complemento de otras pruebas en ILE 48 A lo que hay que añadir, además, la mayor probabilidad de que el impacto producido sea positivo: “there is likely to be a helpful backwash effect” (Hughes 1989: 15). Rea (1985: 26) alude a otro rasgo que caracteriza a las pruebas directas, su validez aparente: ““direct” measures have popular appeal to face validity. In other words, the more a test looks as if it is testing what it is intended to measure, the better it is”. 1.8.2.2. Pruebas indirectas Las pruebas indirectas proponen al alumno tareas en las que subyacen las habilidades que se quieren medir. La ventaja de las pruebas indirectas, en palabras de Hughes (1989: 16), es que “they offer the possibility of testing a representative sample of a finite number of abilities which underlie a potentially indefinitely large number of manifestations of them” y sus resultados son, por tanto, más generalizables. Sin embargo, las pruebas directas son más fáciles de diseñar. Hughes las recomienda para los exámenes de competencia lingüística y los de consecución de objetivos programados. El C-test, entre otros, constituye un buen ejemplo de prueba indirecta. 1.8.3. Según el número de elementos lingüísticos que se mida en cada prueba Carroll (1961) fue el primero en diferenciar entre tests de lengua discretos e integradores. Oller (1979: 70) los considera “two extremes on a continuum”. Como veremos, dentro de los integradores, los tests pragmáticos constituyen una clase especial. La Evaluación de la Lengua 49 1.8.3.1. Pruebas de elementos discretos (Discrete point tests) Las pruebas de elementos discretos miden un solo elemento de la lengua, una estructura gramatical concreta. Según Oller (1973b: 190) su principal limitación es que no reflejan el uso real de la lengua. Además encuentra otras desventajas que citamos textualmente: “they often fail to provide the student with practice in useful language skills [...] They require substantial skill on the part of the person who prepares them”. Algunas de las ventajas de las pruebas de elementos discretos son evidentes, como su fiabilidad y carácter práctico. Destaca también su facilidad de administración y corrección, vital cuando se necesita examinar a un gran número de sujetos en breve espacio de tiempo. Actualmente su uso ha disminuido, Arnaud (1984: 14) expresa la situación en los siguientes términos: “Discrete-item tests of separate components of language, although still in use for practical reasons, have tended to fall out of fashion as language testing theory has begun to place more emphasis on validity”. 1.8.3.2. Pruebas integradoras Son las que demandan tareas en las que es necesario utilizar varios elementos lingüísticos. Se definen por contraposición con las de elementos discretos: ... integrative tests attempt to assess a learner’s capacity to use many bits all at the same time, and possibly while exercising several presumed components of a grammatical system, and perhaps more than one of the traditionally recognized skills or aspects of skills. (Oller 1979: 37) Dentro de las pruebas integradoras se incluye el dictado, las de comprensión lectora, la redacción y las pruebas de cierre como “one of the most promising types”. A pesar de que se les achaca falta de fiabilidad en la corrección, según Oller (1973b), los resultados obtenidos en las pruebas integradoras correlacionan muy bien con la valoración del profesor y con otras pruebas. Esto se debe a que reflejan las situaciones reales de comunicación mejor que las pruebas de elementos discretos. El C-test: alternativa o complemento de otras pruebas en ILE 50 ...tend to correlate better with teacher judgements, better among themselves, and better with other measures of language skills than do any of the discrete-point types because they more nearly reflect what people actually do when they use language. (Oller 1973b: 198) 1.8.3.2.1. Pruebas pragmáticas Oller (1979: 38) define las pruebas pragmáticas, dentro de las integradoras, como ...any procedure or task that causes the learner to process sequences of elements in a language that conform to the normal contextual constraints of that language, and which requires the learner to relate sequences of linguistic elements via pragmatic mappings to extralinguistic context. Son las pruebas pragmáticas las que mejor reflejan la competencia lingüística del alumno (Oller 1979: 64). A menudo se considera que el concepto de prueba integradora es sinónimo de pragmática. Según el autor, la confusión viene dada porque las pruebas integradoras pueden ser pragmáticas, cuando la tarea lingüística que pide la prueba se relaciona de forma significativa con el contexto extralingüístico, y las pruebas pragmáticas son siempre integradoras. De nuevo el dictado, las redacciones, narraciones, entrevistas orales, etc. y las pruebas de cierre son ejemplos de prueba pragmática que cita Oller (1979). Así pues, clasificamos al C-test como prueba integradora y pragmática. Aunque dedicamos un capítulo completo a revisar en profundidad las características de las pruebas de cierre y sus tipos, adelantamos algunos rasgos que las hacen pruebas pragmáticas. Las pruebas de cierre nacieron con Taylor (1953). Inventó el término “cloze” para designar a los exámenes que demandan completar un texto en el que se han omitido previamente determinados elementos. La tarea que estas pruebas plantean al alumno es semejante a un problema gestaltiano de “closure”. Para resolverlo, el alumno se ve obligado a hacer inferencias de todo tipo (lingüísticas y extralingüísticas). Debe poner en funcionamiento su “gramática pragmática de expectativas” y su actuación en la prueba muestra “the efficiency of the learner’s La Evaluación de la Lengua 51 developing grammatical system” (Oller 1979: 44). Como veremos, el C-test comparte los rasgos descritos. 1.8.4. Según el método de corrección Atendiendo al método seguido en la corrección de las pruebas diferenciamos entre las de tipo objetivo y las subjetivas. Veremos que cierta subjetividad es inherente a las pruebas, aunque sea sólo en su diseño, y que la fiabilidad no es rasgo exclusivo de las pruebas objetivas. 1.8.4.1. Pruebas objetivas Las pruebas objetivas son las que evitan o limitan al máximo la opinión del corrector. Ya Pilliner (1968) diferenciaba las pruebas subjetivas de las objetivas en términos del procedimiento de corrección. Un test objetivo es, en principio, fiable. Sin embargo, aún en las pruebas cuyo método de corrección es objetivo hay un margen para la subjetividad del profesor en el resto de las tareas, ya que el diseño de la prueba requiere siempre la toma de decisiones ineludibles: contenido, formato, texto, tema, etc. Al igual que el resto de las pruebas de cierre, el C-test es reconocido como prueba objetiva. Su corrección no implica el juicio del corrector y su diseño reduce la subjetividad a la elección del texto y punto de comienzo de las omisiones. 1.8.4.2. Pruebas subjetivas Cuando se requiere la emisión de juicios por parte del corrector, las pruebas se consideran subjetivas. El ensayo o redacción es una de ellas. En las redacciones es casi imposible prescindir hasta cierto punto del juicio del corrector y sin embargo, aun así, se pueden lograr correcciones fiables, tanto si se adoptan enfoques analíticos como holísticos (Bacha 2001; Amengual 2003). El C-test: alternativa o complemento de otras pruebas en ILE 52 1.8.5. Según el marco de referencia utilizado Teniendo en cuenta este criterio, las pruebas pueden clasificarse en: “norm- referenced” cuando medimos la actuación del alumno con respecto al grupo y “criterion-referenced” si consideramos el logro de los objetivos propuestos independientemente de la situación del grupo. Bachman (1990) insiste en que las pruebas normativas y las criteriales no se excluyen entre sí. 1.8.5.1. Pruebas normativas Tomamos la definición que hace Bachman (1990: 72): “Norm-referenced tests (NR) are designed to enable the test user to make “normative“ interpretations of results”. Si una prueba normativa está bien diseñada los resultados estadísticos mostrarán unas características constantes. La distribución de las puntuaciones seguirá una curva típica. Otros datos de referencia interpretables son la media, la moda y la desviación típica17. Las pruebas normativas van orientadas a la discriminación del nivel del alumno en la lengua. Las pruebas estandarizadas (como las PAAU) son el prototipo de prueba normativa. Se basan en un contenido fijo e invariable de uno a otro examen. Se administran y corrigen siguiendo unos criterios previamente fijados. Además sus características se conocen bien, pues se han probado previamente en investigaciones y estudios piloto. Su validez y fiabilidad están aseguradas y demostradas empíricamente con grupos semejantes. 1.8.5.2. Pruebas criteriales Como con las normativas, comenzamos con la definición que ofrece Bachman (1990: 74). Según sus palabras: “Criterion-referenced (CR) tests are designed to 17 En la Perspectiva Empírica trabajamos aplicando estos conceptos estadísticos al análisis de las pruebas. La Evaluación de la Lengua 53 enable the test user to interpret a test score with reference to a criterion level of ability or domain of content”. Para una prueba criterial es prioritario especificar el nivel de habilidad o dominio del contenido. Debe ser “sensitive to levels of ability or degrees of mastery of the different components of that domain”. Los resultados obtenidos en ella se interpretan como indicadores del nivel de habilidad alcanzado. El propósito de las pruebas criteriales es clasificatorio: “to classify people according to whether or not they are able to perform some task or set of tasks satisfactorily” (Hughes 1989: 18). 1.8.6. Según su ámbito de aplicación y consecuencias Podemos también diferenciar las pruebas teniendo en cuenta su ámbito de aplicación y las consecuencias que se derivan de la actuación en ellas. Nos fijaremos en dos extremos, por una parte las pruebas que se aplican regularmente en el aula y, por otra, las que se hacen a gran escala o high-stakes tests. 1.8.6.1. Pruebas de aula Las pruebas de evaluación o control que se realizan en el aula no suelen necesitar un gran despliegue de recursos físicos ni materiales. El propio profesor es el que cubre todas las fases del proceso, desde el diseño hasta la aplicación y corrección. Y el propósito de las mismas generalmente es verificar el logro de los objetivos programados para un determinado período de tiempo. 1.8.6.2. Pruebas a gran escala En el caso de los high stakes tests o pruebas estandarizadas a gran escala se requiere una planificación detallada y más recursos de todo tipo. Las diferencias radican en el ámbito de aplicación de la prueba, que suele administrarse a gran El C-test: alternativa o complemento de otras pruebas en ILE 54 número de examinandos, y en su propósito, que a veces permite o impide la consecución de un determinado título, diploma o posición. Ambos, ámbito y finalidad, determinan que las circunstancias de la administración y corrección de estas pruebas sean totalmente diferentes. Ya desde su diseño, las pruebas estandarizadas implican la participación de equipos de profesores y/o expertos, a menudo con fuertes inversiones de tiempo y dinero. Hay que mencionar, además, su repercusión social. En España, las pruebas de Selectividad o PAAU constituyen el mejor ejemplo de este tipo de prueba. El C-test se inscribe en las pruebas integradoras y pragmáticas. Pretende medir el constructo de la competencia lingüística general. Por su naturaleza es una prueba indirecta. En cuanto al modo de corrección, es objetiva. Y, por sus características, puede utilizarse en cualquiera de las situaciones o momentos del proceso de aprendizaje, tanto como prueba de logro, de competencia lingüística o de nivel. Sólo resulta poco adecuada como prueba de diagnóstico. Como veremos en la parte experimental de este trabajo, la hemos aplicado en el contexto de las clases regulares de Inglés de Bachillerato, pero pensamos que también podría formar parte de pruebas estandarizadas, como las PAAU, para las que supondría una valiosa aportación. Perspectiva Histórica de la Evaluación de la Lengua 55 CAPÍTULO 2. PERSPECTIVA HISTÓRICA DE LA EVALUACIÓN DE LA LENGUA 2.1. Introducción En este capítulo haremos un recorrido histórico por la Evaluación de la Lengua. Para empezar revisaremos brevemente los orígenes de la Lingüística Aplicada, como disciplina que nace a partir de la necesidad de aplicar soluciones que partan de la Lingüística a los problemas que plantea el auge de la enseñanza de idiomas, y en cuyo seno se inserta la subdisciplina de la Evaluación de Lenguas. Continuaremos con un repaso somero de los principales enfoques de LT a lo largo del siglo XX y en los albores del siglo XXI. Dedicaremos especial atención al movimiento comunicativo, por su repercusión en la enseñanza de lenguas. Después revisaremos los pasos de la disciplina a partir de los años 80, para centrarnos en la última década de LT. Dada la influencia de ciertas publicaciones periódicas especializadas (Language Testing, Language Learning, Language Teaching Abstracts, System, etc.) en el desarrollo de la disciplina, sobre todo durante los últimos años, dedicamos la parte más extensa del capítulo al estudio de las últimas tendencias de LT a partir de los artículos de investigación más recientes. Finalmente, tomando como referencia el cambio de milenio, terminaremos aventurándonos a apuntar el rumbo que podría tomar la disciplina en el presente siglo. 2.2. Orígenes de la Lingüística Aplicada Esta disciplina comenzó con el objetivo de mejorar la enseñanza de idiomas extranjeros a partir de problemas concretos para los que se buscaba una solución El C-test: alternativa o complemento de otras pruebas en ILE 56 práctica. El estudio de las distintas propuestas dio paso a la formulación de teorías y al desarrollo de conceptos que, poco a poco, permitieron conocer mejor la lengua, sus mecanismos, la relación L1-L2, etc. Brumfit (2001 citado en Bygate 2004) define la Lingüística Aplicada como “the theoretical and empirical study of real world problems in which language plays a central role”. Es interesante el recorrido histórico de Catford (1998) en busca de los orígenes de la Lingüística Aplicada. Aunque en sentido amplio podríamos decir que la Lingüística Aplicada a la enseñanza de lenguas se remonta a la Antigüedad, es en el siglo XIX cuando encontramos referencias explícitas a esta ciencia. En ese momento se siente la necesidad de unificar criterios en la enseñanza de idiomas. Catford alude a un grupo de lingüistas, entre los que destacaba Jespersen, que se reunieron en 1886 para diseñar un programa que guiara la enseñanza de lenguas. En 1899 Sweet publicó The Practical Study of Languages, que le valió la consideración de “padre” de la Lingüística Aplicada. Pero algo antes, Jan Baudouin de Courtenay (1870) había hecho ya por primera vez la distinción entre lingüística pura y aplicada. Baudouin (1904) expresaba: “Ever greater importance must be attached to the application of linguistics to didactics, both in the teaching and learning of foreign languages”. Después de estos inicios, en la década de los 40, habría que destacar algunos acontecimientos que impulsaron el desarrollo de la Lingüística Aplicada, como la creación del English Language Institute (ELI) en la Universidad de Michigan (1941), impulsado por Fries, y la aparición de la revista Language Learning: A Quarterly Journal of Applied Linguistics (1948). En el ELI enseñaron autores muy significativos, como Fries, Lado, Wallace, etc. La revista Language Learning, por su parte, se convirtió en vehículo de experiencias y foro de la investigación en la materia. A partir de entonces aumentó el número de publicaciones, instituciones, asociaciones y congresos relacionados con la disciplina. Citamos sólo dos ejemplos: la fundación de la School of Applied Linguistics de la Universidad de Edinburgo (1957) y la creación de la Association Internationale de Linguistique Appliquée (AILA) en 1964 (véase el apartado 2.3.3.2). En épocas más recientes debemos mencionar, entre otros acontecimientos, la creación del English Language Testing Perspectiva Histórica de la Evaluación de la Lengua 57 Service (ELTS) por el British Council y la aparición de la revista Applied Linguistics (1980). Dentro de la Lingüística Aplicada centramos nuestro estudio en el campo de la Evaluación de la Lengua. Desde sus comienzos, la Lingüística Aplicada se ha ocupado de la evaluación, prueba de ello es la publicación, ya en 1968, de un número especial monográfico dedicado a Problems in Foreign Language Testing en la revista Language Learning. Sin embargo, hasta 1984 no aparece una publicación específica sobre Evaluación de la Lengua. Language Testing es la publicación que llenó ese vacío. Un seguimiento exhaustivo de lo publicado en ella nos permite tomar el pulso a la disciplina en los últimos veinte años. La Lingüística Aplicada está alcanzando en nuestros días su plena madurez: “Language Testing has “come of Age””, en palabras de Alderson (1995). También Bialystok (1998) manifiesta que la disciplina vive ahora su momento más rico e integrador. En Europa su desarrollo no permanece ajeno a los cambios sociales; como el final de la guerra fría, la creación de la Unión Europea, los cambios en las fronteras, el crecimiento económico de la Europa Occidental, las migraciones del sur al norte de Europa, el regionalismo emergente, etc. (Kees de Bot 2004: 57). A lo largo de la historia podemos comprobar que las soluciones que han hecho avanzar a la ciencia se lograron gracias a la colaboración entre disciplinas. Es ésa la vía que proponen especialistas como Bialystok (1998), y que respaldamos desde este trabajo, para que el futuro de la Lingüística Aplicada sea de verdad clarificador y productivo. 2.3. La Evaluación de la Lengua: trayectoria histórica Tanto los profesionales de la docencia como los especialistas en Lingüística Aplicada muestran un reconocimiento unánime de la importancia de la evaluación como parte integrante del proceso de enseñanza-aprendizaje. Todo proceso de enseñanza-aprendizaje necesita de la evaluación, como apuntamos en el capítulo 1. La evaluación forma parte de él e influye en él. Por ello, es conveniente revisar las El C-test: alternativa o complemento de otras pruebas en ILE 58 distintas técnicas e instrumentos de evaluación para asegurarnos de que afectan de forma positiva a la enseñanza. Teniendo como base diferentes conceptos sobre la naturaleza de la evaluación dentro del proceso de enseñanza-aprendizaje, con el tiempo, la práctica docente ha ido adoptando distintas formas de evaluación. El objetivo final es siempre el aprendizaje de la lengua, pero para lograrlo, cada profesor debe “adaptar” en cierta medida los métodos propuestos por los especialistas a su contexto, peculiaridades, necesidades, etc. El modelo psicométrico tradicional asumía que los tests habían de ser universales o iguales para todos los individuos, estandarizados y unidimensionales, pues cada ítem debía medir una sola destreza. Los exámenes servían para ordenar a los alumnos según los resultados obtenidos. Sin embargo, debido a sus limitaciones, este modelo se empezó a cuestionar a partir de la publicación de Taxonomy of Educational Objectives de Bloom (1950). 2.3.1 El movimiento estructuralista Los años 50 y 60 vieron el florecimiento de la visión conductista estructuralista de la lengua, cuyo exponente más notable en evaluación es Lado, con su obra Language Testing (1961). El movimiento estructuralista entiende que el lenguaje se estructura a partir de distintos componentes (fonológico, lexicosemántico y morfosintáctico) y unidades. Para el análisis de la lengua propone un enfoque científico que propicia los estudios contrastivos y el uso de instrumentos estadísticos. Los estructuralistas consideran la competencia lingüística como suma de cuatro habilidades o destrezas (listening, speaking, reading y writing) y sus componentes (gramática, vocabulario, pronunciación). Esta aproximación a la lengua afecta al enfoque de su evaluación. El diseño de pruebas se basa en aspectos concretos y aislados del idioma. Así, Lado (1961) recomienda las pruebas de tipo objetivo, de elementos discretos. Perspectiva Histórica de la Evaluación de la Lengua 59 2.3.2. El movimiento comunicativo Destacamos el enfoque comunicativo por su contribución a la enseñanza de lenguas extranjeras y su gran repercusión en LT. A finales de los 70 se empieza a entender el lenguaje como competencia comunicativa (Widdowson 1978; Canale y Swain 1980) y a tener más en cuenta los aspectos sociales del lenguaje. Se incrementa el interés por la enseñanza y evaluación de la lengua “real”. El marco teórico de competencia comunicativa ideado por Canale y Swain (1980) distinguía tres tipos de competencia: gramatical, sociolingüística y estratégica. Este marco ha planteado retos a los lingüistas y en él se ha basado gran parte de la investigación posterior sobre Evaluación de Lenguas. La base del movimiento comunicativo es considerar que la competencia en una lengua no viene definida exclusivamente por los conocimientos gramaticales, sino por la capacidad de comunicarse en ella (Pica 2000). El aprendizaje de idiomas adquiere sentido precisamente porque posibilita la comunicación. El método comunicativo supuso un gran cambio. Su principal novedad radica en que se centra en el alumno y sus necesidades. Cambia así el rol del profesor, que pasa de ser el centro a ser simplemente el que facilita el proceso de aprendizaje. Este nuevo enfoque metodológico implicó el nacimiento de la evaluación de la competencia comunicativa o Communicative Language Testing (CLT) como reacción a las pruebas de tipo objetivo propuestas por Lado (1961). Es preciso evaluar tanto la competencia lingüística como la actuación o producción en situaciones concretas. Con estas premisas como base se han desarrollado diversos modelos de evaluación, como el propuesto por Bachman (1990) y Bachman y Palmer (1996): Communicative Language Ability (CLA). Aludimos al modelo de Bachman en el capítulo 1 de la tesis, apartado 1.5. La evaluación comunicativa aporta nuevas perspectivas; surge, por ejemplo, la preocupación por la autenticidad de las pruebas, aspecto que aún hoy suscita múltiples interrogantes. Distintos autores fijaron las características de las pruebas comunicativas (Swain 1984; Davies 1990; Rea 1991), y algunos otros cuestionaron que se pueda El C-test: alternativa o complemento de otras pruebas en ILE 60 hacer una CLT adecuada, dada la dificultad para extrapolar los resultados de las pruebas comunicativas (Skehan 1988; Weir 1983; Morrow 1977). Davies (1982: 149) expresaba su propuesta de incluir aspectos gramaticales en las pruebas comunicativas para lograr neutralizar la tensión entre validez y fiabilidad. The most useful tests are probably those that make a compromise, i.e. tests that make up on Reliability by testing linguistic competence through discrete point items, and make up on Validity by testing communicative competence through integrative items. En esta línea se manifiesta Pica (2000: 15) cuando aboga por la integración de métodos tradicionales y comunicativos para suplir las deficiencias de ambos y mejorar la enseñanza de idiomas. Recent findings on the cognitive, social, and linguistic processes of L2 learning have suggested a principled approach to L2 instruction. Such principles are characterized by classroom strategies, participant structures, and activities which incorporate traditional approaches, and reconcile them with communicative practices. 2.3.3. La evaluación en las últimas décadas: estado de la cuestión A partir de los años 80 LT se fue consolidando como disciplina, se amplió la preocupación por la evaluación de lenguas y surgieron nuevas técnicas. En primer lugar hay que mencionar la extensión que cobró este campo y su actividad constante a nivel internacional. Desde entonces hasta nuestros días se ha convertido en un área muy productiva, lo que hace difícil recoger todos los intentos de avanzar en evaluación de la lengua. Continuamente aparecen estudios que plantean aspectos aún no suficientemente claros para la evaluación, como el washback o efecto rebote. Otros responden a preocupaciones nuevas, como la ética y la política educativa desde la perspectiva de la evaluación, o la aplicación de las nuevas tecnologías. La mayor conciencia de los aspectos éticos ha llevado incluso a plantear la necesidad de una profesionalización en el campo de la evaluación. Perspectiva Histórica de la Evaluación de la Lengua 61 Se camina hacia una colaboración entre disciplinas, como sugería Bialystok (1998). Así, por ejemplo, los avances en el campo de Second Language Acquisition (SLA) han permitido identificar distintos niveles de dominio de la lengua y esto ha abierto nuevas vías de investigación. Los métodos de investigación utilizados en la actualidad abarcan e integran técnicas cualitativas y cuantitativas. Destaca la actividad de varios centros; como las Universidades de Michigan, Edimburgo, etc. En nuestro país, hay que mencionar el interés creciente que despiertan los estudios sobre Lingüística Aplicada18. La preocupación por la educación y la política educativa se constata en el aumento del número de tesis, proyectos y/o estudios promovidos por iniciativa pública o privada, por distintos programas de la Unión Europea, etc. A pesar de todo, todavía los estudios sobre Evaluación de la Lengua en España despliegan menor actividad que en otros países de nuestro entorno, sobre todo con respecto a otras áreas de la enseñanza de lenguas. Aunque no abundan los congresos dedicados exclusivamente a la evaluación de la lengua, sí se realizan aportaciones notables en los de ámbito internacional, como los de ALTE (Association of Language Testers in Europe). Es significativo constatar la ausencia de un panel específico sobre evaluación en los congresos anuales de la Asociación Española de Lingüística Aplicada (AESLA), a la que nos referiremos en el apartado 2.3.3.2. No obstante, los trabajos relacionados con la evaluación se incluyen en otros paneles, generalmente en el dedicado a Enseñanza de Lenguas y Diseño Curricular. 2.3.3.1. Publicaciones especializadas en Evaluación de la Lengua Ya desde la introducción de este capítulo hemos expresado que merece mención expresa la labor de distintas publicaciones que periódicamente recogen y divulgan las últimas aportaciones de los especialistas en Evaluación en la enseñanza de lenguas19. 18 Véase el informe de Graeme Porte (2003) para Language Teaching Abstracts sobre las investigaciones más recientes realizadas en España de 1999 a 2002 en el campo de la Lingüística Aplicada. El autor destaca el nuevo entusiasmo en la materia y la profusión de publicaciones. Hace, además, referencia explícita a los trabajos sobre validez y fiabilidad de las pruebas de Selectividad (Herrera, Esteban y Amengual 2001; Amengual y Herrera 2001). 19 Actualmente la mayoría de estas publicaciones tiene una versión electrónica disponible en Internet. El C-test: alternativa o complemento de otras pruebas en ILE 62 Entre las revistas de mayor prestigio en el ámbito lingüístico educativo se encuentran Language Testing, Language Learning, Language Teaching Abstracts, Applied Linguistics, ESP English for Specific Purposes, System, AILA Review, IRAL International Review of Applied Linguistics, TESOL Quarterly, etc. Todas ellas desarrollan una labor importante en Lingüística Aplicada. Language Testing es la publicación que se dedica de forma más directa al mundo de la Evaluación de Lenguas, pero todas las mencionadas son de gran interés puesto que, a pesar de centrarse en otros aspectos de la enseñanza de la lengua, publican también con mayor o menor frecuencia artículos relacionados con la evaluación. El análisis pormenorizado de su trayectoria nos dará el pulso del panorama actual, del estado de la cuestión en Evaluación de la Lengua. 2.3.3.2. Asociaciones En el campo de la Evaluación de la Lengua es destacable la labor de diversas asociaciones. Algunas no se centran en la evaluación, sino que abarcan un ámbito mayor: el de la enseñanza de lenguas. En los años 60 (Nancy, 1964) se creó la Association Internationale de Linguistique Appliquée (AILA), integrada por lingüistas europeos y profesores de idiomas. Coincidió con un momento de florecimiento de la Lingüística Aplicada y su creación supuso un gran estímulo para la actividad investigadora. A partir de 1969 se celebran congresos de la Asociación cada tres años. Hoy acoge a más de 5000 socios de 43 asociaciones nacionales y se ha convertido en una vigorosa organización mundial. El volumen 17 de la revista AILA Review (2004) celebró los 40 años de la Asociación con una visión del panorama que ofrece la disciplina hoy: World Applied Linguistics. Colaboraciones de Bygate, Cavalcanti, Grabe, Kees de Bot, Kleinsasser, Pakir y Valdman, entre otros, muestran que la Lingüística Aplicada sigue su camino adaptándose a las circunstancias del mundo actual y afrontando nuevos retos. Además hemos de mencionar la aparición de la International Language Testing Association (ILTA). Su manifiesta preocupación por la ética en la evaluación se refleja en el “Code of Ethics for ILTA”, adoptado en Vancouver (2000). En junio de Perspectiva Histórica de la Evaluación de la Lengua 63 2007 se ha celebrado el 29th Annual Language Testing Research Colloquium (LTRC) de ILTA en Barcelona. En 2004 se creó una nueva asociación de ámbito europeo, la European Association for Language Testing and Assessment (EALTA), cuyo objetivo citamos textualmente: “to promote the understanding of theoretical principles of language testing and assessment, and the improvement and sharing of testing and assessment practices through Europe”. Celebró su segunda Conferencia Anual en junio de 2005 (Voss, Noruega). En España, destaca la labor que desarrolla la Asociación Española de Lingüística Aplicada (AESLA), creada en 1982 y afiliada a AILA desde 1984. Esta asociación dio respuesta a la necesidad de contar con una organización española estable para difundir e impulsar las inquietudes que surgieran en el campo de la Lingüística Aplicada. Desde su creación, AESLA celebra un congreso anual en el que ofrece a profesores, investigadores y demás personas e instituciones interesadas en la enseñanza de la lengua, la posibilidad de poner en común sus ideas y conocer las últimas tendencias en evaluación, de la mano de especialistas mundialmente reconocidos. Basta citar a algunos de los prestigiosos lingüistas invitados a los últimos Congresos de AESLA (XXIII, XXIV y XXV): Barndern, Chapelle, Cook, Downing, Edmondson, Ellis, Selinker, Turell, Lantoff, Kövecses, Steen, Llisterri, Wachs, Muñoz Liceras, Faber, Escandell, Pascual, Hyland, Meyer, Teubert, etc. También dispone de un servicio de publicaciones que recoge las aportaciones y las divulga entre la comunidad científica, entre otras formas, mediante la revista RESLA y, desde 2003, con la revista electrónica RæL20. 2.4. La Evaluación de la Lengua de 1984 a 1994: State of the Art Como ya hemos mencionado en el apartado anterior, Language Testing es la publicación que más directamente se ocupa del campo de la Evaluación. De aparición trimestral, esta revista, cuyos editores son D. Douglas (Iowa State University) y J. Read (Victoria University of Wellington), cuenta con el apoyo y la 20 Para más información, recomendamos visitar la página web de AESLA en http://www.aesla.uji.es. El C-test: alternativa o complemento de otras pruebas en ILE 64 colaboración de los especialistas en evaluación más importantes en el panorama mundial, como son J. C. Alderson, L. F. Bachman, M. Chalhoub-Deville, A. Cummming, A. Davies, G. Fulcher, P. Meara y un largo etcétera. El primer número se publicó en 1984. Hoy Language Testing cuenta ya con más de dos décadas de vida. Su política editorial es clara: publica artículos teóricos o prácticos relacionados con la evaluación de segunda lengua y lengua extranjera, lengua materna, problemas y disfunciones lingüísticas, y proyectos o programas lingüísticos con implicaciones teóricas en la evaluación de lenguas. Atentos a todas las novedades en el campo de la evaluación de lenguas, cada volumen incluye además reseñas de libros de interés realizadas por colaboradores de la revista. Dado el ámbito que abarca esta publicación, podemos decir sin miedo a equivocarnos, que el análisis de lo publicado en Language Testing durante su primera década de vida (1984-1994) nos permite conocer en profundidad el desarrollo de la investigación mundial en el campo de la Evaluación de la Lengua a partir de los años 80. Siguiendo esta idea, Herrera Soler (1997: 116) revisó los primeros diez años de historia de Language Testing. En su estudio clasifica los artículos publicados en la revista durante ese periodo y destaca las aportaciones más interesantes que de ellos se derivan para la práctica docente: “A substantial number of the problems we have to cope with in our classroom every day have been dealt with in LT pages, and not a few answers to our difficulties can be found”. El año 1984, fecha de lanzamiento de Language Testing, supuso un momento crucial en la historia de la evaluación de lenguas. Entre los artículos publicados ese primer año aparecían ya los temas más importantes que han seguido siendo objeto de investigación en años posteriores; como las características de toda prueba de evaluación (validez, fiabilidad, autenticidad), los métodos de evaluación (criterion- referenced, norm-referenced), exámenes oficiales estandarizados como el TOEFL, o nuevas teorías (IRT como alternativa a los métodos tradicionales) y técnicas de evaluación (cloze, C-test, multiple choice). Así lo expresa Herrera Soler: The most frequently dealt with topics were acquisition of a second language, methods, testing strategies and certain issues in linguistic fields; not an issue went by without an article on the Item Response Theory (IRT) and on the Testing of English as a Foreign Language (TOEFL) examination, the two main lines of research in LT. Perspectiva Histórica de la Evaluación de la Lengua 65 El autor destaca la coherencia de la revista Language Testing y la riqueza de su contribución al campo de la Lingüística Aplicada: In our opinion then, LT has made a notable contribution over the last 10 years to the debate about how far language testing has gone toward understanding the abilities that teachers and institutions intend to measure. It is high time we, as teachers/testers of Second Language Acquisition or of Language for Specific Purposes, took advantage of these ten years of language testing research and that lamentations like the following one by Alderson (1988: 87) were progressively outdated: “It is rather sobering and perhaps depressing to note the minimal attention paid to testing...” (op. cit.: 132-133) A continuación hacemos un breve recorrido histórico por la década. Para agrupar las distintas líneas de investigación en evaluación de la lengua desde 1984 a 1994, reflejada en los artículos de este periodo de Language Testing, seguimos la clasificación de Herrera (1997): 1. Teoría de respuesta al ítem (IRT). 2. Análisis de pruebas estandarizadas. 3. El problema de la autenticidad de las pruebas. 4. La autoevaluación. 5. La influencia de otros factores en la evaluación: el contexto y las características del alumno. 6. Las técnicas de examen. 2.4.1. Teoría de respuesta al ítem (IRT) Uno de los modelos de evaluación más importantes fue la Item Response Theory o IRT de Rash, que para minimizar el error, calcula y relaciona el grado de dificultad de los distintos ítems y la capacidad o habilidad del individuo para resolverlos. Abundan los artículos tanto de corte teórico como práctico sobre la aportación de esta teoría a la evaluación de lenguas. Se consideró una alternativa a los métodos tradicionales, pero los artículos publicados no sólo analizan sus ventajas sino también sus inconvenientes. En la década que nos ocupa destacan las El C-test: alternativa o complemento de otras pruebas en ILE 66 contribuciones teóricas de Henning et al. (1985 y 1989), Woods y Baker (1985), Carrol (1986), Adams et al. (1987), Tomlinson et al. (1988), Hudson (1993). Y las aportaciones prácticas en artículos que analizan el modelo IRT de Theunissen (1987), Jon y Glas (1987), Boldt’s (1989), McNamara (1990, 1991), Choi y Bachman (1992) principalmente en tests de comprensión oral y escrita. 2.4.2. Análisis de pruebas estandarizadas En segundo lugar, Herrera (1997) menciona toda una serie de artículos que se centran en investigaciones acerca de exámenes estandarizados, como el TOEFL. Son fundamentalmente prácticos, algunos suponen un intento de mejorar estas baterías, otros comparan el TOEFL con otras pruebas. Parece claro que una buena batería de tests necesita una revisión y renovación permanente. Autores como Stansfield y Ross (1988) y Boldt (1989, 1992) pretenden con sus estudios mejorar las pruebas y analizar sus características de validez y fiabilidad. En 1990 Spolsky estudia la historia de este examen, sus orígenes y desarrollo. A menudo, las investigaciones van dirigidas hacia la comparación del TOEFL con otras baterías similares como el EFL proficiency test, el FCE, TSE, TWE, etc. 2.4.3. El problema de la autenticidad de las pruebas Otro de los temas recurrentes que aparecen durante los primeros diez años de Language Testing es el de la autenticidad como característica fundamental de las pruebas, sobre todo de las de tipo comunicativo. La autenticidad preocupa a los investigadores, puesto que a mayor grado de autenticidad de un test mayor probabilidad habrá de que éste sea representativo de la actuación lingüística del individuo y, a la vez, bien acogido por profesores y alumnos. El movimiento comunicativo insiste en la utilización de materiales auténticos y la propuesta de tareas realistas. Pero los autores señalan que existe ya de partida Perspectiva Histórica de la Evaluación de la Lengua 67 una contradicción entre un examen y el principio de autenticidad. Por el mero hecho de ser una prueba que mide unas determinadas actuaciones o destrezas, el examen no puede ser del todo auténtico. En torno a este rasgo de las pruebas destacamos el artículo de Spolsky (1985) acerca de los límites de la autenticidad en la evaluación de la lengua. No obstante, como veremos, el debate sobre el concepto y los límites de la autenticidad llega hasta nuestros días. 2.4.4. La autoevaluación También la autoevaluación ha sido una preocupación constante de los estudiosos de la evaluación de la lengua. En 1989 se dedicaron varios artículos a este tema (Oscarson, Janseen, Bachman y Palmer). Hoy en día se dispone de múltiples instrumentos, con frecuencia mediante el uso de las nuevas tecnologías, para medir la propia competencia lingüística. 2.4.5. La influencia de otros factores en la evaluación: el contexto y las características del alumno Por otra parte, durante esta década aparecieron investigaciones relacionadas con los distintos contextos culturales y con el componente afectivo: desde el estudio de Zeidner (1987) sobre la influencia de la raza, sexo y edad en la validez de una prueba, hasta el de Chihara et al. (1989), que se ocupaba del sesgo, es decir, del efecto que pueden producir los factores culturales en los clozes. También Zeidner y Bensoussan (1988) analizaron la actitud de los alumnos frente a pruebas orales y escritas, y Bradshaw (1989), en un test de nivel. Concluyeron que estos factores se deben tener en cuenta al preparar un test. Por otra parte, Scott (1996) evaluó otros factores como el formato, la limitación de tiempo, la familiarización con el tipo de examen, la ansiedad, etc. Algunos autores se fijaron incluso en el efecto de que los alumnos conozcan una estrategia de examen antes de enfrentarse a él (Allan 1992; Amer 1993). El C-test: alternativa o complemento de otras pruebas en ILE 68 2.4.6. Las técnicas de examen Un grupo importante de los artículos publicados en Language Testing desde 1984 hasta 1994 se ocupa de las técnicas de examen. Nos centraremos en la controversia entre los distintos tipos de prueba de cierre: cloze tradicional, C-Test, LDP y multiple choice. Estos artículos dedicados a valorar las diferentes técnicas de examen suponen un punto de referencia fundamental para la investigación que se lleva a cabo en este trabajo. Precisamente en el año 1984, fecha de aparición de la revista en que basamos nuestro análisis, Klein-Braley y Raatz publicaron en Language Testing algunas de sus primeras investigaciones acerca del C-test, en el artículo A survey of research on the C-Test (LT 1, 134). También en 1984 se publicó en Language Testing una nota de Cohen, Segal y Weis sobre el C-test en hebreo, The C-Test in Hebrew (LT 1, 221). Poco antes, en 1981, Klein-Braley y Raatz habían introducido la técnica del C-test como posible remedio para evitar algunos de los inconvenientes de las pruebas de cierre. Y estas primeras publicaciones de comienzos de los años 80 sobre el C-test y sus posibilidades no son el final, sino el comienzo de toda una serie de artículos relacionados con la técnica objeto de nuestro estudio. En 1985 Klein-Braley y Raatz continúan en la misma línea de investigación con la publicación de dos artículos: A cloze-up on the C-Test: a study in the construct validation of authentic tests (LT 2, 76) de Christine Klein-Braley y Better theory for better tests? (LT 2, 60) de Ulrich Raatz. Klein-Braley (1985) compara el C-test con los clozes tradicionales, partiendo de la base de que ambos son pruebas pragmáticas (según la clasificación de Oller 1979) creadas a partir de materiales auténticos, y de redundancia reducida. Ambos tipos de test suponen la puesta en práctica de la misma teoría: la competencia general en la lengua se muestra en la actuación lingüística, en este caso cuando se es capaz de recuperar un texto cualquiera en el que previamente se han eliminado determinados elementos. A partir de un estudio de los “defectos” de los clozes Klein- Braley demuestra que el C-test es una prueba válida y técnicamente superior a ellos. Raazt (1985), por su parte, plantea el problema de la validez de las pruebas y aplica el Classical Latent Additive Test Model, CLA Model, propuesto por Perspectiva Histórica de la Evaluación de la Lengua 69 Moosbrugger y Müller en 1982, para demostrar de forma objetiva que las distintas partes o ítems del C-test son homogeneas. Posteriormente en Language Testing continúan apareciendo artículos que investigan ésta u otras técnicas de examen. Kokotta (1988: 115-119) muestra un informe de su investigación con una técnica de examen cercana al C-test, the letter- deletion procedure (LDP). Esta nueva técnica muestra su flexibilidad con respecto a las pruebas de cierre tradicionales y al C-Test. En el artículo Cloze method: what difference does it make?, Chapelle y Abraham (1990: 121-126) comparan distintas técnicas de evaluación de lenguas, como son los clozes de ratio fija y variable, el test de elección múltiple y el C-test Poco después, Dörnyei y Katona (1992: 187-206) evalúan la validez del C-test con respecto al cloze tradicional entre estudiantes húngaros de Inglés como Lengua Extranjera. Sus conclusiones apuntan a que el C-test puede ser considerado un instrumento válido y fiable en la evaluación de lenguas. Y en 1993, J. D. Brown estudia en profundidad las características de los clozes naturales y muestra, apoyándose en datos estadísticos, que los clozes tradicionales no siempre son tan fiables y válidos como se suponía. Propone la selección de los ítems para crear clozes a la medida, que realmente funcionen. Finalmente sugiere posibles líneas de investigación para posteriores estudios sobre la técnica. Esta década fue, sin duda, la más productiva en investigaciones sobre el C- test. Por su relevancia, en capítulos posteriores volveremos a hacer alusión a los estudios mencionados en este apartado. 2.5. La evaluación de la lengua desde 1994 hasta nuestros días 2.5.1. Introducción y fuentes Durante esta última década hemos sido testigos de la vitalidad que sigue caracterizando a la disciplina y además hemos vivido una fecha muy significativa: el cambio de milenio como punto de inflexión. Por tanto, a pesar de la proximidad, estamos en condiciones de hacer ya una revisión del estado de la cuestión en evaluación de la lengua desde 1994 hasta nuestros días. El C-test: alternativa o complemento de otras pruebas en ILE 70 El año 2000 animó a los expertos en evaluación a recapitular y mirar hacia el siglo que dejábamos atrás para buscar claves. Este año se inauguró en LT con un artículo especial de Lyle F. Bachman que revisaba el estado de la evaluación de lenguas ante el cambio de milenio: Modern language testing at the end of the century: assuring that what we count counts. Bachman (2000) menciona en él los avances prácticos y teóricos, la variedad de enfoques y herramientas que se han usado en evaluación desde los años 80, las mejoras en las técnicas y formatos de examen, los aspectos éticos, etc. Pero lo más importante son las perspectivas de futuro: las claves, en su opinión, están en la profesionalización del campo de la evaluación y la investigación sobre validación. Sin perder de vista el análisis de Bachman, para tener una visión general del desarrollo del campo de la evaluación durante la pasada década, tomamos como referencia principal dos publicaciones: Language Testing y Language Teaching Abstracts. La primera por ser la que se ocupa casi exclusivamente de la evaluación de la lengua. La segunda por su característica de reseñar todo lo publicado en la materia. De ésta última nos interesa especialmente la revisión realizada por Alderson y Banerjee (2002-03), puesto que se centra en LT. El estudio de estas dos revistas nos parece un buen punto de partida para conocer los trabajos más recientes realizados en este campo y tomar el pulso a la actualidad en torno a la evaluación. El año 1994 ponía punto final a la primera década de existencia de la revista LanguageTesting y por ello, al completar el décimo volumen, los editores revisaron la publicación y anunciaron sus intenciones de cara al futuro. Para iniciar la andadura de la segunda década, manifestaron su intención de seguir la misma filosofía y objetivos, incluso de ampliarlos: These aims continue to represent the present editors’ views of the role of the journal. We reiterate them here while at the same time extending them. [...] No doubt assessment is often understood more widely than testing but the journal has always been interested in this wider view. (Editorial LT 1994) Esta idea de ampliar el campo de las contribuciones de la revista pretende abarcar cualquier aspecto de la evaluación: los exámenes, su creación y funcionamiento, el análisis de datos de tests, la política educativa, SLA, etc. Pero sin Perspectiva Histórica de la Evaluación de la Lengua 71 olvidar el aspecto más cercano y práctico de la evaluación, la investigación directa en el aula: We would like to publish more articles tackling issues in school-based education of children. Tests in schools are, and will continue to be, the arena where most testing activity occurs and the journal, in acknowledging that importance, seeks submissions reporting on that arena. (Editorial LT 1994) (el énfasis es mío) Language Teaching Abstracts, por su parte, es una publicación especializada en enseñanza de idiomas. Recoge los abstracts de todos los artículos que van apareciendo en el ámbito de la enseñanza-aprendizaje de lenguas y los clasifica en distintos epígrafes, uno de los cuales es Language Testing. La revisión monográfica de Alderson y Banerjee (2001-2002) sobre Language testing and assessment no es más que una de las muchas que ofrece la revista en momentos puntuales, si bien supone para nuestro estudio un punto de referencia obligado. 2.5.2. Principales temas que plantea la Evaluación de la Lengua en los últimos años Es innegable que el campo de la evaluación en la enseñanza de idiomas continúa en pleno desarrollo. Las investigaciones actuales abordan múltiples aspectos de la evaluación, como el impacto de las pruebas, y temas novedosos como la ética y las nuevas tecnologías. Aparecen también otros más tradicionales, como la teoría de la validez de las pruebas y la investigación de los distintos constructos o destrezas que subyacen en ellas. Alderson y Banejee (2002) consideran que en buen número de los trabajos actuales están presentes de forma directa o indirecta algunas cuestiones que todavía preocupan a los especialistas en evaluación: la autenticidad, el diseño de tests de lenguas y la tensión entre validez y fiabilidad. También en esta tesis se abordan estos temas más adelante. La mayor parte de los artículos que se publican hoy son de carácter experimental y pretenden corroborar de forma empírica los supuestos teóricos planteados. Para ello se basan en casos concretos y analizan los resultados con la ayuda de medios estadísticos. En general, los estudiosos intentan apoyarse en El C-test: alternativa o complemento de otras pruebas en ILE 72 datos de carácter empírico para justificar aspectos teóricos y aportar después conclusiones e implicaciones pedagógicas aplicables en el aula. Algunos temas que en la década anterior fueron verdaderos hilos conductores de la actualidad en evaluación han perdido parte de su protagonismo en los años más recientes, como es el caso de la Item Response Theory (IRT) y del examen de TOEFL. No obstante, se sigue investigando sobre la IRT en otros ámbitos, como evidencian los últimos congresos de AESLA. Tampoco la autoevaluación ni los trabajos sobre autenticidad han tenido tanto peso en los últimos años como en la década inicial de LT. Sin embargo, otros aspectos de la evaluación han aparecido con mayor frecuencia en estos años, por ejemplo los estudios de lingüística clínica, o los basados en la inmersión y en los problemas lingüísticos que se generan en la integración de colectivos de inmigrantes. Los estudios sobre lenguas e inmigración responden a la nueva realidad que se vive tanto en España como en los países de nuestro entorno. La Lingüística Aplicada tampoco puede ser ajena a las nuevas demandas sociales. También observamos un aumento del número de artículos dedicados al estudio de la evaluación de las destrezas orales. Sin olvidar los de corte teórico, hay que destacar el gran volumen de artículos de carácter empírico sobre la evaluación de la comprensión y expresión oral, muchos de los cuales pretenden validar exámenes estandarizados. No en vano la tendencia manifestada por la legislación educativa española es la de potenciar las destrezas orales en la enseñanza de lenguas extranjeras y su evaluación iba a formar parte de la nueva PGB, propuesta en la LOCE. Como se comentó en el capítulo 1, apartado 1.3.2, estos planes quedaron paralizados y sustituidos por la actual LOE (2006), aún pendiente de completar su desarrollo. Se echa de menos la existencia de artículos de tipo histórico. De los pocos que aparecen destacamos la revisión histórica y de política educativa que hizo Spolsky (1995), el estudio de Hawthorne (1997) acerca de la situación de la evaluación del Inglés en Australia y los condicionantes de tipo político, y el recorrido histórico por el campo concreto de la evaluación en ESP de Davies (2001). Parecería lógico que en la era de la tecnología de la información abundaran propuestas de aplicación de programas informáticos a la Lingüística. Sin embargo, el Perspectiva Histórica de la Evaluación de la Lengua 73 número de artículos no ha sido en este periodo tan numeroso como cabría esperar. Hemos de destacar el artículo de Alderson et al. (2000), que alude a un programa para evaluar pruebas sobre coherencia textual, y la revisión Issues in computer adaptive Testing of reading proficiency: Selected papers, de Chalhoub-Deville y Fulcher (2000). Este aspecto nuevo de la Lingüística Aplicada en relación con la informática está en pleno proceso de desarrollo y suponemos que avanzará notablemente en un futuro próximo. La publicación específica Computer Assisted Language Learning (CALL) recoge esos avances, de la mano de autores como Decoo (2003), Taylor y Gitsaki (2003), Pennington (2004), Gruba (2004), Zapata (2004), etc. Sin embargo, no se centra en la evaluación, sino en cómo los medios técnicos pueden apoyar en el proceso de aprendizaje de lenguas, siempre al servicio del método elegido por el profesor. Para concretar y centrar esta revisión, podemos decir que la investigación en LT se dirige actualmente hacia tres grandes direcciones que estudiamos con mayor detenimiento a continuación: - La profundización en los rasgos de las pruebas. - El estudio de los distintos tipos de tests. - La búsqueda de soluciones para los problemas y retos que el mundo actual plantea a la disciplina. 2.5.3. Rasgos de las pruebas Una gran parte de la investigación que se realiza actualmente en todo el mundo relacionada con la Evaluación de la Lengua tiene por objeto definir con claridad los rasgos de los exámenes. Destacamos los estudios sobre el impacto de las pruebas, los relacionados con los conceptos de validez y fiabilidad, y los que tratan sobre la autenticidad. En ellos se centra la preocupación de los investigadores, si tenemos en cuenta el volumen de los trabajos realizados. El C-test: alternativa o complemento de otras pruebas en ILE 74 2.5.3.1 Washback, impacto o efecto rebote El impacto que producen los exámenes en la enseñanza y el aprendizaje se conoce con el nombre de efecto rebote o washback. A pesar de que se reconocía la existencia del washback, hasta fechas recientes no abundaban los estudios empíricos sobre este fenómeno. Además, a menudo se consideraban sólo los efectos negativos, pero la influencia de las pruebas puede ser tanto positiva como negativa. Alderson y Wall (1993) describían el término washback como neutral. El reto para los estudiosos del tema es el diseño de pruebas que produzcan el deseado impacto positivo (Bailey 1996). En los últimos años está aumentando considerablemente el interés por este tema. Ya en 1993 Alderson y Wall sugerían varias vías de investigación del washback para determinar, por ejemplo, en qué aspectos influye: si afecta a lo que se enseña (contenidos, currículo) o también a cómo se enseña (metodología). Los estudios coinciden en señalar que las pruebas, sobre todo las más significativas o estandarizadas, realmente influyen en los contenidos que se enseñan y en los materiales utilizados. Es más complicado demostrar cómo influyen en la metodología del profesor e incluso en la motivación del alumno. Cheng (1997) demuestra que estos cambios metodológicos se producen de forma más lenta. El tercer volumen de 1996 de Language Testing es un monográfico sobre el impacto de los exámenes en la enseñanza. Recoge artículos teóricos centrados en esta característica de los tests (Shohamy et al. 1996); desde la revisión histórica de este concepto en la evaluación (Bailey 1996) hasta el estudio de Messick (1996) acerca de los conceptos de validez y washback, pasando por los análisis prácticos de Wall (1996) y Watanabe (1996), junto al de Alderson y Hamp-Lyons (1996) sobre el washback en los cursos de preparación del TOEFL. Posteriormente, Hamp-Lyons (1997) retoma el tema y lo aborda desde el punto de vista ético. El impacto es un tema amplio, rico y complejo abierto a nuevas investigaciones. Dedicamos el apartado 8 del capítulo 3 al estudio de este rasgo de las pruebas. Perspectiva Histórica de la Evaluación de la Lengua 75 2.5.3.2. Fiabilidad y validez Generalmente estos dos conceptos se consideran complementarios, una prueba ha de ser fiable para ser válida. A menudo se mezclan y los límites entre ellos se desdibujan. Alderson y Banerjee (2002: 102) desdramatizan este hecho: “In effect, this means that we need not agonise [...] over whether what we call reliability is “actually” validity”. La visión del concepto de validez como característica de las pruebas está cambiando y la distinción entre validez y fiabilidad es ya, según Alderson, “irrelevante”. Sin embargo, sigue vigente la preocupación por cómo validar las pruebas de evaluación de la lengua. Muchos autores son pesimistas en cuanto a la posibilidad de hacer una buena validación, no obstante, gran parte de las investigaciones actuales tiene por objeto la validación de distintas pruebas. A lo largo de la última década podemos destacar el estudio teórico de Messick (1996) sobre validez e impacto, el de Alastair (1994) entendiendo la validez como concepto unitario pero con múltiples facetas (Messick 1989), y los trabajos de Davidson (1994) acerca de la validez de una prueba estándar de carácter normativo (NRM, norm-referenced measurement). Shohamy (1994), a partir de su estudio de la validez de dos pruebas orales, una directa y otra semi-directa, concluyó que los tests deben validarse desde varias perspectivas. Para Scott et al. (1996), que estudiaron la validez en el examen de resumen de audiciones LSTE- versión española, siguiendo las pautas de Bachman, la validez viene dada por la autenticidad de situaciones e interacción en las tareas propuestas. Distintos intentos (Kunnan 2001; Luoma 2001) siguen buscando proporcionar pistas adecuadas para la validación. A pesar de lo que ya se ha investigado sobre ello, es éste todavía un terreno por explorar. 2.5.3.2.1. Validez de los constructos y teorías sobre el uso de la lengua La visión tradicional que clasificaba la validez en distintos tipos (de contenido, de constructo, aparente, predictiva, concurrente, etc.) da paso a otras El C-test: alternativa o complemento de otras pruebas en ILE 76 interpretaciones que plantean la validez de constructos como concepto unificado que engloba múltiples facetas y reconocen la validación de las pruebas como un proceso continuo (Chapelle 1999). Con la preocupación creciente por fijar qué miden exactamente los exámenes y sobre todo cuáles son su utilidad y sus consecuencias educativas, aparece un nuevo concepto de validez, la consecuencial (consequential validity), que se relaciona directamente con el impacto o efectos de las pruebas. El elemento central de las nuevas ideas sobre validez pasa a ser el constructo de los exámenes, es decir, lo que queremos medir; el conocimiento de la lengua y la habilidad para usarla. Según Alderson y Banerjee (2002: 80), no se puede evaluar si no se conoce bien lo que implica aprender una lengua: “Central to testing is an understanding of what language is, and what it takes to learn and use language, which then becomes the basis for establishing ways of assessing people’s abilities”. Bachman (1991) destaca el avance que supone para la Evaluación de Lenguas el desarrollo de una teoría que considera la habilidad lingüística como multi- componencial. El modelo de Bachman reconoce que en la actuación en los exámenes se refleja tanto la habilidad lingüística (conocimientos y estrategias) como el método de examen (entorno, input, expected response). En este modelo se basa el Marco de Referencia para la Enseñanza de Lenguas que propone el Consejo de Europa (Council of Europe’s Common European Framework 2001), al que Language Testing dedicó un número especial monográfico en 2005: LT 22 (3). Si la habilidad o competencia en una lengua tiene múltiples componentes, éstos no tienen porqué desarrollarse a la vez ni en la misma medida (Perkins y Gass 1996). En el desarrollo de la adquisición de una lengua hay que tener en cuenta el progreso y los logros alcanzados en cada momento (Danon-Boileau 1997). McNamara (1995), sin embargo, apunta que el modelo de Bachman olvida la dimensión social de la competencia lingüística, y recuerda que el aspecto de interacción es vital en la evaluación de lenguas. Perspectiva Histórica de la Evaluación de la Lengua 77 2.5.3.2.2. Investigaciones sobre validación Múltiples estudios sobre validación han basado su trabajo en la comparación de la actuación de los sujetos en distintas pruebas de Inglés estandarizadas y reconocidas, como el Cambridge y el TOEFL, o de ámbito más modesto. Una vez establecidas las correlaciones estadísticas, los estudios constataron las semejanzas y permitieron mejorar las pruebas. Esta tesis también basa su estudio empírico en comparar la actuación de los alumnos de Bachillerato en distintas pruebas de Inglés (PAAU) para validar el C-test. No obstante, además de estos métodos cuantitativos de validación, existen otros de tipo cualitativo. 2.5.3.3. La autenticidad A partir de los años 70, tal y como mencionamos en el apartado 2.3.2 de este capítulo, de la mano del movimiento comunicativo, la autenticidad pasó a ser una preocupación para los especialistas en evaluación. El tema es complejo, porque la propia naturaleza de los exámenes impide que las tareas propuestas en ellos sean semejantes a las situaciones de comunicación de la vida real. Aún así, se considera una característica deseable de todo examen. El propio concepto de autenticidad está cambiando. Bachman y Palmer (1996: 23) definen la autenticidad como “The degree of correspondence of the characteristics of a given language test task to the features of a TLU (Target Language Use) task”. Lo cierto es que, a pesar de todo, el tema de la autenticidad en la evaluación no ha estado tan presente en esta década como en la anterior. Además, los estudios presentan claras contradicciones. Desde Wu y Stansfield (2001), que recomiendan la autenticidad de las tareas en un test de Language for Specific Purpose (LSP) para que sea válido y fiable, hasta autores como Lewkowicz (1997, 2000), que ponen en duda que la autenticidad de las tareas planteadas en las pruebas tenga consecuencias para la evaluación. El C-test: alternativa o complemento de otras pruebas en ILE 78 Un reciente trabajo de Lewkowicz (2000) hace un recorrido histórico de la evolución del concepto de autenticidad en la evaluación desde su aparición en la literatura durante los años 70. En él se cuestiona su importancia para los exámenes y se plantea la necesidad de seguir investigando en este campo. Parece evidente que se necesita mayor volumen de investigación empírica que arroje luz sobre este tema. 2.5.4. Tipos de pruebas 2.5.4.1. Según el constructo 2.5.4.1.1. Evaluación de la comprensión escrita La amplia literatura al respecto muestra la preocupación de los investigadores. Leer supone la existencia de una interacción de un sujeto con un texto escrito. Hay unidad al considerar que para afrontar el aprendizaje de la lectura en una lengua extranjera, es necesario dominar antes la lectura en la primera lengua (de la que se hacen transferencias). Pero las teorías difieren al definir qué se valora en los tests de lectura y al intentar explicar el origen de las dificultades que plantea la lectura en otra lengua. Otro aspecto que plantea problemas es cómo influyen el background knowledge o “conocimiento del mundo” de los lectores y el tema del texto. También algunas líneas de investigación estudian cómo afecta el método de examen utilizado (respuesta múltiple, pruebas de cierre, preguntas de respuesta corta, C-tests, repetición inmediata- immediate recall, traducción etc.). Finalmente, mencionaremos que hay acuerdo al considerar que para medir la comprensión lectora es necesario utilizar varios métodos de examen. Sobre todo si tenemos en cuenta el hecho de que la habilidad para solucionar un determinado test o prueba no siempre garantiza la comprensión del texto por parte del lector. Perspectiva Histórica de la Evaluación de la Lengua 79 2.5.4.1.2. Evaluación de la comprensión oral Actualmente se está dando mayor relevancia que en épocas anteriores a la evaluación de esta destreza lingüística, cuyo estudio plantea no pocas dificultades. Los especialistas en lingüística aplicada reconocen su importancia: “The assessment of listening abilities is one of the least understood, least developed and yet one of the most important areas of language testing and assessment” (Buck: x-series editors’ preface, commented by Alderson and Bachman en Buck 2001). Buck (2001) reivindica la comprensión auditiva como proceso de inferencias en el que intervienen el conocimiento lingüístico (fonología, vocabulario, sintaxis) y no lingüístico (interpretación). Además está condicionada por múltiples variables; unas personales, como el conocimiento previo del mundo, y otras físicas, como las condiciones de la audición, la velocidad, el acento o la entonación. Algunas investigaciones se dirigen a los métodos de examen, tales como el dictado, la traducción de resúmenes, las pruebas de elección múltiple. Con la incorporación de los medios técnicos en la evaluación surgen también campos nuevos en la investigación de la lectura. Nos lleva por ejemplo a plantearnos cómo afecta a la comprensión auditiva la existencia de información visual, puesto que según algunos trabajos puede suponer una ayuda, pero también una distracción (Gruba 1997). 2.5.4.1.3. Evaluación de la gramática y el vocabulario En los últimos años ha disminuido el número de estudios sobre la evaluación de la gramática, probablemente porque el interés de los expertos se dirige más a los aspectos comunicativos de la lengua (communicative language teaching) que a los gramaticales (Rea-Dickins 1997, 2001), tanto en la enseñanza como en la evaluación de la lengua. O quizás porque se considera que a menudo la gramática se evalúa de forma implícita al valorar el dominio de otras destrezas lingüísticas (reading, writing, speaking, etc.). El C-test: alternativa o complemento de otras pruebas en ILE 80 Sin embargo esta pérdida de importancia de la gramática en la enseñanza ha redundado en un aumento significativo de los estudios sobre la evaluación del vocabulario. Especial actividad se ha desarrollado en la creación de pruebas para medir la amplitud del vocabulario adquirido (vocabulary size), partiendo de la base de que es necesario manejar una cierta cantidad de palabras en una lengua para expresarse en ella. Son dignos de mención los esfuerzos de Nation (1990) que creó una prueba de vocabulario en formato “elección múltiple” para unir una palabra con su sinónimo, y Meara (1996) con la prueba de reconocimiento de vocabulario conocida como Yes/no vocabulary test, en la que se introducen pseudo-palabras para comprobar si el sujeto sobrevalora sus conocimientos de vocabulario. Tras sus pasos, diversos autores han continuado con estudios de validación de distintas versiones de estos tests (Schmitt et al. 2001; Beglar y Hunt 1999; Beeckmans et al. 2001; Huibregtse 2002). Schmitt (1999) cuestionó la validez de los ítems de vocabulario de los actuales tests TOEFL. Schmitt et al. (2001) revisaron dos nuevas versiones del Vocabulary Levels Test. Takala y Kaftandjieva (2000) buscaron el posible sesgo del género en una prueba de vocabulario. Y Read y Chapelle (2001) desarrollaron un marco para la evaluación del vocabulario en la enseñanza de una segunda lengua. Algunos estudios pretenden abordar la evaluación del vocabulario de forma aislada y otros buscan hacerlo desde una perspectiva más global. Entre estos intentos debemos dirigir nuestra atención hacia Laufer y Nation (1999) puesto que diseñaron un tipo de prueba de vocabulario cuyo formato se asemeja al C-test, por lo que nos referiremos a él en los capítulos 4 y 6. Valorar la cantidad de palabras aprendidas no es suficiente. Laufer et al. (2001) muestran su preocupación por conocer la profundidad de ese aprendizaje y medir la capacidad receptiva y productiva del vocabulario adquirido (vocabulario activo y pasivo). Estudios recientes van encaminados hacia la valoración cualitativa del aprendizaje del vocabulario. El capítulo 4 de la tesis retoma este tema y se dedica íntegramente a la evaluación del vocabulario. Perspectiva Histórica de la Evaluación de la Lengua 81 2.5.4.1.4. Evaluación de la expresión oral Si ya en la década anterior (1984-94) fue fructífera y abundante la investigación sobre evaluación de la competencia oral en lengua extranjera, en estos últimos años se aprecia un énfasis significativo en los estudios centrados en los exámenes orales. La necesidad de validar los tests orales (Shohamy 1994), el desarrollo de escalas orales para distintos tests (Chalhoub-Deville 1995), los efectos del formato y la densidad léxica del test en el subtest de interacción oral del Australian Assessment of Communicative English Skills (O´Loughlin 1995), y el diseño de tareas para los exámenes orales en grupo (Fulcher 1996) son algunos ejemplos de los aspectos estudiados. A pesar de que es larga la tradición de la evaluación de la expresión oral, sobre todo mediante la entrevista oral (Oral Proficiency Interviews, OPIs), hoy en día se cuestiona la validez de este tipo de pruebas y abundan las investigaciones sobre la forma de medir mejor la competencia oral en una lengua. Las entrevistas cara a cara plantean problemas de validez y fiabilidad, porque la situación impide que el intercambio lingüístico/la interacción se asemeje a una conversación normal. Por ejemplo, el turno de palabra está estructurado, el sujeto no se implica o involucra en la comunicación y las estrategias de corrección son más formales. Lazaraton (1996) presenta un estudio de las entrevistas orales en el Cambridge Assessment of Spoken English (CASE) y cómo afectan las muestras de apoyo del entrevistador al resultado de la entrevista. En la línea de las entrevistas orales está el estudio de Kormos (1999) y la revisión del ACTFL Oral Proficiency Interview de Salaberry (2000). McNamara y Lumley (1997) investigan las variables que afectan a la evaluación de las destrezas orales en el Occupational English Test para profesionales de la salud. Las nuevas pruebas de entrevista oral para evaluar los progresos de alumnos en programas de inmersión centran los estudios de Carpenter, Fujii y Kataoca (1995), Bae y Bachman (1998). Los intentos de mejorar la entrevista oral han planteado formatos que varían el número de sujetos implicados en la entrevista, con dos examinadores y con dos o más examinandos. En cualquier caso, los investigadores señalan que los criterios de El C-test: alternativa o complemento de otras pruebas en ILE 82 evaluación (rating performance) deben estar siempre claros y los correctores han de ser debidamente seleccionados y formados (Wigglesworth 1993; Lumley y McNamara 1995; Lumley 1998). Por otra parte la tecnología aporta nuevas posibilidades como el uso de laboratorios de idiomas, video conferencias, comunicación por teléfono, uso de ordenadores, grabadoras, etc., algunas de las cuales evitan el interlocutor humano. 2.5.4.1.5. Evaluación de la expresión escrita Como forma de expresión o actuación lingüística, la evaluación de la expresión escrita se enfrenta a los mismos problemas citados en el epígrafe correspondiente a la expresión oral, es decir, la búsqueda de criterios adecuados, la garantía de objetividad y fiabilidad en las puntuaciones, y la propuesta de tareas que provoquen el tipo de comportamiento lingüístico buscado. Pero el problema principal de la evaluación de las pruebas de expresión o producción es el diseño y aplicación de técnicas de corrección. En el caso de la expresión escrita, por ejemplo, cómo puntuar los ensayos sin que aflore la subjetividad del corrector. Por eso, durante años se ha valorado esta destreza de forma indirecta, a través de pruebas gramaticales o de vocabulario. Sin embargo, la tendencia actual, promovida por el movimiento comunicativo, es reconocer que la expresión escrita va más allá e incluye aspectos textuales de estructura del discurso. Por eso se proponen tareas semejantes a las situaciones que ocurren en la vida real, como redacción de cartas, e-mails, memos, ensayos, etc. Las investigaciones más recientes insisten en el diseño de tareas bien estructuradas y escalas de corrección apropiadas. También insisten en la necesidad de que los correctores estén bien formados (Cumming 1990; Brown 1991; Weigle 1994; Sakyi 2000). Sobre la actuación del corrector y su incidencia en la evaluación destacamos la aportación española con las investigaciones de Amengual Pizarro (2003), centradas en fiabilidad de las puntuaciones holísticas en ítems abiertos. Algunos de los últimos trabajos utilizan las nuevas tecnologías e inician el complejo desarrollo del e-rater (Burstein y Leacock 2001). Perspectiva Histórica de la Evaluación de la Lengua 83 2.5.4.2. Según el ámbito de aplicación 2.5.4.2.1. Los exámenes nacionales o estandarizados Siguen siendo objeto de numerosas publicaciones que los describen y estudios que los analizan. Esta actividad revela la preocupación de los investigadores por los exámenes de ámbito más amplio. De nuevo el TOEFL protagoniza algunas contribuciones, aunque no con la frecuencia de la década anterior. Se estudia cada una de las partes de esta prueba. Hale y Courtney (1994), por ejemplo, revisan la sección de comprensión oral y la conveniencia de tomar notas para mejorar la actuación en la prueba. Sin embargo, la mayoría de los estudios empíricos van encaminados a examinar la validez de otras pruebas estandarizadas. Henning et al. (1994) revisaron la eficacia del English Comprehension Level (ECL), examen utilizado por el Ministerio de Defensa de Estados Unidos para evaluar la competencia lingüística de los militares de otros países que pasan un tiempo de formación en aquel país. Fulcher (1997) estudió la validez y fiabilidad del test de nivel de la Universidad de Surrey. Powers et al. (1999), el Test of Spoken English. Scott et al. (1996) el Listening summary translation examination (LST)-Spanish version. Cushing Weigle (2000) valoró el Michigan English language assessment battery (MELAB). Dollerup et al. (1994) se ocuparon de cómo mejorar el Sprogtest, la prueba que se utilizaba en Dinamarca para diagnosticar la competencia de los universitarios en lengua inglesa, la lengua de sus libros de texto. En esta línea de evaluación de un examen de nivel trabajaron Wall, Clapham y Alderson (1994) para validar el test institucional de la Universidad de Lancaster. Por otra parte, Paapajohn (1999) se centró en cómo afecta la variación de los temas en la prueba de química Chemistry TEACH test. En España hemos de constatar la falta de estudios coordinados sobre la prueba de Inglés de la Selectividad, a pesar del tiempo de vigencia de la prueba en nuestro sistema educativo. Recientemente se está paliando esta sequía con el volumen Estudios y criterios para una Selectividad de calidad en el examen de Inglés (2005), que incluye las aportaciones de varios investigadores preocupados por el tema, coordinados por Herrera Soler y García Laborda. El C-test: alternativa o complemento de otras pruebas en ILE 84 No obstante, Alderson (2001) advierte de la necesidad de estudiar también los tests de ámbito local o de menor repercusión, por la valiosa información que aportan a la hora de acometer reformas educativas, sobre todo si se valora su efecto rebote. 2.5.4.2.2. El Inglés para fines específicos (IFE) Se han diseñado pruebas de evaluación cuyo contenido se refiere a contextos concretos de uso de la lengua y no a situaciones de tipo general. Sin embargo, estas pruebas no son diametralmente opuestas a las de Inglés general. Sí hay algunas diferencias que menciona Douglas (1997, 2000) en Alderson y Banerjee (2001). La diferencia fundamental es la interacción entre el conocimiento de la lengua y el conocimiento de los contenidos concretos. Se supone que su conocimiento de la lengua va ligado a un campo específico de conocimiento fuera del cual estaría en clara desventaja. Parece evidente que el primer paso en la creación de una prueba de IFE es el análisis de la situación concreta de uso de la lengua, los temas habituales, los escenarios típicos en que se desarrolla y las características de la lengua en ese campo específico (sintácticas, léxicas). En este sentido se han movido diferentes investigaciones, con resultados a veces contradictorios, que pretendían fijar hasta qué punto el conocimiento del campo específico (background knowledge) condiciona la actuación en las pruebas de lengua (Jensen y Hansen 1995; Fox et al. 1997; Clapham 1996; Jennings et al. 1999; Cumming 2001). Por otra parte, en cuanto a las tareas que se proponen en las pruebas de Inglés para fines específicos, preocupa especialmente a los especialistas el cuidado de la autenticidad, para que la actuación del sujeto en las pruebas mida exactamente su actuación en las tareas de la vida real. A este respecto destacamos la preocupación de los autores por conseguir materiales auténticos (Wu et al. 2001; Cumming 2001), aunque Lewkowicz (1997) demostró que no siempre es fácil distinguir los textos auténticos de los creados. El diseño y estudio de las pruebas de IFE ha suscitado gran cantidad de interrogantes y ha propiciado investigaciones más profundas en numerosas cuestiones sobre la evaluación. Perspectiva Histórica de la Evaluación de la Lengua 85 Queda aun sin respuesta la pregunta planteada por Alderson (1988) de hasta qué punto una prueba de IFE tiene que o puede ser específica, y se mantiene el reto de determinar si es necesario aplicar una prueba de IFE para conocer la competencia de un sujeto o bastaría con una prueba de Inglés general. 2.5.4.2.3. Autoevaluación El interés por la autoevaluación va en aumento desde los años 80. Se tiende a implicar cada vez más al alumno en su propio proceso de aprendizaje. La autoevaluación aparecía ante los ojos de muchos especialistas como un campo prometedor para la evaluación formativa (formative assessment) (Oscarson 1989 en Alderson y Banerjee 2001). Permitía a los alumnos confiar en sus propios juicios, valorar la evaluación como algo que abarca todo el proceso de aprendizaje y era de utilidad para los profesores. Algunos especialistas, sin embargo, dudan que sea posible para los alumnos legos en materia de evaluación de lenguas hacer una buena autoevaluación sin ayuda (Blue 1988 en Alderson y Banerjee 2001). En las últimas décadas se han seguido desarrollando y validando nuevos instrumentos de autoevaluación (Blanche 1990; Hargan 1994; Carton 1993; Bachman y Palmer 1989). 1.5.4.2.4. La Evaluación Alternativa El movimiento de la Alternative Assessment o Evaluación Alternativa21 surgió en el contexto educativo de los Estados Unidos. Incluye todas aquellas formas de evaluación distintas de la evaluación tradicional: abarcan un período mayor de tiempo, son de tipo formativo más que sumativo y tienden a producir un efecto rebote beneficioso. La autoevaluación está, por tanto, dentro de este grupo de procedimientos. 21 Hemos de hacer notar que este movimiento se denomina significativamente en inglés con el término Assessment, en lugar del más limitado Testing. Remitimos a la revisión terminológica del capítulo 1. El C-test: alternativa o complemento de otras pruebas en ILE 86 La preocupación por los aspectos éticos y educativos de la evaluación es una constante en el movimiento de la Evaluación Alternativa. En general, estos modelos de evaluación presentan posibles inconvenientes, como el tiempo o los problemas de administración y corrección. Y ventajas, porque aportan una mejor información y se integran mejor en el proceso de aprendizaje del aula. La revista Language Testing publicó un número especial monográfico en 2001, LT 18 (4), editado por McNamara y titulado Re-thinking Alternative Assessment. En él aparecen artículos significativos sobre el tema, firmados por Lynch, Shohamy, Brindley, Butler y Stevens, Rea-Dickins y Spence-Brown, además del propio editor. McNamara (2001) reflexiona sobre el carácter social de la evaluación y propone una revisión de las prioridades y responsabilidades que han de guiar la investigación en este campo. Lynch (2001) sigue una línea semejante, desde una perspectiva crítica reconsidera aspectos relacionados con la ética, la validez y la autenticidad de las pruebas. Y Shohamy (2001), consciente del enorme poder de las pruebas, aboga por una evaluación inspirada en principios democráticos. De este modo se conseguirán modelos más éticos, educativos y válidos. Como en otros aspectos de la evaluación queda todavía mucho por hacer, pero se camina con paso firme en busca de nuevas perspectivas para la evaluación, siempre con la intención de mejorarla y adaptarla a la realidad actual. Citamos parte del ilustrativo editorial de McNamara (2001: 332) al respecto: Clearly, the research presented here represents only a beginning on the vast task of renovating our research directions to reflect more closely the emerging theoretical insights into the role of assessment as a social practice, and to carry out our responsibilities as researchers to learners and teachers as much as to managers and administrators in language education. 2.5.4.3. Diseño de pruebas A la hora de afrontar el diseño de una prueba nos encontramos con no pocas dificultades. Las distintas teorías (approaches to test design) hacen sus aportaciones. Son muchas las variables que intervienen en la comunicación lingüística y que deben ser tenidas en cuenta en la evaluación. Perspectiva Histórica de la Evaluación de la Lengua 87 Por una parte, como hemos visto, se reclama autenticidad. Desde el conductismo se considera que los resultados de una prueba son la interpretación del comportamiento observado “meaningful interpretation of observed behaviour” (Chapelle 1998: 33). Por otra, se subraya la necesidad de partir del análisis de las necesidades (Munby 1978), o de las tareas (Bachman y Palmer 1996). La Lingüística Aplicada y la investigación en adquisición de segundas lenguas indican que el comportamiento lingüístico depende también del contexto en que se desarrolla. Por tanto, al diseñar una prueba no sólo deben afectan las características del individuo (traits) sino también el contexto: “Performance is a sign of underlying traits in interaction with relevant contextual features. It is therefore context-bound” (Alderson y Banerjee 2002: 100). No podemos concluir el repaso a la actualidad en Evaluación de la Lengua sin incluir los esfuerzos que dedican los investigadores a la búsqueda, creación, experimentación y posterior validación de técnicas de evaluación. En este aspecto, destacan los que se relacionan de forma más o menos directa con las pruebas de cierre y, por su interés para la investigación que sustenta esta tesis, los relacionados con el C-test. Siguiendo las directrices de investigaciones anteriores intentan profundizar en las técnicas iniciadas en la década de 1984-94. Tras sus pasos encaminamos nuestra investigación. Con el fin de comprobar las ventajas que Klein-Braley y Raatz atribuían a la nueva técnica, Jafarpur (1995) comparó el C-test con los clozes tradicionales. Finalmente concluyó que esta técnica adolece de de los mismos problemas que los clozes y recomendó seguir investigando sobre ellos. Por otra parte, el estudio de Allan (1995) investigó la validez de los cuestionarios en los exámenes de elección múltiple de comprensión escrita y las estrategias que siguen los examinandos. Farhady y Keramati (1996) propusieron un cloze test dirigido frente al test de ratio fija con omisiones aleatorias cada n elementos. Con el text-driven method las omisiones dependen de cada texto. Ya Brown (1993) había investigado acerca de los clozes naturales, es decir, los que no tienen en cuenta factores como la dificultad del texto, el tema, etc. Como Brown, Farhady y Keramati (1996) recomendaron dirigir el cloze para mejorar su fiabilidad. El C-test: alternativa o complemento de otras pruebas en ILE 88 Storey (1997) examinó el proceso de realización o aplicación de los tests a través del estudio de los procesos que se siguen al realizar un cloze, pues de las estrategias empleadas se puede inferir los procesos cognitivos utilizados. Sasaki (2000) estudió la influencia de los esquemas culturales (términos familiares) en las pruebas de cierre tradicionales. Klein-Braley (1997) comparó la actuación de un grupo de alumnos en varias pruebas de redundancia reducida. El C-test resultó ser el procedimiento más válido, fiable y económico. Y por último, Eckes y Grothjahn (2006) examinaron la validez de constructo del C-test alemán. En cuanto a la técnica de elección múltiple para medir la comprensión, Freedle y Kostin (1999) analizaron la influencia del texto en pequeñas conversaciones del TOEFL. 2.5.5. Nuevos retos en la enseñanza de lenguas 2.5.5.1. La ética en la evaluación de lenguas Tal y como mencionaba McNamara (1998), en la actualidad observamos una ampliación del repertorio de aspectos relacionados con la evaluación de lenguas, que nos lleva al estudio de otras disciplinas, como la ética. Ya en la década de los 80 Canale anticipaba esta tendencia y apelaba a la responsabilidad ética de los profesores en el proceso evaluador. Language Testing (1997) también dedicó un número monográfico a la ética, LT 14 (3), editado por Allan Davies y en el que colaboraron Spolsky, Hawthorne, Elder, Norton y Starfield, Hamp-Lyons, Rea-Dickins, Lynch y Shohamy. Algunos autores, como Alderson (1997), defienden que un examinador no puede evitar preocuparse por aspectos de carácter ético como es la creación de exámenes justos (validez y fiabilidad de las pruebas). Davies (1997), sin embargo, aboga por la separación de ética y validez, y propugna una profesionalización creciente en el campo de la evaluación. También Bachman (2000) se hace eco de esta idea. Lo cierto es que todos los investigadores, conscientes del papel cada vez más importante de los exámenes en la sociedad, animan a enfocar la evaluación desde Perspectiva Histórica de la Evaluación de la Lengua 89 una perspectiva ética. De nuevo, hemos de citar a Canale (1988: 75): “Once one has been involved in gathering information, one becomes responsible in some way to see that it is used ethically”. (la cursiva es mía) La Asociación Internacional de Evaluación de Lenguas (ILTA) adoptó en 2000 un código ético para los examinadores. La propia asociación define el Code of Ethics como “a set of principles which draws upon moral philosophy and serves to guide good professional conduct”. En él se propician las prácticas éticas y se apela a la responsabilidad moral de los profesionales de la evaluación. Actualmente prepara un código de práctica: Code of Practice. Ambos serán revisados periódicamente para responder a los cambios y necesidades que plantee la profesión y la sociedad en cada momento. 2.5.5.2. Política Es inevitable reconocer que los exámenes constituyen un instrumento de política educativa. Como tal, son muy poderosos (Shohamy 2001). En las pruebas a gran escala convergen la política nacional y la preocupación por la evaluación formativa. Es deseable, por tanto, la colaboración entre políticos y profesionales de la evaluación para crear pruebas de calidad (Brindley 1998, 2001). Alderson (2001) expresa la misma idea cuando dice “Testing is too important to be left to testers”, pues no se puede dejar de lado a otros agentes de la educación con frecuencia olvidados, como son los propios profesores y los políticos. La política educativa nacional también supone renovar las pruebas según los objetivos que se pretenda lograr con ellas. No podemos olvidar que la responsabilidad de los examinadores va más allá de la mera creación y aplicación de pruebas. La investigación en este campo no es muy abundante y la literatura es escasa. No obstante, a menudo aparecen determinados aspectos de política educativa en artículos que se centran en estudios sobre el impacto de las pruebas y en los dedicados a la reflexión sobre la ética en la evaluación de la lengua. El C-test: alternativa o complemento de otras pruebas en ILE 90 2.5.5.3. Los estándares en evaluación Este término admite al menos tres definiciones en el campo de la evaluación: - Los códigos de buenas prácticas: codes of practice. - Los niveles de competencia en una lengua. - Las pruebas estandarizadas o institucionalizadas. La primera alude a los códigos éticos que todo examinador debería respetar para asegurar la calidad del proceso evaluador. En el apartado 2.5.5.1 nos hemos referido al código adoptado por ILTA en 2000. En Europa se ha publicado el código de ALTE (Association of Language Testers in Europe) con este fin. En cuanto a la segunda definición, el Consejo de Europa (2001) ha dado un nuevo impulso a este respecto con la publicación de un marco común de referencia que fija los niveles de competencia y supone un compendio de todo lo referente a la enseñanza-aprendizaje de lenguas. Además, este marco (Council of Europe’s Common European Framework) pretende guiar la programación, el desarrollo de criterios comunes de evaluación, la creación de textos y otros materiales, y la formación del profesorado. Y la tercera se refiere a las pruebas estandarizadas, exámenes institucionalizados que generalmente posibilitan la obtención de un determinado título. Se aplican a un gran número de sujetos, a gran escala, y esta circunstancia incide directamente en ellas. Esta acepción nos pone de nuevo en contacto con los aspectos éticos y políticos de la evaluación (McNamara 1998; Norton 1998; Shohamy 2001). 2.5.5.4. La evaluación en edades tempranas Las investigaciones en este campo han crecido considerablemente al proliferar el interés por comenzar la enseñanza de idiomas en la educación Infantil y Primaria. En general, se considera que los procedimientos de la Evaluación Alternativa son más adecuados que los métodos tradicionales para la evaluación de los alumnos de Perspectiva Histórica de la Evaluación de la Lengua 91 edades entre los 5 y 12 años. Language Testing dedica todo su segundo número del año 2000 a este tema, LT 17 (2). 2.5.5.5. Las Nuevas Tecnologías en la evaluación Las Nuevas Tecnologías de la información ofrecen hoy múltiples y ricas herramientas a la enseñanza de idiomas (los métodos cuentan con vídeo, realidad virtual, reconocimiento de voz, de escritura, etc.). La evaluación asistida por ordenador ha crecido vertiginosamente en los últimos años. Es evidente que el mundo de la informática tiene mucho que aportar a la evaluación (García Laborda 2005; García Laborda y Bejarano 2005). Abre todo un mundo de posibilidades tanto para la administración de exámenes como para su elaboración, corrección, análisis, banco de datos, permite avances en la autoevaluación, etc. En palabras de Alderson y Banerjee (2001: 224) “In short, computers can be used at all stages in the test development and administration process”. Por eso sigue siendo importante la investigación en este campo: “And we need research into the impact of the use of the technology on learning, on learners and on the curriculum” (Alderson 2000c: 603 en Alderson y Banerjee 2001: 227). Ya en 1998 se introdujo una versión informática del TOEFL. Algunos estudios comparan los resultados de los exámenes administrados de manera tradicional con los que se aplican mediante ordenador. Se obtienen ventajas, sobre todo en términos de accesibilidad y rapidez, pero también hay desventajas con los sujetos que no están familiarizados con el medio informático o los que lo rechazan (Fulcher 1999; Gervais 1997; Taylor et al. 1999). Se percibe una constante en los estudios: la preocupación por los posibles sesgos. Otras vías de investigación se centran en los exámenes adaptados por ordenador o CAT Computer-adaptative tests. En ellos el ordenador adapta el examen a cada candidato según su actuación en las preguntas precedentes. De nuevo, esto presenta ventajas, pero también inconvenientes (Brown 1997; Laurier 1998; Chalhoub-Deville y Deville 1999; Dunkel 1999), algunos de los cuales se pueden evitar al tomar las decisiones que determinan el posterior diseño del examen. El C-test: alternativa o complemento de otras pruebas en ILE 92 Chalhoub-Deville y Deville (1999) consideran que los exámenes por ordenador se basan en tareas discretas (discrete-point tasks), de selección, como las preguntas de tipo elección múltiple, que sirven para medir los conocimientos lingüísticos, pero no las habilidades comunicativas. En España, García Laborda (2005: 37) apunta al uso de las nuevas tecnologías incluso en puebas a gran escala, y menciona una “futura Selectividad asistida por ordenador”. Sin embargo, la evaluación mediante ordenador presenta todavía muchas limitaciones, como señalan Burstein et al. (1996: 245) en Alderson y Banerjee (2001: 225). “The situation is created in which a relatively rich presentation is followed by a limited productive assessment”. Sin embargo se están desarrollando rápidamente sistemas para valorar incluso las habilidades productivas (human-assisted scoring systems: e-rater, PhonePass, DIALANG, aunque algunos sectores muestren todavía cierto escepticismo. 2.6. Perspectivas de futuro Son muchos los autores que tomaron el cambio de milenio como punto de referencia para el análisis y revisión de lo que se ha hecho en cada disciplina y de lo que queda por hacer. Varios especialistas proyectaron su visión del campo de la lingüística aplicada en diversos artículos y libros. En ellos valoran la situación previa y alientan la investigación futura (Bachman 2000; Widdowson 1999; Pica 2000). Lyle F. Bachman (2000) en su artículo Modern language testing at the end of the century: assuring that what we count counts reseña los avances prácticos y teóricos, la variedad de enfoques y herramientas que se han usado en evaluación desde los años 80, las mejoras en las técnicas y formatos de examen, los aspectos éticos, etc. Para Bachman (2000) las claves del futuro de la evaluación pasan por la creciente profesionalización y por la profundización en la investigación sobre validación. Pica (2000) considera que el campo de la enseñanza del Inglés se encuentra en un momento de transición que revisa los enfoques anteriores y busca otros nuevos. Señala que el momento actual propicia la búsqueda de nuevos métodos. Perspectiva Histórica de la Evaluación de la Lengua 93 Hasta ahora, según el autor, todos los métodos que han ido surgiendo han tenido en común la voluntad de mejorar los ya existentes y la tendencia al acercamiento profesor-alumno. Unos años antes, Gipps (1994) había señalado el giro que sufría la evaluación, desde el modelo psicométrico centrado en los exámenes, hacia otro más abierto de evaluación educativa. La evaluación educativa se centra en el individuo y pretende conocer sus dificultades para ayudarle en el aprendizaje. Esta concepción más amplia de la evaluación abarca a los profesores, el proceso de enseñanza, los cursos, los exámenes orales y escritos, etc. Se habla ya de evaluación formativa. La evaluación educativa distingue entre la competencia y la actuación del alumno en un momento concreto. La competencia alude a lo que el alumno podría hacer en unas circunstancias ideales, y su actuación a lo que realmente hace en una situación concreta en la que le influyen muchos factores (no sólo sus conocimientos, sino también la motivación, situación afectiva personal, familiar, actitud, carácter, nervios, tipo de prueba, etc.). “Thus, a student’s competence might not be revealed in either classroom performance or test performance because of personal or circumstantial factors that affect behaviour” (Messick 1984). Elaborative procedures are therefore required to elicit competence. (Gipps 1994: 9) Terminamos este capítulo con la afirmación de Gipps (1994: 1) acerca de la evaluación educativa: “Assessment is undergoing a paradigm shift, from psychometrics to a broader model of educational assessment, from a testing and examination culture to an assessment culture”. Efectivamente, en nuestros días la tendencia de la evaluación es ir asumiendo cada vez más fines y un rol más completo en la educación. Rasgos de las pruebas 95 CAPÍTULO 3. RASGOS DE LOS EXÁMENES O PRUEBAS 3.1. Introducción En el capítulo 1 de la tesis hemos visto el papel de la evaluación en el campo de la enseñanza de lenguas. Uno de los instrumentos clave de que dispone el profesor para llevar a cabo la valoración del aprendizaje del alumno es precisamente el examen o prueba. Los exámenes de idiomas han de proporcionar al profesor una medida que éste pueda interpretar como representativa de la competencia del alumno en la lengua (Bachman y Palmer 1996: 23). También los propios alumnos manifiestan a menudo su deseo de disponer de un referente objetivo que les permita ser conscientes de sus progresos en la asignatura y evite la evaluación sesgada del profesor. Gran parte de la investigación relacionada con la evaluación tiene por objeto la descripción de los rasgos de las pruebas para que sean realmente efectivas como instrumento de medida. Destaca la unanimidad entre teóricos de la evaluación, tales como Oller (1979), Hughes (1989), Gipps (1994), Bachman (1990), Bachman y Palmer (1996) al señalar las características que todo buen examen debería tener. Las únicas diferencias aparecen en la manera de clasificar tales rasgos y en el énfasis que recibe cada uno de ellos en diferentes momentos (Weir 1988). El enfoque tradicional estudiaba las cualidades de las pruebas como independientes entre sí, mientras que la tendencia actual, liderada por Bachman y Palmer (1996: 18), es considerarlas complementarias, dado que “all of which contribute in unique but interrelated ways to the overall usefulness of a given test”. Así pues, para que las pruebas respondan al objetivo para el cual son diseñadas han de cumplir unos requisitos mínimos. Destacan dos cualidades El C-test: alternativa o complemento de otras pruebas en ILE 96 básicas: validez y fiabilidad. Bachman y Palmer (1996: 19) se refieren a ellas como cualidades “críticas”, vitales: Two of the qualities -reliability and validity- are, however, critical for tests, and are sometimes referred to as essential measurement qualities. This is because these are the qualities that provide the major justification for using test scores - numbers- as a basis for making inferences or decisions. Para Bachman y Palmer (1996) las dos se complementan. No obstante, como veremos más adelante (apartado 4) no faltan los que consideran que existe tensión entre validez y fiabilidad (Gipps 1994) y abogan por el deseable equilibrio. A estos aspectos prioritarios se unen otros, como el carácter práctico e interactivo, la autenticidad y el impacto que producen las pruebas. Todos ellos son importantes e interdependientes, según manifiestan Bachman y Palmer (op. cit.: 38): “This six test qualities all contribute to test usefulness, so that they cannot be evaluated independently of each other”. Dedicamos este capítulo al estudio de los rasgos de las pruebas. Seguimos la clasificación propuesta por Hughes (1989) y Bachman y Palmer (1996). En primer lugar examinaremos los conceptos de validez y fiabilidad, pues, como hemos mencionado, son cualidades esenciales. Desglosaremos los distintos tipos de validez y, con mayor detenimiento, la validez de constructo (Messick 1989). En cuanto al concepto de fiabilidad, estudiaremos sus dos componentes; la actuación de los alumnos en distintas ocasiones y la fiabilidad del corrector. Después veremos la relación entre validez y fiabilidad. A continuación analizaremos las demás cualidades de las pruebas: la autenticidad, el carácter interactivo y la factibilidad. Culminamos el capítulo con una revisión del impacto o efecto rebote. En cada apartado veremos, además, hasta qué punto el diseño del C-test reúne estos rasgos. Posteriormente, en la Perspectiva Empírica, lo comprobaremos mediante el análisis del C-test aplicado. 3.2. Validez de las pruebas Comenzamos haciendo una aproximación al concepto de validez, partiendo de la aportación de Hughes. En los epígrafes siguientes analizaremos sus tipos. Rasgos de las pruebas 97 Hughes (1989) aporta una definición general, directa y rotunda de validez: un examen es válido cuando realmente mide lo que pretende medir. Weir y Roberts (1994: 137) insisten en la misma idea: “the cardinal principle is to establish clearly what you want to find out. Validity is concerned with measuring what you want to measure”. A pesar de la aparente claridad de esta definición, el concepto de validez es complejo, pues como revelan Cumming y Berwick (1996: 1), se refiere a múltiples aspectos: Validation in language assessment is ominously important [...]. But establishing validity in language assessment is by all accounts problematic, conceptually challenging and difficult to achieve. [...] Test validation has long been recognized as an exacting process that requires many types of evidence, analyses and interpretation. Atendiendo a su complejidad, la literatura muestra distintas concepciones; desde las que subdividen la validez en numerosos tipos distintos (Angoff 1988)22 hasta las que la consideran un concepto unitario (Anastasi 1982; Cronbach 1988; Messick 1989). Gipps (1994) alude a los cuatro tipos de validez que aparecen en los primeros escritos al respecto: predictiva, de contenido, de constructo y concurrente. La aproximación de Hughes (1989), con la que iniciamos este apartado, también contempla cuatro aspectos de validez que el propio autor desglosa: validez de contenido, criterial, de constructo y aparente. En esta clasificación la validez criterial engloba a la predictiva y a la concurrente. Otros enfoques (Messick 1989) consideran también al efecto rebote como un tipo de validez, denominada consecuencial. Debido a la importancia y amplitud del tema, en este estudio dedicamos un epígrafe propio al impacto de las pruebas. Gipps (1994) alerta del peligro de una fragmentación excesiva de la validez; pues puede suponer que, en la práctica, las pruebas se validen teniendo en cuenta sólo alguno de sus tipos. Para evitarlo, Messick (1989: 19) aboga por la concepción de validez como un concepto unitario que se basa en la validez de constructo: 22 La revisión histórica de las concepciones de validez que hizo Angoff (1988) distingue 16 tipos de validez. Entre ellas, además de las que comentamos en este epígrafe, convergent, discriminant, ecological, factorial, population, operational, task, temporal validity y validity generalization. El C-test: alternativa o complemento de otras pruebas en ILE 98 “Validity is a unitary concept, in the sense that score meaning as embodied in construct validity underlies all score-based inferences”. La validez no es tanto una propiedad de las pruebas en sí mismas, como del significado o interpretación de los resultados derivados de ellas. Lo que se valida son las inferencias de las pruebas: “Test validation is empirical evaluation of the meaning and consequences of measurement, taking into account extraneous factors in the applied setting that might erode or promote the validity of local score interpretation and use” (Cronbach 1971 citado en Messick 1996: 246). La concepción de Messick (1989: 13) es exigente y tan amplia que abarca al resto de los tipos de validez. Llega a tener en cuenta las implicaciones sociales y educativas del uso de las pruebas, es decir, su impacto: Validity is an integrated evaluative judgement of the degree to which empirical evidence and theoretical rationales suppport the adequacy and appropriateness of inferences and actions based on test scores or other modes of assessment. Por su reconceptualización de la teoría de la validez, Messick ha sido considerado en Estados Unidos como autor clave en la materia (Gipps 1994). Alderson y Banerjee (2001) y Davies (2003) respaldan la idea unitaria de validez de Messick porque equilibra todos los rasgos de las pruebas y permite “to view them as linked together in the practical test situation and to reserve coherence, as Messick did, for construct validity” (Davies 2003: 362). A continuación haremos un breve análisis de los tipos de validez, sin olvidar que en la literatura no existe una única clasificación. En primer lugar, veremos la validez de constructo, puesto que, según la teoría de Messick, engloba a los demás tipos. Después, nos centraremos en la validez de contenido. Las separaremos para su estudio, aunque algunos autores, como Underhill (1987: 106 citado en Fulcher 1999) consideran que ambos tipos de validez están íntimamente ligados: “Construct validity is not an easy idea to work with, [...] In practice, there may be little difference between construct and content validity”. Más adelante abordaremos la validez criterial y aparente. Rasgos de las pruebas 99 3.2.1. Validez de constructo Podemos definir esta cualidad como la capacidad de un examen o prueba para medir exactamente lo que pretende. Según Hughes (1989: 26) una prueba tiene validez de constructo “if it can be demonstrated that it measures just the ability which it is supposed to measure” e indica que con “constructo” se refiere a “any underlying ability or trait which is hypothesised in a theory of language ability”. De modo semejante la definen Bachman y Palmer (1996: 21): “The term construct validity is therefore used to refer to the extent to which we can interpret a given test score as an indicator of the ability(ies), or construct(s), we want to measure”. Consideran que la validación del constructo es un proceso continuado que justifica la interpretación de los resultados de las pruebas: “It is important for test developers and users to realize that test validation is an on-going process and that the interpretations we make of test scores can never be considered absolutely valid” (op. cit.: 22). En el apartado anterior apuntamos a Messick (1989) como principal ideólogo de una nueva concepción de validez considerada como concepto unitario basado en la validez de constructo23. Según Messick (1989: 16) la validez de constructo ha de basarse en la recopilación de evidencias que demuestren la representatividad y relevancia de la prueba con respecto al constructo que se desea medir: “Construct validity is based on any evidence that bears on the interpretation or meaning of the test scores”. También Moss (1992: 233) fija el propósito de la validez de constructo en términos similares: “The essential purpose of construct validity is to justify a particular interpretation of a test score by explaining the behaviour that the test score summarises” (citado en Gipps 1994). Se hace necesario contar con un marco teórico explícito para la validación. El de Messick (1989) recoge las distintas dimensiones de la validez (Tabla 3.1). 23 Messick (1989: 248) diferencia seis aspectos de la validez de constructo que son implícitos a la validez como concepto integrado o unitario: “These are content, substantive, structural, generalizability, external and consequential aspects of construct validity”. El C-test: alternativa o complemento de otras pruebas en ILE 100 Tabla 3.1. Facets of validity (Messick 1989: 20) Test Interpretation Test Use Evidential basis Construct Validity Construct Validity+Relevance/utility Consequential basis Value Implications Social consequences La validez de constructo aparece como base para interpretación de las pruebas, así como para el uso de las mismas, combinada con la relevancia de la prueba según su propósito y la utilidad del examen en su contexto de aplicación. En cuanto a las consecuencias de la interpretación de las pruebas, destacamos la mención de las implicaciones educativas y sociales (el impacto de la prueba), puesto que supone una expansión del concepto de validez y la relaciona con los aspectos éticos de la evaluación. Esta apreciación de Messick sirve para que algunos autores (Frederiksen y Collins 198924; Gipps 1994; MacNamara 1997) distingan otro tipo de validez, que denominan consecuencial: “what has come to be known as “consequential validity” is a key issue in ethical considerations” (Gipps 1994: 63). MacNamara (1997) incluye lo que denominamos impacto o efecto rebote como un conjunto de aspectos dentro de la validez consecuencial. Como ya hemos indicado en la introducción de este capítulo, en esta tesis preferimos dedicar todo un apartado al impacto de las pruebas, tanto en el contexto del aula y los programas (washback) como en el sistema educativo (systemic validity). En él retomaremos esta teoría de validez de constructo como concepto unitario de Messick (1989, 1996), que relaciona directamente a la validez con el impacto. Gipps (op. cit.: 61) valora la aportación de Messick y Cronbach en los siguientes términos: “[They] have taken the discussion of validity beyond a conception based on the functional worth of the testing: construct validity is needed not only to support test interpretation, but also to justify test use”. 24 Frederiksen y Collins (1989, en Gipps 1994: 27) hablan de systemic validity como forma específica de validez consecuencial. Se refiere al impacto de las pruebas en el sistema educativo al que pertenecen: “A systemically valid test is one that induces in the education system curricular and instructional changes that foster the development of the cognitive skills that the test is designed to measure”. Rasgos de las pruebas 101 Si queremos determinar la validez de constructo del C-test, debemos seguir varios pasos, que aparecen detallados en la parte experimental de la tesis. En primer lugar debemos fijar en las especificaciones previas los límites del constructo o dominio que pretende medir. El C-test es una prueba ambiciosa que pretende medir el constructo de la competencia general en lengua inglesa. Los estudios de Klein-Braley (1985) sobre validación del constructo en el C-test serán comentados más adelante. Tomando como marco el concepto unitario de validez desarrollado por Messick (1989) vemos que todas las cualidades de las pruebas se interrelacionan. Messick propone que se intente mejorar la validez ya desde el diseño de la prueba, pues un buen diseño producirá un efecto rebote beneficioso. También entran en el proceso de validación las prácticas de preparación de los alumnos ante la prueba, tales como la familiarización y la reducción de la ansiedad. 3.2.2. Validez de contenido La validez de contenido de una prueba viene dada por la relevancia y representatividad de las estructuras que incluya. Y en última instancia, éstas dependen del propósito de la prueba. Veamos la definición de Hughes (1989: 22) y a continuación las consideraciones de Bachman et al. (1996: 125): A test is said to have content validity if its content constitutes a representative sample of the language skills, structures, etc. with which it is meant to be concerned. Content considerations are widely viewed to be essential in the design of language tests, and evidence of content relevance and coverage provides an important component in the validation of score interpretations. No obstante, Cronbach (1971), Messick (1989) y Bachman et al. (1996) coinciden en señalar que la información acerca del contenido de las pruebas (relevancia y representatividad) no es base suficiente para la interpretación de los resultados, puesto que no tiene en cuenta la actuación real de los sujetos. El C-test: alternativa o complemento de otras pruebas en ILE 102 Al igual que en la validez de constructo, un momento clave es la especificación de los límites del dominio que se quiere medir y la selección de tareas relevantes y representativas del mismo. Carroll (1980), Weir (1988), Hughes (1989) y Alderson et al. (1995) recomiendan que en los momentos iniciales del diseño de un examen se especifiquen las destrezas o estructuras que ha de cubrir la prueba. Así será más fácil la selección de elementos para su inclusión. La validez de contenido se basará en la comparación de las destrezas especificadas con el contenido del examen. La precisión de la prueba como instrumento de medida viene dada en gran parte por su validez de contenido: “The greater a test’s content validity, the more likely it is to be an accurate measure of what it is supposed to measure” (Hughes 1989: 22). El propio autor nos alerta del peligro del diseño de pruebas cuyo contenido no sea relevante, sino simplemente fácil de medir. Ya hemos comentado que numerosos autores (Kelly 1978 y Moller 1982 en Weir 1988; Underhill 1987) han destacado la estrecha relación entre validez de constructo y de contenido. Kelly (1978: 8) llega a considerar la validez de contenido como “an almost completely overlapping concept” con respecto a la de constructo. Como hemos visto en el apartado anterior, también el marco de la validez de constructo como concepto unitario concebido por Messick (1989, 1996) incluye al contenido: “The content aspect of construct validity includes evidence of content relevance and representation as well as technical quality” (Messick 1996: 248). Fulcher (1999a) destaca la importancia de la validez de contenido en el campo del Inglés para Fines Académicos (EAP). De nuevo, una prueba es válida si las tareas que propone constituyen un ejemplo representativo del dominio o constructo lingüístico que se pretende conseguir (Bachman y Palmer 1996), es decir, si reflejan, tanto en su contenido como en su formato, el curso de EAP correspondiente. La dificultad es precisar el dominio de la lengua. La literatura coincide en que, a efectos prácticos, al crear una prueba conviene asegurarse de que ésta tenga un contenido representativo (Anastasi 1982). Y para ello es fundamental tener claros los objetivos, como referente previo a la toma de decisiones tales como la inserción del contenido, elección de las destrezas que se van a medir, del tipo de texto, del formato, asignación de tiempo, etc. Rasgos de las pruebas 103 Si nuestro objetivo es medir la competencia general de un alumno en la lengua meta, podremos tomar en consideración la aplicación del formato C-test, dentro de las pruebas de cierre. A continuación, deberemos elegir los textos apropiados como base de la prueba y el punto de comienzo de las omisiones. Otras decisiones afectan al tiempo asignado, las instrucciones de realización, el criterio de corrección, etc. En el contexto del aula, el conocimiento de los programas educativos, de los alumnos y de su proceso de aprendizaje, facilitan al profesor la toma de decisiones al respecto. 3.2.3. Validez criterial La validez criterial se refiere a la validación de una prueba con respecto a otra independiente pero que mida la misma capacidad, tomada como referencia. La validez viene dada por la correlación (desde 0 hasta 1) entre los resultados de ambas pruebas. En palabras de Hughes (1989: 23), este tipo de validez muestra “how far results on the test agree with those provided by some independent and highly dependable assessment of the candidate’s ability”. En la literatura se especifican dos tipos de validez criterial: concurrente y predictiva. La validez concurrente viene dada por la correlación de la prueba con la que se toma como referencia cuando ambas se realizan al mismo tiempo o en un breve intervalo (Davies 1983; Hughes 1989). Oller (1979) llega a decir que la fiabilidad de una prueba se puede considerar como un caso especial de validez concurrente. La validez predictiva, por otra parte, se refiere al grado en que los resultados obtenidos en una prueba pueden predecir la actuación del alumno en un examen o situación futura. Por ejemplo, la predicción de las posibilidades de que un alumno pueda seguir un curso o nivel determinado en el futuro, partiendo de su actuación en una prueba. Este tipo de validación es fundamental en el placement testing, y requiere hacer un seguimiento posterior que revele si los alumnos fueron ubicados en el nivel que les correspondía (Hughes 1989). Los resultados obtenidos en la PAAU determinan qué estudiantes acceden a la Universidad en España. Cabe plantearse si realmente es un buen instrumento para El C-test: alternativa o complemento de otras pruebas en ILE 104 predecir la actuación de los estudiantes en la carrera elegida. Un seguimiento posterior podría dar la clave al respecto, pero son tantos los factores implicados que se hace costosa y difícil la extracción de conclusiones fiables y válidas (Gipps 1994). Recientemente, Sanz y Fernández (2005) han llevado a cabo un estudio de la validez predictiva de la prueba de Inglés de Selectividad y el Quick Placement Test (QPT) que la pone en entredicho. Hughes (1989), Alderson et al. (1995), McNamara (1997) y Fox (2004) también reconocen la dificultad de este tipo de estudios. Mencionan el hecho de que siempre queda la incógnita de cuál habría sido la actuación de los que no la superaron, en caso de haberlo conseguido. El uso de lo que se denomina truncated samples puede afectar negativamente al coeficiente de validez predictiva. Por último, Hughes (1989) y Fox (2004) cuestionan el papel de la competencia lingüística en el éxito académico basándose en los resultados de diversas investigaciones (Criper y Davies 1988; Light et al. 1987; Graham 1987, citados en MacNamara 1997; Spolsky 2002 y Lumley 2002 en Fox 2004). Sus reflexiones confirman que en el caso de la validez predictiva resulta muy complicado decidir el criterio que se toma como referencia. Además, el lapso de tiempo dificulta el seguimiento y favorece la aparición de factores externos que pueden distorsionar los resultados previstos. Este campo permanece abierto a nuevas investigaciones que intenten aportar luz al respecto. En el contexto del aula, un nuevo tipo de examen demostraría su validez concurrente al contrastarlo con otros instrumentos de evaluación utilizados en la clase (otras pruebas ya conocidas, las calificaciones anteriores, incluso la observación sistemática, etc.) y que hayan demostrado su fiabilidad. Éste es el proceso de validación que se ha llevado a cabo con el C-test y que queda reflejado en la parte experimental de la tesis. Se ha utilizado para ello el paquete estadístico SPSS. Los resultados de las correlaciones con otras pruebas (PAAU, calificaciones en la 2ª Evaluación) pretenden establecer la validez concurrente de la prueba para alumnos españoles de Bachillerato. De los resultados cuantitativos se han deducido las implicaciones pedagógicas pertinentes. Rasgos de las pruebas 105 3.2.4. Validez aparente Una prueba tiene validez aparente si parece medir lo que pretende. Por tanto, este tipo de validez depende de la aceptación de la prueba por parte de los alumnos, profesores o autoridades educativas. Según Hughes (1989: 27), si un examen no convence a los alumnos, su actuación en él no sería la misma que en otras pruebas y, posiblemente, no reflejaría sus conocimientos o grado de competencia: A test which does not have face validity may not be accepted by candidates, teachers, education authorities or employers. It may simply not be used; and if it is used, the candidates’ reaction to it may mean that they do not perform on it in a way that truly reflects their ability. En esto radica su importancia, a pesar de que la literatura (Anastasi 1982; Hughes 1989) tache a la validez aparente de concepto poco científico: “is not validity in the technical sense” (Anastasi 1982: 136). En la práctica docente los profesores son conscientes de la importancia de este tipo de validez. La introducción de nuevos formatos o técnicas de examen puede provocar el rechazo o la desconfianza de los alumnos y de los propios profesores, sobre todo si consideran que no es un instrumento válido de medida. Ésta era una de nuestras preocupaciones a la hora de presentar el C-test a los alumnos, conociendo las afirmaciones de Bradshaw (1990) y Jafarpur (1995), que tachan al C-test de falta de validez aparente. Su reacción ante la prueba podía determinar el éxito o fracaso de la misma. Como recordaremos, la validez aparente es también objeto de una las hipótesis de trabajo (nº 5) que plantea esta tesis. Para evitar la falta de validez aparente al introducir técnicas de evaluación nuevas, Hughes (1989) recomienda que se expliquen concienzudamente y sin precipitación. También Messick (1996) propone la familiarización como preparación para las pruebas. Intentamos seguir estas pautas para ofrecer a los alumnos una impresión positiva y confiada al presentar la prueba. En un primer momento se les entregó un modelo de C-test ya resuelto, que explicaba el diseño de la prueba y la tarea propuesta. En el caso de las pruebas piloto, no obstante, nos basamos en las impresiones subjetivas de los propios alumnos y del investigador. Sin embargo, en la investigación definitiva se utilizó un cuestionario retrospectivo de opinión para determinar la validez aparente del C-test (véase el capítulo 12). El C-test: alternativa o complemento de otras pruebas en ILE 106 3.3. Fiabilidad Según Bachman y Palmer (1996) la fiabilidad es, junto a la validez de constructo, una cualidad fundamental de las pruebas. Ambas son complementarias. La fiabilidad de una prueba viene dada por la consistencia de su medida de la actuación del alumno y de la corrección por parte del profesor (Weir 1988; Hughes 1989; Gipps 1994; Bachman y Palmer 1996). Reliability is clearly an essential quality of test scores, for unless test scores are relatively consistent, they cannot provide us with any information at all about the ability we want to measure. (Bachman y Palmer 1996: 20) Hughes (1989: 35) añade: “If a test is not reliable then we know that the actual scores of many individuals are likely to be quite different from their true scores”. Messick (1996: 250) relaciona fiablidad y generalización: “Generalizability as reliability refers to the consistency of performance across the tasks, occasions, and raters of a particular assessment, which might be quite limited in scope”. En la literatura se reconoce que no es posible eliminar totalmente cierta inconsistencia de las pruebas (Gipps 1994; Bachman y Palmer 1996). El carácter humano de la actividad lo impide (Hamp-Lyons 1990). No obstante, Bachman y Palmer (1996) aseguran que un buen diseño reduce la inconsistencia. Para que una prueba sea fiable es necesario que sea realista, y que tenga en cuenta tanto la definición del constructo como la naturaleza de las tareas que propone al alumno. Gipps (1994) señala que la homogeneidad (valorar una sola habilidad o destreza) contribuye a la consistencia interna de las pruebas. Por otra parte, considera que la estandarización de las pruebas no es apropiada para asegurar la fiabilidad. Hughes (1989: 29) resume que, en la práctica, una prueba es fiable si garantiza la obtención de unos resultados similares sea cual sea el momento de su realización, es decir, con independencia del momento en que se aplique. What we have to do is construct, administer and score tests in such a way that the scores actually obtained on a test on a particular occasion are likely to be very similar to those which would have been obtained if it had been administered to the same students with the same ability, but at a different time. Rasgos de las pruebas 107 Lo que propone Hughes no es tan sencillo como puede parecer, a pesar de que los medios estadísticos actuales faciliten la tarea. De hecho hemos visto que muchos autores señalan la imposibilidad de crear pruebas totalmente fiables. En el siguiente apartado analizaremos los distintos métodos para valorar la fiabilidad de las pruebas y las dificultades que supone su aplicación en el aula. 3.3.1. Medidas cuantitativas de la fiabilidad Cuantitativamente podemos hallar el coeficiente de fiabilidad de una prueba (entre -1 y 1). Generalmente se hace mediante el método test-retest25, es decir, aplicando el mismo test al mismo grupo de alumnos en dos ocasiones. Pero este método presenta inconvenientes, como la posible desmotivación del alumno al repetir un examen, o la dificultad para que el lapso de tiempo entre ambas administraciones no suponga un sesgo en los resultados (Hughes 1989; Gipps 1994). Una segunda posibilidad es crear versiones paralelas de la misma prueba y aplicarlas al mismo grupo o a otro grupo de población similar. En este caso la principal dificultad es garantizar que las dos versiones sean realmente paralelas (Gipps 1994). Para evitar los problemas del método anterior se puede aplicar otro más económico llamado split half26. La prueba se subdivide en dos mitades equivalentes y a cada sujeto se le asignan dos puntuaciones, una para cada mitad del examen. De este modo, el alumno solamente realiza una prueba. Si queremos averiguar hasta qué punto la puntuación obtenida por un individuo concreto se acerca a su puntuación real (true score) calculamos el error estándar de la prueba27. Un examen se puede considerar fiable si la puntuación de la mayor parte de los alumnos en la prueba es semejante a su puntuación real. En los casos 25 El coeficiente de correlación (r) entre ambas puntuaciones se calcula con la función estadística correspondiente (Hughes 1989: 158). 26 En el método split half se puede utilizar la fórmula Spearman-Brown: Reliability of whole test= 2 x coefficient for split halves / 1 + coefficient for split halves El estudio se puede completar con las medias y desviaciones estándar de las dos mitades. (Hughes, 1989: 158) 27 El cálculo del error estándar se hace mediante la fórmula: Standard error of measurement= Stand Dev of test x Β √1-reliability of test (Hughes 1989: 159). El C-test: alternativa o complemento de otras pruebas en ILE 108 de discrepancia sería recomendable recopilar más información acerca de la habilidad lingüística del alumno. Estas medidas estadísticas pueden aportarnos una gran ayuda en la práctica docente para comprobar la consistencia interna de las pruebas, a pesar de las limitaciones prácticas que hemos comentado. En cuanto a la valoración de la fiabilidad del C-test objeto de nuestro estudio, nos planteamos la utilización de este tipo de medidas cuantitativas. La propuesta de repetición de la misma prueba habría sido rechazada por el alumnado. El diseño de un C-test paralelo nunca está asegurado, por tanto esta idea también fue desechada. Así pues, quedaba la posibilidad de utilizar el método split half. Pero en este caso aparecieron otros inconvenientes; en primer lugar, los derivados del propio diseño del C-test. La segunda mitad de la prueba (ítems 51-100) introducía una novedad y complicación añadida, las omisiones no guiadas. Para obtener dos mitades equivalentes hubo que reorganizar la prueba (véase capítulo 9, apartado 9.10.1). Asimismo, al administrar el C-test comprobamos que algunos alumnos no tuvieron tiempo suficiente para completar el examen, y otros, a pesar de completarlo, mostraron un alto grado de fatiga, que pudo afectar a la resolución de la última parte de la prueba. Con todo, se decidió aplicar este método. Además, se analizó la fiabilidad del C-test mediante el estudio del Alfa de Cronbach y las correlaciones entre el C-test, las otras pruebas aplicadas (PAAU realizada en clase y PAAU de junio de 2001) y las calificaciones en la 2ª Evaluación. 3.3.2. La fiabilidad de la corrección Hughes (1989: 36) afirma categóricamente que la fiabilidad de las pruebas también depende del grado de fiabilidad de su corrección: “If the scoring of a test is not reliable, then the test results cannot be reliable either”. Bachman y Palmer (1996: 221) insisten en la misma idea: “one of the most effective ways of dealing with inconsistency is through the proper selection and training of raters”. Rasgos de las pruebas 109 Generalmente damos por supuesto que un mismo corrector actúa de forma exactamente igual en todas las ocasiones. Pero esta presunción es precipitada, puesto que en la corrección influyen múltiples factores. Muchos derivan de la condición humana de la actividad (Hamp-Lyons 1990) y entre los más determinantes está el tipo de prueba. Es obvio que las pruebas objetivas garantizan una mayor fiabilidad del corrector ya que no requieren ningún tipo de juicio subjetivo. Para asegurar la fiabilidad intra-corrector (intra-rater), el corrector puntúa la misma prueba en distintos momentos (mark-remark procedures). Si existe la posibilidad de que distintos correctores corrijan la misma prueba (multiple scoring) comprobaremos su fiabilidad inter-corrector (inter-rater). Hughes (1989) alerta de que es muy probable que el coeficiente de fiabilidad del corrector (de -1 a 1) sólo alcance el 1 en el caso de las pruebas objetivas. Para las pruebas subjetivas, que implican el juicio del corrector (redacciones, cuestionarios, preguntas abiertas, etc.), es casi imposible lograr un coeficiente tan elevado. En estos casos un grado de fiabilidad aceptable sería un >0,7 ó >0,8. La estimación de la fiabilidad del corrector mediante procedimientos intra e inter corrector resulta fundamental en pruebas de tipo subjetivo, como las redacciones (Gamaroff 2000; Herrera Soler 2000; Amengual Pizarro 2003). De todos modos, no podemos olvidar que, incluso en las pruebas objetivas, es inevitable cierta subjetividad por parte del profesor; no en la corrección pero sí en el diseño de la prueba, selección de su contenido, etc. Otros sesgos que pueden afectar a la actuación del corrector provienen de las caracterísicas personales del alumno y de la propia prueba; desde la limpieza y claridad de la presentación (Wood 1991) hasta el género (Goddard-Spear 1983; Herrera Soler 2000a) de profesor y alumno, las expectativas (Gipps 1994), la experiencia docente (Hamp-Lyons 1989), etc. Parece claro que una adecuada formación del profesorado en estos aspectos contribuye a reducir sesgos (Gipps 1994; Cushing 1994; Bachman y Palmer 1996), aunque algunos estudios lo pongan en entredicho (Henning 1996; Weigle 1998). La importancia de la fiabilidad de los resultados obtenidos con una prueba queda patente en la literatura. Harlen (1994 citado en Gipps 1994) la relaciona con la calidad de la evaluación. El C-test: alternativa o complemento de otras pruebas en ILE 110 El C-test es una prueba objetiva. Como veremos con mayor detenimiento en la parte experimental, por sus características puede ser considerada fiable. El sesgo del corrector queda reducido al mínimo, porque la tarea propuesta al alumno es la recuperación exacta del texto original y, por tanto, el criterio de corrección es claro. No caben alternativas en las omisiones. En este aspecto, el C-test consigue mayor fiabilidad que las pruebas de cierre tradicionales. La subjetividad queda limitada a la selección de textos y, en nuestro caso, todos los textos utilizados proceden de PAAUs, como criterio unificador de nivel. En el diseño del estudio empírico de esta tesis no planteamos como objetivo el estudio de la fiabilidad del corrector, puesto que el propio diseño de la prueba no lo requiere y, además, el investigador fue también el único corrector de los C-tests aplicados. 3.3.3. Cómo asegurar la fiabilidad de las pruebas En el apartado 3.3 de este capítulo hemos resaltado que la dificultad para crear pruebas fiables procede del propio carácter humano de la actividad evaluativa. Probablemente no se pueden crear pruebas totalmente fiables, pero sí se puede conseguir un alto grado de fiabilidad. Distintos autores (Jacobs et al. 1981; Hughes 1989; Gipps 1994) nos proporcionan algunas medidas o consejos para lograrlo. Jacobs et al. (1981) se refieren en concreto a los pasos que aseguran una corrección fiable de redacciones. Su primera propuesta es la adopción de un enfoque holístico. Gipps (1994) propone un “control de calidad” en los procesos evaluativos que asegure la consistencia y reduzca los sesgos. En el Reino Unido se denomina moderation. Incluye el uso de medios estadísticos28 (Harlen 1994 citado en Gipps 1994), intervención de la inspección educativa, comparación entre escuelas, grupos de discusión, etc. Todos los sistemas educativos introducen alguna de estas medidas de control, pero no siempre van dirigidas específicamente a los procesos de evaluación. Recomendamos la adopción de este tipo de iniciativas, pero su 28 Gipps (1994) distingue siete tipos de moderación: Statistical Moderation Through Use of Reference Tests or Scaling Tecniques, Moderation by Inspection, Panel Review, Consensus Moderation, Group Moderation, Approval of Institutions, e Intrinsic Moderation. Rasgos de las pruebas 111 alcance afecta más a la organización general del sistema educativo que a la actuación docente. En el caso de la Selectividad española sería interesante la creación de un sistema de control específico de calidad de la prueba, como apunta Gipps (1994) y proponen Fernández y Sanz (2005: 25). Sin embargo, la Ley Orgánica de Educación (LOE 2006) todavía no hace mención expresa de estos aspectos, aunque probablemente lo hará en su futuro desarrollo. El acercamiento de Hughes (1989) es eminentemente práctico. Ofrece a los profesores un repertorio de sencillos consejos para crear pruebas fiables. No son nuevos; la mayoría han ido apareciendo a lo largo de los apartados anteriores. Los conocemos, pero a veces se olvidan en la práctica docente. No está de más recordar estas recomendaciones que sí son realmente aplicables en el aula de Lenguas Extranjeras. Las que comentamos en primer lugar van encaminadas a proporcionar consistencia a la actuación del alumno en la prueba. Se refieren al diseño de la prueba y a su administración. En cuanto al diseño de las pruebas, Hughes (1989: 37) indica que una prueba fiable debe incluir un número suficiente de preguntas, no ha de ser demasiado breve ni tan larga que sature o agobie al alumno. No es conveniente que las preguntas planteadas dejen demasiada libertad al alumno. Incluso en las pruebas de redacción se deben proponer tareas precisas y controladas. Además las preguntas no deben ser ambiguas, sino claras y que no permitan interpretaciones. Con respecto a su administración, recomienda cuidar la tipografía, el orden y la claridad, en definitiva, el aspecto externo del examen. Como hemos visto en el apartado 3.2.4 al comentar la validez aparente, es importante que el alumno esté familiarizado con la técnica y formato del examen, y que el profesor prepare al alumnado para realizarla facilitando instrucciones claras, orales y escritas. Con ello se evita desviar la atención del alumno hacia aspectos no pertinentes y es probable que mejore su actuación. Influyen incluso las condiciones de administración del examen: la adecuada duración de la prueba, el lugar, la luz, condiciones acústicas, temperatura, silencio, etc. Las que desglosamos a continuación se refieren a la fiabilidad del corrector. Según Hughes (1994: 40) sería conveniente plantear ítems objetivos, pues reducen la subjetividad del profesor (véase apartado 3.3). Un instrumento que sirve de ayuda El C-test: alternativa o complemento de otras pruebas en ILE 112 es el manejo de plantillas de corrección que detallen lo que se considera correcto y/o aceptable en cada pregunta, así como el baremo asignado a cada parte del examen. Si se trata de varios correctores, es necesario un acuerdo en los criterios de puntuación. Y siempre que sea posible, la doble corrección reduce el error. Estas últimas ideas no van dirigidas al aula; por su elevado coste, en la práctica, sólo se pueden aplicar en el contexto de exámenes a gran escala, como las PAAU. E incluso en las PAAU la doble corrección tiene un carácter excepcional, puesto que solamente se lleva a cabo previa solicitud expresa del alumno, una vez conocidos los resultados obtenidos en la primera corrección. Lo ideal sería que los correctores supieran exactamente cómo corregir la prueba, que tuvieran un entrenamiento previo y hubieran demostrado su solidez como correctores. Igualmente, lo deseable sería no conocer a los que se presentan al examen en el caso de exámenes oficiales (en la PAAU este aspecto sí se cumple, se identifica al alumno mediante un código de barras para asegurar el anonimato y la objetividad del corrector) o de diagnóstico, para que las expectativas del profesor no influyan en los resultados. En el contexto del aula el profesor conoce a sus alumnos y aunque ello puede afectar a la corrección, sobre todo en las pruebas de tipo subjetivo, normalmente las repercusiones de las pruebas son menores. 3.4. Tensión validez-fiabilidad Hemos insistido en que validez y fiabilidad son las dos cualidades básicas o esenciales de las pruebas. En los apartados anteriores hemos analizado sus respectivas características. No obstante, Bachman (1990: 241) asegura que no siempre es fácil distinguirlas: “the point at which we “draw the line” may be somewhat arbitrary”. Hughes (1989) y Weir (1988, 1993) señalan que una prueba sólo puede ser válida si es fiable: “To be valid a test must provide consistently accurate measurements. It must therefore be reliable“ (Hughes 1989: 42). Por el contrario, puede ser fiable y no válida, si no mide el constructo que pretende medir. Rasgos de las pruebas 113 Como hemos comentado en epígrafes previos, Davies (1978), Weir (1988), Gipps (1994) y Hughes (1989), entre otros, consideran que existe tensión entre validez y fiabilidad. Con frecuencia es necesario sacrificar parte de una de ellas a favor de la otra, aunque lo recomendable sería el equilibrio entre ambas. Veamos un par de comentarios al respecto. Hughes (1989: 42) anuncia: “There will always be some tension between reliability and validity. The tester has to balance gains in one against losses in the other”. También Gipps (1994: 76) recalca la necesidad de buscar el equilibrio cuando comenta: “What is needed, of course, is an appropiate balance between the two because they are in tension”. Este equilibrio se logra cuando la definición del constructo que mide la prueba es clara. Para Harlen (1995), es la calidad de la prueba lo que equilibra la tensión entre validez y fiabilidad. Según Nuttall (1987), citado en Gipps (1994), el concepto de generalizability es el nexo entre validez y fiabilidad. La teoría tradicional de la evaluación se basa en la generalización de los comportamientos. Nuttall alude a la necesidad de ambas cualidades para que los resultados de las pruebas sean generalizables. En esa línea, Linn et al. (1991) aseguran que el concepto de fiabilidad debería ser ampliado: “We need also to enquire whether we can generalize from the specific assessment task to the broader domain of achievement” (citado en Gipps 1994: 77). Aunque tradicionalmente la validez se ha considerado más importante que la fiabilidad (Guildford 1965 en Weir 1888; Gipps 1994), la tendencia actual, liderada por Bachman y Palmer (1990: 239), las entiende como complementarias: “The investigation of reliability and validity can be viewed as complementary aspects of identifying, estimating, and interpreting different sources of variance in test scores”. Los citados autores insisten en integrar también al resto de los rasgos de las pruebas: “The most important consideration to keep in mind is not to ignore any one quality at the expense of others” (op. cit.: 38). El C-test: alternativa o complemento de otras pruebas en ILE 114 3.5. Autenticidad Bachman y Palmer (1996) describen la autenticidad y el carácter práctico como cualidades críticas de las pruebas a las cuales no se ha dado la importancia que merecen, a pesar de que la preocupación por la autenticidad sí está presente en las investigaciones sobre evaluación de la lengua. Según Bachman (1990), fue Carroll (1961) quien sembró la semilla de la autenticidad en la evaluación al pedir para las pruebas de lengua el “total communicative effect of an utterance”. Este deseable efecto comunicativo implica “funcionalidad” (illocutionary purpose) como base de la autenticidad. Varias décadas después, Fulcher (1999a: 222) ofrece una definición general de autenticidad: “The degree to which sampling is successful is frequently expressed as the degree to which the test is “authentic”. [...] The term “authenticity” in language testing has therefore come to mean the degree to which the outside world is brought into the testing situation”. Bachman (1990) distingue en la literatura dos acercamientos al concepto de autenticidad. El primero se denomina “real-life approach” y se basa en la precisión con que la actuación en la prueba predice la actuación en situaciones comunicativas de la vida real29. El segundo es el “interactional/ability approach”, que intenta medir la lengua como habilidad mental. Se basa en la interacción entre el examinando, la tarea que le plantea la prueba y el contexto. Bachman y Palmer (1996) revelan que la importancia de la autenticidad radica en que establece una relación entre la tarea concreta que propone la prueba y el dominio al que se refiere. Es decir, la autenticidad indica la correspondencia entre el uso real de la lengua (TLU) y las tareas concretas propuestas en un examen. Según los citados autores (1996: 23), si existe esta correspondencia se puede considerar que el examen es relativamente auténtico: “We define authenticity as the degree of correspondence of the characteristics of a given test to the features of a TLU task”. Hemos comentado que los rasgos de las pruebas no son independientes. Bachman y Palmer (1996) señalan la relación entre autenticidad y validez de 29 El enfoque “real-life” se relaciona con la dicotomía entre pruebas directas e indirectas. Bachman (1990) define las pruebas de lengua como “indicadores indirectos de las habilidades que interesan al examinador”. Rasgos de las pruebas 115 constructo, puesto que una parte de la validación de constructos está basada en la posibilidad de generalizar la interpretación de los resultados de las pruebas. Para Messick (1996: 234): authentic assessments pose engaging and worthy tasks (usually involving multiple processes) in realistic settings or close simulations so that the tasks and processes, as well as available time and resources, parallel those in the real world. La autenticidad afecta también a la validez aparente (aspecto fundamental en el real-life approach). Una prueba siempre es una propuesta artificial de tareas que simula con mayor o menor éxito situaciones reales de comunicación. Bachman y Palmer (1996: 24) apuntan la relación entre autenticidad y percepción del alumno (face validity) con respecto a la prueba: “It is this relevance, as perceived by the test taker, that we believe helps promote a positive affective response to the test task and can thus help test takers perform at their best”. El hecho de que el alumno considere un examen relevante y adecuado (por el tema, tipo de tareas, etc.) ayuda a predisponerle positivamente hacia él e, indudablemente, influye en su actuación. Como primer paso para el diseño de pruebas auténticas, Bachman y Palmer (1996) proponen identificar los rasgos que definen las tareas en el dominio de la lengua que se quiere evaluar. Al igual que con otras cualidades de las pruebas, no es fácil establecer los límites de la autenticidad. Shohamy y Reves (1985) señalan que la propia situación de la prueba y la relación examinador-examinando son artificiales; en palabras de Bachman (1990: 319), constituyen una amenaza: “a potential threat to authenticity” pero el profesor puede minimizarla creando “a testing environment that will promote authetic interaction”. Messick (1989) alerta del peligro de que la validez quede reducida a la autenticidad, sería una visión simplista. Recordamos que su propuesta es un marco unitario de validez. Una prueba no es válida sólo porque parezca auténtica, aunque la autenticidad se haya convertido, según sus propias palabras, en señal de “buena práctica” en la evaluación. El C-test: alternativa o complemento de otras pruebas en ILE 116 En el contexto de la enseñanza del Inglés para Fines Académicos (EAP) la autenticidad de las pruebas adquiere un papel aún más destacable, según Fulcher (1999a), relacionada con la validez de contenido y aparente. Spolsky (1985: 39) resume del siguiente modo la importancia de la autenticidad en la evaluación de la lengua: “In sum, the criterion of authenticity raises important pragmatic and ethical questions in language testing. Lack of authenticity in the material used in a test raises issues about the generalizability of results”. No resulta sencillo determinar el grado de autenticidad de una prueba objetiva, como el C-test. Como se verá en capítulos posteriores con mayor profundidad, el C- test es una prueba de redundancia reducida. Podemos considerar que propone una tarea habitual en la comunicación lingüística diaria y, por tanto, auténtica. Consiste en suministrar la información que se pierde en el acto de comunicación haciendo uso de la gramática de expectativas para superar así los ruidos en el canal (Stevenson 1977 citado en Klein-Braley 1985). Otro aspecto que deberíamos controlar es la autenticidad de los textos en que se basa la prueba (Raatz 1985; Klein-Braley 1985). En nuestro caso decidimos crear el C-test a partir de textos aparecidos en PAAU recientes. Estos textos, en principio, son auténticos. Pero, dependiendo del nivel de competencia lingüística del alumnado al que van dirigidos, quizá este rasgo debería sacrificarse a favor del tema, por ejemplo. En este punto entraríamos en la compleja discusión de la autenticidad de materiales. 3.6. Carácter interactivo Según Bachman y Palmer (1996: 25) el carácter interactivo de una prueba viene dado por “the extent and type of involvement of the test taker’s individual characteristics in accomplishing a test task”. Este rasgo supone el grado y tipo de implicación que un examen demanda de parte del alumno. Por un lado, el examen mide sus conocimientos y competencia lingüística, por otro está presente la implicación afectiva del alumno (interés despertado, motivación, etc.) y su conocimiento del tema (topical knowledge). Rasgos de las pruebas 117 El siguiente gráfico representa las interacciones entre habilidad lingüística, conocimiento del tema y esquemas afectivos. Figura 3.4. Interactiveness. Bachman y Palmer (1996:26) Como ocurría con la autenticidad, Bachman y Palmer relacionan el carácter interactivo con la validez de constructo: “it is this quality that provides the vital link with construct validity” (op. cit.: 26). De manera que se genera una relación de dependencia: “Authenticity, interactiveness, and construct validity all depend upon how we define the construct “language ability” for a given test situation” (op. cit.: 29). Ambos conceptos, autenticidad y carácter interactivo son relativos, y para determinar su grado en una prueba hemos de tener en cuenta las características de los alumnos, de la tarea y del constructo de la lengua que se intenta medir. Cada situación de evaluación requerirá unos niveles específicos de autenticidad y carácter interactivo, siempre en equilibrio con las demás cualidades de las pruebas. El C-test ha demostrado implicar al alumno en la tarea propuesta. Para resolverlo ha de aplicar sus conocimientos de la lengua meta. Por otra parte, en el C-test es importante el tema del texto base. Sería difícil determinar hasta qué punto ayuda cada uno de estos aspectos a la resolución de la tarea. Al valorar la implicación afectiva del alumno, como hemos indicado, nos referimos a la validez aparente de la prueba. Si bien se ha cuestionado la validez Characteristics of language test task LANGUAGE ABILITY (Language knowledge, Metacognitive Strategies) Affective schemata Topical knowledge El C-test: alternativa o complemento de otras pruebas en ILE 118 aparente del C-test (Weir 1988; Bradshaw 1990; Jafarpur 1995), en este estudio hemos apreciado que, en términos generales, el carácter fragmentario (puzzle-like) de la tarea supone un elemento motivador, casi un reto para el alumno. En consonancia con otros estudios (Klein-Braley 1997) podemos decir que la prueba despertó el interés de nuestros alumnos. 3.7. Factibilidad Tanto para los profesores como para las autoridades educativas es importante que una prueba permita, por sus características, su aplicación en la situación para la que haya sido creada. Por ello, aunque la naturaleza de esta cualidad es diferente de las anteriores, debe ser tenida en cuenta en el diseño de pruebas, pues afecta a todas las decisiones. En palabras de Weir (1988: 37): “A valid and reliable test is of little use if it does not prove to be a practical one”. Según Bachman y Palmer (1996: 35), para determinar la factibilidad de una prueba deberíamos evaluar tanto los recursos que requiere su diseño como los que implica su aplicación y compararlos con los recursos de que realmente disponemos: “for any given situation, if the resources required for implementing the test exceed the resources available, the test will be impractical and will not be used”. Aportan una definición de factibilidad que relaciona los recursos empleados en el desarrollo de la prueba con el uso de la misma: “We can define practicality as the relationship between the resources that will be required in the design, development, and use of the test and the resources that will be available for these activities” (op. cit.: 36). Cuando Bachman y Palmer (1996) hacen referencia a los “recursos disponibles” incluyen todo tipo de recursos humanos y materiales, que finalmente se traducen en un coste económico concreto para cada situación de evaluación: • Recursos humanos: profesores, creadores de pruebas, correctores, administradores de las pruebas, e incluso personal técnico, etc. • Recursos materiales: espacio (aulas), materiales (papel, bibliografía, etc.), recursos técnicos (ordenadores, cintas de video y audio, CD-rom, DVD, proyectores, etc.). Rasgos de las pruebas 119 • Tiempo: desde que se inicia la creación de la prueba hasta que se completa su aplicación y corrección. Lógicamente, si una prueba resulta práctica nos veremos más inclinados a utilizarla, e incluso a investigar para mejorarla. Ahora bien, el carácter práctico ha de ir unido al resto de las cualidades de las pruebas, como nos recuerda Hughes (1989: 47): “Other things being equal, it is good that a test should be easy and cheap to construct, administer, score and interpret”. El C-test es una prueba cuyo carácter práctico es indiscutible. Así se ha reconocido en la literatura (Carol y Chapelle 1990; Connelly 1997; Klein-Braley 1997). Es destacable su economía en términos de tiempo. Su creación no requiere un tiempo excesivo. Sólo implica tomar decisiones en cuanto a los textos que servirán como base para las omisiones. La administración es sencilla, sobre todo si el alumnado está familiarizado con la técnica. Finalmente, la corrección no plantea problemas; el criterio es claro y su carácter objetivo hace que se corrija rápidamente. Como se demostrará posteriormente, el C-test resulta una prueba muy rentable para medir la competencia global en Lengua Extranjera. 3.8. Impacto Comenzamos este apartado con una aproximación al concepto de impacto. La definición más general lo describe como el efecto de las pruebas en la enseñanza y el aprendizaje. Veremos las distintas denominaciones que aparecen en la literatura para designar a este fenómeno comúnmente aceptado. Una de ellas, validez consecuencial, lo relaciona directamente con la validez de constructo (Messick 1989). Continuaremos con algunas referencias en torno a las escasas investigaciones empíricas sobre el efecto rebote. Puesto que el impacto de las pruebas se manifiesta en los individuos (alumnos y profesores) y en la sociedad, veremos de qué forma afecta a cada uno de ellos. El efecto de las pruebas puede ser positivo o negativo. Expondremos brevemente el repertorio de consejos de Hughes (1989) y Bailey (1996) para lograr un efecto rebote beneficioso. El C-test: alternativa o complemento de otras pruebas en ILE 120 3.8.1. Definición del concepto Otra cualidad innegable de las pruebas es el efecto que producen “on teaching and learning” (Hughes 1989: 1; Shohamy et al. 1996: 298), o dicho de otro modo: “on society and educational systems and upon the individuals on those systems” (Bachman y Palmer 1996: 29) . Un examen no es un ente abstracto, sino algo real que se realiza con un propósito, en un contexto y con unos individuos concretos. Por tanto, como asegura Bachman (1990: 279), afecta a todos los elementos que de una u otra forma intervienen en él: “Tests are not developed and used in a value-free psychometric test-tube; they are virtually always intended to serve the needs of an educational system or of society at large”. El efecto de las pruebas puede ser de distinto signo, tal como expone Buck (1988: 18): “This washback effect can be either beneficial or harmful”. Y la responsabilidad del profesor es conseguir que los efectos sean beneficiosos (Hughes 1989; Hamp-Lyons 1997). La literatura reconoce la existencia e importancia del impacto, las pruebas de evaluación realmente influyen en la enseñanza y aprendizaje. Tanto, que en 1996 la revista Language Testing dedicó un volumen monográfico a su estudio: LT 13 (3). A pesar de todo, la investigación empírica sobre la naturaleza y mecanismos del impacto es todavía escasa (Bailey 1996). En primer lugar hagamos las precisiones terminológicas pertinentes. Este fenómeno se conoce con diversos nombres: Baker (1971) usa el término test impact (impacto de las pruebas), Hughes (1989) y Bailey (1996), entre otros, prefieren denominarlo washback o backwash (que normalmente traducimos como “efecto rebote”), Messick (1996) habla de consecuential validity (validez consecuencial) y Frederiksen y Collins (1989) de systemic validity (validez sistémica). Las dos primeros términos; impacto y efecto rebote, son los más frecuentes en la literatura para describir los efectos de las pruebas. Generalmente aparecen como sinónimos, aunque hemos de hacer constar que autores como Hamp-Lyons (1997: 298) y Davies (2003) precisan ambos términos con mayor rigor. Aportamos la distinción de Davies (2003: 361): “impact is taken to be the superordinate while washback refers to the narrower situation of the language classroom”. Rasgos de las pruebas 121 Impacto y efecto rebote serán los que más utilicemos en esta tesis, indistintamente, y como sinónimos de “influencia”. No consideramos necesario mantener la precisión de Davies (2003) puesto que no encontramos una postura unificada en la literatura. El contexto servirá para determinar en cada caso el ámbito de influencia de las pruebas. Por otra parte, en español los términos “impacto”, “efectos”, “consecuencias” e “influencias” nos parecen léxicamente muy próximos y siempre de fácil comprensión. A continuación abordamos la procedencia de las otras dos denominaciones; validez consecuencial y sistémica. Ambas tienen su origen en el marco de validez de constructo como concepto unitario propuesto por Messick (1989; 1996) y expuesto en el apartado 3.3 de este mismo capítulo. El propio autor explica que: “In the context of unified validity, evidence of washback is an instance of the consequential aspect of construct validity” (Messick 1996: 254). Una de las características de esta concepción de validez es su amplitud, pues da cabida a las consecuencias de la interpretación de las pruebas y sus implicaciones educativas y/o sociales: “Consequences associated with testing are likely to be a function of numerous factors in the context or setting and in the persons responding as well as in the content and form or the test” (op. cit.: 251). Según Messick, si una prueba es válida lo más probable es que produzca efectos beneficiosos. Partiendo del marco de Messick, Gipps (1994) y MacNamara (1997) hablan de validez consecuencial y un subtipo de ésta, la validez sistémica (Fredericksen y Collins 1989). La validez sistémica se refiere las consecuencias de las pruebas en el sistema educativo en que se desarrollan y aplican. MacNamara (1997) incluye al efecto rebote (washback) como un conjunto de aspectos dentro de la validez consecuencial. Davies (2003: 363) considera que en los últimos años se ha sobrevalorado la preocupación por el impacto de las pruebas. Llega a denominar “testing heresy” a la excesiva preocupación social por cuestiones éticas, de impacto y políticas relacionadas con los exámenes, y aconseja una vuelta a lo fundamental “to restore language to the centre of language testing”. Como indicamos en su momento, podríamos haber incluido el efecto rebote como subapartado de la validez, siguiendo a los autores mencionados. Pero la El C-test: alternativa o complemento de otras pruebas en ILE 122 importancia y amplitud del tema nos anima a dedicar todo este apartado al impacto de las pruebas, tanto en el contexto del aula y los programas como en el sistema educativo. 3.8.2. El impacto de las pruebas en el enfoque comunicativo A veces, las pruebas producen un efecto rebote negativo, sobre todo las estandarizadas y externas. Esto se debe a la discrepancia entre las mismas y el enfoque real de la enseñanza de idiomas. En la actualidad sigue vigente el enfoque comunicativo en la enseñanza de lenguas. El aprendizaje de una lengua tiene como objetivo la capacitación del alumno para comunicarse efectivamente en ella. Sin embargo, muchas pruebas estandarizadas miden la competencia lingüística tradicional y no la competencia comunicativa. Morrow (1991) citado en Bailey (1996: 112) confirma la necesidad de coherencia entre enseñanza y evaluación: “this conscious feedback loop between teaching and testing, in terms not only of content but also of approach, is a vital mechanism for educational development”. Los trabajos del Ontario Institute for Studies in Education (OISE) sobre desarrollo de pruebas de evaluación reconocen que el objetivo fundamental de las pruebas comunicativas ha de ser promover un efecto rebote beneficioso: “communicative tests should be explicitly designed to bring about positive washback” (Bailey 1996: 261). 3.8.3. Investigación empírica sobre el impacto La investigación empírica sobre el impacto va encaminada a aclarar los mecanismos de funcionamiento del efecto rebote de las pruebas. En el apartado 3.8 hemos constatado la relativa escasez de tales estudios, que radica en la dificultad para su realización. Rasgos de las pruebas 123 Bailey (1996) reconoce que no es fácil aislar el efecto rebote para su estudio, puesto que suele estar íntimamente ligado a otros aspectos de la enseñanza y aprendizaje. Por ello, como veremos, Alderson y Wall (1993) aconsejan el método de la observación directa y la triangulación30 para los estudios del impacto. Bailey (1996) cita un trabajo sin publicar de Hughes (1993) que distingue tres aspectos en el proceso de enseñanza: participantes, proceso y producto final. Según el modelo de Hughes, las pruebas pueden afectar a todos ellos. No podemos evitar hacer mencionar los trabajos empíricos de Alderson y Wall (1993), Shohamy (1993), Shohamy et al. (1996), Alderson y Hamp-Lyons (1996), y el más reciente de Andrews et al. (2002), ampliamente reconocidos en este campo. La clave para estas investigaciones fue la observación directa de las clases. También se analizaron los materiales y se recopiló información de los participantes a lo largo de varios años, mediante el uso de entrevistas y cuestionarios. Alderson y Wall (1993a: 120-21) establecieron un listado previo de quince posibles hipótesis relativas al efecto rebote. Llegaron a la conclusión de que se necesitaba seguir investigando directamente en las aulas e incluir las áreas de “motivation and performance, as well as educational innovation” (Bailey 1996: 263). El estudio empírico de Alderson y Wall (1993b) en Sri Lanka supuso un hito. Describe la influencia de un nuevo examen de inglés en las clases de inglés de secundaria. La Universidad de Lancaster había recibido el encargo de evaluar la validez y fiabilidad de la prueba, así como su efecto rebote en las clases de Inglés. El estudio parte de la descripción minuciosa del contexto educativo en que se aplicaba la nueva prueba y de lo que implicaba para el alumno su superación. Además se revisaron las características intrínsecas de la prueba; su validez, fiabilidad, etc. Con este examen las autoridades educativas pretendían introducir el enfoque comunicativo en Sri Lanka, lo que debería suponer algunos cambios en los contenidos y en la metodología. Los investigadores eran conscientes de que los efectos no serían totalmente positivos ni negativos. Finalmente, el estudio confirmó la existencia de efecto rebote en el contenido de la enseñanza y en el diseño de las 30 La triangulación es un método etnográfico que consiste en utilizar dos o más perspectivas (teorías, investigadores, informantes, datos, etc.) para investigar un fenómeno determinado. En los estudios sobre washback supone incluir, al menos, la percepción de alumnos y profesores acerca de los efectos de las pruebas. El C-test: alternativa o complemento de otras pruebas en ILE 124 pruebas, pero no en la metodología seguida por los profesores. Este resultado contrasta con el obtenido por Alderson y Hamp-Lyons (1996) al analizar el efecto rebote en los cursos de preparación de TOEFL. Según Alderson y Hamp-Lyons el TOEFL afecta a lo que se enseña y a como se enseña. Alderson y Wall (1993b: 220) insisten en que una prueba por sí misma “cannot reinforce an approach to teaching that the educational system has not adequately prepared its teachers for”. De nuevo reflejan la necesidad de una preparación adecuada del profesorado, ya comentada en otros apartados de esta tesis. Citamos textualmente la conclusión final del estudio de Alderson y Wall (ibíd.): Testers need to pay much more attention to the washback of their tests, but they should also guard against oversimplified beliefs that “good” tests will automatically have “good” impact. Washback needs to be studied and understood, not asserted. Los resultados del estudio de Shohamy et al. (1996) en el sistema educativo israelí evidencian el efecto rebote de las pruebas de carácter nacional (high-stakes tests): it had a considerable effect on classroom activities and on time allotment; it also influenced both content and methodology. Ample new commercial teaching material was published and marketed, designed specifically for the test... (Shohamy 1997: 346) Según Shohamy et al. (1996) el efecto rebote de una prueba es un fenómeno complejo porque depende de numerosos factores: el estatus de la lengua meta, el propósito de la prueba, su formato y las destrezas que mide. Y no tiene porqué ser estable, sino que puede cambiar con el tiempo. El trabajo de Andrews et al. (2002) pone de relieve una característica más del efecto rebote, su unpredictability. Considera que los cambios que se producen en el aula a partir de la introducción de una prueba son impredecibles, debido en gran parte a las diferencias individuales entre profesores y alumnos. Rasgos de las pruebas 125 3.8.4. El impacto en los individuos: alumnos y profesores Como hemos visto en el apartado 3.8.1, el efecto de las pruebas opera en dos niveles: el micro nivel de los individuos y el macro nivel de la sociedad o el sistema educativo (Bachman y Palmer 1996)31. En este epígrafe examinaremos algunos aspectos de la influencia de las pruebas en los individuos, principalmente alumnos y profesores. En los apartados anteriores hemos constatado su existencia, a pesar de las diferencias individuales. Después, en el siguiente punto, haremos lo mismo con los efectos en la enseñanza y el sistema educativo. El alumno, o de forma más general, cualquier persona que realiza una prueba puede verse afectado por la propia experiencia de su preparación y realización, por los resultados obtenidos en ella y por las consecuencias derivadas de dichos resultados. Los efectos son mayores en las pruebas selectivas estandarizadas de ámbito nacional, como la PAAU española. Su preparación puede suponer largo tiempo de enseñanza dirigida específicamente a entrenar las destrezas que permitan superarla. Para Bachman y Palmer (1996: 31): “teaching may be focused on the syllabus of the test for up to several years before the actual test, and the techniques needed in the test will be practiced in class”. La realización de la prueba puede afectar al alumno de múltiples formas. Por ejemplo, su contenido (información o temas nuevos) puede despistar al alumno o llevarle a confusión, las características de la prueba pueden permitirle o no el uso de estrategias, etc. Bachman y Palmer (1996: 32) sugieren que se implique al alumno en el diseño de las pruebas, así aumentará la motivación y por tanto será más fácil que el efecto rebote sea positivo: “one way to promote the potential for positive impact is through involving test takers in the design and development of the test, as well as collecting information from them about their perception of the test and test tasks”. Shohamy (1997) respalda esta idea de trabajo conjunto para llegar a modelos de evaluación justos y democráticos. 31 Recordamos su definición del efecto rebote como la influencia de las pruebas “on society and educational systems and upon the individuals on those systems” (Bachman y Palmer 1996: 29). Se corresponde con la distinción entre impact y washback propuesta por Davies (2003). El C-test: alternativa o complemento de otras pruebas en ILE 126 También la información sobre los resultados de la prueba y las decisiones que conllevan afectan a quienes la han realizado. Por ello, es conveniente que sea una información completa, relevante y significativa para que los efectos sean positivos, una vez más. En cuanto a las decisiones, hemos de procurar que sean justas, pues está claro que las consecuencias pueden ser importantes en la vida de los alumnos (sobre todo en el caso de exámenes externos que condicionen el acceso a determinados estudios o programas). El otro grupo de individuos que se ve afectado directamente por las pruebas es el de los profesores. Generalmente el colectivo es consciente de ello; cada profesor sabe hasta qué punto su actuación en el aula está condicionada por los exámenes, sobre todo los externos: “if they find that they have to use a specified test they may find “teaching to the test” almost unavoidable” (Bachman y Palmer 1996: 33). En el siguiente epígrafe analizamos el fenómeno conocido como “enseñar para el examen”. Veremos que, en determinadas circunstancias, el profesor antepone la preparación para una prueba a sus propios valores y concepciones de la enseñanza. 3.8.5. El impacto de las pruebas externas en la enseñanza: enseñar para el examen Aunque toda prueba tiene unos efectos en el proceso de enseñanza- aprendizaje, debido a sus consecuencias, son las pruebas estandarizadas externas a gran escala (high-stakes tests) las que más ponen de manifiesto el efecto rebote (Shohamy et al. 1996). En estos casos es fácil constatar el impacto en el sistema educativo y en la sociedad, además de los lógicos efectos en profesores y alumnos. Los alumnos saben lo que supone su actuación en el examen (calificación, obtención de un título, asignación a un grupo o nivel, posibilidad de acceder a la universidad, consecución de un empleo, etc.) y los profesores deberían ayudarles a enfocar la preparación para afrontarlo. En nuestro país se administran pruebas estandarizadas de Inglés como Lengua Extranjera (PET, First Certificate, TOEFL, EOI, etc.) cuya superación Rasgos de las pruebas 127 permite la obtención del título correspondiente. Con frecuencia se desarrollan cursos específicos dedicados a su preparación. Se podrían analizar los efectos que producen en todos los elementos implicados, pero tal análisis no tiene cabida en el presente trabajo. Sí queremos hacer notar el impacto de la PAAU en el contexto de las Enseñanzas Medias y en la sociedad española en general. Es una prueba nacional, oficial y estandarizada cuya administración se produce fuera del medio escolar (en instalaciones universitarias). De los resultados obtenidos en ella depende en gran medida el futuro del examinando. El impacto social es evidente, ya que la prueba actúa como puerta para el acceso a la Universidad de los candidatos. Sus repercusiones son tales que los cambios propuestos por las distintas administraciones educativas provocan todo tipo de reacciones. Así ocurrió cuando se anunció la sustitución de la PAAU por la Prueba General de Bachillerato (PGB) o Reválida, regulada después por el R. D. 1741/2003. Tanto las editoriales como los profesores de Enseñanza Secundaria quedaron expectantes ante las novedades. Citamos la fundamental para la asignatura de Inglés: “El ejercicio correspondiente a la lengua extranjera tendrá una parte oral y otra escrita”. Es fácil deducir que la entrada en vigor de la nueva prueba habría supuesto cambios importantes en el currículo de la asignatura, en los materiales, probablemente en la metodología de la clase de inglés, etc. Los profesores de la asignatura habrían ampliado el enfoque de las clases para preparar adecuadamente la prueba, cuya implantación quedó finalmente frenada por las circunstancias pollíticas, que prolongaron la vigencia de las actuales PAAU. En el contexto educativo del Bachillerato los efectos de la PAAU son patentes. Nuestra experiencia en las aulas nos permite apreciar que la existencia de este examen afecta a todos los agentes implicados: a los programas educativos, el profesorado, los métodos utilizados en el aula, los materiales, los alumnos, etc. Las clases de Inglés de Bachillerato, especialmente las de segundo curso, se enfocan hacia la superación de la PAAU. En otras materias ocurre de forma similar, puesto que la PAAU no es una prueba específica de lengua inglesa. El C-test: alternativa o complemento de otras pruebas en ILE 128 Este fenómeno, que los docentes reconocemos en el aula, se conoce en la literatura como “teaching to the test”32 (Gipps 1994) o “test-like teaching” (Shohamy 1997) y podría considerarse, en cierto modo, como un tipo “peculiar” de impacto. En el apartado anterior hemos visto que el examen condiciona claramente la actuación del profesor, en un sentido u otro. Es bien conocido en los Estados Unidos y en el Reino Unido, aunque a veces se evite la denominación anterior y se considere simplemente “preparation for examinations”. Puede ser una actividad útil (Linn 1981 en Gipps 1994) siempre que las habilidades o destrezas que se entrenan sean transferibles a otras situaciones. En caso contrario la prueba pierde todo su valor como instrumento de medida. Lo interesante es que se enseñe el constructo objeto de examen (skills and knowledge measured by the test), no las respuestas a las preguntas concretas. Además enseñar para el examen incluye otras prácticas, como las dirigidas a aumentar la motivación de los alumnos o a reducir la ansiedad ante el examen. Según Smith (1991) citado en Gipps (1994), enseñar para el examen es una reacción de los profesores ante la perdida de autoestima que supone la obtención de malos resultados en una prueba importante para los alumnos. Son ilustrativas las palabras de Shohamy (1997: 346) refiriéndose a la investigación de Shohamy et al. (1996) sobre el efecto rebote de una prueba en Israel: “Most teachers reported high anxiety, fear and pressure to cover the material as they felt that the success or failure of their students reflected on them”. Smith (1991) llegó a la conclusión de que el impacto de la prueba no viene dado por su forma sino por el uso político o social de los resultados obtenidos en ella. Debemos tener cuidado para que el interés de las pruebas estandarizadas no nos haga perder la perspectiva y olvidar los propósitos educativos de la evaluación. Tampoco podemos ignorar que las pruebas son también un instrumento de política social (Shohamy 1997, 2001), símbolo de orden y control (Gipps 1994; Kunnan 1999) y agentes de cambio (Qi 2005). En ello radica la preocupación por la ética de las pruebas. Las de ámbito nacional se pueden utilizar para introducir 32 El fenómeno descrito como “enseñar para el examen” también se denomina en los Estados Unidos “test score pollution”. Los resultados de las pruebas se pueden ver contaminados (mejorados) por el entrenamiento previo (Linn 1981). Haladnya (1991) encuentra tres fuentes de contaminación con “pervasive effects”: la forma de preparación, las condiciones de administración y otros factores externos que los profesores no pueden controlar (familiares, lengua materna, etc.) Un ejemplo bien estudiado es el “Lake Wobegon“ Effect (Gipps 1994: 47). Rasgos de las pruebas 129 cambios en el sistema educativo, hecho que no siempre va unido a los cambios en el currículo o a una adecuada formación del profesorado. El citado estudio de Shohamy et al. (1996) sobre el impacto de dos pruebas nacionales en Israel corrobora la afirmación anterior. Es una forma poco ética de utilizar las pruebas para conseguir otros fines, totalmente ajenos a los educativos. Policy makers in central agencies use tests in these ways to manipulate educational systems, to control curricula, to create new knowledge, to define knowledge and to impose new textbooks, to communicate educational agendas and new teaching methods. (Shohamy 1997:346) Finalizamos este epígrafe con la reflexión de Gipps (1994: 57) acerca del poder de la evaluación y las perspectivas de futuro: These detailed accounts of the impact of testing on curriculum, teaching, school systems, pupil motivation and teacher’s practice should leave us in no doubt as to the power of testing, particularly high-stakes testing, to affect teaching and learning. A broader conceptualization of assessment within the educational assessment paradigm is certainly part of the way forward. Visto el impacto de los exámenes en la enseñanza, claro reflejo del poder de las pruebas, no nos queda más que proponer que todo examen, especialmente los de tipo oficial y estandarizado, sea fiel reflejo de unos objetivos educativos y que reúna en equilibrio todas las cualidades deseables para una prueba. De este modo el inevitable impacto en la enseñanza será siempre beneficioso. 3.8.6. Cómo conseguir que el efecto rebote sea beneficioso Hemos visto que toda prueba, hasta la más sencilla que se aplica en clase, afecta a la enseñanza y el aprendizaje, es decir, a las personas que se ven implicadas en ella. El reto para los profesores es conseguir que ese efecto sea beneficioso (Hughes 1989). Destacamos el interés para la práctica docente de las recomendaciones que detallamos en este epígrafe. Hughes (1989) aconseja tener en cuenta unas ideas básicas en el diseño de las pruebas para promover achieving beneficial backwash. El C-test: alternativa o complemento de otras pruebas en ILE 130 Para empezar, deberíamos asegurarnos de que el examen mida aquellas destrezas que nos interese potenciar y de que proporcione un buen número de tareas, basadas en textos lo más auténticos posible. El contenido no debe ser totalmente predecible. Además debe tener como referencia unos objetivos conocidos también por los alumnos, han de saber qué se les pide. Es conveniente que se evalúen directamente las destrezas que interesa aprender (direct testing), por ejemplo, si se pretende aprender a redactar en lengua inglesa, la prueba deberá incluir una redacción. También es importante que los profesores tengan la asistencia necesaria e incluso se les facilite formación específica en evaluación. Bailey (1996) aporta las siguientes sugerencias para lograr efectos beneficiosos a partir de las pruebas: • Fijar objetivos de aprendizaje, • potenciar la autenticidad de las pruebas, • introducir formas de autoevaluación que promuevan la motivación y la autonomía del alumno, • aportar información detallada de los resultados de la evaluación. Vemos que coinciden con otros autores, como Bachman y Palmer (1996)33, cuyas propuestas han ido apareciendo a lo largo de este capítulo. Hughes (1989: 47) recomienda a los profesores o responsables de las pruebas que se planteen la siguiente pregunta: “what will be the cost of not achieving beneficial backwash?”, porque el riesgo de que un examen no aporte efectos beneficiosos supone su fracaso y en ningún caso merece la pena. En definitiva, este repertorio de consejos concretos de Hughes y Bailey nos lleva de nuevo a las otras cualidades de las pruebas. Podemos decir que cuando un examen reúne unos mínimos de validez, fiabilidad, carácter práctico e interactivo y 33 Ver las referencias de Bachman y Palmer (1996) al efecto rebote en los apartados 3.6 (sobre la autenticidad) y 3.8.4 (el impacto de las pruebas en los individuos) de este capítulo. Rasgos de las pruebas 131 autenticidad, es muy probable que también produzca efectos beneficiosos en la enseñanza. Concluimos nuestro recorrido por los rasgos o cualidades que toda prueba debe reunir para ser realmente útil, insistiendo en las palabras de Bachman y Palmer (1996: 40), que propician el equilibrio: In designing and developing a test, we try to achieve the optimum balance among the qualities of reliability, construct validity, authenticity, interactiveness, and impact for our particular testing situation. In addition, we must determine the resources required to achieve this balance, in relationship to the resources that are available. Con ellas cerramos este capítulo que consideramos fundamental, pues dentro de la teoría de las pruebas, conocer estos rasgos nos ayuda a optimizar los recursos de que disponemos en el diseño de pruebas de idiomas. Este acercamiento nos permite reflexionar sobre las causas de que algunas pruebas fracasen o tengan éxito. En el capítulo 6 nos ocuparemos de manera más específica y concreta del análisis de los rasgos del C-test. Ya hemos adelantado que en la literatura encontramos opiniones contradictorias; muchos trabajos destacan su validez como instrumento de medida (Klein-Braley 1985, 1997; Connelly 1997; Rashid 2002; Eckes y Grotjahn 2006), mientras que otros la ponen en entredicho (Jafarpur 1995). No obstante, la prueba ha demostrado de forma evidente su carácter interactivo y su factibilidad. Si su uso se enfoca correctamente es muy probable que produzca un efecto beneficioso, tanto al utilizarlo en la evaluación como en las clases de idiomas (como instrumento de aprendizaje). Más adelante, en el capítulo 9 de la Perspectiva Empírica, analizaremos la validez y fiabilidad de la prueba. Su validez aparente se estudiará en el capítulo 12, a partir de los datos del cuestionario de opinión. La evaluación del vocabulario 133 CAPÍTULO 4. LA EVALUACIÓN DEL VOCABULARIO 4.1. Introducción: el vocabulario en la enseñanza de Lenguas Extranjeras Aunque en algunos momentos se infravaloró el papel del vocabulario tanto en la práctica docente como en la investigación lingüística, en los últimos años es evidente un cambio de orientación. Alderson y Bachman (en Read 2000) reconocen su riqueza e importancia dentro de la Lingüística Aplicada; McCarthy (1990) resalta la necesidad del vocabulario para que se lleve a cabo la comunicación; Schmitt y Meara (1997) señalan que la competencia lingüística es mucho más que el manejo de la gramática, y Richards (en Schmitt 2000) insiste en el papel del vocabulario en la adquisición de segundas lenguas y en la formación del profesorado de idiomas. After many years of neglect, the study of vocabulary in applied linguistics is now flourishing. (Alderson y Bachman en Read 2000:ix) No matter how well the student learns grammar, no matter how successfully the sounds of L2 are mastered, without words to express a wider range of meanings, communication in a L2 just cannot happen in any meaningful way. (McCarthy 1990: viii) In the last twenty or so years, there has been a growing realization that total language proficiency consists of much more than just grammatical competence. (Schmitt y Meara 1997:18) Lexical knowledge is central to communicative competence and to the acquisition of a second language. [...] Understanding of the nature and significance of vocabulary knowledge in a second language, therefore needs to play a much more central role in the knowledge base of language teachers. (Richards en Schmitt 2000: xi) El C-test: alternativa o complemento de otras pruebas en ILE 134 Los recientes trabajos de Meara (1996), Schmitt y McCarthy (1997), Laufer y Nation (1995, 1999), Singleton (1999), Schmitt (2000), Read (2000) y Nation (2001), entre otros, han contribuido al desarrollo y auge de este campo. Cada uno de ellos aborda la cuestión del vocabulario desde una perspectiva diferente. Haremos referencia a sus trabajos continuamente a lo largo de este capítulo. El manejo del vocabulario es un prerrequisito para el uso efectivo de la lengua (Read 2000). Según Laufer y Hulstijn (2001: 1): “virtually all second language learners and their teachers are well aware of the fact that learning a second language (L2) involves the learning of large numbers of words”. Los propios docentes son conscientes del papel del vocabulario en la enseñanza de la lengua extranjera y demandan una base teórica que informe su trabajo en el aula. El C-test, objeto de nuestro estudio, ha sido considerado a efectos prácticos como prueba específica de vocabulario (Chapelle 1994; Read 2000; Schmitt 2000), a pesar de que no fue ésta la intención de sus creadores. El diseño, como variación de las pruebas de cierre, pretendía ser un método fiable y válido para medir la competencia general en la lengua (Klein-Braley 1985, 1997) y así ha sido reconocido en la literatura (Hughes 1989; Chapelle y Abraham 1990; Dörnyei y Katona 1992; Connelly 1997; Babaii y Ansari 2001; Wolter 2002; Eckes y Grotjahn 2006). Pero lo cierto es que la prueba ha sido también un instrumento importante en la investigación sobre adquisición del vocabulario en una segunda lengua (Singleton y Little 1991; Chapelle 1994). Su aportación, sus posibilidades, e incluso la controversia que le ha acompañado, nos animan a profundizar en su estudio. Dedicamos un capítulo de esta tesis al rol del vocabulario en el aprendizaje de Lenguas Extranjeras para tener un marco de referencia previo que nos ayude a valorar y clasificar al C-test como prueba de evaluación. En él se abordan algunos de los conceptos que se utilizan después para el análisis de los textos del C-test en el capítulo 9 de la Perspectiva Empírica. En primer lugar, revisaremos la naturaleza y características del vocabulario. Comenzaremos por acotar el concepto de palabra, indagaremos después en los factores que determinan su aprendizaje y en la clasificación de las palabras atendiendo a distintos criterios. Así, distinguiremos entre types y tokens, entre términos funcionales y léxicos, analizaremos después las unidades léxicas de más de una palabra, y veremos los tipos de términos según su frecuencia en la lengua. La evaluación del vocabulario 135 Culminaremos esta primera parte del capítulo con las últimas definiciones del constructo del vocabulario. En segundo lugar, abordaremos cuestiones relativas a su adquisición o aprendizaje. Apuntaremos las diferencias entre la adquisición de la lengua materna y la de una segunda lengua. Enumeraremos algunos rasgos de la adquisición del vocabulario, como su carácter gradual, el papel de la memoria y la dualidad entre incorporación implícita y sistemática de vocabulario. Además presentaremos estrategias para su aprendizaje. Con ello nos internaremos en el tema central de esta tesis: la evaluación. Indagaremos en lo que implica la evaluación del aprendizaje de vocabulario. Haremos un seguimiento histórico de las investigaciones sobre vocabulario. Acabaremos centrándonos en el siglo XX y en las últimas tendencias de Testing Vocabulary (cómo y qué miden las pruebas de vocabulario, tipos, C-test). Los exámenes de vocabulario han tenido una doble vertiente; se han utilizado tanto con fines académicos como en la investigación. En cada caso el diseño depende del propósito de la prueba. Veremos también algunos ejemplos de pruebas estandarizadas de vocabulario. Por último, analizaremos las pruebas de vocabulario más comunes en el contexto de la enseñanza de lenguas extranjeras. Las clasificamos en tres grandes grupos: pruebas de elementos discretos, holísticas y de cierre. Entre las pruebas de elementos discretos citamos las de elección múltiple, las asociaciones, la traducción y las listas de reconocimiento de vocabulario. En las de tipo holístico hacemos referencia a la redacción. En cuanto a las de cierre, haremos una clasificación básica para situar al C-test o prueba C. A continuación, el capítulo 5 profundiza en las pruebas de cierre y el 6 se centra en el C-test. La riqueza y amplitud del campo de la evaluación del vocabulario es obvia, no obstante, por razones de espacio, simplemente esbozamos los aspectos que resultan más pertinentes para el estudio que aborda esta tesis. El C-test: alternativa o complemento de otras pruebas en ILE 136 4.2. Naturaleza del vocabulario Este apartado parte del concepto de palabra y sus tipos, atendiendo a distintos criterios de clasificación. Aborda también los grados y tipos de conocimiento de una palabra y cuestiones relativas a la adquisición o aprendizaje del vocabulario. 4.2.1. Concepto de palabra Desde un punto de vista operativo, en esta tesis consideraremos la “palabra” como elemento unitario que puede expresar un concepto. Dejamos para estudios posteriores otras aproximaciones teóricas al concepto de palabra, conscientes de la dificultad que implica su definición, como señala Bogaards (2000: 491): “As is well- known, the concept of “word” has never been very clear in linguistic theory, although many different definitions have been given”. Carter (1987: 4) propone una definición de palabra basada exclusivamente en el aspecto externo: “a word is any sequence of letters (and a limited number of other characteristics such as hyphen and apostrophe) bound on either side by a space or punctuation mark”. El criterio ortográfico es claro e intuitivo, pero insuficiente. La literatura muestra que no es tan fácil acotar los límites del concepto de palabra atendiendo a otros criterios34. Partiendo de la definición de Carter (1987) llegamos a otras más amplias que incluyen a collocations y chunks of words como unidades léxicas formadas por grupos de palabras que transmiten un significado y que también forman parte del vocabulario de una lengua. Schmitt (2000) nos enfrenta ya desde la introducción de su libro Vocabulary in Language Teaching con los problemas que plantea el concepto de palabra. Muestra a modo de ejemplo un grupo de sinónimos del verbo “die”. Todos comparten 34 Alcina y Blecua (1982: 201) definen el concepto de palabra como “la secuencia de sonidos formada por uno o más morfemas que puede ser aislada por conmutación”. Bello (1984) insiste más en el aspecto léxico-cognitivo “cada palabra es un signo que representa por sí solo una idea o pensamiento”. La evaluación del vocabulario 137 aproximadamente el mismo significado, pero algunos están formados por una sola palabra y otros son unidades de más de una (phrasal verbs e idioms, tales como pass away, bite the dust, etc.). Es evidente que no siempre una sola palabra se corresponde directamente con un significado. Las unidades significativas de más de una palabra reciben múltiples denominaciones en inglés: lexemes, lexical units o lexical items (Schmitt 2000: 2), multi-word items, etc. Volviendo a la palabra como elemento unitario, veremos su estructura interna35. Las palabras están formadas por la raíz o lexema y los morfemas. El morfema es la unidad mínima significativa. La raíz aporta significado léxico y los morfemas información gramatical. En inglés los morfemas son el plural, la tercera persona del singular en presente simple, la forma –ing, el pasado simple y el participio pasado, el caso posesivo y las formas que expresan los grados de comparación del adjetivo (Bauer y Nation 1993). Así pues, una misma palabra puede aparecer en la lengua de varias formas; los nombres en singular y/o plural, los verbos en los distintos tiempos, etc. Para el estudio del vocabulario se considera que cada palabra, esto es, su raíz más los distintos morfemas (inflections) posibles, es un lemma. Generalmente el lemma es la unidad que sirve como base para el recuento de palabras de una lengua en los corpora, como vemos en el Brown Corpus de Francis y Kucera (1982). Además, tenemos que contar con la derivación. Los distintos prefijos y sufijos que añadimos a la raíz nos permiten formar familias de palabras: “if the affixes change the word class of a stem, the result is a derivative” (Schmitt 2000: 2). Los expertos se plantean hasta qué punto las palabras que forman una familia no constituyen también una unidad. Como veremos a continuación, generalmente la estimación de la amplitud del vocabulario de los hablantes, nativos o no, se hace tomando como unidad de referencia la familia de palabras. Fenómenos como la polisemia, sinonimia y homonimia (homófonos y homógrafos) complican aún más el concepto de palabra porque impiden la correspondencia directa forma-concepto o significante-significado. El estudio detallado de los mismos escapa a los objetivos de nuestro trabajo. 35 Alarcos (1994: 59) define: “La palabra suele ser una combinación de dos o más signos: uno, a cuyo significante llamamos raíz y cuyo significado hace una referencia léxica, y otro, que llamamos desinencia o terminación, que alude a los valores gramaticales o morfológicos de la palabra”. El C-test: alternativa o complemento de otras pruebas en ILE 138 4.2.1.1. Amplitud del vocabulario Atendiendo a la cierta ambigüedad del concepto de palabra expuesta en el apartado anterior, surgen dudas al determinar la amplitud del vocabulario que conoce un hablante. De hecho, las cifras que aportan los distintos autores difieren mucho dependiendo de su aproximación al concepto de palabra; unos consideran como unidad a cada palabra individual, cada lemma, otros cada familia36. Interesa concretar estos términos para poder conocer a efectos prácticos cuántas palabras hay en un idioma, cuántas sabe un hablante nativo y cuántas aproximadamente debe conocer una persona que aprende la lengua para manejarse en ella, ya que “Learner´s vocabulary size has serious implications for every day oral and written communication and academic success“ (Lee 2003: 551). En el caso de la lengua inglesa tomamos la estimación de Nation (2001) según la cual el Webster´s Third New International Dictionary contiene unas 114.000 familias de palabras. Para llegar a ella Goulden, Nation y Read (1990) actuaron de la siguiente forma: “In the process, we deleted derived forms, proper names, compound nouns, abbreviations, affixes and various other non-base items” (Read 2000: 19). Sabemos que ni siquiera los hablantes nativos de una lengua conocen todo su vocabulario. Los estudios más recientes y fiables coinciden en señalar que el hablante inglés nativo con una educación media universitaria conoce unas 20.000 familias de palabras, sin incluir los nombres propios: “Recent reliable studies (Goulden, Nation and Read, 1990); Zechmeister, Chronis. Cull, D’Ana and Healy, (1995) suggest that educated native speakers of English know around 20,000 word families” (Nation 2001: 9). El vocabulario de una lengua se caracteriza por su dinamismo, está en constante cambio y crecimiento (Andrés Cortés 2004). La creación de palabras nuevas atiende a los cambios de la sociedad y de la ciencia. La existencia de conceptos nuevos impulsa la generación de términos nuevos. Según los expertos, durante los primeros años de vida el hablante inglés nativo añade a su vocabulario aproximadamente 1000 familias de palabras al año. 36 Goulden, Nation y Read (1990: 342) indican esta disparidad en las cifras que aportan las investigaciones de amplitud del vocabulario “The most notable feature of these investigations is the enormous divergence among the results. The various estimates [...] range from 3000 words to 216000 words”. La evaluación del vocabulario 139 Después el ritmo decrece, pero sigue incorporando palabras nuevas al vocabulario durante toda la vida. 4.2.2. Grado de conocimiento de una palabra Aunque a primera vista podría pensarse que saber una palabra es algo obvio, el conocimiento de una palabra no es unidimensional, sino que tiene muchos grados y facetas. Saber una palabra es algo más complejo que conocer su significado. No nos podemos limitar a la imagen tradicional de aprender vocabulario exclusivamente memorizando una larga lista de palabras y su traducción. En primer lugar, porque no siempre hay una correspondencia unívoca entre palabra y concepto. Además, porque el contexto que las rodea influye en su significado. Richards (1976), Bogaards (2000), Nation (2001), Laufer et al. (2004), entre otros, estudiaron las dimensiones del conocimiento de la palabra y concluyeron que saber una palabra implica conocer su significado/s, pero también su forma y cómo funciona en la lengua, es decir, su uso, pues las palabras no son unidades aisladas. Some researchers (Richards 1976; Ringbom 1987; Nation 1990; 2001) claim that knowing a word involves a range of interrelated sub-knowledges such as morphological and grammatical knowledge and knowledge of word meanings. (Laufer et al. 2004: 203) Para describir lo que implica saber una palabra, Richards (1976) partió de la premisa de que el hablante nativo continúa incorporando vocabulario nuevo durante toda su vida, mientras que su competencia gramatical permanece estable. En el acercamiento de Richards se basó Nation (1990), que en su primera clasificación distinguía hasta ocho aspectos para determinar el conocimiento ideal de un término37: significado, forma escrita y oral, comportamiento gramatical, collocations, registro, asociaciones y frecuencia de uso de la palabra. Y cada 37 En esta tesis se utiliza indistintamente palabra y término. Entendemos que palabra es la unidad de la lengua general frente al término como unidad de las lenguas de especialidad. Pero, a efectos prácticos, no consideramos pertinente la distinción en nuestro trabajo. Quizá deberíamos simplemente hablar de unidad léxica como entidad más abstracta (Cabré y Adelstein 2001). El C-test: alternativa o complemento de otras pruebas en ILE 140 aspecto con la dualidad receptivo-productivo, ya que, como veremos, no es lo mismo entender una palabra que ser capaz de utilizarla. Posteriormente Nation (2001) reestructuró los componentes del conocimiento de una palabra en torno a los tres aspectos que conlleva; esto es, su forma, su significado y su uso, en ambas facetas: receptiva y productiva. Tabla 4.1. Componentes del conocimiento de una palabra (Nation 2001: 26) Components of word knowledge (Nation 1990: 31) __________________________________________________________________ Form Spoken form R What does the word sound like? P How is the word pronounced? Written form R What does the word look like? P How is the word written and spelled? Position: Grammatical patterns R In what patterns does the word occur? P In what patterns must we use the word? Collocations R What words or types of words can be expected before or after the word? P What words or types of words must we use with this word? Function: Frequency: R How common is the word? P How often should the word be used? Appropriateness R Where would we expect to meet this word? P Where can this word be used? Meaning: Concept R What does the word mean? P What word should be used to express this meaning? Associations R What other words does this word make us think of? P What other words could we use instead of this one? ________________________________________________________________________________ Key: R = receptive; P = productive No obstante, Schmitt (1998), Meara (1996) y Read (2000) comparten la preocupación por la posibilidad de la aplicación práctica de este marco a las pruebas de evaluación del vocabulario. Veamos la reflexión de Meara (1996: 46): “It might be possible in theory to construct measures of each of these types of knowledge of La evaluación del vocabulario 141 particular words; in practice, it would be very difficult to do this for more than a handful of items”. Por ello se inclinan más hacia el diseño de pruebas que midan la competencia global o la amplitud del vocabulario que maneja el alumno que hacia el grado de conocimiento de las palabras concretas o aisladas, en consonancia con las premisas del movimiento comunicativo, como veremos en apartados posteriores. 4.2.2.1. Learning burden Entendemos learning burden como la dificultad que presentan las palabras para ser aprendidas. Es obvio que no todas las palabras requieren el mismo esfuerzo para su aprendizaje. Si por algún motivo el hablante está familiarizado con ellas, la dificultad disminuye (Nation 2001: 24). The general principle of learning burden (Nation, 1990) is that the more a word represents patterns and knowledge that learners are already familiar with, the lighter its learning burden. Y los modelos pueden ser tanto de la lengua nativa como de cualquier otro tipo de conocimiento (background) que tenga el hablante. En general, cuando la lengua materna está relacionada con la lengua extranjera, el aprendizaje de ésta requiere menor esfuerzo. El grado de dificultad de las palabras para ser aprendidas también tiene que ver con otros aspectos, como su categoría gramatical, su fonética, etc. Schmitt (2000: 148) agrupa los factores en intraléxicos y factores que dependen de la comparación entre distintas lenguas: “Factors can be related to the word itself (intralexical factors), or they can involve how well the learner’s L1 matches the L2 (crosslinguistic factors)”. En el apartado 4.3.6 de este capítulo desglosamos algunos de ellos con mayor detalle. Veremos, por ejemplo, que algunos estudios (Ellis y Beaton 1993) muestran que es más fácil retener los nombres que otros tipos de palabra, probablemente por la mayor facilidad para formar imágenes mentales a partir de ellos. Otros autores El C-test: alternativa o complemento de otras pruebas en ILE 142 (Laufer 1997), sin embargo, cuestionan esta idea. En cuanto al aspecto fonético, las palabras difíciles de pronunciar tardan más en aprenderse (Ellis y Beaton 1993). Schmitt (2000) y Nation (2001) resaltan la función del profesor como “facilitador” del aprendizaje. Aplicando esta idea a la enseñanza del vocabulario, podemos decir que es tarea del profesor aligerar el learning burden de las palabras y facilitar su aprendizaje buscando estrategias, por ejemplo, analogías dentro de la lengua objeto de estudio y resaltando también las posibles conexiones entre ambas lenguas L1 y L2. Siguiendo a Nation (2001: 24): Teachers should be able to estimate the learning burden of words for each of the aspects of what is involved in knowing a word, so that they can direct their teaching towards aspects that will need attention and towards aspects that will reveal underlying patterns so that later learning is easier. No obstante, los alumnos presentan grandes diferencias individuales en cuanto a la destreza o capacidad para incorporar vocabulario en una lengua extranjera y el docente debe conocer las características peculiares de cada uno para ayudarles en el proceso de aprendizaje de vocabulario38. 4.2.2.2 Conocimiento receptivo y productivo Cuando somos capaces de reconocer y comprender una palabra tenemos un conocimiento receptivo de la misma. Si además podemos utilizarla, oralmente o por escrito, nuestro conocimiento pasa a ser productivo: “It is the difference that we are all familiar with between being able to recognise a word when you hear or see it and being able to use it in your own speech or writing” (Read 2000:26). La visión tradicional consideraba que el vocabulario receptivo pasaba después a productivo. Esta interpretación secuencial ha sido cuestionada. Hatch y Brown (1995) y Melka (1997), consideran que conocimiento receptivo y productivo son los dos extremos de un continuo. Waring (1998) sugiere que pueden incluso solaparse. 38 Cook (1996: 95-117) desglosa las diferencias individuales en distintos tipos de motivación, edad, rasgos de la personalidad, aptitud, capacidad para aplicar estrategias de aprendizaje, etc. Nation (2001) y Laufer y Hulstijn (2001: 1) también mencionan la motivación, que “promotes success and achievement in L2 learning”. La evaluación del vocabulario 143 Los estudios (Read 2000; Laufer et al. 2004) coinciden en señalar que la producción lingüística es más difícil que la recepción o reconocimiento; pues supone un paso más en el conocimiento de una palabra: “A learner’s passive vocabulary is always larger than his or her active vocabulary. This indicates that many words are first acquired passively, and that active knowledge is a more advanced type of knowledge” (Laufer et al. 2004: 208). Esto se debe a diversos factores; en primer lugar, porque requiere un aprendizaje extra más preciso de la forma (oral o escrita) de la palabra. Además las actividades de tipo receptivo (reading, listening) generalmente se practican más que las productivas (writing, speaking) porque el aprendizaje receptivo se considera base suficiente para el productivo. Sin embargo, los estudios experimentales muestran claramente que es necesario un aprendizaje específico de las destrezas productivas para poder después utilizarlas. A continuación reproducimos el cuadro de Laufer et al. (2004) que clasifica los grados de conocimiento léxico teniendo en cuenta las tareas que es capaz de realizar el alumno. Se basa en la dicotomía forma-significado y reconocimiento- producción. Tabla 4.2. Types of vocabulary knowledge (Laufer et al. 2004: 206) Recall Recognition Active (Productive) (retrieval of form) Active recall Active recognition Passive (Receptive) (retrieval of meaning) Passive recall Passive recognition Autores como Meara (1990), Laufer (1998) y Laufer et al. (2004) utilizan los términos passive y active en lugar de receptive y productive. En la literatura se usan ambas nomenclaturas indistintamente, no obstante la denominación active/passive ha sido criticada. El argumento es que cualquier destreza lingüística, incluso las de tipo receptivo, implica actividad por parte del sujeto. En español suelen aparecer los términos vocabulario activo y pasivo como sinónimos de receptivo y productivo. El C-test: alternativa o complemento de otras pruebas en ILE 144 La distinción entre estos dos tipos de conocimiento del vocabulario tiene especial importancia en el diseño de pruebas de evaluación. Algunas pruebas pretenden medir el vocabulario receptivo y otras el productivo. Como hemos visto, varía el grado de profundidad del conocimiento de la palabra. El C-test no se limita al reconocimiento pasivo del vocabulario, como ocurre con las pruebas de elección múltiple, sino que exige la producción activa por parte del sujeto. 4.2.2.3. Collocations El conocimiento de una palabra también supone saber junto a qué otras palabras suele aparecer en la lengua. Para expresarnos en un idioma memorizamos secuencias de palabras de distinto tipo y longitud. Y así, facilitamos el aprendizaje: Each [collocation]... must or should be learnt, or is best or most conveniently learnt as an integral whole or independent entity, rather than by the process of piecing together their component parts. (Palmer 1933: 4 en Nation 2001: 317) El caso extremo de fixed collocation son los multi-word items. El apartado 4.2.3.3 está dedicado a las unidades léxicas de más de una palabra e incluye una clasificación de las mismas. 4.2.3. Tipos de palabras Podemos clasificar las palabras atendiendo a diversos criterios. Pero, en esta tesis nos ceñiremos a las clasificaciones que son de especial interés para nuestro trabajo con el C-test. Puesto que nos informa de la variación léxica de los textos, hacemos una primera distinción entre types y tokens. En segundo lugar, atendiendo al tipo de información que aportan las palabras, vemos la diferencia entre términos funcionales y léxicos. La proporción de los mismos en un texto resulta fundamental para conocer su densidad léxica. Por otro lado, revisamos los tipos de unidades significativas formadas por más de una palabra, tan comunes en la lengua inglesa. Y para La evaluación del vocabulario 145 terminar, aportamos la clasificación de las palabras según su frecuencia en la lengua de Nation (2001), de ella surgen algunas implicaciones metodológicas para la enseñanza del vocabulario. 4.2.3.1. Types y tokens Cuando nos enfrentamos a un texto y contamos las palabras que lo forman debemos que tener en cuenta la distinción entre types y tokens. Puesto que no existe un equivalente en castellano, preferimos mantener los términos ingleses, que explicamos a continuación. Token es cada una de las palabras individuales que forman el texto o el discurso, es decir, en un texto el número de tokens equivale al número total de palabras. Aunque una palabra aparezca repetida varias veces en el texto, se cuentan todas y cada una de ellas. También se les llama running words. Types, sin embargo, son las palabras diferentes de que consta el texto. La proporción entre types y tokens nos indica la variación léxica. Read (2000: 18) indica la utilidad de esta medida: “The relative proportions of types and tokens (known as the type-token ratio) is a widely used measure of the language development of both language learners and native speakers”. Conocer la variación léxica de un texto escrito es parte importante de su análisis. En el capítulo 9 se manejan estos conceptos en el análisis de los textos que forman el C-test aplicado: número total de palabras, densidad y variación léxicas, etc., para comprobar cómo afectan las características textuales a la prueba. 4.2.3.2. Términos léxicos y funcionales Una segunda distinción clasifica las palabras atendiendo al tipo de información que aportan. Las que aportan información de tipo gramatical se denominan términos funcionales, function words: preposiciones, artículos, pronombres, verbos auxiliares, El C-test: alternativa o complemento de otras pruebas en ILE 146 conjunciones, etc. Read (2000: 18) considera que este tipo de palabras pertenecen más a la gramática que al vocabulario de la lengua. Suponen un número muy limitado de ítems en cada lengua. Sin embargo, algunas son palabras de alta frecuencia, que se repiten mucho en el discurso (véase types y tokens en el apartado anterior y palabras muy frecuentes en el 4.2.3.4). Las palabras que aportan un contenido léxico, o palabras llenas, se denominan en inglés content words o lexical items. Son los nombres, adjetivos, adverbios y los verbos con contenido léxico39. La proporción entre palabras funcionales y de contenido léxico muestra la densidad léxica del texto. Como hemos mencionado en el apartado anterior, tanto la variación léxica como la densidad son aspectos importantes en el análisis de los textos escritos y, en el caso del C-test, se comprobará que inciden directamente en el grado de dificultad de la prueba (véase el capítulo 9). Siguiendo un criterio operativo, la mayor parte de los estudios sobre el vocabulario de una lengua se centran en los términos con contenido léxico. También son el objetivo de las pruebas de vocabulario, como indica Read (2000: 18): “Generally speaking, when we set out to test vocabulary, it is knowledge of content words what we focus on”. Sin embargo, por su diseño, el C-test mide indistintamente la recuperación de ambos tipos de palabras: funcionales y con contenido léxico. De hecho, la hipótesis 3 de nuestro trabajo plantea qué tipo de términos se recuperan mejor y cómo afecta esto a los resultados obtenidos en la prueba. En inglés, ciertos términos funcionales, tales como a, to, the, and, in, that, etc. son muy breves y tienen una gran frecuencia de aparición. Por tanto, cualquier tarea cuya base sea un texto con mayor carga de este tipo de términos ha de presentar también menor grado de dificultad para el alumno. Así pues, a priori parece razonable pensar que su recuperación en el C-test sea más fácil que la de los términos léxicos. Sin embargo, más adelante veremos que, además del tipo de término, léxico o funcional, el tamaño y frecuencia en la lengua inciden en la recuperación de los términos omitidos en el C-test. 39 Alarcos (1994) clasifica las palabras en autónomas o independientes y dependientes. Las autónomas pueden cumplir por sí solas una función y coinciden con las cuatro clases de palabras con contenido léxico; esto es, verbos, sustantivos, adjetivos y adverbios. Las dependientes son las que sirven para marcar las relaciones entre ellas (preposiciones, conjunciones, etc.). La evaluación del vocabulario 147 4.2.3.3. Unidades léxicas de más de una palabra En el apartado 4.1 hemos señalado que el vocabulario de una lengua también incluye unidades léxicas formadas por más de una palabra. Moon (1997) define: A multi-word item is a vocabulary item which consists of a sequence of two or more words (a word being simply an orthographic unit). [...] Multi-word items are the result of lexical (and semantic) processes of fossilisation and word-formation, rather than the results of the operation of grammatical rules. (En Schmitt y McCarthy 1997: 43) En lengua inglesa no existe una única terminología comúnmente aceptada para designar a estas unidades; que incluyen desde los idioms y phrasal verbs hasta las palabras compuestas, o expresiones fijas lexicalizadas. Nos referiremos a ellas como “unidades léxicas de más de una palabra”, o bien manteniendo la expresión inglesa multi-word items. Para identificar estas unidades en la lengua Read (2000) sugiere dos posibilidades; la tradicional que consiste en confiar en la intuición de los hablantes nativos, o bien la más actual que permite utilizar el software existente para buscarlas en los distintos corpus computerizados. Los multi-word items se caracterizan por ser grupos relativamente fijos (son unidades significativas, pero su significado no equivale a la suma de los significados de las palabras aisladas que lo forman) y por resultarnos familiares, ya que algunas de ellas se utilizan mucho en la comunicación diaria. Aunque también tienen una función pragmática, se reconocen como unidades de significado, por eso se consideran parte del vocabulario del inglés. Pero por sus características plantean dificultades al alumno a la hora de aprenderlas y al profesor al buscar los medios para evaluarlas. Moon (1997: 57) reconoce esta dificultad: “Their non-compositionality, whether syntactic, semantic or pragmatic in nature, means that they must be recognised, learned, decoded and encoded as holistic units”. Y cita la recomendación de Baker y McCarthy (1988: 32) para los profesores: “The more naturally MWUs are integrated into the syllabus, the less “problematic” they are”. Es evidente que son muy numerosas en inglés y que en muchos casos no están claramente delimitadas. Lo cierto es que los hablantes nativos las utilizan con El C-test: alternativa o complemento de otras pruebas en ILE 148 gran frecuencia y los que aprenden Inglés como Segunda Lengua o Lengua Extranjera las incorporan a su vocabulario productivo/activo en mayor cantidad a medida que aumenta su competencia y fluidez en la lengua. No obstante, los estudios de vocabulario tradicionalmente se han fijado más en las palabras como entidades individuales, y las pruebas de evaluación, en elementos discretos. Hay diferentes marcos para clasificar las multiword-items. Con la debida cautela, puesto que algunas expresiones o categorías pueden solaparse, mostramos la clasificación que propone Moon (1997: 43-48), muy completa e ilustrativa: 1. Compounds: Son los compuestos por más de una palabra: car park, dark- haired, etc. Schmitt (2000: 99) define: “Compounds are created when two or more words are combined to make a single lexeme. This lexeme can be written as multiple orthographic words, hyphenated words, or as a single orthographic word”. 2. Phrasal verbs: Combinaciones de verbos y adverbios o preposiciones, típicas de la lengua inglesa. 3. Idioms: Forman el grupo más complejo, “they have holistic meanings which cannot be retrieved from the individual meaning of the component words. [...] Idioms are typically metaphorical in historical or etymological terms” (Moon 1997). 4. Fixed phrases: Son otros grupos de palabras fijos, institucionalizados y frecuentes en la lengua, tales como of course, excuse me, how do you do?. También incluye los refranes. 5. Prefabs: “Prefabs are preconstructed phrases, phraseological chunks, stereotyped collocations, or semi-fixed strings which are tied to discoursal situations and which form structuring devices.” Los prefabs de Moon toman el nombre de lexical phrases en el marco propuesto por Nattinguer y DeCarrico (1992), y se subdividen en: 1 Polywords: grupos cortos de palabras, fijos y con una función concreta, como for the most part, so to speak, at any rate, etc. La evaluación del vocabulario 149 2 Institutionalised expressions: grupos más largos como los refranes, proverbios, fórmulas sociales: How do you do?, Once upon a time, etc. 3 Phrasal constraints: frases que tienen una estructura básica con huecos en que se pueden insertar elementos distintos: a [day/year/week] ago, etc. 4 Sentence builders: que sirven como marco para toda una oración, como por ejemplo I think that [...], not only [...] but also [...], etc. Las pruebas holísticas, esto es integradoras, y contextualizadas son las que mejor pueden medir el manejo de estas unidades significativas formadas por varias palabras (Read 2000: 21ss.). El C-test es una prueba que participa de características de las pruebas de elementos discretos pero también presenta rasgos propios de las holísticas. No obstante, por las características de su diseño, no mide específicamente el conocimiento de las unidades léxicas formadas por más de una palabra, sino la recuperación de las palabras como entidades unitarias. Ahora bien, puesto que se trata de una prueba contextualizada, podemos decir que sí lo hace de manera implícita. Conocer este tipo de unidades facilita la labor de inferencia del alumno. 4.2.3.4. Tipos de términos según su frecuencia en la lengua La frecuencia de uso de una palabra condiciona el almacenamiento y procesamiento léxico (Graña López 1997). Bybee (1995: 232) introduce la noción de fuerza léxica de una palabra, que viene dada por la frecuencia de su procesamiento. Cada vez que se procesa una palabra se refuerza la representación mental existente y, por tanto, su aprendizaje. Teniendo en mente la enseñanza y aprendizaje de vocabulario, Nation (2001: 9-21) muestra un ejemplo práctico de análisis del vocabulario de un texto académico en lengua inglesa. Este análisis sirve como punto de partida para distinguir cuatro tipos de vocabulario atendiendo a su frecuencia de aparición y uso en la lengua. Y las implicaciones pedagógicas son claras. El C-test: alternativa o complemento de otras pruebas en ILE 150 4.2.3.4.1. Términos muy frecuentes Las palabras de alta frecuencia de uso en la lengua incluyen tanto términos léxicos como funcionales. Los términos funcionales son un número limitado y conocido (a, the, in, for, of, etc.). Pero el análisis de textos revela que también determinados términos léxicos aparecen repetidos con frecuencia. Michael West (1953) cifró el número de palabras muy frecuentes en 2000 familias de palabras. De ellas, unas 165 son funcionales y el resto léxicos o content words. Aunque hay otras listas de frecuencia más recientes, los datos que aportan son muy semejantes (Nation and Hwang 1995). Nation (2001) concluye que casi el 80% de las palabras de una lengua son palabras muy frecuentes. A continuación, la tabla de Nation (2001: 17) muestra la proporción de las 2000 palabras más frecuentes en inglés en distintos tipos de texto. Tabla 4.3. Proporción de las palabras más frecuentes en inglés en distintos tipos de texto Text type and text coverage by the most frequent 2000 words of English and an academic word list in four different kinds of texts Levels Conversation Fiction Newspapers Academic text 1st 1000 84.3% 82.3% 75.6% 73.5% 2nd 1000 6% 5.1% 4.7% 4.6% Academic 1.9% 1.7% 3.9% 8.5% Other 7.8% 10.9% 15.7% 13.3% Esto implica que el aprendizaje de una lengua no requiere memorizar largas listas de palabras, al menos en los estadios iniciales. Por otra parte, facilitar y asegurar el aprendizaje de las palabras más frecuentes merece todo el esfuerzo por parte del profesor: The words are a small enough group to enable most of them to get attention over the span of a long-term English programme. This attention can be in the form of direct teaching, direct learning, incidental learning, and planned meetings with the words. The time spent on them is well justified by their frequency, coverage and range. […] In general, high-frequency words are so important that anything that teachers and learners can do to make sure that they are learned is worth doing. (Nation 2001: 16) La evaluación del vocabulario 151 Con esta idea, Nation (2001) aporta ideas para la enseñanza de este tipo de palabras tan rentables en la lengua: Tabla 4.4. Métodos de enseñanza de las palabras muy frecuentes (Nation 2001: 16) Ways of learning and teaching high-frequency words Direct teaching Teacher explanation Peer teaching Direct learning Study from word cards Dictionary use Incidental learning Guessing from context in extensive reading Use in communication activities Planned encounters Graded reading Vocabulary exercises Igualmente, es importante que el profesor disponga de instrumentos de evaluación prácticos, válidos y fiables que le informen del progreso de los alumnos en el aprendizaje del vocabulario muy o poco frecuente. Para ello se han diseñado distintas pruebas, como The Vocabulary Levels Test (Laufer and Nation 1995, 1999). 4.2.3.4.2. Términos académicos Constituyen el vocabulario formal o especializado que se usa habitualmente; términos semi-técnicos o divulgativos. Puede suponer casi un 10 % en los textos académicos. Para las personas que se enfrentan al uso del inglés como segunda lengua o lengua extranjera en contextos académicos, existe una lista: Academic Word List (Coxhead 1998). Enumera 570 familias de palabras frecuentes en el mundo académico sin estar restringidos exclusivamente a un campo de estudio. El C-test: alternativa o complemento de otras pruebas en ILE 152 4.2.3.4.3. Términos técnicos El vocabulario técnico es el específico de un tema o ciencia. Depende directamente del tema del texto. Es aproximadamente un 5% del total de las palabras de un texto académico. La mayor parte de este tipo de vocabulario sólo tiene sentido en el contexto científico en que se estudia. A menudo se utilizan palabras frecuentes en otros contextos, pero que adquieren un nuevo significado en ese campo específico. 4.2.3.4.4. Términos poco frecuentes El 5% restante correspondería a nombres propios, palabras raras, y a palabras que también se usan con frecuencia, pero que no entran en las listas de las consideradas más frecuentes. El límite entre las palabras muy frecuentes y las de baja frecuencia es arbitrario. En contextos muy concretos nombres propios o palabras raras se pueden convertir en palabras frecuentes. En cuanto a la enseñanza de estas palabras poco frecuentes, el profesor debe centrarse más en el desarrollo de estrategias para su manejo (guessing from context clues, using word parts to help remember words, using vocabulary cards and dictionaries) que en las palabras concretas. La incorporación de palabras nuevas a su vocabulario es tarea del alumno. En el C-test las omisiones incluyen todo tipo de términos en cuanto a su frecuencia. Sólo los nombres propios, las cifras y las palabras de una sola letra quedan intactos. En los dos primeros casos la recuperación sería imposible sin un conocimiento previo del texto, y en el tercero, evidente. Con la intención de evitar en los C-tests los términos excesivamente fáciles por su alta frecuencia de aparición (casi siempre coincidiendo con palabras funcionales) y los demasiado difíciles (como los técnicos o muy poco frecuentes), Jafarpur (1999) propuso la creación de C-tests a la medida. Este intento, que comentaremos con mayor detalle en el capítulo 6, no consiguió mejorar la prueba. La evaluación del vocabulario 153 4.2.4. Últimas definiciones del constructo del vocabulario Actualmente, el constructo del vocabulario se puede entender como elemento discreto o bien integrado en la competencia lingüística general. Bachman y Palmer (1996) consideran que el vocabulario es parte de la competencia lingüística (embedded). Sin embargo, Chapelle (1994) lo define como un constructo discreto. Nos detenemos en el modelo de competencia léxica de Chapelle por ser un marco centrado precisamente en el vocabulario que ofrece claves importantes para el para el diseño de pruebas. Read (2000: 35) valora su aportación de este modo: “While not seeking to isolate it from other language abilities, Chapelle has highlighted the broad role that vocabulary plays in language competence and performance”. La definición de competencia léxica -vocabulary ability de Chapelle se basa en el marco de competencia lingüística general propuesto por Bachman (1990) e incluye “both knowledge of language and the ability to put language to use in context” (Chapelle 1994: 163). Para Chapelle la competencia léxica está formada por tres componentes: 1. El conocimiento del vocabulario y sus procesos, 2. el contexto, 3. y las estrategias cognitivas para su uso. La autora distingue cuatro dimensiones del conocimiento del vocabulario: - La amplitud del vocabulario, - el conocimiento de las características de cada palabra, - la organización del léxico, - los procesos fundamentales del vocabulario. El segundo componente es el contexto. No se refiere solo a la oración en la que aparece la palabra cuyo conocimiento queremos medir, ni siquiera al texto en que se inserta, como en los clozes. Incluye también lo que Bachman llama pragmatic knowledge; la situación cultural o social influye en el significado de las palabras. Dentro del contexto Read (2000) cita además las diferencias entre situaciones El C-test: alternativa o complemento de otras pruebas en ILE 154 coloquiales y formales (registros), entre las distintas generaciones, las variedades de una lengua, etc. Chapelle (1994: 64) propone tres elementos para analizar la situación social en que se utiliza la lengua: field, tenor y mode. Field se refiere al tipo de actividad que desarrolla el hablante, tenor al estatus de los participantes en la comunicación y a la relación interpersonal que tienen, y mode al canal (oral, escrito). Las estrategias metacognitivas para el uso del vocabulario constituyen el tercer componente que señala el modelo de Chapelle. Bachman (1990) lo denomina competencia estratégica. Son las estrategias que todo hablante maneja, de forma más o menos consciente, para utilizar el vocabulario en la comunicación. Cuando se aprende una lengua extranjera estas estrategias se hacen aún más necesarias. En la producción se usan estrategias de acomodación, como la simplificación léxica y el avoidance; esto es, evitar utilizar los términos que nos plantean problemas porque no los conocemos bien, etc. En las destrezas receptivas, cuando encontramos palabras desconocidas, se aplican otras estrategias como la búsqueda en el diccionario, la consulta a otra persona, seguir la lectura a pesar de no entender alguna palabra, deducir a partir del contexto, etc. La experiencia nos muestra que, ante un término desconocido, aplicamos cualquiera de las estrategias mencionadas, la elección depende de las características personales, la situación, etc. No tiene porqué ser una sola, con frecuencia se entremezclan. Queremos resaltar la importancia del manejo de una de ellas; la utilización de las claves contextuales para deducir aquellos ítems de vocabulario que desconocemos. Es una estrategia muy rentable, sobre todo para la realización de pruebas de vocabulario, especialmente en los clozes y el C-test. Tanto que Nation recomienda que se enseñe como tal en las clases. 4.3. Adquisición y aprendizaje de vocabulario Antes de desarrollar este apartado haremos una aclaración previa sobre la terminología utilizada. Tradicionalmente se consideraba que la adquisición era un La evaluación del vocabulario 155 proceso subconsciente relacionado con la lengua nativa, frente a la conciencia que requiere el aprendizaje de una segunda lengua. Aunque algunas voces piden que se mantenga tal distinción, al menos en el plano teórico (Thatcher 2000), la tendencia actual más respaldada es considerar que ambos procesos requieren conciencia en mayor o menor grado y, por tanto, la distinción no es pertinente (Ellis 1985; Laufer 1997). En nuestro trabajo utilizamos indistintamente los términos adquisición y aprendizaje para referirnos a los procesos conscientes o inconscientes de interiorización de los conocimientos lingüísticos, salvo cuando sea necesario precisar. En la literatura, como en el título de este apartado, a menudo forman parte del mismo enunciado (Ellis 1985). A pesar de que se han propuesto modelos para describir el proceso de adquisición del vocabulario, no existe aún una teoría global que permita entenderlo completamente. En este campo, la Lingüística necesita las aportaciones de otras ciencias, como la Psicología cognitiva y la Neurología. También sería enriquecedora la colaboración entre el campo de la adquisición de segundas lenguas y el de la evaluación (Shohamy 2000). Es evidente que los seres humanos somos capaces de incorporar a nuestro vocabulario miles de palabras. A simple vista sorprende la cantidad de palabras que maneja un hablante nativo. Y aún más en el caso de las personas que aprenden una lengua extranjera. En ambos casos la adquisición de vocabulario se lleva a cabo principalmente de dos formas complementarias entre sí: mediante la incorporación sistemática de palabras nuevas (explicit learning) o con el aprendizaje implícito (incidental learning), a medida que nos las encontramos (Read 2000)40. No obstante, la adquisición de la lengua materna y de una lengua extranjera difieren mucho. Nation (1995) es consciente de que todavía quedan muchas preguntas sin respuesta y un amplio campo de trabajo para la investigación sobre la adquisición de vocabulario en L1 y L2. Schmitt (2000: 116) refleja la amplitud y dificultades con que se enfrentan los investigadores a la hora de formular una teoría 40 Una mayor profundización en estos aspectos del aprendizaje de la lengua nos llevaría a la distinción entre las dicotomías implicit/explicit e incidental/intencional, es decir, entre aprendizaje implícito e incidental y explícito e intencionado. Para ello recomendamos la lectura de DeKeyser (2003) y Hulstijn (2003) en The Handbook of Second Language Acquisition. Tal precisión supera las pretensiones de este capítulo, que tan sólo intenta reflexionar acerca de algunas cuestiones relativas al aprendizaje del vocabulario y presentar el panorama actual. El C-test: alternativa o complemento de otras pruebas en ILE 156 de la adquisición de una segunda lengua: “In fact, there are so many variables that affect second language vocabulary acquisition, such as L1, age, amount of exposure, motivation, and culture, that it is very difficult to formulate a theory of acquisition that can account for them all”. A continuación esbozamos algunas diferencias que señalan los especialistas en Lingüística Aplicada entre la adquisición de L1 y L2. Un estudio más profundo del tema, si bien resultaría interesante, escapa a los objetivos de esta tesis. Vemos también cómo se produce la incorporación de vocabulario y el rol que desempeña la memoria en este proceso. Finalizamos con la descripción de los factores que determinan su aprendizaje y algunas estrategias para facilitarlo. 4.3.1. Diferencias entre la adquisición de L1 y L2 Se ha investigado mucho sobre la adquisición del lenguaje y su procesamiento. Han surgido teorías que intentan explicarlo, a pesar de todo aún no se conocen bien estos procesos41. Muchos de ellos se pueden aplicar también a la adquisición de una segunda lengua o lengua extranjera. Otros son claramente diferentes, porque factores como la edad o la madurez cognitiva también lo son (Ellis 2000: 107; Schmitt 2000: 18-19; Thatcher 2000). En el caso de la lengua materna o L1, Ellis (2000) habla de una “disposición innata a adquirir la lengua de forma automática e inconsciente”. La exposición a la lengua comienza incluso antes del nacimiento. Después hay un periodo de tiempo en que el hablante recibe input constantemente pero no es todavía capaz de producir output. Cuando comienza a hablar parte de su discurso está formado por grupos comunes de palabras que memoriza y emite (preformulated speech). El niño adquiere la lengua nativa principalmente de forma incidental, gracias a ejemplos más que a través de reglas explícitas42. Es capaz de manejar un sistema complejo, pero no de describirlo. 41 Desde la idea de la Gramática Universal innata de Chomsky (1986) hasta la teoría de Krashen The Input Hypothesis (1982). 42 Chomsky habla de “language growth” en lugar de “language acquisition”. Roberts (2000), en Ellis (2000: 455-475) sigue la visión Chomskiana cuando considera que la adquisición de L1 es el prototipo de aprendizaje incidental o implícito, por ser un mecanismo innato en el que sobra la instrucción formal. La evaluación del vocabulario 157 Un niño que aprende su lengua nativa lo hace a la vez que conceptualiza el mundo que le rodea. Thatcher (2000) indica que la adquisición de una primera lengua por parte de un niño forma parte de su desarrollo cognitivo. Según Aitchison (1987) en Schmitt (2000) el niño adquiere significados en su lengua nativa en un proceso de tres estadios: labelling, categorization y network building. El aprendiz de una lengua extranjera ya tiene la experiencia de una primera lengua, conoce los conceptos y por tanto más bien realiza un proceso que los expertos denominan relabelling. Teniendo en cuenta cómo se adquiere la lengua nativa han surgido distintos métodos para la adquisición de lenguas segundas o extranjeras, algunos intentan seguir el modelo de la adquisición de L1 y potenciar el aprendizaje implícito, evitando en lo posible la instrucción explícita (Krashen 1982), otros estudios la recomiendan (Long 1983). Las investigaciones más recientes sobre enseñanza de lenguas segundas o extranjeras indican la conveniencia de utilizar métodos que propicien tanto el aprendizaje implícito como el formal o explícito (Ellis 2000). 4.3.2. Carácter gradual de la adquisición de vocabulario Schmitt (2000: 117) incide en que la adquisición de vocabulario se produce de forma gradual y progresiva: “vocabulary acquisition is incremental in nature”. Saber una palabra es un proceso complicado. Supone conocer muchos aspectos (citados en el apartado 4.2.2) y no todos se adquieren simultáneamente. El significado básico de una palabra se adquiere al principio. También una primera aproximación a su forma, dependiendo de si la exposición a la palabra es oral o escrita. Según Schmitt (2000) quizá se llegue a percibir incluso la categoría gramatical de la palabra en el primer acercamiento. Estos rasgos se van fijando a medida que aumenta la exposición a la palabra y además irán apareciendo otras acepciones significativas: “Vocabulary is learnt incrementally and this obviously means that lexical acquisition requires multiple exposures to a word” (op. cit.: 137). Henricksen (1999) considera que la adquisición de los aspectos léxicos se hace siguiendo un continuo que va desde el conocimiento 0 hasta el manejo preciso del El C-test: alternativa o complemento de otras pruebas en ILE 158 término. El conocimiento de una palabra supone el manejo de distintos aspectos léxicos. Éstos pueden ser receptivos o productivos. Más tarde se desarrolla la intuición acerca de algunos otros rasgos como la frecuencia, el registro, y la collocation de la palabra. En esta línea se expresan Laufer et al. (2004: 203) al recoger las teorías que abogan por el aprendizaje gradual de las palabras: “Others assume that lexical knowledge consists of progressive levels of knowledge, starting with a superficial familiarity with the word and ending with the ability to use the word correctly in free production (Faerch et al. 1984; Palmberg 1987)”. 4.3.3. La memoria en la adquisición de vocabulario Las últimas investigaciones reivindican el papel de la memoria en el aprendizaje del vocabulario. Schmitt (2000: 129) sentencia: “Memory has a key interface with language learning”. Graña López (1997: 28) lo expresa del siguiente modo: Cualquier consideración sobre el procesamiento léxico ha de partir del presupuesto difícilmente rebatible de que las palabras, al contrario que la mayoría de los sintagmas y oraciones, pertenecen al banco de datos de la memoria, y ello determina que haya dos aspectos que resulta necesario investigar: primero, cómo están organizadas o almacenadas las palabras en ese banco de datos, y segundo, cómo se usan, o de manera más precisa, cómo se recuperan, en las tareas de comprensión y producción del habla. El objetivo es conseguir que la información léxica pase de la memoria a corto plazo a la memoria a largo plazo. Para ello es necesario establecer relaciones entre los nuevos ítems y los que ya han sido aprendidos previamente. Se pueden utilizar diversas técnicas y estrategias que faciliten el paso a la memoria a largo plazo y en definitiva, el aprendizaje. En el proceso de aprendizaje del vocabulario se producen avances pero también retrocesos debidos al olvido. Schmitt (1998) demostró que es más fácil olvidar los términos que se conocen sólo de forma receptiva y no productiva. El olvido de lo aprendido se denomina attrition. Sigue una curva típica que indica que ocurre, sobre todo, en el periodo de tiempo más cercano al aprendizaje, después se estabiliza. Por supuesto, no es exclusivo del aprendizaje de una lengua, La evaluación del vocabulario 159 ni mucho menos del vocabulario. Pero sí es un dato que el profesor ha de tener en cuenta para proporcionar al alumno oportunidades de repasar lo aprendido en momentos relativamente próximos al primer aprendizaje (recycling). 4.3.4. Incorporación sistemática de vocabulario Comenzamos con las definiciones de Ellis (2000) y Schmitt (2000). Ambos autores explican las diferencias entre aprendizaje implícito y explícito43. Podemos aplicarlas a las formas de incorporación de vocabulario: sistemática e incidental: Implicit learning is acquisition of knowledge about the underlying structure of a complex stimulus environment by a process which takes place naturally, simply and without conscious operations. Explicit learning is a more conscious operation where the individual makes and tests hypotheses in a search for structure. (Ellis 2000: 1) Explicit learning focuses attention directly on the information to be learned, which gives the greatest chance for its acquisition. [...] Incidental learning can occur when one is using language for communicative purposes, and so gives a double benefit for time expended. (Schmitt 2000: 120) Hatch y Brown (1995: 368) insisten en la intencionalidad como rasgo peculiar del aprendizaje sistemático “...as being designed, planned for, or intended by teacher or student”. Como veremos, la simple exposición a la lengua (actividades como la lectura, ver películas, la interacción en el aula, etc.) propicia la incorporación incidental o implícita de vocabulario. Sin embargo, el aprendizaje del vocabulario en una lengua extranjera también requiere que el profesor dirija la atención del alumno de forma explícita y sistemática hacia determinadas palabras, generalmente las de uso más frecuente en la lengua. Según Schmitt (2000: 121), las técnicas o métodos para hacerlo van desde la tradicional memorización de listas hasta otras actividades que ayuden a retener 43 El volumen Implicit and Explicit Learning of Languages editado por Ellis (2000) es un buen compendio de las últimas investigaciones al respecto. También el ya mencionado The Handbook of Second Language Acquisition editado por Doughty y Long (2003) incluye aportaciones interesantes sobre este tema. El C-test: alternativa o complemento de otras pruebas en ILE 160 mejor la información: “the more one engages with a word (deeper processing) the more likely the word will be remembered for later use”. El método tradicional de enseñanza de vocabulario implicaba la memorización sistemática de largas listas de palabras y su significado. Con la llegada del enfoque comunicativo estas prácticas quedaron bastante relegadas. En los años 90 no se consideraba recomendable la memorización de palabras aisladas, sin un contexto. Hoy, sin embargo, los expertos no parecen respaldar totalmente esta idea. En el apartado anterior señalamos que de nuevo se valora el papel de la memoria en el aprendizaje, aunque la enseñanza no se limite a ella, sino que la recomiende siempre junto a estrategias de otro tipo. Lee (2003) propone la realización de tareas de escritura inmediatamente después la instrucción explícita de vocabulario para ayudar a la retención de las palabras nuevas. Prácticas de este tipo facilitan el paso del vocabulario receptivo a productivo. Los últimos estudios (Lawson y Hogben 1996; Schmitt 1997) coinciden en señalar que los buenos alumnos que aprenden vocabulario en una lengua extranjera utilizan múltiples estrategias distintas para hacerlo (bilingual dictionaries, written and oral repetition, studying the spelling, taking notes in class, etc.). Las revisamos en el apartado 4.3.8. 4.3.5. Incorporación incidental de vocabulario Hemos visto que el aprendizaje del vocabulario de una lengua se lleva a cabo de dos formas complementarias: mediante la incorporación sistemática de palabras sobre las que se incide de forma explícita y la incorporación incidental de otras a partir de la exposición a la lengua. En el caso de la lengua materna, la mayor parte del vocabulario se aprende de forma incidental, no formal, como describe Ellis (2000: 2): “by engaging in natural meaningful communication”. En las primeras etapas de la vida el incremento de vocabulario se hace de forma muy rápida y posteriormente se ralentiza, pero como hemos visto, se mantiene durante toda la vida. Un niño de unos cinco años conoce La evaluación del vocabulario 161 aproximadamente de 4000 a 5000 palabras sin que se le hayan enseñado formalmente. A mayor exposición a la lengua, más y mejor aprendizaje. Esto no quiere decir que el aprendizaje sea inconsciente. Sin embargo las posturas de los especialistas en cuanto a la conciencia difieren. Schmitt (1990) considera que para aprender una palabra hay que tener clara conciencia de ella mientras que Ellis (1997) reclama esta conciencia sólo para el aprendizaje de los aspectos léxicos (no para los collocations, forma de la palabra, pronunciación, etc.). Según Schmitt, tanto el aprendizaje implícito como el explícito requieren atención por parte del sujeto. Para el implícito sería condición necesaria y suficiente. En cuanto al aprendizaje de una lengua extranjera, Hatch y Brown (1995) valoran la importancia del aprendizaje incidental para completar al explícito, basándose en los datos de estudios (Saragi et al. 1978; Nagy et al. 1985; Dupuy y Krashen 1993) que demuestran una distancia entre el vocabulario que se enseña directamente y el aprendido después, por ejemplo, de la lectura de un libro en la lengua extranjera. Nation (2001) recomienda que sean los términos técnicos y los poco frecuentes, por cuestiones prácticas, los que se dejen a la incorporación incidental. En cualquier caso, una buena programación de la enseñanza del vocabulario debe incluir tanto técnicas que propicien el aprendizaje sistemático como una exposición a la lengua suficiente para que se produzca el aprendizaje incidental. Schmitt (2000: 137) comenta: “L2 learners benefit from a complementary combination of explicit teaching and incidental learning”. Y Bocanegra (2001: 35) insiste: La simple exposición a la lengua no es suficiente para que el alumno incorpore a su interlengua nuevos datos de forma efectiva. Es imprescindible, pues generar un aducto útil y es aquí donde el aula adquiere un papel fundamental. 4.3.6. Factores que afectan al aprendizaje de una palabra En apartados anteriores hemos visto que el conocimiento ideal de una palabra incluye distintos rasgos como su forma oral y escrita, su estructura interna, su significado (referencial, afectivo y pragmático), sus relaciones léxicas con otras El C-test: alternativa o complemento de otras pruebas en ILE 162 palabras, su funcionamiento sintáctico y las collocations más frecuentes. Esta multiplicidad hace que a menudo el conocimiento de una palabra sea parcial. También hemos apuntado la existencia de factores que determinan la mayor o menor dificultad de aprendizaje de una palabra o learning burden. En este trabajo dirigimos nuestro interés hacia los que inciden en el aprendizaje de lenguas extranjeras. Schmitt (2000) insiste en la necesidad de que el profesor conozca estos factores y los agrupa en intraléxicos y contrastivos. Destacamos los estudios de Ellis y Beaton (1993)44 y Laufer (1997)45 al respecto. En gran medida, como hemos visto, la dificultad de aprendizaje depende de los modelos de la L1. In essence, the process of learning a FL word is to map a novel sound pattern (which will be variable across speakers, dialects, emphases, etc.) to a particular semantic field that may (or may not) have an exact equivalent in the native language. Even this rudimentary description implicates a range of relevant variables: pronounceableness, familiarity with semantic content and clear labelling of that meaning in the native language. (Ellis y Beaton 1993: 560) Uno de los factores es la pronunciación, tanto los distintos fonemas como los rasgos suprasegmentales (acento, entonación). El sistema fonológico de la lengua materna condiciona el aprendizaje de la lengua extranjera. Por ejemplo, los alumnos españoles de Inglés como Lengua Extranjera encuentran problemas para pronunciar determinados sonidos que no existen en español (shop, just) o que no son distintivos (ban/van, ship/sheep) en nuestra lengua. Estas dificultades pueden aumentar la distancia entre el conocimiento receptivo de la palabra y su correcta producción oral. La estrategia que propone Levenston (1979 citado en Laufer 1997) es evitar las palabras que presentan más dificultad fonológica en las fases iniciales del aprendizaje. La ortografía es un segundo factor. Las combinaciones de letras que resultan conocidas son más sencillas. Por otro lado, la correspondencia entre la escritura de 44 El estudio de los factores psicolingüísticos que determinan el aprendizaje de vocabulario de Ellis y Beaton (1993) presenta algunas limitaciones. Se centra exclusivamente en los estadios iniciales del aprendizaje de una lengua extranjera. El procedimiento mide el aprendizaje de pares de palabras en respuestas tipo, no indaga en la capacidad para utilizar el vocabulario aprendido en el contexto de la oración. Los autores reconocen la necesidad de continuar la investigación en este campo. 45 El trabajo de Laufer (1997) se refiere primordialmente a los factores intraléxicos que determinan el aprendizaje del vocabulario, no obstante, en algunos aspectos incluye la comparación entre L1 y L2. La evaluación del vocabulario 163 la palabra y su pronunciación facilita el aprendizaje. En este aspecto, la lengua inglesa no aporta muchas claves. También el tamaño de las palabras podría afectar a su adquisición. En principio los estudios indican que a mayor longitud de la palabra mayor dificultad para ser aprendida. Sin embargo, algunos autores (Laufer 1997) ponen en duda esta presuposición argumentando, por ejemplo, que esto no ocurre cuando los morfemas que forman una palabra son bien conocidos por el alumno. En las situaciones de aprendizaje todos estos factores de dificultad se entremezclan. En inglés las palabras cortas son también más frecuentes, por tanto parece lógico pensar que no es su longitud sino más bien la exposición a ellas la que facilita su aprendizaje (Laufer 1997). Los aspectos morfológicos de la palabra también influyen, especialmente su complejidad de inflexión y derivación. Las irregularidades dificultan el aprendizaje, mientras que la habilidad del hablante para reconocer los distintos morfemas facilita el reconocimiento y la producción de una palabra nueva. La semejanza de forma entre palabras de una y otra lengua puede ser una ayuda pero también puede llevar a confusión y actuar como interferencia. Este fenómeno se denomina synformy. También se aprecian diferencias en el aprendizaje de las palabras atendiendo a su categoría gramatical. Ellis y Beaton (1993) corroboran que los nombres se aprenden con mayor facilidad que los verbos. Los adverbios, por el contrario, son los más difíciles. Laufer (1997) no comparte esta idea y argumenta que los estudios realizados no son del todo concluyentes. Además, analiza los rasgos semánticos que afectan al aprendizaje; como el grado de abstracción, el registro, la idiomaticity y los fenómenos de polisemia/homonimia. Las palabras abstractas parecen más difíciles de aprender que las concretas, pero no siempre ocurre así. Laufer (1997) explica que a menudo su dificultad atiende a otros factores. En lo relativo al registro, vemos que cuando se aprende una lengua extranjera se prefiere utilizar términos generales aplicables a varios contextos. Con las expresiones idiomáticas ocurre lo mismo. En general preferimos utilizar un sinónimo que no sea idiom. Y la multiplicidad de forma o significado contribuye a aumentar el grado de dificultad que presenta una palabra. El C-test: alternativa o complemento de otras pruebas en ILE 164 El siguiente cuadro resume las conclusiones de Laufer (1997) en cuanto a los factores de dificultad intraléxicos. Tabla 4.5. Factores intraléxicos que afectan al aprendizaje del vocabulario (Laufer 1997 en Schmitt 2000: 148-149) Facilitating factors Difficulty-inducing factors Factors with no clear effect Familiar phonemes Presence of foreign phonemes Familiar letter combinations (sland) Unfamiliar letter combinations (ndasl) Stress always on same syllable Variable stress Consistency of sound script relationship Incongruency in sound-script relationship Word length Inflexional regularity Inflexional complexity Derivational regularity Derivational complexity Transparency of word parts (preview = look before) Deceptive transparency (outline ≠ out of line) Similarity of word forms (affect/effect) Part of speech Concreteness/abstractness Ellis y Beaton (1993) culminan su trabajo con unas orientaciones de carácter práctico para el profesor. Recomiendan la combinación de técnicas de “palabras clave” y de “repetición”. Las primeras son eficaces para el aprendizaje receptivo y las segundas para el productivo. No obstante, dedicamos el siguiente apartado a la descripción de estrategias para el aprendizaje. Swan (1997 citado en Schmitt 2000: 149) alude a los factores que dependen de la relación entre ambas lenguas: Informed teaching can help students to formulate realistic hypotheses about the nature and limits of crosslinguistic correspondences, and to become more attentive to important categories in the second language which have no mother- tongue counterpart. La evaluación del vocabulario 165 4.3.7. Pasos en el aprendizaje de una palabra Partiendo del estudio de Brown y Payne (1994) sobre las estrategias utilizadas en el aprendizaje del vocabulario, Hatch y Brown (1995: 374) identifican cinco pasos sucesivos desde que nos encontramos con una palabra nueva hasta que somos capaces de utilizarla: 1. Encuentro con la palabra nueva, de forma explícita o incidental. 2. Captación del significante. 3. Captación del significado mediante diversas estrategias. 4. Consolidación de significante y significado en la memoria. 5. Uso de la palabra (si se desea un conocimiento productivo). Los estadios del proceso no son estancos y se pueden subdividir. De nuevo hemos de aludir en este punto a la labor del profesor como facilitador del aprendizaje. Su papel es el de proporcionar al alumno estrategias que le hagan avanzar siguiendo estos pasos hasta el conocimiento productivo de la palabra, como veremos en el siguiente apartado. 4.3.8. Estrategias para el aprendizaje del vocabulario El carácter pedagógico de esta tesis hace que no podamos terminar este apartado sin mencionar las estrategias para el aprendizaje del vocabulario (vocabulary learning strategies, VLS). Chamot y O’Malley (en Ellis 2000) distinguen dos tipos; las que el alumno desarrolla por sí mismo cuando se enfrenta a un problema lingüístico y las que los profesores enseñan de forma explícita como parte de la instrucción. Las estrategias pueden implicar procesos conceptuales, afectivos y de interacción social. Los alumnos que intentan aprender una lengua extranjera realmente utilizan estrategias para aprender el vocabulario, quizá por el carácter discreto del constructo y porque se considera un aspecto importante de la lengua (Chamot 1987; Horwitz 1988). El C-test: alternativa o complemento de otras pruebas en ILE 166 Las de tipo mecánico son las que se aprecian con más facilidad en el contexto del aula, por ejemplo la memorización, toma de apuntes, etc. El profesor puede proporcionar glosarios, explicación oral rápida, etc. Pero también el propio alumno puede aplicar estrategias: la primera evaluar si es necesario para la comprensión del texto. Si el término no lo es, ignorarlo. Si lo es, inferir su significado a partir del contexto, preguntarlo o buscarlo en el diccionario. La inferencia es la más recomendable (Read 2000: 53), e insistiremos en ella más adelante, puesto que su manejo resulta fundamental para resolver un C-test. Inferencing is a desirable strategy because it involves a deeper processing that is likely to contribute to better comprehension of the text as a whole and may result in some learning of the lexical item that would not otherwise occur. Bocanegra y Franco (2003) confirman la existencia de aprendizaje estratégico en alumnos españoles de Inglés como Lengua Extranjera, y en mayor medida cuando el nivel de competencia en la lengua meta aumenta46. Las primeras clasificaciones de estrategias del alumno se hicieron a partir de la descripción de los buenos aprendices de lenguas (Rubin 1975; Stern 1975). Se utilizaron entrevistas, protocolos think aloud, observación directa, cuestionarios, etc. Laufer y Hulstijn (2001: 5) confirman que “successful learners use sophisticated metacognitive learning strategies, such as inferring word meanings from context and semantic or imagery mediation, in this endeavour”. A partir de dichas descripciones Chamot y O’Malley (1990, 2000) distribuyen las estrategias en tres grupos: metacognitivas, cognitivas y socio-afectivas. Destacamos las taxonomías de Schmitt y McCarthy (1997) y Nation (2000) porque agrupan las estrategias específicas para el aprendizaje del vocabulario. Schmitt y McCarthy organizan su taxonomía en dos grandes grupos de estrategias; las que sirven para descubrir el significado de una palabra y las que se utilizan para consolidarlo. Esta clasificación sigue el modelo de Oxford (1990) que las agrupa en memorísticas (MEM), sociales (SOC), cognitivas (COG) y metacognitivas (MET). A éstas añaden las determinativas (DET) como estrategias de descubrimiento. Las estrategias memorísticas (o mnemonics) relacionan la 46 Fernández Toledo (2003) y Fonseca (2003) son otros trabajos sobre estilos y estrategias de aprendizaje en la enseñanza de lenguas extranjeras en España. La evaluación del vocabulario 167 palabra nueva con conocimientos previos tratando de crear asociaciones que faciliten la producción (recalling). Las sociales utilizan la interacción con el profesor o con otros alumnos para facilitar el aprendizaje. Las cognitivas son semejantes a las memorísticas, e incluyen la toma de apuntes, la repetición oral o escrita. Finalmente, las metacognitivas implican la existencia de una visión consciente del proceso de aprendizaje por parte del alumno, que valora y toma sus decisiones. Tabla 4.6. Taxonomía de Schmitt y McCarthy (1997: 207-208) A taxonomy of vocabulary learning strategies _______________________________________________________________________________ Strategy Group Use Helpful % % _______________________________________________________________________________ Strategies for the discovery of a new word‘s meaning DET Analyse part of speech 32 75 DET Analyse affixes and roots 15 69 DET Check for L1 cognate 11 40 DET Analyse any available pictures or gestures 47 84 DET Guess from textual context 74 73 DET Bilingual dictionary 85 95 DET Monolingual dictionary 35 77 DET Word lists - - DET Flash cards - - SOC Ask teacher for an L1 translation 45 61 SOC Ask teacher for paraphrase or synonym of new word 42 86 SOC Ask teacher for a sentence including the new word 24 78 SOC Ask classmates for meaning 73 65 SOC Discover new meaning through group work activity 35 65 Strategies for consolidating a word once it has been encountered SOC Study and practice meaning in a group 30 51 SOC Teacher checks students’ flash cards or word lists for accuracy 3 39 SOC Interact with native-speakers - - MEM Study word with a pictorial representation of its meaning - - MEM Image word’s meaning MEM Connect word to a personal experience 37 62 MEM Associate the word with its coordinates 13 54 MEM Connect the word to its synonyms and antonyms 41 88 MEM Use semantic maps 9 47 MEM Use “scales” for gradable adjectives 16 62 MEM Peg Method - - MEM Loci Method - - MEM Group words together to study them - - MEM Group words together spatially on a page - - MEM Use new words in sentences 18 12 MEM Group words together within a storyline - - MEM Study the spelling of a word 74 87 MEM Study the sound of a word 60 81 El C-test: alternativa o complemento de otras pruebas en ILE 168 MEM Say new word aloud when studying 69 91 MEM Image word form 32 22 MEM Underline initial letter of the word - - MEM Configuration - - MEM Use Keyword Method 13 31 MEM Affixes and roots (remembering) 14 61 MEM Part of speech (remembering) 30 73 MEM Paraphrase the word’s meaning 40 77 MEM Use cognates in study 10 34 MEM Learn the words of an idiom together 48 77 MEM Use physical action when learning a word 13 49 MEM Use semantic feature grids - - COG Verbal repetition 76 84 COG Written repetition 76 91 COG Word lists 54 67 COG Flash cards 25 65 COG Take notes in class 64 84 COG Use the vocabulary section in your textbook 48 76 COG Listen to tape of word lists - - COG Put English labels on physical objects - - COG Keep a vocabulary notebook - - MET Use English-language media (songs, movies, newscasts, etc.) - - MET Testing oneself with word tests - - MET Use spaced word practice - - MET Skip or pass new word 41 16 MET Continue to study word over time 45 87 = Strategy was not included on the initial list used in the survey La clasificación de Nation (2000) es totalmente diferente. El autor divide las VLS en tres tipos: las que se utilizan para planificar el aprendizaje, las que suponen una búsqueda de información en fuentes distintas y las que sirven para fijar el conocimiento de las palabras. Figura 4.2. A taxonomy of kinds of vocabulary learning strategies (Nation 2000: 218) General class of strategies Types of strategies Planning: choosing what to focus on and when to focus on it Sources: finding information about words Processess: establishing knowledge Choosing words Choosing the aspects of word knowledge Choosing strategies Planning repetition Analysing the word Using context Consulting a reference source in L1 or L2 Using parallels in L1 and L2 Noticing Retrieving Generating La evaluación del vocabulario 169 Resulta de gran utilidad para nuestros alumnos disponer de una serie de estrategias que faciliten la tarea de aprender vocabulario. Corresponde a los profesores de lenguas extranjeras elegir las más adecuadas para sus alumnos y entrenarlos en su manejo (Hatch y Brown 1995; Schmitt 2000). Algunas de estas estrategias de descubrimiento o consolidación se utilizan también en la resolución de pruebas de evaluación. En capítulos posteriores veremos qué estrategias se utilizan para resolver un C-test, como la inferencia mediante el uso de las claves que ofrece el contexto. 4.4. Investigaciones sobre evaluación del vocabulario Gran parte de la investigación sobre evaluación del vocabulario ha sido realizada por expertos en otras áreas, como la de adquisición de segundas lenguas (SLA), adquisición de vocabulario, lectura en L1, etc. Los expertos en evaluación de lenguas a menudo han dejado de lado las pruebas específicas de vocabulario en favor de las pruebas de evaluación de la competencia lingüística comunicativas e integradoras. Desde el momento en que se reconoce la importancia del vocabulario en el aprendizaje de lenguas surge la preocupación por encontrar instrumentos adecuados para su evaluación: “Development of lexical knowledge is now regarded, by both researchers and teachers, as central to learning a language, and thus vocabulary tests are being used for a wide variety of purposes” (Read y Chapelle 2001: 3). No es tarea fácil. Ya hemos mostrado la preocupación al respecto de Meara (1996) y Schmitt (1998) que recoge y comparte Read (2000: 27): “concerning the practical difficulties involved both in developing suitable measures and in eliciting evidence of learners’ knowledge”. Para ello hay que partir de una definición clara del constructo del vocabulario (véase 4.2.4). Read y Chapelle (2001) clasifican los distintos enfoques en tres grupos: El C-test: alternativa o complemento de otras pruebas en ILE 170 1. Los que consideran el constructo del vocabulario como componente discreto dentro del conocimiento de la lengua. 2. Los que cuestionan la visión anterior y entienden que el constructo del vocabulario debe estar integrado en la competencia lingüística general. 3. Los que lo utilizan como herramienta para la investigación de otros aspectos de la lengua. De cada uno de ellos surgirán pruebas de vocabulario diferentes, pues la definición del constructo y el propósito también lo son. En la literatura vemos que los exámenes de vocabulario se han utilizado tanto con fines académicos como científicos o de investigación. (Read y Chapelle 2001). Por tanto, un primer paso al diseñar una prueba es saber su propósito. Las pruebas diseñadas con fines académicos pueden ir encaminadas a conocer la amplitud del vocabulario del alumno o bien a medir su profundidad. Son las dos dimensiones del conocimiento del vocabulario que aumentan gradualmente a medida que aumenta la competencia lingüística del alumno en la lengua objeto de estudio (Laufer et al. 2004). Si lo que interesa en el número de palabras que ha aprendido el alumno, los retos son seleccionar el vocabulario objeto de la prueba y elegir el formato que se va a aplicar. Por el contrario, si nos centramos en el grado de conocimiento de las unidades léxicas, el problema es encontrar instrumentos que realmente indiquen cómo es ese conocimiento (parcial-preciso, productivo-receptivo, etc.). Así lo expresa Bogaards (2000: 490): Depending on what exactly one wants to know about L2 lexical knowledge, one has to select the appropriate materials and adequate procedures to arrive at valid and reliable results. Por otra parte, los instrumentos para medir el aprendizaje del vocabulario deben reunir los rasgos deseables para cualquier otro tipo de prueba de evaluación; esto es, fiabilidad, validez, carácter práctico, washback, etc. (Véase capítulo 3) La evaluación del vocabulario 171 4.4.1. El estudio del vocabulario: Perspectiva histórica En este apartado haremos un breve recorrido histórico por la investigación del vocabulario. Revisaremos las tendencias más importantes en cuanto a su evaluación a lo largo del tiempo. Finalmente, nos centraremos en las actuales para enmarcar en ellas la prueba que nos ocupa en esta tesis; el C-test. Desde una perspectiva histórica, el papel del vocabulario dentro de la enseñanza de lenguas ha pasado por momentos de gran preponderancia y otros en que ha sido menospreciado. Si bien su estudio fue muy valorado en la antigua Roma, en la época medieval y en el Renacimiento se dejó de lado en favor de la gramática. Ya en el siglo XVII aparecen tratados que reivindican el papel del vocabulario en la enseñanza del inglés (Comenius y William of Bath). Pero durante los siglos XVIII y XIX, a pesar de la publicación del Dictionary of the English Language de Samuel Johnson en 1755, el vocabulario se mantuvo en un papel secundario frente a la gramática. No obstante, a finales del XIX hay que destacar los trabajos de Ebbinghaus sobre la adquisición del vocabulario desde el punto de vista psicológico. Investigó las conexiones entre las palabras en la mente y su estudio de las “asociaciones de palabras” supuso el inicio de una larga serie de investigaciones posteriores. A principios del siglo XIX triunfaba el método Grammar-Translation. El vocabulario era el soporte de las reglas gramaticales e instrumento para la traducción. Cobraron gran relevancia las listas bilingües y los diccionarios. Pero no interesaba el uso de la lengua sino su análisis. A finales del siglo surgió el Direct Method, que aboga por la exposición a la lengua (listening) y evita en lo posible la traducción. Pretende imitar la forma en que se adquiere la lengua materna. En cuanto al vocabulario, la idea es que se adquiera de forma natural, en lo posible (excepto p. ej. los términos abstractos). Después apareció el Reading Method, que enfatizaba el aprendizaje de la lectura. Paralelamente en Estados Unidos y en Gran Bretaña surgieron métodos que partían del behaviorismo (habit formation). A raíz de la experiencia de enseñanza de idiomas con soldados durante la Segunda Guerra Mundial, se desarrolla en Estados Unidos el Audiolingualism: “It was assumed that good language habits and exposure to the language itself, would eventually lead to an increased vocabulary” (Coady 1993: 4, en Schmitt 2000: 13). El C-test: alternativa o complemento de otras pruebas en ILE 172 En Gran Bretaña aparece un enfoque semejante, el Situational Approach. Estructuras gramaticales y vocabulario se agrupan según la situación en que se utilizan. Ya en los años 70 llega el enfoque comunicativo con el Communicative Language Teaching; enfatiza los aspectos sociolingüísticos y pragmáticos de la lengua, y el vocabulario pasa de nuevo a un papel secundario. En la actualidad, como hemos visto desde la introducción de este capítulo, se reconoce de nuevo el papel fundamental del vocabulario en el aprendizaje de lenguas extranjeras: One of the most important current trends of thought is the realization that grammar and vocabulary are fundamentally linked. [...] Pursuing this idea should finally put to rest the notion that a second language can be acquired without both essential areas being addressed. (Schmitt 2000: 14) Los modelos metodológicos a menudo no sabían como enfrentarse con la enseñanza del vocabulario, que quedaba relegado a las listas bilingües o se confiaba en su adquisición por exposición a la lengua. Hasta el siglo pasado no se inicia un trabajo sistemático en el vocabulario. En los años 30, Ogden y Richards crearon un corpus de vocabulario del inglés que sólo incluía 850 palabras (Basic English). Pretendían reducir al mínimo el vocabulario necesario para comunicarse en lengua inglesa. Pero este intento dio como resultado una lista claramente artificial e insuficiente. Otro enfoque de la época que surgió como reacción al Basic English es el Vocabulary Control Movement. Este método intentó buscar criterios válidos para la selección de vocabulario con la finalidad de simplificar los textos utilizados en la enseñanza de la lectura en lengua extranjera (graded texts). Uno de los principales era la frecuencia de las palabras en la lengua. El producto final fue una lista de unas 2000 entradas, la General Service List of English Words (GSL) de West (1953). 4.4.2. La evaluación del vocabulario en el siglo XX Si en el apartado anterior mencionamos los trabajos de Ebbinghaus sobre el vocabulario, aquí volvemos a él como uno de los primeros investigadores modernos La evaluación del vocabulario 173 preocupados por su evaluación (Schmitt 2000). Su contribución fue el diseño de un modelo para la autoevaluación. A comienzos del siglo XX era patente la necesidad de contar con pruebas que midieran de forma exacta y fiable el conocimiento del vocabulario de una lengua. En la primera mitad del siglo, con la psicometría, alcanzaron un gran desarrollo las pruebas de tipo objetivo, especialmente en los Estados Unidos. A partir de los años 30 los ensayos tradicionales dieron paso a estas pruebas estandarizadas psicométricas. Medían el reconocimiento del vocabulario mediante la asociación de palabras con su traducción (matching activities) y con ejercicios de elección múltiple (múltiple-choice type items). Son pruebas objetivas porque su corrección no requiere el juicio del examinador, a cada pregunta le corresponde una sola respuesta correcta que se puede predecir. Destaca su fiabilidad, la facilidad de su diseño y su buena correlación con otras pruebas, como las de comprensión lectora. Fueron el germen del Test of English as a Foreign Language (TOEFL) que apareció en los años 60 y sigue vigente en nuestros días. En 1961 Lado propuso su modelo centrado en la evaluación individual de los distintos elementos de la lengua. A partir de entonces toda prueba de elementos discretos incluía un test objetivo de vocabulario. Con el auge del movimiento comunicativo en los años 70 cambió la manera de entender las pruebas de vocabulario. Interesa medir el conocimiento de las palabras en un contexto y no aisladas. Otra tendencia actual de evaluación del vocabulario es el diseño de pruebas integradas con elementos discretos (Schmitt 2000). 4.4.3. Panorama actual en la evaluación del vocabulario Ya hemos visto la complejidad de la evaluación del vocabulario, que hace necesario definir el propio constructo para poder después validar las pruebas. A continuación, vemos las últimas tendencias en su evaluación. El C-test: alternativa o complemento de otras pruebas en ILE 174 4.4.3.1. Tendencias actuales de evaluación del vocabulario En el modelo de Bachman y Palmer (1996), ampliamente aceptado y adoptado en nuestros días, la competencia general en la lengua comprende dos aspectos: conocimiento lingüístico y competencia estratégica. La teoría sobre evaluación del vocabulario hoy tiende a dejar atrás las pruebas objetivas de elementos discretos porque ignoran todo lo referente al segundo aspecto: la competencia estratégica. El enfoque comunicativo, en que seguimos inmersos, propicia más la evaluación de la competencia lingüística general que la de los distintos elementos de la lengua. Este marco entiende que el conocimiento del vocabulario de una lengua no garantiza el manejo de ésta en situaciones reales de comunicación. Por tanto, no interesan las palabras aisladas, sino insertas en el contexto comunicativo. Las pruebas de evaluación plantean tareas que simulan situaciones de comunicación. La tarea pasa a ser el objetivo de las pruebas (Bachman y Palmer 1996) mientras que el vocabulario, la gramática, etc. serán de gran ayuda para resolverla, pero no determinantes. Sin embargo, en la práctica se siguen utilizando pruebas de elementos discretos y a menudo descontextualizados. Read y Chapelle (2001) achacan la desconexión de la práctica docente con las últimas tendencias sobre evaluación a la falta de un marco que fije los objetivos claros de las pruebas y su diseño47. Read (2000) ofrece una visión conciliadora. Las pruebas discretas de vocabulario pueden ser complementarias de las globales o integradoras. Dependerá, entre otros, de los objetivos que pretenda el profesor y de la situación en que las utilice. El criterio del profesor, que conoce a sus alumnos y sus necesidades, será el que mejor guíe la elección del modelo y formato de evaluación en cada momento. En este sentido se expresa Bogaards (2000: 490): As lexical knowledge comes in very many forms and presents a lot of different aspects, this means that there is not one single valid way to measure L2 vocabulary knowledge. Different types of tests are needed to address different aspects of the lexicon and different formats may be more or less adapted to different levels of vocabulary knowledge and to different types of questions the teacher or the researcher wants to answer. 47 Read y Chapelle (2001) proponen un marco para la evaluación del vocabulario que se basa en el propósito de la prueba y las decisiones sobre el diseño para llegar a su validación. Toma en consideración aspectos como los usos y relevancia de la prueba, el impacto y presentación, etc. La evaluación del vocabulario 175 Read (2000) hace una clasificación de los tipos de pruebas de vocabulario atendiendo a tres dimensiones: constructo, rango y contexto. La primera tiene en cuenta el constructo: se puede evaluar el vocabulario como constructo discreto o integrado en pruebas más generales; la segunda se refiere al rango de vocabulario que incluye, si las pruebas miden una parte específica del léxico son pruebas selectivas frente a las comprensivas; y por último, dependiendo de su relación con el contexto, los exámenes pueden ser dependientes o contextualizadas e independientes de éste. Figura 4.3. Dimensiones de la evaluación del vocabulario (Read 2000) y ejemplos de clasificación de pruebas (Read y Chapelle 2001) Discrete A measure of vocabulary knowledge or use as an independent construct Selective A measure in which specific vocabulary items are the focus of the assessment Context-independent A vocabulary measure in which the test-taker can produce the expected response without referring to any context Embedded A measure of vocabulary which forms part of the assessment of some other, larger construct Comprehensive A measure which takes account of the whole vocabulary content of the input material (reading/ listening tasks) or the test- taker’s response (writing/ speaking tasks) Context-dependent A vocabulary measure which assesses the test-taker’s ability to take account of contextual information in order to produce the expected response Read y Chapelle (2001) entienden que el C-test es una prueba discreta, selectiva en cuanto al rango, y contextualizada. Volveremos sobre esta clasificación en el capítulo 6. En el C-test apreciamos la doble vertiente que ya hemos comentado. Es un diseño que mide de forma objetiva elementos discretos, pero a la vez es una prueba contextualizada e integradora. A pesar de ser objetiva en cuanto a su corrección, en la Perspectiva Empírica veremos su alta correlación con pruebas subjetivas. Por otra parte, coincidiendo con El C-test: alternativa o complemento de otras pruebas en ILE 176 estudios previos (Klein-Braley 1985, 1997; Chapelle y Abraham 1990; Dörnyei y Katona 1992; Connelly 1997; Babaii y Ansary 2001; Eckes y Grotjahn 2006) demostraremos que no sólo mide el vocabulario, sino la competencia global en Lengua Extranjera. 4.4.3.2. Estudios recientes sobre vocabulario en España Si bien la evaluación del aprendizaje de lenguas es un tema todavía relativamente poco explorado en nuestro país, como mencionamos en el capítulo 1, tenemos que hacer constar que no ocurre lo mismo con el campo del vocabulario. Una revisión rápida de las últimas publicaciones de la Asociación Española de Lingüística Aplicada (AESLA) pone de manifiesto la riqueza y variedad de los trabajos de investigación relacionados con el vocabulario realizados en España. A algunos de ellos hacemos referencia en esta tesis; como Graña López (1997), que estudia la relación entre frecuencia de las palabras y procesamiento léxico, Suau (1998), que trabajó sobre la inferencia léxica, o Cabré y Adelstein (2001) sobre terminología. Acerca del aprendizaje de vocabulario destacamos los estudios de Alcón Soler (1999) y Salazar y Alcón (2001). Las recopilaciones Trabajos en lingüística aplicada (2001), La lingüística aplicada a finales del siglo XX (2001) y Perspectivas recientes sobre el discurso (2001) agrupan un buen número de artículos sobre lexicología y lexicografía. Una parte importante de lo publicado lo constituyen los estudios sobre lingüística de corpus y computacional (Valero et al. 2001), así como los relacionados con la lingüística contrastiva y la traducción (Valero 1999). 4.5. Las pruebas de vocabulario Ponemos punto final a este capítulo mostrando, al menos de manera esquemática, los distintos tipos de pruebas de vocabulario y aportando algunos ejemplos de pruebas estandarizadas. La evaluación del vocabulario 177 4.5.1 Tipos de pruebas de vocabulario Aunque las pruebas de vocabulario pueden clasificarse atendiendo a diversos criterios, las dividiremos dos grandes grupos: de elementos discretos y holísticas. Las primeras son las que tradicionalmente se han considerado pruebas objetivas de vocabulario, porque se centran en este constructo, considerado de forma aislada. Deberíamos incluir en este grupo a los clozes, pero preferimos dedicarles su propio apartado por su significación para esta tesis. Además, las pruebas de cierre miden la competencia lingüística global más que el vocabulario. En capítulos posteriores discutiremos ampliamente éste y otros aspectos de las pruebas de cierre. No podemos terminar este apartado sin hacer notar la dificultad que supone separar los distintos elementos de la lengua para su evaluación. Por ello, en la práctica, a menudo la evaluación del vocabulario aparece ligada a la de otros aspectos de la competencia lingüística, como los gramaticales (Read 2000: 99). 4.5.1.1. Pruebas objetivas de elementos discretos Hemos visto que a comienzos del siglo XX triunfa el movimiento psicométrico y con él las pruebas de evaluación objetiva, sobre todo en Estados Unidos. Dentro de las pruebas objetivas de evaluación de lenguas extranjeras el vocabulario era un componente habitual, con preguntas de elección múltiple, listas de palabras para realizar matching, etc. Read (2000) señala la facilidad de diseño de estas pruebas, sus características técnicas, y el hecho de que además de medir el vocabulario indicaban aún sin pretenderlo la competencia global en la lengua. Con Lado (1961) siguió esta tendencia de evaluar el vocabulario de forma objetiva y aislado de otros elementos de la lengua. Tanto él, en Language Testing, como autores posteriores, recomiendan este tipo de pruebas. Pero cuando llegó el movimiento comunicativo se dejó de lado a las pruebas objetivas descontextualizadas. A pesar de todo, es de destacar la popularidad de las pruebas de cierre en los años 70. A continuación mostramos brevemente los formatos más comunes de las pruebas objetivas: El C-test: alternativa o complemento de otras pruebas en ILE 178 - elección múltiple, - asociaciones, - traducción, - listas de control. Las pruebas de elección múltiple (multiple choice) han gozado de gran popularidad en la evaluación de vocabulario en lengua nativa y extranjera. Su uso es frecuente incluso en la actualidad; de hecho, popularmente se llega a identificar al test o prueba objetiva con el formato de elección múltiple. Sin embargo, se han criticado algunos aspectos de la prueba que ponen de manifiesto ciertas limitaciones. Por ejemplo, que miden el reconocimiento y no la producción, además dejan margen al alumno para elegir la respuesta correcta mediante un proceso de eliminación, como afirman Laufer et al. (2004: 208): “Hence, recalling a word’s meaning or form can be considered as a more advanced type of knowledge than recognizing it in a set of options”. Por tanto, la información que recibe el profesor acerca del grado de conocimiento del vocabulario es muy limitada si el único instrumento de medida es una prueba de elección múltiple. Además, en las pruebas de elección múltiple el profesor no puede saber si el alumno realmente conoce la palabra correcta o las que maneja son los “distractores”. El diseño de un buen test de elección múltiple requiere mucho tiempo de preparación, si bien después se ve contrarrestado por una fácil aplicación y corrección. Las pruebas de asociación (matching exercises), por otra parte, son fáciles de diseñar pero también presentan limitaciones. Consisten en asociar distintos elementos con otros que tengan el mismo significado. A igual que las de elección múltiple, son sólo de reconocimiento, expresan, por tanto, un conocimiento parcial y pobre de la palabra. No aportan al examinador una idea de la profundidad del conocimiento del alumno, sino exclusivamente de su amplitud. Nation (1990) usa este formato como parte del Vocabulary Levels Test. En cuanto a la traducción L1-L2, las listas de palabras aisladas para traducir a la lengua extranjera son un diseño ya muy poco utilizado en las pruebas de vocabulario. No obstante, Nurweni y Read (1999) las introdujeron en un reciente trabajo de investigación. La evaluación del vocabulario 179 Por último, el procedimiento conocido como checklists o listas de control es el más sencillo. El alumno debe marcar las palabras que reconoce de una lista que se le ofrece. Sin embargo, de nuevo, el grado de conocimiento de las mismas no se puede rastrear. Por tanto, este formato puede ser útil para investigar la amplitud del vocabulario, sobre todo si se utiliza en combinación con otras técnicas, pero no su profundidad. 4.5.1.2. Holísticas o integradoras: Comprehensive measures of vocabulary Son las pruebas que miden el conocimiento léxico del alumno de una forma más amplia. Son comprensivas, integradoras. Generalmente el vocabulario no es el constructo que se pretende medir, sino un elemento más de otro constructo más amplio, la competencia comunicativa oral o escrita en la lengua extranjera. Algunas sí consideran la adquisición de vocabulario como constructo aislado, pero son medidas cuantitativas, de tipo meramente estadístico, cuya finalidad no es la evaluación educativa sino la de informar las investigaciones del aprendizaje de vocabulario en lenguas extranjeras. Distintos estudios (Kelly 1991; Brown 1997; Laufer 1997 en Read 2000) coinciden en señalar la importancia de los conocimientos léxicos del alumno para la comprensión auditiva y lectora de los textos que se les presentan. El ensayo es una prueba holística, cuando se propone al alumno la realización de una composición escrita sobre un tema dado, se puede medir de forma estadística la riqueza léxica. Se aplican medidas que ya hemos comentado en este capítulo, como la densidad y la variación léxica. Se puede tener en cuenta, además, la sofisticación del texto producido (analizando la proporción de términos poco frecuentes o técnicos que contiene) y el número de errores en el uso del vocabulario. Con estos datos se obtiene una estimación de la riqueza léxica del texto. Y de forma semejante se puede aplicar este marco a la producción oral. Sin embargo, este tipo de análisis es costoso en términos de tiempo, pese a la ayuda de los medios informáticos. Por ello, suele quedar relegado a la investigación. En contextos educativos, los profesores valoran las composiciones de sus alumnos de forma global u holística o bien con un enfoque analítico, con la ayuda de El C-test: alternativa o complemento de otras pruebas en ILE 180 escalas. Por la propia naturaleza de la tarea, en ambos enfoques surge la duda del sesgo que supone la subjetividad en la valoración del profesor. Para una mayor profundización en este tema sugerimos la lectura de los trabajos de Weir (1990), Hamp-Lyons (1991), y el más reciente de Amengual Pizarro (2003) centrado en la realidad de nuestro país (redacciones de las PAAU). En éste último se plantea una cuestión interesante: la existencia de discrepancia entre las puntuaciones holísticas y analíticas de un mismo corrector en la evaluación de la expresión escrita. 4.5.1.3. Pruebas de cierre: Clozes Desde la llegada del movimiento comunicativo se ha estudiado profusamente sobre las pruebas de cierre. No son propiamente pruebas de vocabulario, pero para su realización demandan del alumno un conocimiento léxico. Generalmente se consideran pruebas objetivas, sin embargo, son un grupo lo suficientemente amplio y peculiar (Read 2000) como para merecer su propio epígrafe en la clasificación. Ya hemos señalado en apartados anteriores que sus rasgos peculiares las hacen partícipes de características propias de las pruebas objetivas de elementos discretos y también de otras que se atribuyen a las holísticas. Son objetivas en cuanto a su corrección, pero los estudios muestran su alta correlación con pruebas integradoras. Los clozes comenzaron con Taylor (1953) como prueba para medir la legibilidad de los textos. Posteriormente fueron firmemente respaldados por Oller (1979) como medida eficaz de la competencia global en lengua extranjera. Enfrentan al alumno con un texto en el que se han omitido una serie de palabras, siguiendo distintos criterios, y proponen su recuperación. La discusión en torno a las bondades o no de los clozes ha llegado hasta nuestros días. Se sigue investigando para discernir qué miden realmente, su validez y fiabilidad. En los próximos capítulos (5 y 6) estudiaremos detalladamente los rasgos de las pruebas de cierre, entre las que se incuye el C-test. La evaluación del vocabulario 181 4.5.2. Ejemplos de pruebas estandarizadas de vocabulario No queremos cerrar este capítulo sin mostrar alguno de los exámenes de vocabulario en lengua inglesa que se están aplicando en la actualidad. Read (2000) analiza cuatro de los más populares en su libro Assessing Vocabulary: - Vocabulary Levels Test - Eurocentres Vocabulary Size Test (EVST) - Vocabulary Knowledge Scale (VKS) - Test of English as a Foreign Language (TOEFL) Son pruebas diferentes pero coinciden en algunos aspectos; todas suponen intentos serios de evaluar el aprendizaje del vocabulario, su formato es sencillo, son relativamente actuales, han gozado de una amplia difusión y prestigio, y todas ellas siguen siendo sometidas a estudios y revisiones para comprobar su validez. La más antigua es el TOEFL, que nació en 1964 en el Educational Testing Service de Princeton. En los años 80 aparecieron el Vocabulary Levels Test y el Eurocentres Vocabulary Size Test (EVST). Después, ya en la década de los 90, nació el Vocabulary Knowledge Scale (VKS). Los tres primeros intentan medir la cantidad de vocabulario que maneja el alumno, mientras que el VKS pretende indagar en la calidad del mismo. El Vocabulary Levels Test fue diseñado por Nation a comienzos de los 80 como instrumento para la programación de la enseñanza del vocabulario y se ha utilizado como prueba de diagnóstico de la amplitud de vocabulario. Se basa en la frecuencia de las palabras en inglés y se organiza en torno a varios niveles (2000, 3000, 5000 palabras, etc.) Incluye ejercicios de matching (palabras con su definición). Se sigue trabajando en él; versiones posteriores (Laufer y Nation 1999) introducen actividades de blank-filling muy cercanas al formato del C-test. El EVST fue creado por Meara y su grupo a finales de los 80 como prueba de nivel. Mide la amplitud del vocabulario del alumno a partir de checklists. Su administración se hace mediante el uso del ordenador. El VKS es un reciente intento de evaluar la calidad y profundidad del conocimiento del vocabulario. A finales de los 90 Paribakht y Wesche prepararon El C-test: alternativa o complemento de otras pruebas en ILE 182 este examen para su uso en la investigación de la adquisición accidental (incidental) de vocabulario en alumnos que aprenden inglés como lengua extranjera. Presenta al alumno una serie de palabras y una escala para que haga su propia valoración de hasta qué punto sabe cada una de ellas. El TOEFL está ya totalmente institucionalizado. Su propósito era conocer el nivel de inglés de los estudiantes extranjeros que pretendían acceder a universidades americanas. Consta de varias secciones, una de las cuales es el vocabulario. A lo largo de su historia ha ido evolucionando en consonancia con las tendencias en evaluación. Durante años ha utilizado el formato de elección múltiple, pero a partir de las últimas revisiones tiende a contextualizarse. La tarea que propone es buscar el sinónimo de un término dentro de una frase o texto breve. Por otra parte, ya centrándonos en España, veremos que dentro de la parte objetiva de la Prueba de Inglés de las PAAU hay una pregunta específica de vocabulario. En la Perspectiva Empírica de la tesis se estudia cómo correlaciona esta sección de la prueba con el C-test. Las pruebas de cierre 183 CAPÍTULO 5. LAS PRUEBAS DE CIERRE 5.1. Introducción Iniciamos un capítulo fundamental para el desarrollo de esta tesis. En él identificamos al C-test como un tipo de prueba de cierre. Para comenzar, abordamos el concepto de cloze. Nos remontamos a la Psicología de la Gestalt para buscar el origen de esta técnica, creada por Taylor en los años 50. Revisamos sus características y los distintos tipos de pruebas de cierre. Después, profundizamos en el C-test, su diseño y características, sus ventajas y sus puntos débiles. Finalizamos con un repaso de la literatura sobre el C-test y las investigaciones recientes más significativas que informan nuestro trabajo experimental con dicho instrumento de evaluación. 5.2. Concepto de “prueba de cierre” o cloze technique La aparición de la técnica “de cierre” o cloze technique en la década de los 50 supuso el comienzo de un nuevo procedimiento de diseño de pruebas integradoras para medir la competencia lingüística. Fue creada por Wilson L. Taylor (1953). Consiste en la mutilación de un texto mediante la omisión de un determinado número de sus elementos. La tarea que se propone al alumno es la recuperación del texto original (Taylor 1953: 416): A cloze unit may be defined as: any single occurrence of a successful attempt to reproduce accurately a part deleted from a “message” (any language product), by deciding form the context that remains, what the missing part should be. El C-test: alternativa o complemento de otras pruebas en ILE 184 Las llamadas pruebas “de cierre” constituyen un procedimiento pragmático de evaluación de la lengua (Oller 1979: 42). Taylor acuñó el nombre de cloze para este tipo de pruebas. La palabra cloze es, según Oller, “a spelling corruption of the word close” (op. cit.: 341). Inventó esta denominación porque al rellenar los huecos de un texto previamente mutilado realizamos un acto de closure, de cierre, de modo semejante a lo que ocurre en la percepción de modelos visuales incompletos, según la Psicología de la forma o Gestalt48. Oller (1979: 42) lo explica así: “Taylor considered words deleted from prose to present a special kind of closure problem”. Las pruebas de cierre permiten valorar la competencia lingüística global de un alumno porque reducen la redundancia de la lengua y obligan al alumno a aplicar la gramática de expectativas de que dispone. Para aportar una respuesta correcta a una omisión el alumno necesita tener en cuenta la información lingüística procedente del propio texto, pero también ha de hacer inferencias del contexto extralingüístico. La técnica de cierre resultó ser un procedimiento de evaluación prometedor que se ha utilizado mucho en la enseñanza e investigación de lenguas extranjeras, ya que, tras múltiples investigaciones (ver abundante literatura al respecto), ha demostrado ser un método práctico, válido y fiable, además de producir un efecto rebote positivo. El C-test es un tipo de prueba de cierre que surgió posteriormente, y que reúne las características deseables para toda prueba de evaluación de la lengua, comentadas en el capítulo 3. No obstante, también se le achacan algunas deficiencias. Nos ocupamos de su análisis en el próximo capítulo. 5.3. La Psicología de la Gestalt La escuela psicológica gestaltiana comenzó en Frankfurt am Main en 1910-12 con los estudios de Wertheimer (1880-1943), Khöler (1887-1967) y Koffka (1886- 1941) en el campo del aprendizaje y la percepción. 48 Oller (1979: 341) se refiere al origen del término cloze y apunta lo siguiente: “The term is a mnemonic or perhaps a humorless pun intended to call to mind the process of closure celebrated by Gestalt psychologists”. En esta tesis se utilizan indistintamente las denominaciones “prueba de cierre” y cloze. Mantenemos el término inglés por su claridad y amplia difusión internacional. Las pruebas de cierre 185 La teoría de esta escuela psicológica, así como su influencia en la psicología posterior, es mucho más amplia y compleja que lo expresado en este apartado, pero por razones de espacio nos centraremos exclusivamente en los aspectos más significativos que explican cómo se relaciona la Gestalt con las pruebas de cierre. Los psicólogos gestaltianos preferían el método experimental. Comenzaban el análisis por la totalidad para ir centrándose después en las partes que la forman. Utilizaban la técnica del análisis fenomenológico, que parte de una experiencia perceptiva. El concepto clave es Gestalt. Tiene tres significados: un todo o sistema (Ganzheit), estructura o configuración (Struktur) y propiedad emergente o sistemática (Gestalt-qualität). Para la psicología de la Gestalt un todo “es una configuración compleja cuyos componentes se encuentran relacionados entre sí [...] todos los componentes adquieren significación dentro de la estructura global” (Moya Santoyo 2002: 45). En cuanto al aprendizaje, destacaron el aspecto creativo: la percepción es subjetiva. Subrayaron la importancia de la configuración global y describieron las reglas básicas de la percepción de los objetos (figura-fondo, semejanza, proximidad, cercanía, buena continuidad, etc.). Uno de los principios básicos para la Psicología de la Gestalt es el de “pregnancia”; la tendencia a percibir los objetos como totalidades bien estructuradas y de la forma más simple. Este fenómeno se explica gracias a otros cuatro principios que son procesos internos: cierre, proximidad, continuidad y semejanza. Nos interesa, sobre todo, el principio de cierre, que inspiró a Taylor para la creación de los clozes. Según esta regla las estructuras cerradas se perciben más fácilmente como unidades, tendemos a cerrar las configuraciones incompletas y a recordar como cerrado aquello que no lo está totalmente. Según Khöler (1972: 19) “los procesos responsables de la formación de objetos visuales tienden a formar figuras cerradas y no simples figuras lineales”. Este principio, que observamos claramente en la percepción visual, se puede aplicar también a otros campos. De manera semejante, según Taylor, tendemos a completar un texto mutilado o incompleto, porque constituye un todo o unidad. Los elementos de un texto se interrelacionan y adquieren su pleno significado en la El C-test: alternativa o complemento de otras pruebas en ILE 186 estructura global. La redundancia de la lengua y la gramática de expectativas nos ayudan a completar la estructura, es decir, el todo. 5.4. Los clozes como expresión de los principios de pregnancia y cierre Las pruebas de cierre proponen al alumno la tarea de completar un texto previamente mutilado. Taylor destacó la similitud entre los principios que rigen la percepción, según la Psicología de la Gestalt, y la tendencia a percibir el texto como una totalidad. A continuación veremos qué mecanismos se ponen en funcionamiento para que el hablante de una lengua consiga “rellenar” los huecos que distorsionan su percepción global del texto. La técnica de cierre parte del reconocimiento de la lengua como sistema funcional y creativo que contiene abundantes redundancias (Read 1982 citado en Weir 1990; Spolsky 1973). Según Oller (1979: 344), este procedimiento mide la interiorización de los conocimientos gramaticales49, ya que para predecir una palabra de un texto debemos utilizar las habilidades que subyacen a la actuación lingüística y demostrar así nuestro grado de competencia: “in fact the cloze technique elicits information concerning the efficiency of the little understood grammatical processes that the learner performs when restoring missing or mutilated portions of text”. Cuando pedimos a un estudiante que recupere una palabra omitida en un texto, estamos haciendo que ponga en práctica esas habilidades de que dispone y que subyacen a su actuación lingüística. Las posibilidades en cada punto del texto son limitadas. Para encontrarlas cuenta con información; como las claves textuales y contextuales, ha de utilizar la redundancia de la lengua y el sistema de expectativas (expectancy system) que tiene como hablante. Para completar un texto correctamente hay que entender el texto y el contexto extralingüístico. Es necesario tanto utilizar las claves y limitaciones sintácticas, morfológicas y semánticas que impone el sistema de la lengua, como inferir información del contexto extralingüístico. Read (2000: 55) menciona a Sternberg y Powell (1983), que 49 Los apartados 1.6 y 1.7 del capítulo 1 desarrollan el concepto de gramática pragmática de expectativas de Oller (1979) y el principio de redundancia reducida de Spolsky (1973). Las pruebas de cierre 187 clasifican el contexto de una palabra en interno y externo. El buen conocimiento de la lengua supondrá una gran ayuda en este proceso. Fotos (1991: 315) explica: The principle of reduced redundancy used in Information Theory is also thought to be involved, because the cloze test reduces natural linguistic redundancies and requires the test taker to rely upon organizational constraints to fill in the blanks and infer meaning. Taylor (1953: 418ss.) expresaba ya las ideas de gramática de expectativas y redundancia de la lengua, posteriormente desarrolladas por Oller (1979) y Spolsky (1973) respectivamente: Some words are more likely than others to appear in certain patterns or sequences. “Merry Christmas” is a more probable combination than “Merry birthday”. “Man coming” means the same as “A man is coming this way now”. The latter, which is more like ordinary English, is redundant; it indicates the singular number of the subject three times (by “a”, “man”, “is”) [...] Such repetitions of meaning, such internal ties between words, make it possible to replace “is”, “this”, “way”, or ”now”, should any of them be missed. A continuación mostramos un ejemplo práctico del proceso que se sigue para completar las omisiones de un texto, teniendo en cuenta las limitaciones (constraints) que impone el propio sistema de la lengua (sintácticas, morfológicas, semánticas), y utilizando todo tipo de información lingüística y extralingüística. Judith Taylor talks about her life as a top model. I am sure that ______(1) people think that the _______(2) of a model is ______(3) easy and very exciting. ______(4) is true that I _______(5) to some fantastic places ______(6) I meet some interesting _______(7). And the clothes, of _______(8)... I love wearing beautiful _______(9)! Éste es el aspecto que presenta una prueba de cierre tradicional, de ratio fija. El alumno recibe un texto, adecuado a su nivel de competencia en la lengua, con un determinado número de huecos u omisiones. Para recuperar el texto original debe rellenar esos huecos. Todo texto contiene una serie de claves que el alumno ha de localizar y utilizar para completar su tarea de forma satisfactoria. El C-test: alternativa o complemento de otras pruebas en ILE 188 En primer lugar ha de tener en cuenta el tipo de texto (género, tema, contexto, etc.), puesto que cada género muestra determinadas convenciones y rasgos estilísticos. En este caso, el texto es sencillamente el relato del estilo de vida de una modelo, contado por ella misma. Sólo esta información inicial nos da una idea del registro de lengua, del tipo de vocabulario y estructuras gramaticales que probablemente aparecerán en el texto (serán términos relacionados con la vida diaria, frente a otras posibilidades que encontraríamos en textos científicos, legales, literarios, etc.). Así comenzará a aplicar su gramática pragmática de expectativas. Además, ha de valorar las limitaciones morfosintácticas y las claves que aporta la redundancia de la lengua. Se percatará de que probablemente la primera palabra omitida (1. most) sea un adjetivo o un determinante debido a su situación en la oración, delante de un nombre, mientras que la segunda (2. lifestyle) debería ser un nombre, puesto que va seguida por un complemento del nombre “of a model” y precedida por el determinante “the”. La quinta omisión (5. go) ha de ser un verbo de movimiento precediendo a la preposición “to”, la octava se reconocerá como parte de la expresión habitual “of course”, y así sucesivamente. En algunas ocasiones un hueco puede completarse correctamente con más de una palabra (por ejemplo, también sería posible completar la omisión 2 con “life”). Es necesario hacer inferencias extralingüísticas (contexto, cultura, etc.) para buscar la palabra más adecuada y si varias lo son, queda a juicio del corrector determinar la validez del término según el criterio de corrección que haya fijado para la prueba50. Mostramos ahora el texto original que corresponde al ejemplo analizado: Judith Taylor talks about her life as a top model. I am sure that most people think that the lifestyle of a model is very easy and very exciting. It is true that I go to some fantastic places and I meet some interesting people. And the clothes, of course... I love wearing beautiful clothes! Aportar información lingüística que no aparece en los mensajes es una actividad normal y relativamente fácil en nuestra lengua materna, pero la dificultad 50 En el apartado 5.12 revisaremos los distintos criterios de corrección para las pruebas de cierre tradicionales: desde el que considera válido todo término que se ajuste a los límites que impone el texto hasta el que sólo admite el que aparece en el texto original. El C-test reduce considerablemente las posibilidades de que exista tal disparidad de criterios. Las pruebas de cierre 189 aumenta al intentar recuperar el mensaje en una segunda lengua. A mayor dominio del lenguaje corresponderán mejores resultados, puesto que se será capaz de utilizar mejor la redundancia de la lengua (Spolsky 1973) y se localizarán mejor las claves lingüísticas y extralingüísticas del texto. 5.5. Qué miden las pruebas de cierre Lee (1985), Fotos (1991) y Connelly (1997), entre otros autores, se hacen eco de la controversia acerca de qué miden realmente las pruebas de cierre. Como hemos visto se considera una medida integradora y pragmática que rápidamente atrajo la atención de los investigadores (Oller 1979; Alderson 1979). En la literatura, las opiniones acerca de qué miden los clozes van desde los que consideran que miden lo mismo que las pruebas de elementos discretos (Farhady 1979), o que sólo miden las destrezas básicas (Alderson 1979), hasta los que ven en las pruebas de cierre una medida de la competencia lingüística global (Oller 1979, 1988; Chavez-Oller et al. 1985; Bachman 1982). Fotos (1991: 332) sugiere que todas estas opiniones son correctas, pero incompletas. Introduce un nuevo punto de vista: el nivel de los estudiantes sobre los que se aplique la prueba. Según sus investigaciones, cuanto mayor sea el nivel del alumnado en la lengua “the cloze test has more language proficiency to measure”. Oller (1979) cita diversos estudios que intentaban determinar la sensibilidad de los clozes a las limitaciones que impone el texto (textual constraints) (Aborn et al. 1959; MacGinitie 1961; Darnell 1963; Coleman y Miller 1967) con resultados contradictorios. También en la literatura más cercana a nuestros días encontramos resultados dispares. Algunas investigaciones (Alderson 1979; Klein-Braley 1983) consideran que las pruebas de cierre sólo miden la comprensión del texto más cercano a las omisiones y no son sensibles a otras limitaciones lingüísticas más allá de la oración. Sin embargo, el estudio de Chihara et al. (1977) con omisiones en textos cuyas oraciones habían sido previamente desordenadas, muestra que “items that proved to be maximally sensitive to discourse were simply those that involved meanings that El C-test: alternativa o complemento de otras pruebas en ILE 190 were expressed over larger segments of discourse” (citado en Oller 1979: 361), y que estos ítems no se limitaban a las palabras con contenido léxico. Jonz (1991) y Chihara et al. (1994) de nuevo estudiaron los efectos de desordenar las oraciones del texto en las pruebas de cierre. Los resultados indicaron que para resolver correctamente un cloze se necesita información que va más allá de la oración. Jonz (1990: 62) considera que “the standard fixed-ratio cloze procedure has a high level of sensitivity to intersentential ties and lexical selections”, en consonancia con otras investigaciones tanto anteriores como posteriores (Bachman 1982, 1985; Brown 1983; Chavez-Oller et al. 1985; Sasaki 2000). El autor no duda en asegurar que “the cloze procedure produces tests that are generally consistent in the ways they measure the language knowledge of examinees” (op. cit.: 61) (la cursiva es mía). Como hemos visto, la consistencia en la medida indica fiabilidad de la prueba. Jonz (1990) también apunta una idea importante respecto a la diferencia entre hablantes nativos y aprendices de lengua extranjera al resolver pruebas de cierre: “Future studies should hypothesize that the constraints on native-speaker cloze responses would vary from those on nonnative-speaker responses” (op. cit.: 73). Según Jonz (1990: 63), la investigación de Bachman (1982) demostraba que la puntuación obtenida en un cloze refleja “complex skills ranging along a hierachy of lower- to higher-order human language processing capacities”. Este estudio (Bachman 1982) concluye que las pruebas de cierre reflejan un factor de competencia lingüística general “along with three specific traits: a syntactic (clause level) trait, a cohesive (interclausal and intersentential) trait and a strategic (semantic) trait”. Jonz (1990: 72) achaca a las diferencias individuales las discrepancias entre algunos resultados de su investigación y la de Bachman (1982), porque indican que “the constraints on response for any cloze item might, in fact, vary in princpled ways from one person to the next”. Este aspecto requiere, en palabras del propio autor, “careful investigation”. Storey (1997) retomó esta línea de investigación, centrándose en las estrategias que cada sujeto emplea en la resolución de las pruebas de cierre. Las pruebas de cierre 191 También las investigaciones de Chavez-Oller et al. (1985) destacaron este aspecto: la resolución de una prueba de cierre implica la puesta en funcionamiento de los mecanismos de “higher-order language processing”. El título de la tesis plantea una cuestión acerca del C-test que ya se ha abordado en la literatura con respecto a las pruebas de cierre en general, pero sin resultados concluyentes hasta la fecha. En concreto, nos planteamos si el C-test supone una alternativa a otras pruebas en la evaluación del Inglés como Lengua Extranjera o si únicamente debe utilizarse como complemento de las mismas. En cuanto a las pruebas de cierre tradicionales en la literatura encontramos estudios que respaldan ambas posturas. Heilenman (1983) recomienda usar los clozes, con cautela, como complemento a otros métodos en pruebas de nivel. Sin embargo el éxito del estudio de Shohamy (1983) con estudiantes hebreos respalda su uso en lugar de otras medidas de la competencia lingüística global. Fotos (1991) se cuestionó si las pruebas de cierre pueden sustituir a otros instrumentos de evaluación más tradicionales, en su caso los ensayos. La investigación desarrollada por Fotos (1991: 334), como la de Shohamy, recomienda el uso de pruebas de cierre de ratio fija en sustitución de otras pruebas integradoras. Aunque señala algunas limitaciones de la técnica, sentencia que “carefully constructed cloze tests have the potential to become useful tools of integrative language assessment in the EFL situation”. Poco después, Soyoung Lee (1996) retoma las investigaciones acerca de la validez concurrente de las pruebas de cierre de ratio fija y su correlación con los ensayos. Entre otros aspectos señala los problemas que se derivan del ensayo como instrumento de evaluación de la competencia lingüística. A pesar de ser un procedimiento integrador, el ensayo plantea controversias en cuanto al método de corrección (holístico o analítico), el sesgo del tema “writing proficiency may vary with topic”, la necesidad de contar con más de un ensayo de cada sujeto para asegurar fiabilidad, etc. (Arthur 1979; Henning 1987; Amengual 2003). A la vista de los resultados, Lee (1996: 62) se decanta por las pruebas de cierre como alternativa a otras pruebas: “This result confirms the finding of two previous studies (Fotos 1991; Hanania and Shikhani 1986) that cloze tests can be an alternative to essay tests” (la cursiva es mía). Además apoya su uso en la práctica docente: “as a teaching device in classroom situations”. El C-test: alternativa o complemento de otras pruebas en ILE 192 Nuestro trabajo experimental tiene como objetivo principal dar respuesta a la pregunta, ciñéndose al C-test: por sus características como instrumento de medida de la competencia lingüística, ¿podría ser el C-test una alternativa a otras pruebas o simplemente un complemento para las mismas? Hemos visto que los antecedentes en la literatura no muestran resultados claros al respecto. Se hace necesaria una investigación que determine la validez y fiabilidad de la prueba mediante el análisis de su naturaleza y el estudio de las correlaciones con otras pruebas estandarizadas que midan el mismo constructo. 5.6. Las pruebas de cierre como medida de la comprensión lectora Oller (1979) menciona distintas aplicaciones de la técnica de cierre. Además de evaluar la competencia global en la lengua, las pruebas de cierre pueden medir la efectividad de la enseñanza y servir a fines investigadores. En este apartado destacamos su utilización para determinar la legibilidad de los textos y para estimar la comprensión lectora. A lo largo de la historia se han desarrollado muchas fórmulas distintas para calcular la legibilidad de los textos (Klare 1976). Las más utilizadas se basan en la longitud media (número de palabras) de la oración51. Pero con ellas no se ha logrado la exactitud que se buscaba, según Glazer (1974: 405 citada en Oller 1979: 348), porque “all language elements can, in some way, be involved in the reading comprehension process”. La autora añade que el número de palabras de una oración no es del todo significativo. En algunos casos una frase más larga puede resultar más fácil de comprender, si comunica mejor una idea (Pearson 1974). Otros métodos intentan juzgar la legibilidad de los textos con apreciaciones subjetivas. No obstante, Oller (1979: 349) considera que los resultados son sólo estimativos, porque puede haber gran disparidad entre las apreciaciones: 51 Son las fórmulas de Dale-Chall (1948) y Flesh (1948). La de Dale-Chall tiene en cuenta además el número de palabras no familiares, la de Flesh analiza también el número de afijos y el de referencias personales. Las pruebas de cierre 193 There is some evidence that subjective judgements of sentence complexities, word frequencies, and overall passage difficulties may have some validity. However, in order to attain necessary levels of reliability, many judges are required, and even the, the judgements are not very precise. Ante este panorama, Taylor (1953) propuso la técnica de cierre como base para medir el grado de legibilidad de la prosa y como medida indicativa de la comprensión lectora. Taylor trabajó de forma experimental con pruebas de cierre creadas a partir de textos previamente estudiados por los alumnos y constató una mejora en los resultados. 5.7. Rasgos fundamentales de las pruebas de cierre En el capítulo 3 hemos revisado las características, es decir, los requisitos mínimos que debería tener toda prueba de evaluación de la lengua para ser considerada un instrumento eficaz de medida. Validez y fiabilidad se consideran las cualidades básicas. Pero no se pueden olvidar otros aspectos, como el carácter práctico e interactivo, la autenticidad y el impacto (Bachman y Palmer 1996). Las pruebas de cierre no son una excepción. Si queremos demostrar que cumplen el objetivo para el cual son diseñadas, hemos de valorar si reúnen estas características. En concreto, veremos los rasgos de validez, fiabilidad y factibilidad. 5.7.1. Validez y fiabilidad A pesar de la popularidad de los clozes, su validez y fiabilidad han sido cuestionadas. Como hemos visto, son dos rasgos esenciales, por tanto es de vital importancia determinar si las pruebas de cierre los cumplen y en qué grado. En general, podemos decir que la literatura respalda a las pruebas de cierre como instrumento de medida integrador de la competencia lingüística en EFL (Oller 1979; Jonz 1990; Fotos 1991). En cuanto a su validez, se ha estudiado la validez de constructo, de contenido, concurrente y predictiva de la prueba (Bachman 1982; Brown 1983, 1988). El estudio El C-test: alternativa o complemento de otras pruebas en ILE 194 de Lee (1985) sobre la validez de constructo de los clozes analiza la validez de cada una de las omisiones. Es decir, si cada una de ellas mide un solo constructo. Según Oller (1979: 347) el hecho de que las pruebas de cierre sean sensibles a “discourse level constraints as well as structural constraints within sentences” es lo que genera coeficientes de validez mayores que los obtenidos con otras pruebas pragmáticas de evaluación. El trabajo de Lee (1996: 69), en la línea de Fotos (1991) y Hanania y Shikhani (1986), confirma la validez concurrente de los clozes como medida de la expresión escrita: “The common integrative nature between the essay and cloze tests is proved”. Destacamos las implicaciones prácticas de la investigación de Lee: una vez confirmada la validez de las pruebas de cierre cabe plantearse utilizar la técnica en el aula como “an effective teaching device” más que como mero formato de examen. Hinofotis (1987) y Buck (1988) sugieren, por ejemplo, su uso en ejercicios de comprensión oral, e indican que cada profesor puede hacer las variaciones pertinentes para adaptar las pruebas de cierre a sus propias necesidades educativas en el aula. Chapelle y Abraham (1990: 139) investigaron la fiabilidad de los distintos tipos de prueba de cierre en un estudio que volveremos a mencionar más adelante. Comprobaron que, aunque algunas técnicas resultan más fáciles que otras, no hay diferencias notables que afecten a la fiabilidad: “Although statistically significant, these differences in difficulty were not sufficiently large to affect reliability substantially. The reliabilities were adequate, although not as high as desired”. 5.7.2. Factibilidad La factibilidad es uno de los aspectos en que encontramos mayor unanimidad en la literatura sobre los clozes (Dörnyei y Katona 1992; Connelly 1997). Los autores reconocen y alaban su economía de esfuerzo y tiempo. Quizá esta cualidad haya sido básica para impulsar su gran popularidad en el contexto de EFL. El carácter práctico de las pruebas de cierre radica en su fácil diseño (Oller 1979). Su creación implica escasas decisiones subjetivas por parte del profesor. Las pruebas de cierre 195 Únicamente debe seleccionar el texto base, decidir el tipo de prueba (ratio-fija, variable, C-test, etc.), el punto de comienzo de las omisiones y fijar el criterio de corrección. El profesor gana tiempo en la creación y en la corrección de la prueba, e incluso en la aplicación, puesto que es aplicable a muchos sujetos a la vez y su administración no requiere un tiempo excesivo. Debido a sus características, se puede aplicar pruebas de cierre repetidamente en las clases, no sólo como pruebas de evaluación, sino también como instrumento didáctico en el aprendizaje de la lengua extranjera (Lee 1996). El profesor determinará según su contexto y propósito cómo utilizar las pruebas de cierre en la enseñanza de lenguas. 5.8. Selección de textos para crear pruebas de cierre La selección de textos constituye uno de los primeros pasos en la creación de pruebas de cierre. Los expertos insisten en que se haga cuidadosamente (Fotos 1991). Oller (1979) asegura que a priori cualquier texto puede ser adecuado para crear una prueba de cierre, siempre que tenga la extensión suficiente para efectuar las omisiones52. Por supuesto, se ha de tener en cuenta el nivel del alumno en la lengua y el propósito de la prueba. El autor apela al sentido común del profesor. Aconseja evitar los textos que puedan distraer al alumno de su tarea, es decir, aquellos que “involve topics that are intrinsically disturbing or so emotionally charged that they would distract the attention of the students from the main problem set by the test –filling in the blanks” (Oller 1979: 365). Tampoco recomienda la elección de textos que requieran conocimientos técnicos, ni los que contengan temas polémicos (política, religión, aborto, etc.). Estos mismos parámetros sirven también para el diseño de C-tests. Sasaki (2000: 108) investigó cómo afectan a la resolución de las pruebas de cierre los esquemas de contenido activados por palabras que resultan familiares al examinando. Demostró que la inclusión de términos familiares redunda en una 52 No es conveniente diseñar clozes sobre oraciones aisladas: “Cloze items over isolated sentences, of course, do not qualify as pragmatic tests at all and are not recommended” (Oller 1979: 366). El C-test: alternativa o complemento de otras pruebas en ILE 196 mayor motivación para resolver la prueba. Además facilita al alumno la comprensión del texto y le ayuda a encontrar las claves para completar los ítems. A partir de su análisis llegó a conclusiones útiles para la selección de textos sobre los que crear pruebas de cierre. Recomienda elegir los que sean “familiar enough for the intended examinees to fully use their knowledge”. 5.9. Tipos de pruebas de cierre Oller (1979: 344) define la técnica de cierre o cloze procedure y aprecia su contribución a la comprensión de los procesos internos del aprendizaje de la lengua: ...the family of techniques for systematically distorting portions of test –is a method for testing the learner’s internalized system of grammatical knowledge. [...] elicits information concerning the efficiency of the little understood grammatical processes that the learner performs when restoring missing or mutilated portions of text. A lo largo del tiempo las pruebas creadas con la técnica de cierre han sufrido modificaciones. Las aportaciones de distintos investigadores interesados en la técnica han dado lugar a varios tipos de cloze. Alderson (1979: 225) concluyó, tras su investigación con omisiones de distinta ratio, que “the cloze procedure is not a unitary technique”, puesto que si se introducen variaciones da lugar a pruebas bien distintas. Todas las propuestas basadas en la técnica de cierre pretenden mejorar la validez, fiabilidad y el carácter práctico de las pruebas introduciendo variaciones en el tipo o frecuencia de las omisiones (sistemática cada n palabras, racional, etc.) y estudiando cómo afecta el sistema de corrección aplicado (palabra aceptable o exacta, etc.). El campo de las pruebas de cierre, a pesar del volumen de lo ya investigado, sigue estando hoy abierto a nuevas investigaciones. En el apartado siguiente clasificaremos las pruebas de cierre atendiendo al tipo y frecuencia de las omisiones. Nos centraremos en el C-test como variación que pretende superar algunas deficiencias de las pruebas de cierre tradicionales. Las pruebas de cierre 197 5.9.1. De ratio fija Se considera el método estándar (Oller 1979; Chapelle y Abraham 1990; Jonz 1990), es el más utilizado e investigado. Los exámenes se construyen a partir de un texto previamente seleccionado, en el que se omiten de forma sistemática una cada n palabras. Normalmente el número máximo de omisiones es de 50 (Alderson 1979; Brown 1983; Jonz 1990; Fotos 1991). Las pruebas de cierre resultantes de aplicar una ratio fija a las omisiones se han considerado pruebas pragmáticas muy adecuadas para medir la competencia en una lengua extranjera: The number of words correctly replaced (by the exact-word scoring procedure) or the number of contextually appropriate words supplied (by the contextually appropriate scoring method) is a kind of overall index of the subject’s ability to process the prose in the text. (Oller 1979: 345) Algunos autores lo respaldan incondicionalmente (Oller 1979; Heilenman 1983; Hinofotis 1987; Laesch y Van Kleeck 1987) por su validez y fiabilidad. No obstante, el método de ratio fija también ha suscitado dudas, pues algunos autores (Alderson 1979; Klein-Braley 1983; Brown 1988) critican la variabilidad e inconsistencia de los clozes. Reclaman que dependiendo del punto de partida de las omisiones y de su frecuencia un mismo texto se puede dar lugar a tests de muy distinto grado de dificultad. Oller (1979), por el contrario, insiste en que no afecta dónde comiencen las omisiones: “it matters little where the counting begins” (op. cit.: 365). Y Bachman (1982) confirma la consistencia de las distintas pruebas de cierre creadas a partir de un mismo texto. El profesor ha de decidir la frecuencia de las omisiones. Pero conviene tener en cuenta que si se omite más de la quinta parte de las palabras de un texto (1/5th) muchos de los ítems no pueden ser recuperados, ni siquiera por hablantes nativos (Oller 1979: 345). El modelo de prueba de cierre presentado como ejemplo en el apartado 5.3 ha sido creado omitiendo una de cada cinco palabras del texto a partir de un punto concreto, que sirve como introducción al tema del texto o lead-in53. 53 Algunos autores son partidarios de dejar la primera frase intacta y comenzar las omisiones en la segunda frase. También se puede dejar la última frase sin mutilar. Este procedimiento es el que recomiendan Klein-Braley y Raatz (1991) para el diseño de C-tests. Sin embargo, en el caso de las pruebas de cierre estándar de ratio fija, Klare et al. (1972) y Oller (1979) no lo consideran necesario, aunque tampoco perjudicial. El C-test: alternativa o complemento de otras pruebas en ILE 198 Por otra parte, al seguir una ratio fija, las omisiones pueden no ser representativas del texto. Además la técnica plantea problemas de corrección que veremos más adelante (si cualquier palabra aceptable en un punto concreto del mensaje debe ser considerada válida en la corrección o exclusivamente la correcta). Otro aspecto significativo es que en este tipo de cloze los hablantes nativos obtienen unos resultados muy dispares, no consiguen fácilmente recuperar el 100% de las omisiones. 5.9.2. De ratio variable Esta variación consiste en crear pruebas de cierre controladas seleccionando las palabras que se van a omitir según un criterio dado, por ejemplo, limitar las omisiones a palabras con carga semántica, o sólo a términos funcionales (Bachman 1985; Fotos 1991), dependiendo del propósito de la prueba. Weir llama a esta técnica selective deletion gap filling (en Hughes 1989: 66) aunque la denominación más habitual es rational deletion cloze tests. Chapelle y Abraham (1990: 124) exponen la fundamentación de la técnica: Rational cloze research and practice rests on the assumption that different cloze items can be explicitly chosen to measure different language traits. Some evidence indicates that test writers can select words reflecting distinct aspects of the learners’ grammatical and textual competence (Bachman, 1982), or at least differing in difficulty in a regular fashion (Bachman, 1985). Más adelante, señalan las ventajas atribuidas a las pruebas de cierre de ratio variable. Chapelle y Abraham (op. cit.: 124) destacan principalmente la mayor fiabilidad y mejor correlación con otras pruebas: …practically speaking, items selected by experienced text writers may produce tests that are more reliable and more highly correlated with other language tests, especially test measuring traits similar to those particular cloze items were chosen to measure. Sin embargo, el estudio comparativo de Bachman (1985) entre clozes de ratio fija y variable no encontró diferencias significativas entre los resultados de ambos. Las pruebas de cierre 199 Klein-Braley (1997: 62) señala que este tipo de prueba “does enable the test constructor to determine what exactly is being tested”, pero también dirige nuestra atención hacia un problema importante: con este sistema de omisiones se pierde el azar, y por tanto se deja de lado uno de los principios de las pruebas de redundancia reducida fijados por Spolsky (1973): “it is not in agreement with the theory of reduced redundancy testing. If the tester chooses what to test, then the random sampling model has been abandoned”. 5.9.3. De elección múltiple Algunos autores, como Chapelle y Abraham (1990), clasifican a las pruebas de elección múltiple como un tipo de prueba de cierre. Este método fue creado por Jonz (1976). Propone al alumno un texto con cierto número de omisiones. Para cada omisión se aportan varias opciones o posibilidades con que completar el texto. Una de ellas es la correcta, y las otras se denominan distractors. El alumno debe identificar la respuesta correcta. Jonz destacó la economía de administración y corrección de la prueba. Pero Klein-Braley (1997: 60) hace la misma crítica que al formato anterior “this test form can no longer claim to rely on the principle of random sampling”. Por ello, de nuevo cuestiona su validez como prueba de redundancia reducida. Por otra parte, distintas investigaciones muestran un dato que resulta casi obvio: aportar una respuesta propia es más difícil que identificarla (reconocimiento vs. producción). A lo que Shohamy (1984) añade que la facilidad de una prueba no tiene que ver con su validez y fiabilidad. Weir (1988: 47) señala que este tipo de prueba logra ser fiable al asegurar la objetividad del corrector, pero, sin embargo, las pruebas con este formato deben ser creadas con cuidado para que la pregunta sea clara y para que el alumno no consiga la respuesta correcta simplemente por “eliminación” o “deducción”: There is considerable doubt about their validity as measures of language ability [...] In a multiple-choice test the distractors present choices that otherwise might not have been thought of [...] What the test constructor has inferred as the correct answer might not be what other readers infer, or necessarily be explicit in the text. El C-test: alternativa o complemento de otras pruebas en ILE 200 En consecuencia, la elaboración de estas pruebas conlleva mucho tiempo y esfuerzo (Klein-Braley 1997). En cuanto a su fiabilidad, los estudios aportan resultados bien distintos: Manning (1986) encontró un coeficiente de 0.80, mientras que el estudio de Klein- Braley (1997) muestra un coeficiente de fiabilidad KR-21 de sólo 0.49. Para Weir (1988), las preguntas de elección múltiple no son un tipo de cloze, sino un método diferente de crear exámenes. En su línea, no pensamos que sea adecuado clasificar al test de elección múltiple como tipo de cloze porque la tarea propuesta no es sino el reconocimiento o identificación de la respuesta correcta, y por tanto, no mide la competencia en la lengua objeto de estudio. El hecho de que el alumno reconozca y comprenda la palabra no significa que sea capaz de utilizarla en su producción oral o escrita. No obstante, este tipo de prueba puede ser útil en ciertos momentos o situaciones que el profesor ha de determinar. Bachman (1990: 48) recuerda que las pruebas de elección múltiple fueron rechazadas al principio, después ampliamente utilizadas y, luego, de nuevo criticadas: “and once again multiple-choice tests are being criticized as artificial and inappropriate, even though there are many situations in which the multiple-choice format is the most appropriate available”. La popularidad de este tipo de prueba hace que a menudo se identifique la idea de prueba objetiva o test con las pruebas de elección múltiple, como refleja el Diccionario de uso del español de María Moliner (2000). 5.9.4. Cloze-elide technique Es otra variación de las pruebas de cierre introducida por Manning (1986, citado en Fotos 1991). Consiste en insertar palabras incorrectas en un texto, que deben ser detectadas por los alumnos. Como en el caso de la elección múltiple, creemos que la técnica no puede ser considerada como prueba de cierre. En primer lugar, porque no presenta al alumno un texto en el que se omite información, sino que ésta ha sido reemplazada por un error. Además, al igual que la de elección múltiple solo mide el reconocimiento, en este caso del error, pero no la capacidad para producir una respuesta correcta. Las pruebas de cierre 201 Futuras investigaciones sobre ambas técnicas llegarán a determinar qué miden exactamente, su validez y fiabilidad. 5.9.5. C-test En los años 80 Klein-Braley y Raatz propusieron un nuevo tipo de prueba de cierre, el C-test. En él las omisiones siguen la rule of two, es decir, se elimina la segunda mitad de cada segunda palabra. La tarea consiste en recuperar el texto original completando la segunda mitad de una palabra sí y otra no. Al comienzo y al final del texto se mantiene una parte intacta. Como otras pruebas de cierre, el C-test pretende medir la competencia lingüística global, mediante la redundancia reducida y la aplicación de la gramática de expectativas del hablante. Con esta innovación, Klein-Braley y Raatz pretendían dar a los clozes más objetividad y fiabilidad. Aunque veremos después con mayor detalle las ventajas atribuibles a este tipo de prueba de cierre, podemos adelantar que con el C-test se logra, efectivamente, una mayor objetividad en la corrección, ya que limita más las opciones de respuesta para cada omisión. Es casi imposible que varias palabras sean válidas en el mismo lugar y coincida su primera mitad, como ocurre en el cloze tradicional. Debido al elevado número de ítems que el alumno debe completar, las omisiones son siempre representativas del texto y los hablantes nativos adultos llegan a obtener puntuaciones perfectas (el 100%). Sus creadores destacan ciertas aportaciones del C-test: - Facilidad de diseño y corrección. - Adaptación a todo tipo de textos, temas y niveles de dificultad. - Obtención de resultados válidos y fiables incluso con materiales que no se han trabajado previamente. - Formato atractivo al alumno: validez aparente. Retomaremos el análisis del C-test con mayor profundidad en el siguiente capítulo. Mostraremos las características de su diseño y las investigaciones más importantes relacionadas con la prueba. El C-test: alternativa o complemento de otras pruebas en ILE 202 5.10. Criterios de corrección de las pruebas de cierre Oller (1979: 367) hace notar que con todos los criterios de corrección de pruebas de cierre investigados se ha constatado la obtención de buenos resultados. Cuando el criterio de corrección es más o menos riguroso lo que se produce es un cambio en la media (mean score), pero “...there is little change in the relative rank order of scores”, pues se mantienen las puntuaciones relativas de los alumnos con respecto al grupo. Brown (1980) examina la validez y fiabilidad de las pruebas de cierre en relación con el método de corrección. Valora los cuatro métodos de corrección que revisamos en los apartados siguientes: palabra correcta, palabra aceptable, clozentrophy y formato de elección múltiple. Al igual que Oller expone que los resultados obtenidos con todos los métodos presentan una alta correlación, por lo tanto, concluye que la elección del método de corrección debe quedar a elección del propio examinador, dependiendo de la situación. Sin embargo otros estudios (Heilenman 1983; Hinofotis 1987; Laesch y Van Kleeck 1987) atribuyen mayor validez y fiabilidad al método de la palabra exacta. 5.10.1. Palabra exacta Una de los posibles criterios de corrección para los clozes es considerar como válidas exclusivamente las respuestas que se correspondan directamente con la palabra exacta del texto original. Es también el criterio más estricto y el que menos problemas plantea al corrector, puesto que su tarea se limita a verificar la exactitud incluso ortográfica del término. 5.10.2. Palabra aceptable Otros autores (Jonz 1991) respaldan un criterio más razonable y flexible, pero que da mayor cabida a la subjetividad. Consideran correctas las respuestas aceptables para cada omisión y contexto. Proponen el textually appropriate scoring Las pruebas de cierre 203 criterion. Pero puede surgir el problema de determinar cuáles son concretamente las palabras que se consideran “aceptables” para cada hueco y los límites de la aceptabilidad. Correspondería al profesor o al equipo examinador, en su caso, fijar tales términos como tarea previa a la administración de la prueba. Por las características de su formato, con el C-test se impone la aplicación del criterio corrección de la palabra exacta, puesto que es muy difícil que sean válidas varias palabras en un punto concreto del texto, que su primera mitad coincida y que la segunda mitad tenga el mismo número de letras. 5.10.3. Clozentrophy Con este criterio se valoran las respuestas comparándolas con las de los hablantes nativos. Este método añade la tarea de administrar previamente cada prueba a un número de hablantes nativos y listar las posibles respuestas. Como hemos indicado para el criterio de la palabra aceptable, la prueba pierde objetividad, aunque quizá gane autenticidad. 5.10.4. Elección múltiple Si el examinador aporta un repertorio de posibles respuestas para cada omisión la prueba se convierte en un test de elección múltiple. El alumno sólo debe reconocer la respuesta correcta y señalarla. Su tarea se limita al reconocimiento y no a la producción. Como hemos reflejado en el apartado 5.9.3, consideramos que no es adecuado aplicar este criterio de corrección a las pruebas de cierre. La razón es que las convierte en otro tipo de prueba, cuya validez y fiabilidad habría que determinar, pero, en todo caso, distinta en su naturaleza. Siguiendo las indicaciones de Oller (1979) y Brown (1980) es cada profesor quien debe valorar las posibilidades existentes y elegir un criterio de corrección de clozes adecuado para su contexto y objetivos. El C-test 205 CAPÍTULO 6. EL C-TEST 6.1. Introducción Este capítulo se centra en el C-test como variación que intenta mejorar las características técnicas de las pruebas de cierre. En el capítulo anterior hicimos una descripción somera de la técnica. En el actual revisamos sus antecedentes y concretamos los detalles de su diseño siguiendo los parámetros de sus creadores, Klein-Braley y Raatz. Mostramos también un ejemplo práctico y analizamos las ventajas y desventajas que se le han achacado en la literatura. 6.2. Antecedentes del C-test Klein-Braley y Raatz (1981) fueron los creadores de este nuevo tipo de prueba de cierre. Podríamos decir que el C-test surgió como desarrollo de las pruebas de cierre, aunque Klein-Braley (1984: 97) prefiere considerarlo “a different and more satisfactory operationalisation of the construct”. Así pues, el C-test nació a partir de los clozes (Taylor 1953), con la pretensión de superar sus puntos débiles y los problemas técnicos que diversas investigaciones habían puesto de manifiesto (Klein-Braley 1981; Alderson 1978, 1979, 1980, 1983) y de encontrar un instrumento más consistente de medida. Incluso la denominación elegida por Klein-Braley y Raatz indica la fuerte relación entre el C-test y los clozes: The C in the name C-Test was chosen specifically as an abbreviation of the word “cloze” in order to indicate the relationship between the two test procedures. The El C-test: alternativa o complemento de otras pruebas en ILE 206 C-Test was an attempt to retain the positive aspects of cloze tests but to remedy their technical defects. (Klein-Braley 1997: 63) Klein-Braley y Raatz presentaron el C-principle por primera vez en 1981 en el Fourth International Language Symposium de Colchester. Las primeras investigaciones se hicieron con C-tests en lengua inglesa y alemana, y pronto suscitaron gran interés entre los profesionales del sector. Después, los propios creadores diseñaron y aplicaron C-tests dirigidos a alumnos de todas las edades (desde siete años hasta adultos) y tipos (nativos, aprendices de segunda lengua, de lengua extranjera). 6.3. Deficiencias de las pruebas de cierre tradicionales En el capítulo anterior, dedicado a las pruebas de cierre, constatamos la popularidad alcanzada por las pruebas de cierre tradicionales y las ventajas (alta validez, fiabilidad, alta correlación con otras pruebas) que encuentran en ellas destacados autores, tales como Oller (1979, 1988), Bachman (1982), Chavez-Oller et al. (1985), Jonz (1990) y Fotos (1991). También mencionamos que, a pesar de su éxito, algunos aspectos de la técnica fueron criticados. Partiendo de las investigaciones de Klein-Braley (1981) y Alderson (1978, 1979, 1980, 1983) sobre las pruebas de cierre tradicionales, Klein- Braley y Raatz (1981, 1984) observaron en ellas ciertas deficiencias técnicas (shortcomings) que les llevaron a desarrollar un nuevo diseño: el C-test. Haremos una enumeración de algunos de los “defectos” detectados en las pruebas de cierre y puestos de manifiesto por los trabajos de Klein-Braley y Raatz (1984) y Klein-Braley (1997), entre otros: - Aunque los clozes pretenden mutilar el texto aleatoriamente, no lo logran omitiendo una cada n palabras. - El grado de dificultad de las pruebas resultantes a partir de un mismo texto al aplicar ratios distintas y/o variando el punto de comienzo de las omisiones no es equivalente. El C-test 207 - En las pruebas de cierre existentes hasta entonces, si se quiere omitir un buen número de palabras se hace necesario que el texto de partida sea excesivamente largo. - Al utilizar un único texto no se puede asegurar que éste sea representativo de la lengua, y no es extraño que el tema produzca sesgos. - En cuanto al método de corrección, se aprecia que con el de la palabra exacta se crean pruebas demasiado difíciles incluso para hablantes nativos, mientras que con el de la palabra aceptable se pierde objetividad. - Los hablantes nativos no consiguen buenos resultados en las pruebas de cierre, cuando sería lógico que los solucionaran sin problemas. - A esto hay que añadir que los estudios estadísticos sobre validez y fiabilidad de las pruebas de cierre no son concluyentes, sino que aportan resultados dispares. Cuando se plantearon la creación de otro tipo de prueba, en primer lugar, Klein- Braley y Raatz establecieron los criterios que debería cumplir la nueva técnica (Raatz 1985; Klein-Braley 1997): - Debía producir pruebas más breves y a la vez incluir un número suficiente de ítems (al menos 100). - Para evitar problemas de subjetividad la técnica debía fijar la ratio, el punto de comienzo de las omisiones y utilizar sólo el criterio de corrección de la palabra exacta. - Para no favorecer a los alumnos que conocieran bien el tema del texto se deberían utilizar textos variados. - Además pretendían asegurar que las palabras omitidas fueran representativas del texto y que los hablantes nativos adultos obtuvieran puntuaciones casi perfectas. Y todo ello, sin sacrificar las consabidas validez, fiabilidad y carácter práctico propias de las pruebas de cierre. El C-test: alternativa o complemento de otras pruebas en ILE 208 6.4. Descripción de la técnica para diseñar C-tests Como prueba de cierre, el diseño del C-test se basa en un texto previamente mutilado que el alumno debe recuperar. En el caso de las pruebas de cierre tradicionales las omisiones corresponden a palabras completas. Klein-Braley (1997: 64) considera que la técnica de las omisiones es el motivo de que los clozes no funcionen satisfactoriamente, porque “it is not sampling in the way that the theory demands”. Sin embargo, en el C-test se omite la segunda mitad de cada segunda palabra, a partir de la segunda palabra de la segunda oración del texto, siguiendo una regla que Klein-Braley y Raatz denominan rule of two, la “regla del dos”. Es lo que se conoce como C-Principle: “Deletions are not performed at the text level but at the word level: we no longer remove whole words from the text; we damage parts of words” (Klein-Braley 1997: 64). Las normas para crear C-tests son muy claras: Si la palabra tiene un número impar de letras se ha de omitir la segunda mitad más una letra. Si la palabra sólo tiene una letra (como I y a en lengua inglesa) no se tiene en cuenta en el recuento. Tampoco se consideran las cifras ni los nombres propios. La primera oración del texto se mantiene intacta, pues sirve para introducir el tema del texto (en las pruebas de cierre tradicionales esta práctica no se considera necesaria, aunque tampoco perjudicial). Las omisiones comienzan en la segunda palabra de la segunda oración. De este modo se evita la ambigüedad de los clozes tradicionales para decidir el punto de inicio de las omisiones. También la última oración del texto queda intacta. Sus creadores recomiendan que se utilicen varios textos (de 4 a 6 distintos) para construir una prueba C-test. Lo normal es que el total de omisiones del C-test sea de 100 y que se distribuyan en cuatro textos de 25 omisiones cada uno (o bien cinco textos con 20 omisiones). El profesor ha de ordenar los textos por orden creciente de dificultad, y puede hacerlo simplemente de forma intuitiva. Klein-Braley y Raatz aconsejan que se comience por seleccionar un número mayor de textos y después de probar su funcionamiento se elijan los cuatro o cinco definitivos para cada C-test. También Brown (1993: 112) propone este proceso para las pruebas de cierre tradicionales. El C-test 209 El examinando debe recuperar exactamente el texto original completando la segunda mitad de una palabra sí y otra no. El criterio de corrección tampoco ofrece dudas; será siempre el de la palabra exacta. Así disminuye el margen de subjetividad del corrector y aumenta para el profesor la economía de esfuerzo y tiempo que caracteriza a la prueba. A continuación mostramos un ejemplo de creación de C-test a partir de un texto sobre el que aplicamos las reglas que hemos explicado anteriormente. UFOS Any object or light reportedly sighted in the sky and which cannot be immediately explained by the observer automatically receives the label Unidentified Flying Object, or UFO. Sightings of unusual flying phenomena date back to ancient times , but UFOs (sometimes called flying saucers) became a favourite dinner table topic after the first widely publicized US sighting in 1947. Many thousands of such observations have since been reported world-wide. At least 90% of UFO sightings are easily explained. Objects often mistaken for UFOs include bright planets and stars, aircraft, balloons, kites, aerial flares, peculiar clouds, meteors and satellites. The remaining sightings can probably be attributed to other mistaken sightings or to inaccurate reporting, hoaxes or delusions. Éste es el aspecto que ofrece un C-test cuando se presenta al alumno: UFOS Any object or light reportedly sighted in the sky and which cannot be immediately explained by the observer automatically receives the label Unidentified Flying Object, or UFO. Sightings o_____ unusual fly_____ phenomena da_____ back t_____ ancient ti____, but UFOs -some_____ called fly_____ saucers- bec_____ a favourite din_____ table to_____ after t_____ first wid______ publicized US sigh_____ in 1947. Ma_____ thousands o_____ such observ______ have si_____ been repo_____ world-wide. A_____ least 90% o_____ UFO sightings a_____ easily expl_____. Objects of_____ mistaken f_____ UFOs include bri_____ planets and stars, aircraft, balloons, kites, aerial flares, peculiar clouds, meteors and satellites. The remaining sightings can probably be attributed to other mistaken sightings or to inaccurate reporting, hoaxes or delusions. Algunos autores (Weir 1988; Bradshaw 1990; Jafarpur 1995) rechazan su aspecto “fragmentario” porque resta validez aparente a la prueba. Otros (Klein- Braley 1997) reclaman lo contrario o al menos no consideran que este rasgo sea tan significativo. En el apartado 6.7.1.1 retomaremos algunos aspectos que hacen referencia a la validez aparente del C-test. El C-test: alternativa o complemento de otras pruebas en ILE 210 La primera oración intacta permite al alumno familiarizarse con el tema del texto (Feldman y Stemmer 1987). La parte final también contribuye a dar sentido y pregnancia al “todo” que constituye el texto. La parte omitida de cada palabra se sustituye por un guión que no indica exactamente el número de letras restantes. Pero el alumno recibe instrucciones claras sobre la tarea que debe realizar, sabe que se ha omitido la segunda mitad de la palabra. Como podemos ver, la elevada frecuencia de las omisiones (una palabra sí y otra no) evita que sea necesario utilizar textos muy largos para obtener una buena muestra de la actuación del alumno, lo que supone una ventaja añadida. De este modo, Klein-Braley y Raatz consiguieron inventar un nuevo tipo de prueba de cierre que supera algunas deficiencias de las tradicionales, sin renunciar al principio de redundancia reducida. Esa certeza les llevó a considerar al C-test “técnicamente superior” a los clozes tradicionales (Klein-Braley 1985: 76). 6.5. Aportación del C-test a los clozes Ya hemos visto cómo funciona el C-principle en la creación de C-tests. Klein- Braley (1997) expone los puntos en que el C-test supera a las pruebas de cierre tradicionales: - Permite crear pruebas con más omisiones en textos más breves. A mayor número de omisiones, mayor representatividad del texto. - El método de corrección es más objetivo. Se considera válida la palabra exacta y en pocos casos coincide más de una posibilidad que se ajuste a cada omisión y al contexto. Así se ahorra tiempo y esfuerzo en la corrección. - Los hablantes nativos los resuelven con facilidad. Por el contrario, los que no conocen la lengua no pueden obtener resultados positivos en un C-test. - Al constar de varios textos diferentes el C-test da cabida a mayor diversidad de contenido. Reduce las ventajas de que podría gozar un alumno experto en un tema concreto. El C-test 211 También Connelly (1997) reconoce las ventajas del C-test sobre los clozes y las clasifica en dos tipos: técnicas y de carácter práctico. Según el autor, las ventajas técnicas hacen referencia a la validez y fiabilidad de la prueba. Diversos estudios mostraron la superioridad técnica del C-test frente a las pruebas de cierre tradicionales (Klein-Braley 1985; Chapelle y Abraham 1990; Dörnyei y Katona 1992). Las de carácter práctico son casi evidentes; es una prueba de fácil diseño y corrección. Es destacable su economía de esfuerzo y tiempo. En la práctica docente se agradece contar con instrumentos de evaluación tan económicos. 6.6. El C-test como prueba de redundancia reducida Sus creadores reconocen al C-test como prueba de redundancia reducida54. En el capítulo anterior hemos visto que Spolsky (1968, 1973) describe este principio y lo utiliza en pruebas de evaluación de la lengua como medio para que el alumno refleje su competencia en la lengua. Además, el principio de redundancia reducida justifica el uso de pruebas integradoras y pragmáticas, frente a las de elementos discretos: When one considers all the interferences that occur when natural language is used for communication, it is clear that only a redundant system would work. [...] The assessment of proficiency in a language must rather be based on functioning in a much more linguistically complex situation than is provided by the one- element test. (Spolsky 1973: 168ss.) Las pruebas de cierre son el ejemplo más popular de prueba de redundancia reducida porque cumplen el requisito que fijaba Spolsky (1973: 175): “(they) test a subject’s ability to function with a second language when noise is added or when portions of a test are masked”. A continuación vemos cómo define Klein-Braley (1997: 49) las pruebas de redundancia reducida, siguiendo la teoría de Spolsky: A test of reduced redundancy aims at obtaining a random sample of the examinee’s performance. Noise is deliberately introduced into the channel. The way in which examinees perform under these conditions is believed to provide evidence for their language proficiency as a whole. 54 Además de las pruebas de cierre, el principio de redundancia reducida se hace operativo en otras pruebas que enumera Klein-Braley (1997: 50), tales como el dictado (Oller 1971), el Noise Test (Spolsky 1971), Partial Dictation (Johansson 1973), etc. El C-test: alternativa o complemento de otras pruebas en ILE 212 El alumno debe superar los “ruidos” que aparezcan en el canal y completar el mensaje utilizando todos los medios a su alcance: las claves lingüísticas y contextuales (gramática de expectativas) que le permitan inferir hasta llegar a la recuperación del texto original. Y para ello utiliza diversas estrategias (véase apartado 6.8.1). El C-test, como prueba de cierre, se considera una prueba de redundancia reducida que pretende medir la competencia lingüística global. Klein-Braley (1997: 52) explica que la técnica de omisiones del C-test proporciona una amplia muestra de la actuación del alumno y así supera a los clozes típicos: C-tests systematically damage approximately one quarter of the text, using this substitution for random deletion on the assumption that the deletions are sufficiently “dense” to catch a fairly large sample of the examinee’s processing procedures and strategies. Klein-Braley (1997) realizó un estudio comparativo entre varias pruebas de redundancia reducida (dos clozes de ratio fija, dos de elección múltiple, dos cloze- elide, un dictado y un C-test). Pretendía demostrar el buen funcionamiento del C- test. Para ello asignó puntuaciones a las pruebas atendiendo a criterios de validez, fiabilidad, facilidad de diseño y corrección, etc. Y confirmó la superioridad de la prueba; efectivamente el C-test “shows superior performance over the other test procedures in the categories difficulty level, reliability, validity, factorial validity” y, por tanto, “[it] is the best representative of the reduced redundancy tests for general language proficiency for this problem group” (op. cit.: 71) (el énfasis es mío). Las investigaciones llevadas a cabo por Babaii y Ansary (2001) de nuevo se plantearon si el C-test es una realización válida del principio de redundancia reducida. Los resultados confirman la anterior afirmación de Klein-Braley, los autores (op. cit.: 216) concluyen que el C-test: “conforms well to the principle of reduced redundancy which fundamentally emphasizes that both a global and a local knowledge are required to supply the missing elements in a distorted linguistic message”. Antes de finalizar este apartado queremos insistir de nuevo en la estrecha relación entre el concepto de redundancia reducida y el de gramática de El C-test 213 expectativas (Oller 1976, 1979)55, expresado así por Feldman y Stemmer (1987: 255): “Closely linked to the concept of redundancy is Oller’s (1976) pragmatic expectancy grammmar”. El hablante nativo es capaz de utilizar sin ningún problema la redundancia natural de un texto y la gramática de expectativas. Sin embargo, los que aprenden una segunda lengua o lengua extranjera se enfrentan a muchos problemas de comprensión. Las palabras de Feldman y Stemmer (1987: 255) reflejan que cuanto mayor sea el nivel de competencia en la lengua extranjera, el alumno mostrará mayor capacidad para utilizar la redundancia de la lengua: [...] the more clues the learners are able to pick up, because of the natural redundancy of a text, and the more they are able to make use of their pragmatic expectancy grammar, the more developed is their foreign language competence and the better they will accomplish the task. 6.7. Rasgos del C-test En el capítulo 3 identificamos validez y fiabilidad como características básicas de las pruebas. Es, por tanto, fundamental garantizar que el diseño de una prueba posee estos rasgos para que pueda ser considerada instrumento adecuado de evaluación. Además de las investigaciones llevadas a cabo por el equipo de Klein-Braley, Raatz y Süssmilch, desde su aparición en el panorama de la evaluación de la lengua, periódicamente surgen nuevos estudios sobre el C-test que intentan determinar su validez como instrumento de evaluación de la competencia lingüística global. El C-test es una prueba todavía relativamente reciente, que, como veremos, ha obtenido resultados contradictorios, por tanto sigue siendo un campo abierto a la investigación en Lingüística Aplicada. 55 Véase el capítulo 5, apartado 5.4, sobre los clozes como expresión de los principios de pregnancia y cierre. El C-test: alternativa o complemento de otras pruebas en ILE 214 6.7.1. Validez y fiabilidad Klein-Braley y Raatz pretendían conseguir un diseño que superara algunos puntos débiles de las pruebas de cierre tradicionales, pero sin perder validez, fiabilidad, ni factibilidad. Raatz (1985) insiste en la importancia de la validez de las pruebas. Dejando aparte la validez aparente, que merece un subapartado en este capítulo, Raatz distingue entre validez pragmática, de constructo y de contenido. Recordamos que una prueba tiene validez pragmática si realmente funciona en la situación para la que se crea y aplica. La validez de constructo viene dada por la teoría que la sustenta. La de contenido se muestra si la prueba es auténtica. En el caso del C-test, en general, las investigaciones respaldan la validez pragmática y de contenido, pero se han cuestionado la validez de constructo y aparente, como queda reflejado en el apartado 6.8.1. Comenzaremos con los estudios que validan y respaldan la técnica. Klein-Braley (1985: 101) estudió la validez de constructo del C-test mediante la aplicación de C-tests a distintos tipos de alumnos (de edades y niveles de competencia variados) y demostró que: “C-Tests are authentic tests of the construct of general language proficiency”. Años más tarde, el análisis comparativo del comportamiento del C-test frente a otras pruebas también de redundancia reducida llevó a Klein-Braley (1997: 69) a corroborar sus expectativas y concluyó: ”These results show that the improvement is genuine”. El C-test obtuvo buenos resultados estadísticos en el análisis de validez, fiabilidad56 y, sobre todo, en factibilidad: “According to these usability criteria the C- test has the best overall ranking”. Los resultados de 1997 coinciden básicamente con los del estudio comparativo anterior realizado por Chapelle y Abraham (1990). En este caso se crearon distintas pruebas de cierre a partir del mismo texto (clozes de ratio fija, variable o selectiva, 56 Klein-Braley (1997) calculó los coeficientes de fiabilidad KR-21 de las distintas pruebas, (a pesar de que no son estadísticamente independientes y los índices tienden a sobrevalorarse). El dictado resultó ser el procedimiento más fiable, seguido de la prueba DELTA y el C-test (.85), por encima de los clozes (.66) y la prueba de elección múltiple (.55). En cuanto al grado de dificultad, la media del C- test fue P=.52. Los clozes resultaron los más difíciles (P=.27) y la de elección múltiple la más fácil (P=.70). El C-test 215 de elección múltiple y C-tests). El análisis mostró que “The C-test [...] produced, on average, the highest correlations with the language tests” (op. cit.: 140). Ikeguchi (1998) también obtuvo resultados satisfactorios en su investigación de la fiabilidad y validez de la prueba con estudiantes universitarios de Inglés en Japón. En 1992, Dörnyei y Katona desarrollaron un nuevo estudio de validación del C- test entre estudiantes húngaros de enseñanza secundaria y de la Eötvös University de Budapest. Reafirmaron la superioridad del C-test frente a los clozes (Dörnyei y Katona 1992: 187) y manifestaron que su investigación “confirmed that the C-test is a reliable and valid instrument”. Los resultados fueron tan optimistas en todos los aspectos analizados que los autores (1993: 35) no dudaron en describir la técnica como “a friendly way to test language proficiency”. Connelly (1997) obtuvo resultados semejantes en su estudio con estudiantes de ingeniería de Bangkok. Babaii y Ansary (2001: 209) aplicaron C-tests a estudiantes de ingeniería y llegaron a la misma conclusión: “with a certain degree of latitude, C-testing is a reliable and valid procedure that mirrors the reduced redundancy principle”. También los resultados de Rashid (2002) con estudiantes de dos niveles de secundaria respaldan la técnica. En fechas más recientes, Eckes y Grotjahn (2006) se ocuparon de nuevo de la validez de constructo del C-test, en este caso en el aprendizaje de Alemán como Lengua Extranjera. Tomaron el TestDaF como criterio y confirmaron (op. cit.: 315): “Taken together, the evidence provided by our analyses lends strong support to the conjecture that C-tests are measures of general language proficiency.” Por otra parte, Babaii y Moghaddam (2006) analizaron cómo afectan los rasgos de los textos al procesamiento que se lleva a cabo al resolver C-tests. Sin embargo, no todas las investigaciones aportan resultados tan positivos como las anteriores. Veamos otras que cuestionan la validez del C-test. Autores como Carroll (1987), Weir (1988), Kokkota (1988), Cleary (1988) y McBeath (1989) criticaron algunos aspectos del C-test, como su inflexibilidad. Pero es quizá Jafarpur (1995) el que realizó un estudio más profundo y con resultados más impactantes en cuanto a la validez de constructo. Encontró múltiples inconvenientes en el C-test y manifestó que no es superior a las pruebas de cierre tradicionales: “C-testing is suffering from the very same shortcomings pertaining to its prototype, the cloze procedure” (op. cit.: 209). Aunque su estudio muestra la El C-test: alternativa o complemento de otras pruebas en ILE 216 fiabilidad de la prueba, cuestiona la validez del C-test y, por tanto, lo desacredita totalmente. Para determinar la validez y fiabilidad del C-test, en nuestro trabajo experimental se creó un C-test (con dos versiones) que fue administrado a alumnos españoles de segundo curso de Bachillerato, estudiantes de Inglés como Lengua Extranjera. Los resultados obtenidos fueron sometidos a un análisis estadístico y posteriormente valorados. Para estudiar las correlaciones del C-test con otras pruebas se tomó como principal referencia externa el examen de Inglés de las PAAU. En la segunda parte de la tesis, Perspectiva Empírica, se exponen los resultados obtenidos y las conclusiones que se infieren a partir de ellos. 6.7.1.1. Validez aparente Con respecto a la validez aparente del C-test la literatura también muestra opiniones contrapuestas. Klein-Braley y Raatz (1984) afirman la validez aparente de la prueba porque los alumnos ven al C-test como instrumento “legítimo” para la evaluación de la lengua. El estudio de Klein-Braley (1997: 71) no es tan tajante, simplemente considera que los alumnos aceptan la prueba aunque no les entusiasme: “Students appear to accept the procedure as face valid, as they demonstrate by tackling the tests, even if they do not particularly enjoy doing them”. Sin embargo, otros autores (Bradshaw 1990; Weir 1988; Jafarpur 1995) señalan justo lo contrario. Weir (1988: 53) dice que la técnica es “irritating for students” y añade que “the face validity of the procedure is low”. Jafarpur (1995: 209) asegura tajantemente “C-tests do not possess face validity”. Connelly (1997: 145) matiza la rotundidad de la afirmación de Jafarpur sobre la falta de validez aparente de la prueba y la limita a “some groups of students and teachers”. A pesar de que, según Raatz (1985: 134), la actuación en un C-test es independiente de factores como la concentración y la velocidad, hemos de decir que diversos estudios posteriores (Soyoung Lee 1996; Oh 1992; Shohamy 1982) muestran que la actuación del alumno en las pruebas de cierre, incluso en sus formatos más tradicionales, se ve afectada por factores afectivos, tales como la ansiedad del estudiante. Por tanto, también en cuanto a la validez aparente hay El C-test 217 fuerte ligazón entre pruebas de cierre y C-test. Aunque el C-test presenta un aspecto quizá más agresivo para el alumno, debido a que la frecuencia de las omisiones acentúa su carácter fragmentario, el tipo de reacción que provoca en el examinando no es en absoluto exclusivo de este formato. En todo caso, tanto la familiarización con el diseño como la seguridad de que se trata de una prueba válida como instrumento de medida, ayuda a aliviar la ansiedad de los sujetos (Oh 1992). En la Perspectiva Empírica de esta tesis también retomamos el tema de la validez aparente del C-test (capítulo 12), y la analizamos a partir de los resultados obtenidos en cuestionarios retrospectivos de opinión administrados a los alumnos con posterioridad a la realización del C-test. 6.7.2. Autenticidad No podemos olvidar otra característica de las pruebas; la autenticidad. Si definimos autenticidad como “comportamiento lingüístico de la vida real” ninguna prueba de lengua, por el mero hecho de serlo, es auténtica (Klein-Braley 1985). Pero dejando aparte esta visión estricta, se pueden distinguir grados de autenticidad en las pruebas, aunque ésta sea cuestionable. Raatz (1985: 63) apunta que sólo las pruebas integradoras pueden ser auténticas, puesto que las de elementos discretos reducen y distorsionan la realidad. Además, recuerda la importancia de este rasgo para las pruebas: “authenticity should be present in the test material”. Pero no es suficiente con los materiales, también se requiere un comportamiento auténtico en la resolución de la prueba, y en este punto aparecen los problemas. El C-test se considera una prueba auténtica porque cumple el requisito previo (es una prueba pragmática e integradora); además, en su creación se manejan materiales auténticos (los llamados slices of reality procedentes de periódicos, revistas o fuentes literarias, de temas reales, etc.) o levemente adaptados al nivel del alumno. En cuanto a la tarea que ha de realizar el alumno, la que propone el C-test es relativamente común en la vida diaria: completar un mensaje distorsionado por ruidos en el canal, haciendo uso del principio de redundancia reducida y de la gramática de expectativas (Spolsky 1973; Oller 1979). Según Klein-Braley (1985: 77) El C-test: alternativa o complemento de otras pruebas en ILE 218 todas las pruebas de redundancia reducida son en principio “simulations of reality” puesto que “the behaviour demanded from the examinee is viewed as an approximation of linguistic behaviour needed in everyday life”. Según la autora, la autenticidad de la prueba vendrá dada por la validez de constructo: “the claim for authenticity stands and falls with the construct validation of the tests”. Como hemos visto en el apartado 6.7.1, el C-test supera también este requisito. 6.7.3. Factibilidad Pero si hay un rasgo del C-test que no admite discusión es su marcado carácter práctico. Éste es el aspecto menos cuestionado del C-test. Incluso los más críticos con la prueba (Jafarpur 1995: 209) admiten que: “it is easy to construct and to score C-tests”. Los autores son unánimes al alabar su economía tanto en el diseño como en la corrección (Süssmilch 1984; Döryei y Katona 1992; Klein-Braley 1997; Connelly 1997; Babaii y Ansary 2001). Por su objetividad el C-test supera a los clozes tradicionales (se utiliza el criterio de la palabra exacta y generalmente sólo hay una posible solución para cada palabra mutilada) y consigue facilitar la tarea de corrección del profesor: “since it takes only slightly more time than it is needed for simply reading the text. The original text becomes automated so that checking is unnecessary” (Klein-Braley 1997: 65). A modo de conclusión, veamos la reflexión de Dörnyei y Katona (1992: 203) sobre los rasgos del C-test y en concreto sobre su carácter práctico: A major objective of research on language testing is to increase the cost- effectiveness of the assessment; our conclusion about the C-test is that not only is it a reliable and valid measure of general language proficiency but it is also one of the most efficient language testing instruments in terms of the ratio between resources invested and measurement accuracy obtained. (el énfasis es mío) 6.7.4. Efecto rebote La literatura hace pocas alusiones al impacto del C-test en la enseñanza y el aprendizaje. Quizá sea debido a la dificultad que supone aislar el efecto rebote para El C-test 219 su estudio (Bailey 1996) y al elevado coste de tiempo y esfuerzo que requieren las investigaciones sobre el impacto. Sin embargo, en el capítulo 3 destacamos la importancia del efecto de las pruebas, tanto en el micro nivel de los individuos como en el macro nivel de la sociedad o el sistema educativo (Bachman y Palmer 1996). A pesar de la falta de estudios empíricos que respalden esta afirmación, nos atrevemos a decir que la utilización del C-test como instrumento de evaluación, por sus características, necesariamente ha de afectar en ambos niveles. Nos quedamos con el más cercano al aula de lenguas extranjeras, el de los individuos. Lo interesante es que el efecto rebote de una prueba sea beneficioso para profesores y alumnos. Para lograrlo se recomienda la colaboración entre ambos (Bachman y Palmer 1996; Shohamy 1997) con el fin de llegar a modelos de evaluación justos57. Si se siguen estas premisas, con toda seguridad el C-test aportará efectos positivos a la enseñanza de lenguas extranjeras. Desde este trabajo animamos a la realización de investigaciones al respecto. 6.8. Métodos de análisis de los procesos que subyacen a la actuación del alumno en las pruebas de evaluación de la lengua Bachman (1990: 113) considera que la actuación del alumno en las pruebas de lengua varía según su habilidad lingüística individual y las características del método de examen: “Furthermore, the effects of different test methods themselves are likely to vary from one test taker to another”. También se ve afectada por las características personales “...test takers’ cognitive and affective characteristics, their “real world knowledge”, and factors such as their age sex, native language, educational and socio-economic background” (ibídem), que constituyen una fuente potencial de sesgos en la evaluación. Sin embargo, puesto que los aspectos individuales no pueden ser controlados por el profesor (aunque sí analizados), dirigimos nuestra atención hacia los primeros. 57 Entre otros aspectos mencionamos aquí la importancia de la familiarización de profesores y alumnos con la técnica (Bachman 1990). El C-test: alternativa o complemento de otras pruebas en ILE 220 Cohen (1984) había sido de los primeros en realizar estudios encaminados a comprender las estrategias de los alumnos y su reacción a los distintos métodos de examen. Poco después Messick (1988: 54) señaló la importancia de investigar estos procesos, tras constatar que: “individuals differ consistently in their strategies and styles of task performance”. Entendemos estrategia como “plan”, tal y como lo describen Faerch y Kasper (1980: 60 citado en Feldman y Stemmer 1987): “a potentialy conscious plan for solving [...] a problem in reaching a particular goal”. Las estrategias se caracterizan por su dinamismo y pueden interactuar unas con otras. Resulta relativamente sencillo analizar de forma cuantitativa la actuación del alumno en una prueba teniendo en cuenta el producto final. Pero no lo es tanto si valoramos los procesos que subyacen a su actuación; lo que se denomina en la literatura test taking processes themselves. Grotjahn (1986) insiste en que la validación de las pruebas de evaluación de la lengua deberían incluir este tipo de análisis introspectivo cualitativo. La mayoría de las investigaciones realizadas sobre el C-test utilizan el análisis estadístico de las correlaciones con otras pruebas como criterio de validación. Pero con este método no se obtiene información acerca de los procesos mentales del alumno al realizar la prueba. Para evitar esta carencia Grotjahn (1987) diseñó un programa de investigación que combina ambos tipos de análisis: cuantitativo y cualitativo. Recomienda los métodos cualitativos utilizados por Cohen (1984): el protocolo thinking-aloud y la entrevista retrospectiva. A partir de ellos se consigue la preciada información sobre el procesamiento de la información. 6.8.1. Estrategias para la resolución de C-tests: Validez de constructo Ya en el capítulo 4, sobre la evaluación del vocabulario, incidimos en la importancia de describir las estrategias que utiliza el alumno para resolver una prueba de lengua, a pesar de no ser éste el objetivo de nuestra tesis. Conocerlas implica desentrañar los procesos que subyacen a la actuación del sujeto. Para ello, la literatura (Cohen 1984; Grotjhan 1986, 1987; Feldmann y El C-test 221 Stemmer 1987) propone incluir el análisis introspectivo cualitativo en los procesos de validación. Siguiendo estas pautas, además del análisis de la validez concurrente del C- test, utilizamos un cuestionario retrospectivo. Otros métodos (como los protocolos think-aloud) no pudieron ser aplicados debido al volumen de la muestra. Feldmann y Stemmer (1987) estudiaron los procesos que tienen lugar al resolver un C-test. La prueba consiste en recuperar una información, y para ello se requiere la presencia de claves que sean estímulo para la recuperación del texto original. Según los citados autores (op. cit.: 256), el procesamiento comienza cuando el sujeto lee la primera oración del texto, que no presenta mutilaciones. En esta parte se intenta captar la estructura subyacente: “grasp the underlying schema and thus increase the redundancy of the following mutilated text at the semantic level”. Después, el sujeto pasa a la parte mutilada; lee y relee las oraciones, trabajando generalmente de forma secuencial. Puede identificar primero las unidades más pequeñas (letras, sílabas) hasta llegar luego a las más grandes (oración, texto) en un proceso que se denomina “de abajo a arriba”, o bien a la inversa “de arriba abajo”, e incluso de forma simultánea: “A skilled reader will activate both top-down and bottom-up processing simultaneously” (op. cit.: 255). Feldmann y Stemmer (1987) señalan que la recuperación puede ser automática o no automática. En el primer caso, la palabra surge sin pensar, mientras que en el segundo el sujeto ha de buscar otras estrategias. Una vez recuperado el término, viene la fase de evaluación, para confirmarlo o rechazarlo. Y de nuevo comienza la búsqueda, o bien llega el abandono. Cuando se duda entre dos términos, la decisión final se suele tomar “por intuición”. Los autores identificaron toda una lista de estrategias a partir de los protocolos de los alumnos, pero es una lista abierta y susceptible de modificaciones. El esquema que reproducimos a continuación (Fig. 9.13) resume gráficamente el comportamiento de los sujetos: El C-test: alternativa o complemento de otras pruebas en ILE 222 Figura 9.13. Proceso de resolución del C-test (Feldmann y Stemmer 1987: 257) S enters PSS S reads text introduction RETRIEVAL PROCESS AUTOMATIC NON AUTOMATIC RECALL Hypothesis DELAY no hypothesis ACCEPT EVALUATION REJECT GIVE-UP PSS: = Problem-solving situation Indicates process ___ Indicates products of the process Babaii y Ansari (2001) aplicaron protocolos verbales retrospectivos en su investigación. Una vez administrado el C-test pidieron a los sujetos que verbalizaran cómo habían realizado la tarea demandada. Los resultados llevaron a los autores a identificar cuatro tipos de “claves” (cues) para la resolución de las omisiones: 1. Procesamiento automático (16,6%) Cuando al ver la primera mitad el alumno reconoce a simple vista la palabra de que se trata, por su frecuencia, etc. 2. Adyacencia léxica (54,9%) Cuando el sujeto se fía de las claves sintácticas y léxicas que aportan las palabras del contexto inmediato a la mutilación. 3. Claves sintácticas (22,4%) Si se tienen en cuenta las claves sintácticas que aportan las oraciones del texto tomado de forma global (tiempo verbal, claves referenciales, coherencia textual, etc.). El C-test 223 4. Otras claves externas:Top-down cues (6,1%) Como son la variable temática, el conocimiento del mundo, las características personales, similarity chains, etc. A partir de estos resultados, Babaii y Ansari (2001) confirman la importancia de los conocimientos gramaticales para resolver C-tests, lo que contrasta con el anterior estudio de Dörnyei y Katona (1992: 191). A pesar de que en la investigación que nos ocupa no cabe detenernos en el análisis de las estrategias, en nuestro estudio, sobre todo a partir de los datos del cuestionario retrospectivo, reconocemos tanto el proceso identificado por Feldmann y Stemmer (1987) como las claves descritas por Babaii y Ansary (2001). Es probable que la mayor parte de los términos de función y alguno de los léxicos más frecuentes (e.g. “animals”) se recuperen utilizando el procesamiento automático. Junto a éste, las claves de adyacencia léxica del contexto inmediato supondrían la recuperación de gran parte de las omisiones. Sólo cuando no encuentra ayuda en el contexto inmediato el sujeto dirige su atención a las claves sintácticas y externas. Estrechamente ligado a las estrategias está determinar qué mide exactamente la prueba y, por tanto, su validez de constructo (Feldman y Stemmer 1987; Chapelle y Abraham 1990; Dörnyei y Katona 1992; Connelly 1997; Babaii y Ansary 2001; Eckes y Grotjahn 2006). En el caso del C-test, Babaii y Ansary (2001: 216) reconocen: As the present investigation revealed, the C-test can in fact tap various aspects of language proficiency to varying degrees. Hence, this can be assumed to be a step forward towards establishing its construct validity. That is to say, to the extent that the C-test triggers both macro- and micro-aspects of the language, it conforms well to the principle of reduced redundancy which fundamentally emphasizes that both a global and a local knowledge are required to supply the missing element in a distorted linguistic message. Nuestro análisis pretende simplemente señalar cuáles son algunas de las claves concretas que nuestros alumnos utilizaron para solucionar el C-test. Para ello tomamos los datos reflejados en el cuestionario retrospectivo. Las recogeremos en el capítulo 12, que analiza la validez aparente de la prueba. El C-test: alternativa o complemento de otras pruebas en ILE 224 6.8.2. Qué mide exactamente el C-test Para Babaii y Ansary (2001: 212) saber qué mide exactamente el C-test es “the most controversial issue about C-testing”. En términos semejantes se expresan Feldman y Stemmer (1987), Chapelle y Abraham (1990: 127), Dörnyei y Katona (1992: 188), Connelly (1997), y Eckes y Grotjahn (2006). Ciertamente, se han realizado estudios diversos con resultados contradictorios que a veces han cuestionado la legitimidad de la técnica (Jafarpur 1995). Este apartado plantea de nuevo, en definitiva, la validez de constructo de la prueba. Raatz (1984) hizo una primera aproximación en su estudio piloto de la validez factorial del C-test con un pequeño grupo de alumnos de Enseñanza Secundaria. Estudió los coeficientes de correlación del C-test con otros tipos de prueba y con tests de inteligencia y concentración. Además de constatar la estrecha relación entre competencia lingüística e inteligencia general, afirma: “Our aim was to investigate the validity of the C-Test, and there we have been relatively successful” (op. cit.: 138). Las investigaciones posteriores se mueven entre dos extremos: las que consideran que el C-test sólo es sensible a low constraints y las que opinan que mide high constraints. Chapelle y Abraham (1990: 127) hicieron un estudio comparativo entre distintos tipos de clozes, ya que, hasta la fecha, “C-test research has failed to clarify evidence for the specific traits that this technique may measure”. Parten de la idea de que para resolver un C-test se puede prescindir de las claves más alejadas de las omisiones (long-range constraints), pues incluso Klein-Braley (1985) había señalado que las claves utilizadas suelen estar en el entorno más inmediato de la omisión. Por eso ya al introducir su trabajo expresan: “the C-test appears to reflect more grammatical than textual competence” (ibíd.). Una vez analizados todos los datos, Chapelle y Abraham (op. cit.: 140) corroboran que “The C-test, correlating most strongly with the vocabulary test, produced, on average, the highest correlation with the language tests”. Cohen et al. (1984: 225) también habían encontrado que “students who did not understand the macro-context could still mobilize their vocabulary skills adequately to El C-test 225 fill in the appropriate discourse connector without incurring in higher-level processing”. Sin embargo, las conclusiones de Little y Singleton (1990) y las de Dörnyei y Katona (1992) contradicen a Chapelle y Abraham (1990). Dörnyei y Katona (1992: 191) observaron la alta correlación del C-test con otras pruebas de competencia lingüística general, pero destacan que “The only area in our study where the C-test appeared to be less efficient is in the testing of grammar”. Achacan este hecho a que las omisiones se producen a nivel de palabra y no de oración. No obstante, como se ha comentado previamente, el posterior trabajo de Babaii y Ansary (2001) cuestiona estos resultados. Feldman y Stemmer (1987) también conscientes de la importancia de determinar la validez de constructo del C-test, es decir, qué mide la prueba, llevaron a cabo un estudio basado en el diseño de investigación de Grotjahn: uso de protocolos think-aloud y retrospectivos. Consideran que a partir de estos métodos se pueden inferir mejor los procesos cognitivos no directamente observables. Según Feldman y Stemmer (1987: 254): “Processing begins as soon as the learner starts reading the introductory part of the C-test text”, y puede continuar de abajo a arriba (bottom-up processing) desde las unidades más pequeñas hasta las más grandes o bien en sentido contrario (top-down processing). Ambos modos de procesamiento pueden ser simultáneos, pero Feldman y Stemmer pretendían llegar a saber cual de ellos predomina en la resolución de C-tests. Destacaron la importancia de la primera oración del texto, sin omisiones, para la correcta resolución de la prueba. El alumno la utiliza para captar mejor la redundancia del texto y el esquema subyacente. A partir de ese punto, según los autores, las mutilaciones se van completando de dos formas: automatic y non- automatic retrieval. La recuperación automática se produce sin dudas ni titubeos, y la no automática requiere el uso de estrategias. Feldman y Stemmer (1987: 264) describen dos tipos de estrategias: de recuperación y de evaluación58. Una vez identificado el término que se busca, el alumno evalúa su hipótesis y posteriormente 58 Feldman y Stemmer (1987: 259-262) hacen una taxonomía de las estrategias. Entre las de recuperación mencionan las que se basan en la sintaxis, en añadir letras o sílabas, la repetición de ítems que han aparecido antes en el texto, la búsqueda de claves semánticas, etc. Entre las de evaluación aparecen la comprobación de significado y forma, la relectura del texto, etc. Y cuando ni el propio alumno sabe explicar porqué elige una palabra, hablan incluso de la “intuición”. Los autores insisten, no obstante, en que la lista de las estrategias es necesariamente abierta. El C-test: alternativa o complemento de otras pruebas en ILE 226 la acepta o rechaza. Los citados autores concluyeron que: “strategies cannot be localized unambiguously along the top-down – bottom-up continuum”. Su trabajo es muy ilustrativo, pero los propios autores advierten de lo reducido de la muestra analizada (aplicaron sólo 10 C-tests en español y 10 en francés a alumnos alemanes estudiantes de estas lenguas) y animan a la realización de ulteriores investigaciones. Babaii y Ansary (2001) también utilizaron protocolos verbales retrospectivos en su investigación sobre la frecuencia y tipo de claves utilizadas por los estudiantes de Inglés como Lengua Extranjera para solucionar C-tests. Su análisis les permitió identificar los cuatro tipos de claves mencionados en el apartado 6.8.1. De todas ellas, las de adyacencia léxica fueron las más utilizadas. Más adelante (capítulo 9, apartado 9.3.6), veremos que tanto las de adyacencia léxica como las interoracionales se basan en los conocimientos gramaticales del alumno. En fechas recientes, Eckes y Grotjhan (2006) se ocuparon de la validez de constructo del C-test, esta vez en la evaluación del Alemán como Lengua Extranjera. Su investigación corrobora al C-test como instrumento que mide la competencia general en la lengua. Además, precisa: “lexis and grammar are important components of general language proficiency as measured by C-tests” (Eckes y Grotjhan 2006: 316). No obstante, los autores puntualizan que el peso de estos dos componentes (léxico y gramática) depende también del nivel de los examinandos y del grado de dificultad de la prueba. Una de las últimas aportaciones al tema, el análisis de Babaii y Moghaddam (2006), apunta a la dificultad sintáctica y al grado de abstracción de los textos como factores que aumentan la dificultad de la prueba y obligan al sujeto a utilizar “macro- level processing” en la resolución de C-tests. Todas las investigaciones que hemos mencionado, como el acercamiento al C- test que hacemos en esta tesis, son, en realidad, complementarias. Cada una valora un aspecto de la prueba y aporta algo a su comprensión total. En varios momentos hemos comentado que el estudio empírico de la tesis incluye el análisis de un cuestionario retrospectivo. Los alumnos lo completaron de forma anónima una vez acabado el C-test. Se aplicó con el principal objetivo de determinar la validez aparente de la prueba. Pero en la Perspectiva Empírica veremos que aporta también otro tipo de información muy útil, nos ayuda a El C-test 227 comprender qué creen los alumnos que mide el C-test. A pesar de todo, en nuestro trabajo sólo se apuntan ideas. Ésta sigue siendo la gran incógnita que rodea al C- test. Sería deseable que futuras investigaciones, en la línea de Eckes y Grotjahn (2006), Babaii y Moghaddam (2006) y la que aquí presentamos, dedicaran sus esfuerzos a intentar desentrañarla. 6.8.3. C-processing difficulty Lo que Klein-Braley denomina C-processing difficulty se relaciona directamente con el grado dificultad del C-test para los alumnos. Este aspecto se ha de tener en cuenta en la selección de textos, dentro del proceso de creación de C-tests. En su estudio empírico para desentrañar cómo se puede predecir la dificultad de un C-test, Klein-Braley (1984) encontró también algunos aspectos interesantes que no se limitan a los textos, sino que afectan a los sujetos. Observó que la dificultad para solucionar un C-test depende en cierta medida de la edad y, por tanto, de la madurez del alumno: “C-processing difficulty decreases in a linear fashion as the L1 subjects get older” (op. cit.: 109). El otro factor fundamental es el nivel alcanzado en la lengua objeto de estudio, desde los principiantes hasta llegar al hablante nativo, que consigue puntuaciones casi perfectas. Esta afirmación es básica para considerar al C-test como instrumento que mide la competencia global en lengua extranjera. A la vista de los resultados Klein-Braley (1984: 111) propone una sencilla fórmula que resume su investigación: The observed score for any individual on a C-Test must be dependent on the one hand on the C-processing difficulty of the text and on the other on the individual’s position on the language learning continuum. A simpler formal model than the Rash model for this relationship could be an additive one: observed score = subject ability + text level + error. El C-test que se aplica en la parte experimental de la tesis presenta un nivel de dificultad que se supone homogéneo y adecuado al nivel de competencia de los alumnos, pues todos los textos que lo forman proceden de exámenes de Inglés de Selectividad. La edad de los sujetos también es homogénea (cursan 2º curso de El C-test: alternativa o complemento de otras pruebas en ILE 228 Bachillerato). Por tanto, siguiendo las indicaciones de Klein-Braley, en principio los resultados obtenidos serán representativos de la competencia de los sujetos en lengua inglesa. 6.9. Usos del C-test En un primer momento, Klein-Braley y Raazt mostraron abiertamente su satisfacción por el descubrimiento del C-test y sus expectativas para la técnica en el campo de la evaluación de la lengua. Parecía que podía servir casi “para todo”. Dörnyei y Katona (1992: 198) resaltan la versatilidad del C-test, que tiene “something to offer to everybody”. Pero la euforia inicial dio paso a la prudencia, y Klein-Braley (1997: 72) adopta una postura más reposada que le lleva a manifestar: They should only be used under the supervision of the test expert who should evaluate the suitability of the C-Test in question for the specific target group in question before using the results to make any important decisions. A pesar de las palabras de la autora, es lícito plantearse en qué situaciones y para qué propósitos resulta más adecuado el uso de las pruebas de redundancia reducida y, en concreto, el C-test. Klein-Braley considera que coinciden con los usos de cualquier prueba de competencia lingüística global, aunque el C-test aporta las ventajas de factibilidad y objetividad mencionadas en apartados anteriores. Desde fechas muy próximas a su creación el C-test se aplicó en la práctica (Raatz 1984). En Eurozentrum (Colonia) formó parte de la prueba de nivel que se aplica a los nuevos alumnos. También en la Universidad de Duisburg el C-test ha demostrado su validez institucional como prueba de nivel. Süssmilch (1984: 173ss.), que administró C-tests en lengua alemana a alumnos nativos e inmigrantes aprendices de alemán como lengua extranjera con resultados “muy satisfactorios”, afirma que el C-test “can be used by teachers in normal classroom test procedures, but it can also be used as an aid in selection, classification and placement decisions”. Según Klein-Braley (1997) se puede utilizar como prueba de nivel al comenzar un curso, servirá para determinar el nivel general del alumno en la lengua. También El C-test 229 como prueba de selección para clasificar a los alumnos según su competencia lingüística. Destaca su utilidad en la toma de decisiones. Como decision-making tests ayudan a que el profesor decida si un alumno tiene o no el nivel suficiente para seguir un determinado programa. Y, por último, menciona su posible aportación a la investigación lingüística, puesto que se pueden aplicar a aprendices de la lengua materna, de una segunda lengua o de una lengua extranjera. Ciertamente, en la investigación lingüística, el C-test ha demostrado ser un instrumento versátil. En el capítulo 4 comentamos su uso en las investigaciones sobre aprendizaje del vocabulario. Además, varios autores (Wolter 2002; Murtagh 2003) han utilizado la prueba como referencia externa para estudiar las correlaciones con otros tipos de examen. Wolter (2002: 320) aplicó el C-test para comprobar las posibilidades de un word association test como medida la competencia lingüística en lengua extranjera. El autor justifica su elección de este modo: I needed to use a testing format which (1) had the ability to assess overall proficiency, (2) has been shown to be reliable and valid, and (3) can be completed in a relatively short amount of time. Sin embargo, el C-test no resulta apropiado para diagnosticar los puntos débiles de un alumno o los aspectos en que destaca, puesto que mide la competencia “global” en la lengua. Además, Klein-Braley y Grotjhan (1995) (en Raatz y Klein-Braley 1988) advierten de que, en principio, al ser una prueba independiente del currículo, el C-test no pretende detectar los pequeños progresos en la lengua, sino más bien los logros a medio o largo plazo. No obstante, en la práctica, los profesores pueden “adaptar” la fórmula y crear C-tests relacionados con el currículo para ser aplicados de forma regular en las clases. En la Perspectiva Empírica comprobaremos que, por sus características, el C- test puede ser muy útil en el aula de lenguas extranjeras como instrumento de evaluación, siempre que se utilice adecuadamente. Además mostraremos sus posibilidades para ser incluido en exámenes estandarizados (PAAU), dada su validez, fiabilidad y factibilidad. El C-test: alternativa o complemento de otras pruebas en ILE 230 6.10. Variaciones sobre la técnica del C-test El C-test es una prueba todavía relativamente reciente y poco utilizada (en comparación con las pruebas de cierre tradicionales), que a veces ha obtenido resultados contradictorios, por tanto sigue siendo un campo abierto a la investigación en Lingüística Aplicada. Periódicamente surgen nuevos estudios. Como hemos visto a lo largo de este capítulo, algunos intentan determinar su validez como instrumento de evaluación de la competencia lingüística global en lengua extranjera. Otros, sin embargo, sugieren modificaciones en la técnica con el fin de mejorar sus características y adaptarlo a situaciones concretas. A continuación revisamos las propuestas más interesantes. La posibilidad de desarrollar variaciones sobre el C-test no hace sino poner de manifiesto, una vez más, la enorme versatilidad y posibilidades de la prueba. 6.10.1. La “regla del tres” Las investigaciones de Süssmilch (1988: 173) con C-tests aplicados a alumnos cuyo nivel en la lengua era muy dispar pusieron de manifiesto las dificultades de los que tenían un nivel más bajo para resolver la prueba. Llegó a la siguiente conclusión: “extremely easy tests are needed for the early stages of L2 learning”. Para conseguir C-tests más fáciles ideó una variación que facilitaba la tarea al reducir el número de omisiones. Su propuesta supone el abandono de la “regla del dos” a favor de lo que podríamos llamar “regla del tres”, ya que aumenta la ratio de las omisiones (n=3). El C-test que propuso estaba formado por seis textos con un total de sesenta omisiones: “The texts were shorter and had only ten deletions which affected every third word”. De este modo logró un C-test adecuado para principiantes: “...modification of the C-principle enables the construction of suitable tests for these subjects” (ibíd.). El C-test 231 6.10.2. C-tests “a la medida” La aportación de Jafarpur (1999) parte de la observación de la disparidad de los ítems de un C-test en términos de dificultad. Algunas omisiones poseen unos valores aceptables en cuanto al grado de discriminación y facilidad, pero otros son excesivamente fáciles o demasiado difíciles para el alumno. Para evitar esto propuso la creación de tailored C-tests controlando las características estadísticas de cada ítem. Así pues se abandonaría la “regla del dos” y se seleccionarían las omisiones individualmente. Ya Grotjahn (1987) y Kamimoto (1993) habían sugerido dejar las omisiones sistemáticas para mejorar la técnica. Sin embargo, los resultados de la investigación llevada a cabo por Jafarpur (1999: 83) no mostraron la esperada mejoría, como él mismo reconoce: “Taken together, the results obtained from this study indicate that tailoring does not improve the statistical characteristics of the C-test”. 6.10.3. L-Test Kokkota (1988) propuso un nuevo procedimiento de omisión de letras (LDP) que pretende superar la escasa flexibilidad del C-test. El L-Test integra características de los clozes de ratio variable (Bachman 1982) y del C-test. Según Kokkota (1988: 118): “the parameters of LDP are between those of cloze procedure and C-Test, which are its extreme modifications”, por eso el L-Test aventaja tanto a las pruebas de cierre como al C-test. Para llegar al L-Test, Kokkota estudia la relación entre el número de letras de una palabra y su grado de dificultad. Por una parte, es consciente de que la regla del dos produce en el C-test muchos ítems excesivamente fáciles (generalmente términos funcionales). Por otra, ve que cuanto más larga es una palabra, más fácil es su recuperación (Kokkota 1986). Finalmente deduce que: “by increasing or decreasing the number of undeleted letters (NUL) in an item-word we should be able to control the rate of redundancy reduction in a text” (op. cit.: 115). El L-Test típico es un texto de entre 250 y 350 palabras de extensión en el cual aparecen unas 60 omisiones con una distancia interítem de cuatro, cinco o seis El C-test: alternativa o complemento de otras pruebas en ILE 232 palabras (una serie de normas rigen la distancia entre las omisiones y el número de letras omitidas en cada palabra mutilada). Según su creador “L-Test item difficulties tend to fall between those of cloze- tests and C-tests” (op. cit.: 116). Pero la principal ventaja que señala Kokkota es la posibilidad de que el profesor ajuste la dificultad de los ítems variando el número de letras omitidas. Con excepción de los del propio autor no se han realizado hasta la fecha estudios consistentes que demuestren fehacientemente las ventajas del L-Test como variación del C-test. Sería necesario determinar sus rasgos, principalmente validez y fiabilidad. Sin embargo, resulta obvio que el diseño de este tipo de prueba requiere mucho más tiempo y dedicación, con lo cual su economía y factibilidad disminuyen notablemente. Quizá este sea el motivo de su escaso éxito. 6.10.4. The Productive Vocabulary Levels Test Laufer y Nation (1995, 1999) desarrollan un prolífico trabajo en el campo del aprendizaje del vocabulario59. Conscientes de la importancia del vocabulario en la enseñanza del Inglés, han diseñado un modelo de prueba de vocabulario cuyo formato se asemeja al del C-test: el Productive Vocabulary Levels Test. Parten del Vocabulary Levels Test de Nation (1983) para diseñar una nueva prueba de “controlled productive vocabulary ability”. Esta prueba pretende medir la adquisición de vocabulario. Por lo tanto, difiere del C-test tanto en su propósito como en el formato, a pesar de su parecido. Los propios autores, Laufer y Nation (1999: 37), lo expresan así: The test format bears some resemblance to the C-test [...] although for vocabulary-sampling purposes in this study it is not used in a paragraph but a sentence, and the cues are not always half a word. Utilizan como base la oración en lugar del texto. En cada oración se omite la parte final de una palabra, que el alumno debe recuperar. 59 Véase el capítulo 4, sobre las pruebas de vocabulario. El C-test 233 De este modo baja considerablemente la frecuencia de las omisiones, pues sólo hay una omisión selectiva por cada oración. Como en el C-test, se aporta la primera parte de la palabra, pero no se sigue el mismo criterio (omitir la segunda mitad y en las palabras cuyo número de letras es impar, la mitad más uno). En este caso el criterio es bien distinto: “The number of letters for each word was decided on by the elimination of possible alternatives to the tested word. [...] it was thought better to provide the minimal number of letters that would disambiguate the cue” (op. cit.: 37). Las palabras mutiladas pertenecen a cinco niveles de frecuencia, desde las palabras más frecuentes en la lengua hasta las menos utilizadas (2000, 3000, 5000, University Word List (UWL) y 10.000 word levels). El Productive Vocabulary Levels Test resultó ser válido, fiable y práctico como prueba productiva de vocabulario. A continuación vemos el aspecto que presenta la prueba: Figura 6.1. The Productive Vocabulary Levels Test (Appendix 1, Laufer y Nation 1999: 46) The Productive Vocabulary Levels Test: Parallel Version I (Version C) Complete the underlined words. The example has been done for you. He was riding a bicycle. The 2,000-word level 1. I’m glad we had this opp_____ to talk. 2. There are a doz_____ eggs in the basket. 3. Every working person must pay income t_____. 4. The pirates buried the trea_____ on a desert island. 6.10.5. Otras propuestas Intentando buscar soluciones razonables para el problema de los ítems que no discriminan adecuadamente, Cleary (1988) propuso cambiar el sentido de las omisiones y hacerlas en la primera parte de la palabra: “left-hand deletions”. Boonsathorn (1990) y Prapphal (1994) continuaron trabajando con este tipo de El C-test: alternativa o complemento de otras pruebas en ILE 234 prueba, conocida como X-Test, y comparando sus rasgos de validez y fiabilidad con la del C-test. Pero los estudios al respecto resultan aún poco concluyentes Sigott y Kobrel (1996) sugirieron incrementar la dificultad de los textos aumentando las omisiones de 1/2 de cada palabra a 2/3, o bien manteniendo sólo la primera letra. También respaldaron la propuesta de Cleary (1988) como otra opción para conseguir aumentar el grado de dificultad de la prueba. 6.11. Interpretación de los resultados obtenidos en un C-test Klein-Braley (1988: 98), una de las creadoras de la prueba, define al C-test como prueba normativa, norm-oriented test. Como tal pretende tener un nivel de dificultad medio, lo que supone que la puntuación media es la recuperación del 50% de las omisiones. No obstante, añade: “If necessary we can afford to let the mean difficulty slide up to 60%”, porque sus investigaciones constatan la fiabilidad del C- test incluso cuando el nivel de la prueba no se corresponde exactamente con el del alumno, y le resulta muy difícil o fácil. Como hemos visto en el apartado 6.4 del presente capítulo, según sus creadores, para garantizar el nivel medio de dificultad es conveniente seleccionar bien los textos. También es deseable que éstos aparezcan en orden de dificultad creciente (el primero ha de ser más fácil, un icebreaker que no deje duda al alumno sobre lo que la prueba pide de él). Además, la prueba se suele introducir con un modelo para familiarizar al alumno con la técnica. Siguiendo estos parámetros se deberían obtener unos resultados coherentes. Así se hizo en la investigación empírica que justifica esta tesis. En la Perspectiva Empírica mostramos cómo se interpretaron los resultados de nuestros alumnos en el C-test atendiendo a distintas variables y criterios. El C-test 235 6.12. Líneas de futuro El C-test, como prueba de nivel, forma parte de uno de los principales proyectos de UNIcert® (University Foreign Language Certification System en Alemania) que sigue el Marco Común Europeo de Referencia (Eckardt y Voss 2006) y del proyecto ALTAIR de la Universidad de Bolonia (Tamburini y Paci 2002). Hemos de destacar la actividad que desarrolla la Universidad de Duisburg, cuna de este diseño, donde actualmente funciona un proyecto de investigación sobre el C-test: C-test Research Project. Puede consultarse en http://www.uni- duisburg.de/FB3/ANGLING/FORSCHUNG/home.html. La técnica del C-test no es ajena a la aportación de las Nuevas Tecnologías al mundo de la evaluación. Es más, por sus características, resulta muy apropiada para su utilización con el soporte informático. Algunas instituciones ya han introducido un C-test en sus páginas web. Destacamos algunas, como la del Centro de idiomas de la Universidad de Barcelona, UAB Idiomes, que propone la práctica con C-tests: http://si.uab.es/suab244w/ada/ctests/ctests.html, o la página sobre Web-Based Language Testing http://www2.hawaii.edu/~roever/wbt.html, que resalta las ventajas del uso de ordenadores en la evaluación. Hoy, veinticinco años después de su creación, se han diseñado y aplicado C- tests en más de veinte idiomas y múltiples contextos (véase bibliografía en http://www.c-test.de). Es una prueba fructífera, que sigue presente en la investigación sobre evaluación de la lengua (LT) y que tendrá todavía mucho que decir en el futuro. Estudios piloto 237 CAPÍTULO 7. ESTUDIOS PILOTO 7.1. Introducción Dada la naturaleza y literatura expuesta en torno al C-test (Klein-Braley y Raatz 1984; Klein-Braley 1985, 1997; Dörnyei y Katona 1992; Jafarpur 1995; Connelly 1997; Babaii y Ansary 2001; Rashid 2002; Eckes y Grotjahn 2006; Babaii y Moghaddam 2006, etc.), a lo largo de los años nos hemos ido planteando diversas cuestiones con respecto a su aplicación y funcionamiento con alumnos españoles de FP, COU y 2º de Bachillerato, que estudian Inglés como Lengua Extranjera. Con objeto de encontrar respuestas a estas preguntas decidimos llevar el C- test a las aulas en dos estudios piloto que describimos a continuación y que fueron el germen de la Perspectiva Empírica de esta tesis. Mackey y Gass (2005: 43) resaltan la importancia crucial de este tipo de estudios piloto (small-scale trials) previos a la investigación principal: Pilot testing is carried out to uncover any problems, and to address them before the main study is carried out. A pilot study is an important means of assessing the feasibility and usefulness of the data collection methods and making any necessary revisions before they are used with the research participants. En este capítulo detallamos los pasos seguidos en el diseño y aplicación de dos pruebas piloto; una con alumnos de 5º de Formación Profesional y la otra con alumnos de COU. Revisamos los resultados obtenidos, las conclusiones a las que nos condujeron estos primeros análisis y su incidencia posterior en el diseño de la investigación empírica que justifica esta tesis. Los dos trabajos que exponemos a El C-test: alternativa o complemento de otras pruebas en ILE 238 continuación supusieron una primera aproximación al C-test como instrumento de evaluación del Inglés como Lengua Extranjera60. 7.2. Prueba piloto I 7.2.1. Objetivos del estudio En 1998 comenzamos a trabajar con el C-test. Aplicamos este tipo de prueba de cierre a 25 alumnos de 5º de Formación Profesional. El diseño del estudio piloto pretendía valorar la validez, fiabilidad y eficacia de la técnica del C-test. Además apuntaba posteriores líneas de investigación, tales como: • La incidencia del conocimiento previo de los textos, • la recuperación de los términos léxicos y los funcionales, • la reacción ante este tipo de prueba, para ellos totalmente novedosa. 7.2.2. Sujetos Las pruebas se aplicaron a un grupo de 25 estudiantes españoles del IES Humanejos de Parla (Madrid). Cursaban 5º curso de FP, rama Administrativa, durante el curso escolar 1998/99, con 3 sesiones semanales de Inglés. El grupo no conocía la técnica del C-test, aunque se les informó detalladamente de las características de la prueba. 60 Los resultados obtenidos a partir de los dos estudios piloto fueron expuestos en congresos de AESLA y, los tres últimos, posteriormente publicados: - Esteban, M., Herrera, H. y M. Amengual (2000) Niveles de correlación entre el C-test y las pruebas de Inglés de Selectividad. Comunicación al XIX Congreso Nacional de AESLA. Universidad de León. - Esteban, M., Herrera, H. y M. Amengual (2001) ¿Puede el C-test ser una alternativa a otras pruebas en la enseñanza del inglés como segunda lengua? La lingüística española a finales del siglo XX. Ensayos y propuestas, Tomo I. AESLA. Universidad de Alcalá. - Esteban, M. y H. Herrera (2003) El C-test: instrumento apropiado para la evaluación de la competencia en inglés como lengua extranjera. Las lenguas en un mundo global. AESLA. Universidad de Jaén. - Esteban, M. (2005) Niveles de correlación entre el C-test y la prueba de Inglés de Selectividad. En Herrera Soler, H. y J. García Laborda (Coord.) Estudios y criterios para una Selectividad de calidad en el examen de Inglés. Valencia: Ed. UPV. Estudios piloto 239 7.2.3. Materiales Para la primera aplicación de esta técnica en el aula se crearon cuatro C-tests de cincuenta omisiones cada uno, a partir de cuatro textos de un nivel de dificultad adecuado para los alumnos. Los textos versaban sobre temas tratados en las unidades de su libro de texto, Themes for 1º Bachillerato (ed. Burlington Books). Elegimos dos temas: “las comidas” y “los conflictos generacionales”. En el diseño se tuvo en cuenta que dos C-tests se refieren a las comidas y los otros dos al segundo tema, los conflictos generacionales. A la variable temática añadimos la de texto conocido o desconocido, al incluir en los C-tests dos textos previamente trabajados en clase frente a dos nuevos. Así, los C-tests 1 y 2 compartían el tema de “las comidas”, pero el C-test 1 era conocido para los alumnos y el 2 totalmente nuevo. De igual forma, los C-tests 3 y 4 trataban sobre “los conflictos entre padres e hijos”, siendo el 3 conocido y el 4 desconocido. Cada texto consta de más de 100 palabras, y en 50 de ellas hay mutilación. Desaparece la segunda mitad de cada segunda palabra, exceptuando los nombres propios, las cifras y fechas. Las formas verbales aparecen completas, no contractas. Con objeto de facilitar la tarea al alumno, un guión reemplaza a cada letra eliminada. Además cada texto comienza y acaba con una parte intacta (Klein-Braley 1985). A continuación mostramos uno de los C-tests aplicados, el resto puede consultarse en el Apéndice: C-TEST 1: BREAKFAST AROUND THE WORLD Breakfast is an important meal because it gives you energy to start the day. When (1) y-- do (2) n-- have (3) - good (4) break----, you (5) f--- hungry (6) a-- eat (7) ca---, biscuits (8) o- sweets (9) be---- lunchtime. (10) Th-- type (11) o- food (12) i- bad (13) f-- you (14) bec---- it (15) i- not (16) v--- nutritious (17) a-- has (18) l--- of (19) su--- and (20) f--. Breakfast (21) i- not (22) t-- same (23) i- every (24) coun---.For(25) ex-----, many British (26) peo--- have (27) to--- or (28) ce---- and (29) - cup (30) o- tea. (31) Ot---- prefer (32) - traditional (33) break---- of (34) ba--- and (35) eg--. In (36) ot--- Northern European (37) coun-----, for (38) ex----- Germany (39) a-- Sweden, (40) peo--- eat (41) c--- meat (42) a-- cheese (43) w--- bread (44) a-- coffee. (45) I- Nigeria (46) h-- soup (47) i- very (48) co----. Many Brazilians (49) e-- different (50) trop---- fruit and cold meat for breakfast. However, in many parts of the world, people only eat a small dish of rice for breakfast. El C-test: alternativa o complemento de otras pruebas en ILE 240 Podemos apreciar, sin embargo, que ni en las omisiones ni en el formato general de los C-tests aplicados se siguieron de forma estricta las indicaciones de sus creadores. Estos aspectos fue revisados en estudios posteriores. A pesar de las indicaciones de los creadores acerca del número de omisiones (Klein-Braley y Raatz 1984; Klein-Braley 1985, 1997), en nuestro caso, la extensión de los textos elegidos permitía crear C-tests de 50 omisiones sin que resultaran excesivamente largos o tediosos. Además hemos de tener en cuenta que el tema de los textos había sido tratado en actividades diversas en la clase de Inglés. De este modo, además, podíamos administrar dos C-tests en una sola sesión, manteniendo constante la variable del tema e introduciendo la de texto conocido versus desconocido. 7.2.4. Procedimiento Así pues, para realizar este estudio contamos con cuatro C-tests de 50 omisiones cada uno. Se administraron de dos en dos, así cada alumno completó en una sesión dos pruebas (C-test 1 y 2) cuyo tema era el mismo. Y en la segunda sesión los C-tests 3 y 4, que también compartían tema. En ambos casos uno de los textos había sido trabajado previamente en clase y el otro era nuevo. Los trabajados en clase formaban parte de alguna de las lecciones del libro de texto y por tanto suponíamos que el alumno estaba suficientemente familiarizado con ellos. No obstante, en ningún momento se anunció su aparición en la prueba ni el tipo de técnica que se iba a utilizar. Las pruebas se distribuyeron en dos sesiones normales de clase de Inglés del tercer trimestre del curso escolar 97/98 y los alumnos dispusieron de 45 minutos para completar dos C-tests (un total de 100 omisiones). En los momentos anteriores a la administración se facilitaron las instrucciones pertinentes, hasta asegurarnos de la adecuada comprensión de la tarea por parte del alumnado. Se explicó también el sistema de corrección que se iba a aplicar. El criterio elegido era claro y estricto: para cada omisión sólo la recuperación de la palabra exacta sería considerada válida. Estudios piloto 241 Para comprobar la validez concurrente y la fiabilidad del C-test decidimos analizar las correlaciones de las pruebas con las calificaciones de los alumnos en las evaluaciones previas a su administración (1ª y 2ª del curso 1998/99). Mediante el estudio estadístico comparativo de los resultados de las pruebas pretendíamos analizar la variable “conocimiento previo del texto”. Con respecto a la variable del tipo de palabra omitida (términos léxicos y funcionales), para cada C-test se hizo un listado que incluía todas las palabras mutiladas divididas en dos grupos; las funcionales y las de contenido semántico. Con el programa estadístico SPSS se analizó la recuperación de los dos tipos de palabra en cada C-test. 7.2.5. Resultados y discusión Una vez corregidas las pruebas, todos los datos obtenidos se sometieron a análisis estadístico con el programa SSPS 8.1 para Windows, teniendo en cuenta las variables objeto de estudio. En primer lugar se analizaron los promedios obtenidos en cada C-test y se estudió la correlación entre los resultados de los C-tests y las calificaciones previas de los alumnos en la asignatura de Inglés. Los histogramas confeccionados sobre las tablas de frecuencia mostraron que el C-test 1 presentaba la media más alta: 37 respuestas correctas de un total de 50, incluso 3 estudiantes obtuvieron 48 aciertos. En el C-test 2 la media bajaba ligeramente, hasta 31,2 aciertos en escala de 0 a 50, y únicamente un alumno consiguió 44 puntos, máxima puntuación del grupo. Resultado que parece lógico teniendo en cuenta que los alumnos desconocían el segundo texto. Los C-tests 3 y 4 presentaban una media muy similar, incluso algo superior en el texto nuevo: 31,7 y 31,9 puntos respectivamente, en la misma escala. En este caso, nos planteamos la incidencia de los rasgos de los textos y su grado de dificultad, puesto que aunque el texto 4 era nuevo, presentaba mayor redundancia. A partir de los datos confirmamos que la elección de los textos para crear C-tests ha de hacerse de forma muy cuidadosa. El C-test: alternativa o complemento de otras pruebas en ILE 242 Desde una perspectiva holística subrayamos que los histogramas presentaban unas curvas razonablemente normales. Desde una perspectiva analítica cabía apuntar que la curva obtenida a partir del C-test 1 mostraba una distribución bastante normal; con la curva ligeramente sesgada y una curtosis normal, que podríamos considerar mesocúrtica. Por otra parte, los valores modales de la curva correspondiente al C-test 2 llamaban la atención, pues se podría considerar una curva bimodal, con uno de ellos bajo la media y el otro solapándose con la media. La razón para explicar esto podría ser que los alumnos no conocían el texto y, por tanto, les resultó más difícil. El hecho de ser una curva bimodal apuntaba a que la clase tendía a polarizarse en torno a dos grupos, al menos en este texto nuevo para ellos. Las curvas correspondientes a los C-tests 3 y 4 mostraban tendencia a la centralidad. De manera más manifiesta, el C-test 4, con la mayor parte de las puntuaciones en el intervalo medio, lo que subraya la clara tendencia a un comportamiento homogéneo. Las puntuaciones revelaron que el C-test 4 no resultó demasiado fácil ni tampoco excesivamente difícil para el grupo. Se estudió estadísticamente la recuperación de las palabras de significado léxico y gramatical. Para agrupar las palabras de los textos en léxicas y funcionales seguimos las pautas de clasificación de Quirk y Greenbaum (1973) y Aarts y Aarts (1986), que distinguieron entre las partes del discurso abiertas y cerradas, “closed- system and open-class items” y “major and minor word classes”, respectivamente. Tradicionalmente las palabras se han agrupado en clases o partes del discurso que comparten una serie de características, principalmente morfológicas y sintácticas, ya que el criterio semántico es menos fiable. Muchas palabras del inglés, si están aisladas, no pueden adscribirse a una clase concreta sino que presentan lo que se denomina multiple membership. Los lingüistas advierten de que la distinción entre partes del discurso abiertas y cerradas debe hacerse con cautela. En general, podemos decir, no obstante, que los términos funcionales pertenecen a clases cerradas e incluyen a los artículos, demostrativos, pronombres, preposiciones, conjunciones y verbos auxiliares. Los léxicos pertenecen a clases abiertas; son nombres, adjetivos, adverbios y verbos con carga léxica. Estudios piloto 243 La proporción de términos léxicos y funcionales de los cuatro textos utilizados en el estudio es la siguiente: C-TEST 1 Palabras afectadas por la mutilación: De contenido léxico 24 (48 %) Funcionales 26 (52 %) C-TEST 2 Palabras afectadas por la mutilación: De contenido léxico 27 (54 %) Funcionales 23 (46 %) C-TEST 3 Palabras afectadas por la mutilación: De contenido léxico 18 (36 %) Funcionales 32 (64 %) C-TEST 4 Palabras afectadas por la mutilación: De contenido léxico 22 (44 %) Funcionales 28 (56 %) A las palabras pertenecientes a clases cerradas afectadas por la mutilación en el C-test 1 se les dio el nombre de FUNCT 1, a las que tenían carga semántica LEXIS 1, y así sucesivamente. El número total de cada categoría entre los cuatro tests se denominó FUNCTT y LEXIST. Comparando la recuperación de los términos gramaticales y los léxicos vimos que los gramaticales se recuperaron con mayor facilidad, lo que coincide con otros estudios (Farhady y Keramati 1996). Pero la diferencia no era significativa en los tests estudiados. Hemos de tener en cuenta la redundancia de los textos. Al ser textos relativamente sencillos, en ellos abundaba la repetición de palabras relevantes desde el punto de vista léxico, como nombres de comidas en los C-tests 1 y 2. Posiblemente esto facilitó su recuperación y acortó diferencias. Aún así, los términos gramaticales resultaron más fáciles de recuperar, ya que son un número limitado y con gran frecuencia de uso en la lengua (Klein-Braley 1985: 91). Los resultados más interesantes de este estudio piloto fueron los que constatamos al analizar las correlaciones. Todos los tests comparados entre sí mostraron correlación significativa. De forma semejante ocurrió al compararlos con las calificaciones de los alumnos en la asignatura de Inglés en la 1ª y 2ª Evaluación del curso 1997/98. Entre el par C-test 1 y C-test 2 se constató la mayor correlación 0,845 (que supone un coeficiente de determinación de 0,714). Los estudiantes que El C-test: alternativa o complemento de otras pruebas en ILE 244 lograron una mejor puntuación en la primera prueba también consiguieron puntuar alto en la segunda. En la Tabla 7.1, que muestra la correlación de Pearson, el doble asterisco (**) indica que ésta es significativa. Se aprecia que todas las correlaciones estudiadas fueron altas, entre el C-test 3 y las calificaciones previas se observa la mayor. La menor, entre el C-test 1 y las notas del primer trimestre, aunque ya aumenta al compararlo con el segundo. Tabla 7.1. Correlaciones de Pearson 1 2 3 4 5 6 1. CTEST1 2. CTEST2 3. CTEST3 4. CTEST4 5. EVAL1 6. EVAL2 -- ,845** ,690** ,740** ,511** ,670** -- ,722** ,763** ,597** ,577** -- ,789** ,676** ,676** -- ,543** ,520** -- ,814** -- N= 25 alumnos **La correlación es significativa al nivel 0,01 (bilateral). Los datos pusieron de manifiesto la validez concurrente de la prueba y, en consecuencia, las enormes posibilidades del C-test como prueba de evaluación de la competencia en Lengua Extranjera. En cuanto a la validez aparente, hemos de decir que en este primer estudio no se pasó un cuestionario al alumnado, puesto que esta valoración no era nuestro objetivo primordial. Simplemente, en el contexto del aula, se pidió de manera informal a los alumnos que expresaran libremente su opinión sobre las pruebas. Curiosamente, la mayoría manifestaron que les había gustado el tipo de examen, lo cual contrasta con algunas investigaciones sobre el tema (Bradshaw 1990; Jafarpur 1995) que reflejan lo contrario. A partir de esta apreciación se decidió que en estudios posteriores podría ser de utilidad la aplicación de un cuestionario retrospectivo, puesto que abriría la posibilidad de nuevas vías de investigación. Estudios piloto 245 7.2.6. Conclusión Desde el primer momento el C-test cumplió nuestras expectativas. Aunque con la debida cautela, ya el primer estudio piloto nos llevó a considerar al C-test como un instrumento válido y fiable para la evaluación del Inglés como Lengua Extranjera. Trabajos posteriores sirvieron para corroborar esta impresión inicial. La alta correlación con las calificaciones previas en la asignatura de Inglés fue determinante como indicador de validez concurrente y fiabilidad, por tanto cabía incluso plantearlo como posible alternativa a otros tipos de examen. Sin embargo, el estudio estadístico sobre la recuperación de los distintos tipos de palabra no aportó nada significativo a la investigación. En cuanto a la utilización de textos conocidos o no en la creación de C-tests los resultados tampoco fueron tan concluyentes como cabía esperar. Por otra parte, el C-test demostró ser una prueba práctica: fácil y cómoda en cuanto al diseño, administración y corrección. Como prueba objetiva no implica más que las mínimas decisiones subjetivas, en concreto, la elección de los textos. En cuanto a su validez aparente, en general, nos pareció que no incomodaba a los estudiantes. Sólo aquellos con peor nivel en la lengua se sintieron “perdidos” al realizarla puesto que no entendían los textos y no encontraban claves lingüísticas para recuperar el texto original. Pese a todo apreciaron su carácter objetivo. Pero llegamos a esta conclusión exclusivamente a partir de nuestras propias impresiones y del sondeo informal en el aula. Para estudios posteriores se debía buscar un instrumento más objetivo que permitiera valorar este aspecto. Como explicaremos más adelante, en la Prueba piloto II se trabajó en el diseño de un primer modelo de cuestionario de opinión para el alumnado. Los resultados iniciales con FP sirvieron para animarnos a profundizar en el C- test como indicador válido y fiable del grado de competencia de los alumnos españoles de COU en Inglés como Lengua Extranjera61. 61 El artículo de Esteban, Herrera y Amengual (2001) refleja esta investigación. Fue mencionado en la revisión de Graeme Porte (2001) sobre Evaluación de la lengua en España. El C-test: alternativa o complemento de otras pruebas en ILE 246 Resumiendo: 1. La alta correlación entre los resultados de los C-tests aplicados con las calificaciones obtenidas en la asignatura de Inglés evidenció la validez concurrente y fiabilidad de la prueba. 2. No se obtuvieron resultados concluyentes ni novedosos en cuanto a la recuperación de los distintos tipos de palabra (términos léxicos y funcionales) en los C-tests estudiados. 3. La variable texto conocido versus desconocido tampoco aportó datos significativos a la investigación. 4. Desde la perspectiva de la factibilidad, la prueba demostró su economía de tiempo y esfuerzo en diseño, administración y corrección. 5. La validez aparente del C-test no quedó suficientemente probada. Se decidió profundizar en ella utilizando los instrumentos adecuados. 6. En estudios posteriores debían revisarse cuestiones relativas al diseño de las omisiones y formato de la prueba. 7. Quedó abierta la posibilidad de continuar estudiando las aportaciones del C-test en el contexto de la evaluación de la competencia en Lenguas Extranjeras. 7.3. Prueba piloto II Antes de plantear el diseño definitivo de la investigación principal de la tesis llevamos a cabo un segundo estudio piloto con alumnos de COU. Como veremos, se introdujeron algunos cambios para mejorar el diseño del primer estudio piloto. 7.3.1. Objetivos del estudio En esta ocasión decidimos trabajar con alumnos cuya competencia en lengua inglesa es, en principio, superior. Seguimos profundizando en los rasgos del C-test, especialmente en su validez y fiabilidad, en la línea iniciada en el estudio anterior Estudios piloto 247 (apartado 7.2). Esta vez comprobamos las correlaciones del C-test con exámenes del tipo de Selectividad. De este modo, fijamos un referente externo objetivo (Herrera Soler 1999): el examen de Inglés de las PAAU. Abandonamos el análisis de las otras variables (familiarización con el texto y tipo de palabra), puesto que no aportaron nada significativo al primer estudio. Sin embargo, introdujimos como novedad un cuestionario retrospectivo de opinión dirigido al alumnado. 7.3.2. Sujetos Las pruebas se aplicaron a un grupo de 21 estudiantes españoles de COU del IES San Isidoro de Sevilla, de Madrid, durante el tercer trimestre del curso 1999/00. A lo largo del curso se venían realizando exámenes tipo PAAU como preparación para la prueba real de Selectividad, a la que se enfrentan los alumnos una vez superado el COU (actualmente 2º de Bachillerato) para acceder a estudios universitarios. Para este estudio tomamos las calificaciones obtenidas en dos de estos exámenes (realizados a mediados de abril y mayo, respectivamente), desglosados en sus distintas partes, y las comparamos con los resultados del C-test (que se aplicó a primeros de mayo). La muestra presenta las características lógicas del trabajo con los alumnos de la propia clase; además de ser limitada en cuanto al número de sujetos, se puede dar el efecto Hawthorne y el halo effect (Adair 1984; Adair et al. 1989; Brown 1988). El grupo no tenía entrenamiento previo en la técnica del C-test. Se dieron instrucciones claras y un ejemplo del modo de realización de la prueba. También se explicó el sistema de corrección, de nuevo sólo la recuperación de la palabra exacta se consideró correcta. Finalmente, se les pidió completar un cuestionario sobre su opinión acerca de la prueba. El C-test: alternativa o complemento de otras pruebas en ILE 248 7.3.3. Materiales Los materiales utilizados en este estudio fueron los siguientes: 1. Un C-test de cien omisiones 2. Dos pruebas tipo PAAU: “Parking” (Selectividad LOGSE, Madrid. Septiembre de 1994) “Get ready! The euro-day is coming” (Modelo PAAU LOGSE, Madrid. Curso 1999-2000). 3. Un cuestionario retrospectivo A continuación, aportamos algunos detalles de interés relativos a los materiales arriba enumerados. Para la realización del segundo estudio diseñamos un C-test de 100 omisiones. En este caso, seguimos fielmente las instrucciones de Klein-Braley (1985) para la creación de C-tests. Nuestro C-test estaba compuesto por cuatro textos con 25 omisiones cada uno. Los textos, sobre temas de actualidad, procedían del libro de texto Exam Strategies (Longman). Se presentaron al alumno en orden de dificultad creciente, según la apreciación del profesor. Mostramos la primera parte del C-test, que incluye las omisiones 1 a 25, correspondientes al primer texto. También incluimos los títulos de los textos restantes. El C-test completo aparece en el Apéndice de la tesis. LEARN TO COMMUNICATE To be fluent in several languages is no longer considered a rare talent, but a necessity to succeed and communicate in the world in which we now live. Many (1)peo--- believe (2)th-- once (3)y-- are (4)pa-- childhood, (5)lear---- a (6)n-- language (7)i- too (8)diff-----. This (9)i- not (10)tr--. Whether (11)y-- want (12)t- learn English, French, Spanish (13)o- Polish there (14)a-- schools (15)a-- courses (16)gea--- for (17)yo-- needs (18)a-- specifically (19)ai--- at (20)ad--- learning. (21)Ad--- learning (22)i- pro-active; (23)y-- are (24)invo---- with (25)t-- language from the beginning and encouraged to talk, whatever your ability. There are a variety of methods available. 26-50 - The historic voyage of Christopher Columbus 51-75 - Coping with addiction 76-100 - Killing the goose... Estudios piloto 249 Además, se aplicaron en el aula dos exámenes de Inglés de Selectividad: Parking (Selectividad LOGSE, Madrid. Septiembre de 1994) y Get ready! The euro- day is coming (Modelo PAAU LOGSE, Madrid. Curso 1999-2000). A partir de los resultados se valoró la validez concurrente, fiabilidad y eficacia del C-test en relación con los exámenes de Selectividad, tomando como base las distintas correlaciones existentes entre ellos. Después se aplicó el cuestionario retrospectivo, que se basa en el creado por Jafarpur (1995). Fue completado por los alumnos de forma anónima, con el fin de asegurar la veracidad de las opiniones expresadas acerca del C-test. 7.3.4. Procedimiento Desde la perspectiva de la replicabilidad, uno de los rasgos básicos que define cualquier trabajo empírico, expondremos el procedimiento seguido en esta segunda prueba piloto. Las pruebas tipo PAAU se aplicaron en dos sesiones normales de clase, a mediados de abril y mayo de 2000, respectivamente. En el periodo de tiempo comprendido entre ambas se aplicó el C-test. Los alumnos dispusieron de 50 minutos para completar cada examen. Tomamos las calificaciones obtenidas en ellos, desglosadas en sus distintas partes, y posteriormente las comparamos con los resultados del C-test. También el C-test se administró en una sesión de clase de Inglés del tercer trimestre (a primeros de mayo). Una vez completado el C-test se entregó el cuestionario retrospectivo para conocer las impresiones que este tipo de examen produce en el alumnado. Tras la corrección, todos los datos obtenidos se sometieron a análisis estadístico utilizando el programa SPSS 9.01 para Windows. Así pudimos comparar los resultados obtenidos y estudiar las correlaciones. Se subdividió el C-test de 100 ítems en 4 subtests, correspondientes a los cuatro textos en que se basa la prueba y que el alumno debía recuperar. Para su estudio se denominó CTT a los resultados globales del C-test, CT1 a las omisiones 1 a 25, CT2 de la 26 a la 50, y así sucesivamente. El C-test: alternativa o complemento de otras pruebas en ILE 250 En cuanto a las pruebas de Selectividad, llamamos TT1 a la puntuación total obtenida en el primer examen realizado y TT2 a la del segundo: TT1: Parking TT2: Get ready! The euro-day is coming También desglosamos la puntuación total de cada examen tipo PAAU en dos partes. Por un lado, tomamos los resultados de las preguntas de tipo objetivo (gramaticales, de comprensión del texto: verdadero o falso y de vocabulario) y, por otro, las subjetivas (preguntas abiertas y redacción sobre uno de los dos temas propuestos). Cada una de las partes tiene un peso de 5 puntos sobre los 10 totales. La puntuación de la parte objetiva del primer examen aparece en las tablas como OBJ1 y la subjetiva se denomina SUB1. Al segundo examen le corresponden OBJ2 y SUB2. En el siguiente capítulo, sobre la Metodología de la investigación, se analiza detalladamente la prueba de Inglés de las PAAU (capítulo 8, apartado 8.3.4). 7.3.5. Resultados y discusión La Tabla 7.2 refleja las correlaciones entre el C-test y las pruebas de Selectividad: Tabla 7.2. Correlaciones de Pearson 1 2 3 4 5 6 7 1. CTT -- 2. SUB1 ,809** -- 3. SUB2 ,770** ,844** -- 4. OBJ1 ,590** ,651** ,775** -- 5. OBJ2 ,627** ,785** ,772** ,675** -- 6. TT1 ,792** ,944** ,893** ,865** ,808** -- 7. TT2 ,746** ,866** ,950** ,775** ,932** ,906** -- N= 21 alumnos **La correlación es significativa al nivel 0,01 (bilateral). Estudios piloto 251 Se puede observar que las correlaciones son bastante altas en todos los casos, aunque no todas las partes del C-test aportan iguales resultados. El C-test 1 pondera al alta. Corresponde al texto que se consideraba más sencillo y por ello encabezaba el C-test. Sin embargo, las correlaciones del C-test 3 (omisiones 50-75) son algo más bajas que las del resto, esto puede ser debido al grado de dificultad del texto 3. Como en el estudio piloto I, hay que insistir en la importancia de la adecuada selección de los textos. Se podría hacer también un análisis por ítems. Ya hemos comentado en el capítulo anterior el hecho de que algunos autores (Jafarpur 1999) achacan al C-test la inclusión de ítems no significativos que, aparentemente, no ayudan a discriminar el nivel de los alumnos. En principio, la valoración de Jafarpur parece adecuada, pero siempre cabría trabajar sobre el rango de las puntuaciones, con una media X=0 y una desviación típica 1. En general, son ítems demasiado fáciles, que cualquier alumno consigue recuperar, independientemente de su grado de competencia lingüística, o demasiado difíciles para el conjunto de los alumnos. En el caso concreto del C-test 1, vemos, por ejemplo, que los ítems 1, 3 y 9 son muy sencillos, todos los alumnos los recuperan sin problema: Many (1)peo--- believe (2)th-- once (3)y-- are (4)pa-- childhood, (5)lear---- a (6)n-- language (7)i- too (8)diff-----. This (9)i- not (10)tr--. Whether (11)y-- want (12)t- learn English, French, Spanish (13)o- Polish there (14)a-- schools (15)a-- courses (16)gea--- for (17)yo-- needs (18)a-- specifically (19)ai--- at (20)ad--- learning. Sin embargo, ningún alumno consiguió recuperar los ítems 19 y 20, dos omisiones de carácter léxico difíciles de deducir en el texto. Este análisis nos informa sobre el dominio que tiene el alumno de un tipo de ítem y del otro. También permite observar qué ítems domina toda la clase y cuáles exigen mayor competencia de los alumnos y atención por parte del profesor. En el capítulo 6 vimos que Jafarpur (1999) se planteó eliminarlos de los C-tests porque, en su opinión, no aportan nada a la prueba. Así, se obtendría un C-test racional, “a la medida”, dirigido y no natural. Sin embargo, concluyó que retirar ese tipo de ítems extremadamente fáciles o difíciles no supone ventaja alguna y no El C-test: alternativa o complemento de otras pruebas en ILE 252 produce variaciones en los resultados. Además afectaría al diseño de la prueba, pues supondría no seguir siempre la “regla del dos”. En realidad, comprobamos que estos ítems discriminan lo mismo que cualquier otro test si se transforman las puntuaciones directas en típicas. En ese caso, la distribución de puntuaciones nos permitiría valorar el nivel de conocimientos de los alumnos. De esta manera, no habría lugar para las objeciones de Jafarpur. Podría entenderse que nada sobra y nada falta en los C-tests, en función de los criterios del profesor, ya que hay ocasiones en las que nos interesa motivar al máximo a nuestros alumnos, y otras en las que, por diseño se puede hacer más hincapié en los ítems difíciles. Los dos exámenes de Selectividad (TT1 y TT2) correlacionaron muy bien entre sí (0,906), dato que indicó la fiabilidad del examen. También comprobamos que el C- test correlacionaba bien con los resultados de los exámenes del tipo de Selectividad (0,792 y 0,746). Lo más sorprendente fue que la correlación era mejor con la parte subjetiva de los mismos: 0,809 con la parte subjetiva del primer examen de selectividad (SUB1) y 0,770 con la del segundo (SUB2) frente a los resultados de la parte objetiva: OBJ1 = 0,590 y OBJ2 = 0,627. Fue éste un dato inesperado y llamativo. Decidimos que debería ser analizado con mayor profundidad en el futuro, puesto que el C-test está clasificado como prueba objetiva, pero sus niveles de correlación nos llevaron a considerarlo próximo a las pruebas subjetivas. 7.3.6. Conclusión Esta segunda experiencia de aplicación de C-test a alumnos de COU confirmó ya al C-test como una variedad de las técnicas de cierre válida en la enseñanza del Inglés como Lengua Extranjera. Faltaba todavía definir si sólo como complemento o incluso como alternativa a otras pruebas más tradicionales. Descubrimos en el C-test un tipo de examen que participa de ciertas características de las pruebas objetivas y de las subjetivas. No sólo mide el vocabulario que ha adquirido el alumno sino también su capacidad para inferir a partir del contexto, para reconocer los elementos gramaticales del texto y recuperarlos “re-creando” el texto de origen. Estudios piloto 253 El C-test mostró correlación significativa con los dos exámenes de Selectividad realizados, más con el segundo, que se hizo un mes después. Resultado que puede deberse al efecto del aprendizaje y a la motivación que genera la proximidad de la Selectividad. Se acercaba el fin de curso y la fecha de la convocatoria oficial de las PAAU y, por lo tanto, debió aumentar el estudio. Sin duda, los alumnos habían practicado más y realizaron la prueba con mayor cuidado y atención. El hecho curioso de que se lograran correlaciones aún más altas con la parte subjetiva de los exámenes de Selectividad (preguntas abiertas y composición) indica que el C-test es un tipo de examen más próximo a las pruebas subjetivas que a las objetivas. Es objetivo en cuanto a la preparación y corrección, pero para realizarlo requiere producción, es creativo pues va más allá del mero reconocimiento. Fue éste el resultado más significativo del estudio realizado y nos llevó a plantearnos, de cara a estudios posteriores, cuáles son los factores de este diseño que le hacen correlacionar mejor con pruebas de tipo subjetivo. El cuestionario que completaron los alumnos pedía su opinión con respecto al C-test; si les parecía adecuado, completo, y si creían que reflejaría bien sus conocimientos de inglés. Igualmente se les preguntó por las dificultades que encontraban al realizarlo. En general, expresaron que no les gustaría que su acceso a la Universidad dependiera de un C-test, pero sí que formara parte del examen. Una vez más, la carencia de validez aparente que destaca la literatura (Weir 1988; Bradshaw 1990; Jafarpur 1995) no se refleja en este cuestionario. No obstante, fue tomado únicamente como elemento informativo que recogía las impresiones del alumnado. A pesar de que la muestra utilizada no fue muy grande, consideramos esta segunda aproximación al C-test como el punto de partida para la investigación principal desarrollada en esta tesis62. La idea del cuestionario, junto con las conclusiones de estos dos trabajos piloto, sirvieron para determinar qué elementos formarían parte de ella y cuáles serían las principales líneas de investigación. Como veremos en los capítulos siguientes, en el estudio se mantuvieron las PAAU como referencia externa, se analizó el cuestionario retrospectivo, etc. 62 El artículo “Niveles de correlación entre el C-test y las Pruebas de Inglés de Selectividad”, publicado en el volumen “Estudios y criterios para una Selectividad de Calidad” (2005) está basado en el estudio piloto II. El C-test: alternativa o complemento de otras pruebas en ILE 254 En resumen: 1. De nuevo aseguramos la validez concurrente del C-test, al comprobar que correlaciona significativamente con las dos pruebas de Selectividad aplicadas. 2. Los resultados obtenidos muestran que el C-test, a pesar de ser prueba objetiva por su formato y corrección, resulta más próximo a las subjetivas que a las objetivas. 3. La validez aparente de la prueba quedó reflejada en un cuestionario retrospectivo de la opinión de los alumnos. 4. Destacamos la versatilidad y factibilidad del C-test como instrumento de evaluación de la lengua. Después de haber llevado a cabo los estudios piloto previamente comentados, y con la seguridad de haber encontrado en el C-test un instrumento de evaluación de sumo interés, continuamos las investigaciones en torno a esta prueba para averiguar si cumple las expectativas creadas, confirmar los resultados obtenidos anteriormente, comprobar cómo correlaciona con otras pruebas que incluyan aspectos objetivos y subjetivos (PAAU), y estudiar la incidencia de un posible cambio en el formato. Descripción del proceso metodológico 255 CAPÍTULO 8. DESCRIPCIÓN DEL PROCESO METODOLÓGICO 8.1. Introducción Como hemos visto en el capítulo anterior, nuestro trabajo empírico tiene su origen en dos estudios piloto que revelaron el potencial del C-test como instrumento de evaluación del Inglés como Lengua Extranjera. En este capítulo hacemos una descripción de los principales elementos que han formado parte de la investigación que informa la tesis. Comenzamos con los sujetos participantes en el estudio, a continuación mostramos los distintos materiales utilizados en el mismo y algunas otras características del contexto de la investigación que consideramos pertinentes. Finalmente, explicamos el procedimiento utilizado y comentamos aspectos relativos al tratamiento de los datos. 8.2. Sujetos Los participantes en este estudio fueron 162 alumnos de 2º curso de Bachillerato pertenecientes a cuatro Institutos de Enseñanza Secundaria de la Comunidad de Madrid, pero de características muy distintas, debido principalmente a su ubicación: IES Ágora de Alcobendas, IES Vicente Aleixandre de Pinto, IES San Isidoro de Madrid, e IES Humanejos de Parla. Los centros pertenecen a tres Direcciones de Área Territorial diferentes: Madrid-Norte, Madrid-Sur y Madrid-Centro. Las pruebas se aplicaron durante el tercer trimestre del curso 2000/01. El C-test: alternativa o complemento de otras pruebas en ILE 256 Con respecto a las pruebas piloto, en el estudio definitivo ampliamos el ámbito de la muestra hasta 162 sujetos. Así conseguimos la validez externa que permite que los resultados sean generalizables y relevantes (Mackey y Gass 2005: 119). Hemos conseguido, además, una muestra más variada y representativa. Todos los sujetos realizaron una prueba modelo de las PAAU, un C-test de cien omisiones (modelo A o B) y por último, de forma anónima, completaron el correspondiente cuestionario retrospectivo. Para recoger otras informaciones sobre los sujetos, como las calificaciones en Inglés en la 2ª Evaluación del curso escolar y en el examen de Inglés de la PAAU, hemos contado con la inestimable ayuda de las profesoras de Inglés titulares de los grupos que participaron en este estudio empírico. Previamente fueron informadas de los objetivos y características del estudio que se iba a llevar a cabo (véase Apéndice). De nuevo queremos destacar su colaboración eficiente y generosa. Sin ellas no habría sido posible esta tesis. La variedad de la procedencia de los alumnos proporciona al estudio una visión más amplia y permite generalizar los resultados que se obtengan. La muestra es homogénea en cuanto a la edad y el nivel académico, también en cuanto al tipo de centro de procedencia. Todos son Institutos de Enseñanza Secundaria que forman parte de la red de centros públicos de la Comunidad de Madrid. No obstante, por su ubicación, sus características son muy distintas. La muestra nos permite estudiar cada grupo por separado, analizar las correlaciones entre las distintas variables correspondientes a las pruebas; pero también hacer un estudio comparativo de otras variables externas (género, ubicación del IES, tipo de población) que puede resultar muy rico, si bien no es el objetivo principal de la tesis y podrá ser objeto de investigaciones posteriores. En cuanto al tamaño de la muestra, se consiguió un número de alumnos suficiente, desde el punto de vista estadístico, para que los resultados resulten concluyentes. Aunque, según Dörnyei (2003: 73-74), no hay normas estrictas a este respecto: “Unfortunately, there are no hard and fast rules in setting the optimal sample size”, el autor ofrece algunas pistas indicativas: Descripción del proceso metodológico 257 From a purely statistical point of view, a basic requirement is that the sample should have a normal distribution, and a rule of thumb to achieve this, offered by Hatch and Lazaraton (1991), is that the sample should include 30 or more people. [...] From the perspective of statistical significance, the principal concern is to sample enough learners for the expected results to be able to reach statistical significance. [...] a good rule of thumb is that we need around 50 participants to make sure that these coefficients are significant and we do not lose potentially important results. Nuestra muestra cumple ampliamente los parámetros indicados por el autor. Además, en este trabajo empírico, de cada sujeto se analizan más de 110 variables (más las correspondientes al cuestionario retrospectivo que suponen otras 20), así completamos un gran número de ítems de información de cada alumno. Figura 8.1. Distribución de los sujetos de la muestra atendiendo a su procedencia GRUPO CENTRO DE PROCEDENCIA Nº DE ALUMNOS 1 IES San Isidoro de Sevilla (Madrid) 39 2 IES Ágora (Alcobendas) 45 3 IES Vicente Aleixandre (Pinto) 40 4 IES Humanejos (Parla): 35 TOTAL: 162 alumnos Dado que todos los grupos estudiados están por encima de 30, número mágico en la estadística de las Ciencias Sociales, el tamaño, aunque diferente, no va a incidir en las inferencias que se puedan hacer a partir de los resultados. La información que se obtiene de cada alumno se centra en los siguientes puntos: 1. Sexo 2. Edad 3. Instituto de Enseñanza Secundaria de procedencia 4. Calificación obtenida en la asignatura de Inglés en la 2ª Evaluación 5. Calificación obtenida en “Cavemen”, una prueba tipo PAAU (Puntuación global, por preguntas y desglosada en parte objetiva y subjetiva) 6. Calificación obtenida en el C-test de100 ítems (Puntuación global y en cada subtest de 25 ítems) El C-test: alternativa o complemento de otras pruebas en ILE 258 7. Respuestas al cuestionario retrospectivo de opinión 8. Calificación obtenida en la PAAU convocatoria de junio 2001 (de los 81 sujetos presentados) Los dos primeros reflejan características demográficas de los participantes, “biodata”, que no deben faltar en cualquier estudio (Mackey y Gass 2005: 126). El tercero se refiere al IES de procedencia y nos permitirá hacer inferencias sobre el contexto. Y el resto, recopila información sobre la actuación de los sujetos. Dentro del cuestionario se recogen además otros datos de los sujetos, como las oportunidades de aprendizaje del Inglés externas al entorno escolar. No es necesario recopilar datos como la primera lengua (L1) o el nivel de competencia en la segunda (L2), ya que la muestra es homogénea en estos aspectos. Aunque cualquier análisis comienza con las variables antropométricas, dada la poca variabilidad que presenta la edad en nuestra muestra, ésta no será analizada. Puesto que todos los participantes en el estudio son alumnos de 2º de Bachillerato, su edad es muy similar y tal análisis no aportaría nada al estudio. En cuanto al género, la muestra incluye 103 mujeres y 59 varones. A pesar de que a priori no consideramos que sea una variable significativa, analizaremos los resultados casi únicamente a título informativo. Nuestro estudio no lo plantea como objetivo y, por tanto, su diseño no es el más adecuado para este propósito. En lo relativo a la experiencia académica previa, independientemente de que su trayectoria hubiera sido más o menos satisfactoria, todos los participantes en el estudio cursaban el mismo nivel dentro del sistema educativo español (2º de Bachillerato) y al finalizar el curso académico se disponían a enfrentarse a las Pruebas Unificadas de Acceso a la Universidad en la Comunidad de Madrid (si superaban el curso y así lo deseaban, con la intención de acceder a estudios universitarios posteriormente). Por tanto, deberían compartir un nivel de competencia semejante en Inglés, la lengua objeto de estudio. Se eligió este nivel para realizar la investigación precisamente porque nos permitía unificar criterios, tomar las PAAU como referencia y así manejar los datos de un examen externo a los centros, pero a la vez común a todos ellos. Descripción del proceso metodológico 259 8.3. Materiales Los materiales que se utilizaron en el estudio fueron: 1. Un C-test de 100 omisiones formado por cuatro textos distintos. Lo dividimos en cuatro subtests de 25 ítems cada uno. Se diseñaron dos modelos diferentes: C-test A y C-test B. 2. La prueba “Cavemen?” propuesta en la convocatoria de septiembre de 1999 de las PAAU para Bachillerato-LOGSE (Inglés) en la Comunidad de Madrid. Fue realizada en clase como preparación para el examen oficial de las PAAU. Se analizó tanto el resultado global en la prueba como los obtenidos en las distintas preguntas y partes que la forman. 3. Las calificaciones de Inglés en la 2ª Evaluación del curso escolar 2000/01. 4. La calificación obtenida en la prueba de Inglés en la convocatoria oficial de junio de 2001 de las PAAU de la CM (este dato se limita a los alumnos de la muestra que se presentaron a ellas). 5. Un cuestionario retrospectivo de opinión acerca del C-test. En los apartados siguientes aportamos más información acerca de ellos. No obstante, tanto las pruebas definitivas como el cuestionario pueden consultarse en el Apéndice. 8.3.1. C-test: Diseño Siguiendo los parámetros de Klein-Braley (1985) se elaboró un C-test de cien omisiones, formado por cuatro textos distintos, todos procedentes de exámenes recientes de las Pruebas de Aptitud para el Acceso a la Universidad (Fig. 8.2). Para crear el C-test se tomó cada texto, respetando la primera oración, y a partir de ese punto, se iniciaron las mutilaciones siguiendo la “regla del dos”. Cuando se completaron las 25 omisiones se dejó una última oración intacta y se prescindió del resto del texto original. De este modo, se estructuró el C-test de 100 ítems en El C-test: alternativa o complemento de otras pruebas en ILE 260 cuatro subtests equilibrados, frente a otros, como el creado por Dörnyei y Katona (1992), cuyo número de ítems en los subtests oscilaba entre los 17 y 24. Fig. 8.2. Textos seleccionados y procedencia: Road accidents Universidades de Madrid, Junio de 1999. Prueba de Acceso de Inglés – Bachillerato LOGSE Evolution Universidades de Madrid, Junio de 1998. Prueba de Acceso de Inglés – Bachillerato LOGSE American imperialism Universidades de Madrid, Junio de 1997. Prueba de Acceso de Inglés – Bachillerato LOGSE Women doctors. Are they different? Universidades de Madrid, Junio de 1996. Prueba de Acceso de Inglés – Bachillerato LOGSE El siguiente cuadro-resumen muestra la estructura y los modelos del C-test: Figura 8.3. Estructura y modelos del C-test aplicado C-TEST A Textos y diseño C-TEST B Textos y diseño C-TEST 1 Ítems 1-25 Road accidents - - - - - - C-TEST 1 Ítems 1-25 American imperialism - - - - - - C-TEST 2 Ítems 26-50 Evolution - - - - - - C-TEST 2 Ítems 26-50 Women doctors - - - - - - C-TEST 3 Ítems 51-75 American imperialism ______ C-TEST 3 Ítems 51-75 Road accidents ______ C-TEST 4 Ítems 76-100 Women doctors ______ C-TEST 4 Ítems 76-100 Evolution ______ Como queda reflejado en la Figura 8.3, se crearon dos diseños de examen, modelos A y B, alternado los mismos textos. En los dos primeros subtests de ambos modelos figuraban los espacios correspondientes a las omisiones de cada ítem, ayuda que debería facilitar la recuperación del texto original, como se comentará más adelante, y cuya eficacia queríamos comprobar. Descripción del proceso metodológico 261 Para su estudio, el modelo A del C-test se divide en cuatro subtests de 25 omisiones, y del mismo modo se organiza el modelo B. En ambos modelos se mantiene la indicación del número de letras necesario para completar cada omisión en los ítems 1 a 50 (en la Fig. 8.3 aparece indicado mediante una línea discontinua). En la administración de la prueba, los modelos A y B se distribuyeron al azar entre los sujetos participantes en el estudio; para hacerlo se siguió el sistema de pares e impares según el lugar que ocupaban en el aula. Antes de comenzar el C-test los sujetos debían completar unos datos sociométricos básicos (nombre, fecha, edad, género, IES) para su identificación y posterior análisis de las variables género e IES de procedencia. A continuación explicamos con mayor detenimiento el proceso de elaboración del C-test, es decir, las distintas fases y tareas de su diseño. Veremos con qué criterios se llevó a cabo la selección de los textos utilizados y cómo se probó su funcionamiento con nativos antes de ser aplicado a los sujetos participantes en el estudio. Asimismo, comentaremos el criterio elegido para su corrección y las instrucciones que se entregaron a los alumnos justo antes de su administración. 8.3.1.1. Proceso de selección de textos La literatura insiste en la importancia de una adecuada selección de los textos sobre los cuales se van a crear pruebas de cierre. Oller (1979) consideraba que, a priori, cualquier texto puede servir para este propósito, sin embargo Klein-Braley (1984: 97) constató que, en la práctica, no es tan fácil encontrar textos adecuados para la creación de pruebas de cierre. Los problemas radican en el tema y en el grado de dificultad de los textos. La autora criticó la subjetividad que implica la selección de textos por parte del profesor. Brown (1993) demuestra que no se puede hacer un cloze a partir de cualquier texto, si se quiere que funcione bien: “In short, it appears that it is not a good idea simply to take a book off the shelf, select a passage and develop a cloze test form it”. Por ello, propone el pilotaje de pruebas de cierre creadas a partir de varios textos y la posterior elección de aquella que muestre mejor funcionamiento, es decir, mejores medias y desviación estándar. El C-test: alternativa o complemento de otras pruebas en ILE 262 Tomando las consideraciones de Oller (1979) como punto de partida, Klein- Braley reflexiona en concreto sobre el C-test. Al ser una prueba de cierre le afectan también el tema y la dificultad de los textos. Propone la utilización de textos cuyo tema pueda ser calificado como “neutral”. También es interesante la aportación de Raatz (1983: 125), que insiste en que se cuide la variedad de los textos, pues propicia la representatividad de la lengua: “C-tests use unsystematically selected texts, whose subject matter is as varied as possible”. Reproducimos unos fragmentos de la revisión que hizo Carroll (1987: 102) del libro C-Tests in der Praxis de Klein-Braley y Raatz (1985), en ellos se comentan aspectos relativos a la selección de textos: The passages are to be selected for their appropriateness for a target population of examinees such that the expected average dificulty is around 50% success in filling the blanks. Adult native speakers of the language, however, would be expected to have at least 95% success. Usually, passages are selected on the basis of intuitive judgments about difficulty and content, but on the matter of difficulty level, Klein-Braley reports investigations leading to objective estimates based on type-token ratios and sentence lengths. En cuanto a la dificultad, como se aprecia en la cita anterior, además de la intuición, y con el fin de lograr mayor objetividad, la autora sugiere seguir los criterios de type/token ratio (variación léxica) y longitud de las oraciones. En nuestro análisis de los textos aplicados añadiremos el de la densidad léxica, que se utiliza habitualmente en las investigaciones sobre vocabulario. Diversas investigaciones han utilizado índices de legibilidad (readability) para determinar el nivel y la validez de los textos utilizados. Lee (1996) usó en su estudio la fórmula de Dale y Chall (1948)63. Pero Klein-Braley (1984: 99) manifiesta claramente que no le interesan tales índices, con frecuencia no demasiado fiables, sino simplemente determinar la dificultad de los textos para cada grupo concreto de alumnos. Para ello, utiliza ecuaciones de regresión. 63 Dale-Chall Readability Index: (0.0496 * __Average Sentence Length) + (0.1579 * __Percent Difficult Words) + 3.6365 = __Raw Score. Existen otras fórmulas, tales como la de Flesh (1948), Kincaid, Coleman-Liau, Automated Readability Index, Fog Index, etc. Descripción del proceso metodológico 263 Por otra parte, Babaii y Ansary (2001: 217) recomiendan que los textos utilizados en los C-tests no sean excesivamente fáciles: “to encourage macro-level processing, the text should be challenging to the target test takers”. Mochizuki (1995), que trabajó con diversos tipos de textos, concluyó que los más adecuados para la creación de C-tests son los narrativos y de cierta longitud. Sin embargo, Ikeguchi (1998), como Klein-Braley (1997), recomienda los C-tests creados a partir de varios textos cortos. En este estudio empírico se decidió trabajar en la línea propuesta por Klein- Braley (1997). Se procuró partir de textos que aseguraran a priori algunas cuestiones, como la homogeneidad de nivel, la autenticidad y el interés en cuanto al tema. Puesto que nos movemos en el ámbito de las PAAU, tomamos la determinación de ceñir la selección de textos para el diseño de C-tests a los ya utilizados en pruebas o modelos de Selectividad. Esto nos supuso un menor coste de tiempo, lo que contribuyó a aumentar la factibilidad de la prueba, y garantizó la uniformidad de nivel. Así pues, tomamos los textos aparecidos en las pruebas de Selectividad de los últimos años en la CM y los que se proporcionan al profesorado de Inglés de Enseñanza Secundaria como modelo. De forma intuitiva, y con la inevitable subjetividad del profesor, fuimos descartando algunos textos, generalmente menos atractivos por su tema, hasta quedarnos con sólo seis. Klein- Braley (1997) recomienda comenzar con un buen número de textos, siempre más de cuatro, que será el número definitivo. Como es sabido, los textos en que se basan las pruebas de Inglés de las PAAU son auténticos y tratan temas variados de interés general (divulgativos, periodísticos, etc.). En principio, son textos adecuados, que se adaptan al nivel de madurez y conocimiento que se supone al alumno de 2º de Bachillerato. Sobre los seis textos seleccionados confeccionamos C-tests siguiendo la “regla del dos” y aplicando las normas de sus creadores. Una vez fijadas las 25 omisiones en cada texto, (hasta llegar a un total de 100 por C-test), Klein-Braley aconseja la administración a hablantes adultos nativos, bilingües, o bien profesores de la lengua meta. Después se debe proceder a elegir los textos definitivos. Se siguió fielmente este proceso. Probamos el funcionamiento de la prueba con un nativo, una persona bilingüe y varios profesores de Inglés de Enseñanza Secundaria. En todos los casos se alcanzó más del 90% de respuestas correctas El C-test: alternativa o complemento de otras pruebas en ILE 264 (Klein-Braley 1997: 64). Por tanto, sólo restaba decidir los cuatro textos definitivos y su orden de aparición. Según la autora, el profesor ha de ordenar los textos por orden creciente de dificultad, simplemente de forma intuitiva (ibídem). De este modo se consigue que el alumno entienda bien el mecanismo de la prueba y aumente la motivación, aunque la puntuación media sea la resolución correcta de aproximadamente el 50% de los ítems. Such a test can be very frustrating both for teacher and pupils, particularly since in the C-Test the subject is well aware that items have not been solved [...]. For this reason it is suggested that the first text should be very easy and that the difficulty should increase throughout the test so that the final text is very difficult. (Klein-Braley y Raatz 1984: 144) C-tests have been shown to have high reliabilities even when they were much too difficult or too easy for the subjects involved and we feel it is important for the icebreaker to be so simple that every test subject understands exactly what the C-principle demands form him or her. (Klein-Braley 1984: 98) En nuestro caso, debido a su procedencia, el nivel de dificultad de los textos debía ser bastante homogéneo. Así pues, fijamos el orden de los textos de forma intuitiva, aunque en principio, podrían haber sido colocados de forma aleatoria, dada su homogeneidad de nivel: “Road accidents”, “Evolution”, “Women doctors”, “American imperialism”. Más adelante veremos que, a pesar de todo, algunos textos presentan menor dificultad que otros. Las diferencias entre ellos se pusieron de manifiesto al analizar su densidad y variación léxicas. Para conseguir acentuar el orden creciente de dificultad decidimos incorporar un cambio en el formato. Nos dimos cuenta de que, normalmente, en los C-tests creados por Klein-Braley y Raatz no se señala el número de letras que se omite en cada palabra. En realidad, no es necesario, puesto que el sujeto debe saber que se omite la segunda mitad de la palabra, como se indica en las instrucciones. Pero pensamos que contar con esa ayuda adicional podía facilitar la tarea del alumno e influir en los resultados obtenidos. Finalmente se tomó la decisión de aportarla en los dos primeros subtests del C-test (omisiones 1 a 50). Así logramos seguir también, en cierto modo, la idea de la dificultad creciente propuesta por Klein-Braley (1997). Como el número total de sujetos de la muestra era lo suficientemente grande, vimos la posibilidad de crear dos modelos de prueba: A y B, cambiando el orden de Descripción del proceso metodológico 265 los textos pero manteniendo constante el formato (ítems 1-50 con indicación del número de letras omitidas y 51-100 sin pistas). De esta manera se podría analizar el funcionamiento de cada modelo de C-test y buscar el porqué de las diferencias entre ellos, si las hubiera. 8.3.1.2. Elección del criterio de corrección En cuanto al criterio de corrección, se eligió el de la palabra exacta, que parece el más adecuado para el C-test, ya que las características de la prueba dejan poco margen para que varias palabras distintas sean correctas en un mismo punto y coincidan totalmente en su primera mitad. De este modo, aseguramos la objetividad. En el cuestionario retrospectivo, algunos alumnos se quejaron porque les parecía que ciertas omisiones del C-test admitían varias posibilidades. Sin embargo, en la posterior revisión de las pruebas no se encontraron datos que fundamentaran esta impresión. Lo que sí descubrimos en la corrección fueron problemas ortográficos, de spelling, en algunas palabras. Indican que el alumno sabía cuál era la palabra correcta, reconocía el término buscado, pero no fue capaz de escribirlo correctamente (falló la producción escrita). En estos casos, quizá el criterio de corrección parezca demasiado estricto. No obstante, en términos generales, no lo consideramos un problema importante, teniendo en cuenta la escasa cantidad de ítems afectados exclusivamente por dudas ortográficas. 8.3.1.3. Instrucciones Para asegurar la correcta comprensión de la tarea que se pedía a los alumnos y teniendo en cuenta su desconocimiento de la técnica, decidimos entregarles el modelo de C-test resuelto que figura en el Apéndice de la tesis, y acompañarlo de una breve explicación oral. Hemos comentado en varias ocasiones la importancia que Klein-Braley concede a las instrucciones. Por eso, además de adjuntar el modelo resuelto, el C- test aplicado estaba encabezado por las siguientes instrucciones: El C-test: alternativa o complemento de otras pruebas en ILE 266 Figura 8.4. Instrucciones para completar el C-test First of all, read each text carefully trying to understand its meaning. Then, complete the texts filling in the blanks with the appropriate letters. Remember that the second half of every second word has been deleted, beginning with word two in sentence two. In the first two texts each dash corresponds to a single letter. Con el modelo resuelto y las instrucciones (orales y escritas) se pretende dar un primer paso hacia la deseable familiarización y valoración de la técnica por parte de los sujetos, que sólo se lograría totalmente mediante la administración repetida de C-tests. 8.3.1.4. Administración a hablantes nativos Ya en la fase de selección de los textos habíamos aplicado la prueba a varias personas con alto nivel en la lengua (véase apartado 8.3.1.1). En la primera ocasión comprobamos que los C-tests creados a partir de seis textos preseleccionados funcionaban bien, puesto que en todos ellos los sujetos obtuvieron entre el 90% y el 100% de puntuaciones correctas. Posteriormente, los dos textos que parecían menos atractivos fueron descartados. Una vez trazado el diseño del C-test que pretendíamos aplicar en este estudio, ya decididos los cuatro textos, fijadas las omisiones y el criterio de corrección, se administró la versión definitiva a un grupo de control formado por un hablante adulto nativo, otro de formación bilingüe y dos profesores de Inglés de Enseñanza Secundaria. Klein-Braley (1997) recomienda actuar de este modo para evitar sorpresas en la administración de C-tests. De nuevo, los resultados obtenidos confirmaron la idoneidad de la prueba, por tanto quedó ya lista para su administración a los sujetos de la muestra. Descripción del proceso metodológico 267 8.3.2. Cavemen? Durante el curso académico se hicieron en la clase de Inglés distintos modelos de pruebas tipo Selectividad como preparación para las PAAU oficiales. Es ésta una práctica común en 2º de Bachillerato y un claro ejemplo de “enseñar para el examen” (véase el capítulo 3, apartado 3.8.5). Decidimos tomar uno de estos exámenes como punto de referencia para estudiar las correlaciones del C-test. En el estudio se utilizó Cavemen?, que corresponde a la prueba propuesta en la convocatoria de septiembre de 1999 de las PAAU para Bachillerato-LOGSE en la Comunidad de Madrid. Cavemen? comienza con un texto que los alumnos han de leer cuidadosamente. A continuación, propone cinco preguntas relacionadas con el texto. La última consiste en escribir una redacción de 80 a 100 palabras en lengua inglesa sobre uno de los dos temas propuestos. Los alumnos realizaron la prueba en una sesión de clase, como una más de sus habituales prácticas. Una vez corregidos, tomamos varios datos. En primer lugar, el resultado global en la prueba, es decir la calificación obtenida en escala de 0 a 10 puntos. Además, agrupamos las preguntas de la prueba en dos tipos: las de carácter objetivo y las subjetivas. De este modo, pudimos analizar las correlaciones del C-test con la prueba en general, con cada una de las preguntas en particular, y con las partes objetiva y subjetiva de la misma. 8.3.3. Calificaciones de Inglés en la 2ª Evaluación También interesaba conocer hasta qué punto los resultados obtenidos en el C- test eran coherentes con la valoración que sus respectivas profesoras hacían del progreso del alumno en la asignatura de Inglés. Sobre este aspecto, Klein-Braley (1984: 136) explica: “The use of teacher ratings is often viewed as problematical because such ratings are themselves not necessarily reliable. Their pragmatic validity in the context of the school system, however, is a fat of life”. Compartimos el punto de vista de Klein-Braley acerca de la validez e importancia de los juicios que el profesor, como profesional de la docencia, emite El C-test: alternativa o complemento de otras pruebas en ILE 268 sobre los alumnos. Por eso, respetamos la evaluación que las profesoras habían hecho de sus alumnos, con los criterios e instrumentos que consideraran pertinentes para ello. En este caso, nos interesa la consistencia de la medida para cada alumno, como individuo y no como grupo. Con ese fin, las profesoras de Inglés de los grupos que forman parte del estudio nos facilitaron las calificaciones de Inglés en la 2ª Evaluación del curso escolar 2000/01. Quizá un análisis de los criterios, métodos e instrumentos de evaluación seguidos por cada una de las profesoras pusiera de manifiesto algunas inevitables diferencias entre unas y otras. No obstante, en el contexto académico en que nos encontramos, la evaluación educativa del rendimiento de los alumnos se rige por el mismo currículo (objetivos y contenidos mínimos) y criterios, los fijados por la legislación educativa vigente. Por tanto, la uniformidad está garantizada y podemos incluir este dato en nuestro estudio. 8.3.4. Calificaciones del examen de Inglés de las PAAU oficiales Otro criterio objetivo de referencia con el que contamos, es la nota obtenida por los sujetos en el examen oficial de Inglés que forma parte de las Pruebas oficiales de Aptitud para el Acceso a las Universidades madrileñas (cada grupo lo realizó en la universidad correspondiente: Complutense, Autónoma y Carlos III). Este dato aporta aún mayor objetividad a nuestra investigación. Pero, por sus características, también presenta algunas limitaciones destacables. En primer lugar, porque lamentablemente no tenemos dicha información de todos los sujetos. Sólo de aquellos que, una vez superado el Bachillerato, se presentaron a las Pruebas en la convocatoria de junio de 2001, que supone exactamente la mitad de la muestra total. En segundo lugar, porque incluso de los presentados a las PAAU no conocemos más que la calificación final y global de la prueba de Inglés, sin el desglose de los resultados obtenidos en cada pregunta. Y por último, hemos de tener en cuenta las circunstancias que rodean a la PAAU. Como prueba selectiva presenta un componente importante de ansiedad en los sujetos que la realizan, y esto ha de afectar necesariamente al rendimiento. Descripción del proceso metodológico 269 A continuación, incluimos algunos detalles acerca de las Pruebas de Aptitud para el Acceso a la Universidad. Por razones de espacio y agilidad de lectura, y puesto que son ampliamente conocidas por todos, no nos detendremos en ellas más que para hacer algunos comentarios generales y mostrar de forma somera la estructura de la prueba de Inglés. Las PAAU constituyen un referente externo común y obligatorio en el estado español cuyo propósito es unificar u homogeneizar las calificaciones obtenidas por los estudiantes, cualquiera que sea su procedencia, antes de su incorporación a la Universidad64. Al ser unas pruebas selectivas de madurez, de los resultados obtenidos en ellas dependerá en gran medida el futuro de los estudiantes españoles. La prueba de Inglés constituye sólo una parte de la PAAU, que incluye además pruebas sobre la mayoría de las asignaturas cursadas en 2º de Bachillerato. En el capítulo 3 señalamos las implicaciones y el impacto o washback que producen en la sociedad (Alderson y Wall 1993, 1996; Messick 1996; Bailey 1996; Shohamy et al. 1996; Alderson y Hamp-Lyons 1996; Andrews et al. 2002), y en particular en profesores y alumnos, las pruebas estandarizadas de ámbito nacional, como las PAAU en España. Aludimos a cuestiones relativas a su preparación en el aula, el fenómeno conocido como teaching to the test (Gipps 1994) o test-like teaching (Shohamy 1997). En el contexto educativo español los efectos de las PAAU son evidentes: buena parte de las clases de Bachillerato van dirigidas a la superación de las PAAU, los profesores intentan aumentar la motivación y reducir la ansiedad de los alumnos para que puedan reflejar sus conocimientos en ella de la mejor manera posible. El actual examen de Inglés de las PAAU tiene como objetivo fundamental discriminar entre las actuaciones de los alumnos y hacerlo con el mayor grado de fiabilidad posible. Por esta razón, aunque también podría ser considerado como placement test atendiendo a su función de “filtro selectivo” para el acceso a la Universidad, Herrera (1999: 90) lo categoriza como proficiency test: 64 Como se comentó en capítulos anteriores, las actuales PAAU llevan ya más de treinta años funcionando en España. Actualmente, con la implantación progresiva de la LOE (2006) sigue temporalmente su vigencia hasta que se complete el desarrollo de dicha Ley en el curso 2009/2010, fecha en que está prevista la entrada en funcionamiento de las nuevas Pruebas de Acceso, aún por determinar. El C-test: alternativa o complemento de otras pruebas en ILE 270 In the case of the ET, the target is to discriminate as reliably as possible. The University Examination Board looks for an accurate score which enables the academic authorities to rank students according to their proficiency and, which at the same time, allows the students to make their choice of Faculty courses according to the score obtained. La prueba se basa en el marco teórico de Bachman (Herrera 1999: 91; Amengual Pizarro 2003: 53) y desarrolla uno de los tres componentes del dominio de la lengua: la competencia lingüística. Ésta se compone de competencia organizativa (gramatical y textual) y competencia pragmática. En la prueba se valora el constructo, subdividido en gramática, vocabulario, comprensión y expresión escrita. A pesar de que se reconoce (García Laborda 2005; Fernández y Sanz 2005) que el examen de Inglés de las PAAU65 debería valorar también las destrezas orales de la competencia comunicativa, todavía se imponen problemas de carácter económico y de infraestructura. En el momento actual, la prueba de Inglés vigente en el sistema educativo español es una prueba de comprensión y expresión escrita: “it will be observed that reading and writing skills rather than the oral dimension of communicative competence are highlighted“ (Herrera 1999: 91). Las pruebas de producción escrita, por definición, intentan medir la capacidad del individuo para expresarse por escrito en la lengua extranjera. Pueden ser pruebas directas o bien indirectas. Las indirectas buscan evaluar la expresión escrita mediante otras medidas que correlacionen bien con la capacidad de producción escrita. Las directas se basan en la producción real de textos escritos. Hamp-Lyons (1991: 5-14) considera que éstas últimas son las únicas realmente válidas, porque lo importante no es el conocimiento de reglas gramaticales, sino la capacidad real para utilizar la lengua escrita como vehículo de expresión de ideas y emociones. Aunque las distintas universidades españolas gozan de cierta flexibilidad al plantear la prueba de Inglés, la estructura general presenta sólo leves variaciones. Podemos decir que la prueba de Inglés de las PAAU se estructura en torno a dos partes: una de carácter indirecto, que pretende valorar de forma objetiva el conocimiento de elementos discretos de la lengua, y otra de tipo directo, por tanto con cierto componente subjetivo. 65 La literatura reclama una revisión de la prueba de Inglés de las PAAU que mejore su validez y fiabilidad, en definitiva, su calidad. El volumen “Estudios y criterios para una Selectividad de calidad en el examen de Inglés” (2005) recoge muchas de estas reivindicaciones, a las que nos sumamos. Descripción del proceso metodológico 271 La prueba se valora sobre una puntuación total de 10 puntos. En la CM cada una de las dos partes de la prueba tiene asignado un valor máximo de 5 puntos. Se intenta, de este modo, que la prueba sea un instrumento de medida equilibrado. El ejercicio parte de un texto escrito, que se propone como punto de partida y constituye el eje central del examen, pues proporciona el tema en torno al cual gira toda la prueba. Es, en principio, un texto auténtico o levemente adaptado, y relacionado con temas de carácter divulgativo, periodístico o de interés general. El alumno debe leerlo en primer lugar, para luego responder a diversas cuestiones, unas objetivas (de comprensión del texto, de gramática y de vocabulario) y otras de tipo subjetivo (preguntas abiertas y redacción sobre uno de dos temas propuestos) (Herrera Soler 1999, 2001). El cuadro siguiente (Fig. 8.5) muestra su estructura. Figura 8.5. Estructura de la prueba de Inglés de las PAAU PAAU (LOGSE) Comunidad de Madrid Parte objetiva (5 puntos) Parte subjetiva (5 puntos) 1. Pregunta de comprensión del texto: Verdadero o falso (2 puntos) 2. Pregunta de vocabulario (1 punto) 3. Pregunta de reflexión gramatical (2 puntos) 1. Pregunta abierta de comprensión del texto. (2 puntos) 2. Redacción sobre uno de los dos temas propuestos (3 puntos) En nuestro estudio hemos tomado los resultados de una prueba tipo Selectividad, pero realizada en clase como preparación para el examen oficial. Sigue exactamente los parámetros que acabamos de explicar. Para esta tesis, una prueba tipo Selectividad aplicada directamente en el aula presenta ventajas con respecto a la convocatoria oficial de las PAAU, ya que proporciona una información completa: conocemos la puntuación obtenida en cada una de las preguntas y podemos, además, agrupar las puntuaciones de la parte objetiva y subjetiva de la misma. Disponemos de estos datos de todos los sujetos que realizaron el C-test (162), y El C-test: alternativa o complemento de otras pruebas en ILE 272 además, evitamos el componente de ansiedad propia de las pruebas selectivas externas. También contamos con la calificación obtenida en la convocatoria oficial de las PAAU de junio de 2001, pero sólo de 81 alumnos, el 50% de la muestra total. En cuanto a la corrección de las PAAU, mencionaremos que la realizan tribunales formados por profesores de Universidad y de Enseñanza Secundaria, dirigidos por un coordinador, que generalmente pertenece al mundo universitario. Los correctores reciben unas instrucciones básicas relativas a las puntuaciones asignadas a cada pregunta, a las que hay que añadir una breve reunión previa a la administración de la prueba, y otra posterior para poner en común los criterios de evaluación y llegar a acuerdos que aseguren una valoración homogénea con independencia del corrector (Amengual 2003). Así pues, parece claro que los correctores de las PAAU no reciben la deseable formación específica (Bachman y Palmer 1996), simplemente algunas instrucciones expresas para la corrección de la prueba y, en concreto, para unificar la valoración de la parte subjetiva del examen, que incluye la redacción. Aunque pocas recomendaciones son necesarias para valorar la parte objetiva, basada en elementos discretos, en cuanto a las tareas de expresión escrita directa sí percibimos un vacío importante. A pesar de todo, estudios recientes (Amengual 2003) sobre la fiabilidad de las puntuaciones de los ensayos de las PAAU han demostrado la fiabilidad inter- corrector en la valoración de las redacciones. La actuación de los correctores se guía por criterios personales y, en general, valora más los aspectos formales de la lengua, pero es consistente en sus distintas actuaciones. En el Apéndice incluimos las “instrucciones para el corrector” que se suministraron en las universidades madrileñas en la prueba de Inglés de las PAAU de 2001. Las escasas claves referentes al ensayo simplemente pretenden lograr un equilibrio entre forma y contenido. De los 3 puntos totales, a la expresión (gramática, vocabulario, etc.) le corresponden 1,5 puntos aproximadamente y el mismo valor se da al contenido expresado en el ensayo (ideas, etc.). Todo ello se propone sólo de forma indicativa. Evidentemente, en este tipo de pruebas se asegura el anonimato de los sujetos presentados como medida para evitar, en lo posible, los sesgos por parte del corrector. Cada corrector recibe un bloque de exámenes asignado al azar, cuyo Descripción del proceso metodológico 273 número suele oscilar entre los ciento cincuenta y los doscientos, dependiendo de las necesidades del tribunal correspondiente. Pero, para evitar los sesgos de subjetividad que el ser humano puede aportar al examen, el anonimato no es suficiente, es vital que el corrector tenga la preparación necesaria para juzgar este tipo de prueba (Bachman y Palmer 1996: 221). Y también sería recomendable que cada examen fuera revisado por al menos dos correctores diferentes. Tanto la falta de formación específica de los correctores en las técnicas de evaluación como la ausencia de doble corrección se deben, principalmente, a motivos de índole económica. A pesar del elevado coste que tendría la implantación de estas medidas para una prueba a escala nacional, como las PAAU, pensamos que es nuestra obligación recordar a los responsables de la política educativa los beneficios de las mismas. Actualmente se intentan suplir ofreciendo a los examinandos la posibilidad de reclamar o solicitar doble corrección, pero sólo si expresan su disconformidad con la calificación recibida en la primera corrección. Herrera (1999) cuestionó la validez de la parte objetiva o indirecta de la PAAU de Inglés, puesto que no discrimina entre los sujetos; por otra parte, su trabajo evidenció que la redacción es la parte de la PAAU que mejor muestra las habilidades reales del alumno en lengua inglesa. En nuestra investigación intentaremos demostrar la validez concurrente del C- test con respecto a las PAAU, tomadas en su conjunto (puntuación global). Pero también analizaremos las correlaciones del C-test con cada una de las partes de la prueba (objetiva y subjetiva). El C-test y la redacción (dentro de las PAAU) comparten el carácter de pruebas integradoras de producción lingüística (Lee 1996). Nos interesará, por tanto, conocer cómo es la correlación entre ambas. El C-test: alternativa o complemento de otras pruebas en ILE 274 8.3.5. Cuestionario Dörnyei (2003: 9) apunta que los cuestionarios se pueden utilizar para averiguar lo que piensa un sujeto, pueden medir “attitudes, opinions, beliefs, interests and values". Destaca, además, la eficacia del procedimiento y su versatilidad como principales ventajas: “The main attraction of questionnaires is their unprecedented efficiency in terms of (a) researcher time, (b) researcher effort, and (c) financial resources”. En nuestro proceso empírico también creímos interesante conocer la opinión de los sujetos acerca del C-test, y se decidió que la administración de un cuestionario era el procedimiento más adecuado para recopilar la información, ya que el tamaño de la muestra dificultaba el uso de otros métodos aconsejables, como la entrevista personal o los think-aloud protocols. Así pues, para poder analizar algunos aspectos relativos a la validez aparente del C-test, una vez terminada su aplicación, se pasó a los sujetos un cuestionario retrospectivo de opinión basado en el que utilizó Jafarpur (1995: 207). En él se pedía a los alumnos una valoración de la prueba atendiendo a distintos aspectos. Nuestro cuestionario quedó estructurado en tres partes: • La primera demanda algunos datos personales, biodata, que no debe faltar en un cuestionario (Dörnyei 2003), excepto la identificación de los sujetos, para asegurar el anonimato y la libertad en las repuestas66. • La segunda parte del cuestionario solicita información de tipo valorativo sobre diversos aspectos del C-test, las dificultades surgidas en su realización y la impresión producida en los sujetos. • La tercera parte pide opinión sobre su posible futura utilización en pruebas selectivas, como las PAAU. En el capítulo 12 se estudia el cuestionario con mayor detalle. La versión definitiva aplicada en esta investigación puede consultarse en el Apéndice. 66 Respecto al anonimato de los sujetos en este tipo de cuestionarios Mackey (2005: 124) recomienda: “In reporting information about participants, the researcher must balance two concerns. The first is the privacy and anonymity of the participants; the second is the need to report sufficient data about the participants to allow future researchers to both evaluate and replicate the study”. Descripción del proceso metodológico 275 8.4. Contexto: Perfil de los IES en que se realizó el estudio En este apartado completamos algunos aspectos del contexto en que se centra el presente estudio. En concreto, revisamos el perfil de los centros a los que pertenecen los cuatro grupos de alumnos participantes en el estudio. En el apartado 8.2 de este capítulo hemos descrito las características del grupo de sujetos que se toma como muestra. Constituye un grupo homogéneo de 162 alumnos que comparten algunas variables, como la edad, el nivel académico (2º de Bachillerato) y su escolarización en IES públicos de la CM. En cuanto a las características de los cuatro centros educativos, hemos de decir que reflejan realidades sociales bien distintas. Los centros en que se realizó el estudio no fueron elegidos al azar. Se intentó que reflejaran los distintos estratos socioeconómicos presentes en los IES de la Comunidad de Madrid, para reducir en lo posible el error sistemático de la muestra. Nos interesaba contar con una muestra que fuera fiel espejo de la diversidad existente en los IES de la CM, para que los resultados fueran generalizables. Haremos una breve reseña de las circunstancias de cada IES participante. Comenzamos con el IES Ágora, perteneciente al Área Territorial Madrid-Norte. El centro se encuentra en Alcobendas, ciudad de la Zona Norte Metropolitana muy próxima a la capital (a sólo 13 kms.). En ella conviven colectivos con niveles de renta muy diferenciados. Destaca la escasa incidencia de los fenómenos de marginalidad urbana. La población es joven y sociológicamente diversa, con un nivel educativo medio-alto. El IES San Isidoro de Sevilla se encuentra en Madrid capital, en una zona privilegiada, de tipo residencial. Está enclavado en un área abierta y de ambiente eminentemente universitario, rodeado por instalaciones de la Universidad Complutense, el CEU y varios colegios mayores. Es un centro relativamente pequeño, con sólida tradición de prestigio entre los IES madrileños y en la zona. Ha funcionado siempre como centro en el que se impartían enseñanzas de Bachillerato. Los IES Vicente Aleixandre y Humanejos pertenecen a la Dirección de Área Territorial Madrid-Sur. Se encuentran ubicados en las poblaciones de Pinto y Parla respectivamente. El primero ya comenzó como Instituto de Bachillerato, mientras que el segundo fue fundado como centro de Formación Profesional hace 28 años. El C-test: alternativa o complemento de otras pruebas en ILE 276 Pinto y Parla se consideran ciudades dormitorio de la periferia sur madrileña. Comparten con Alcobendas el carácter periférico, pero su universo social es muy distinto. Son fundamentalmente ciudades industriales, obreras. Arrastran el lastre de fuertes problemas económicos y sociales, sobre todo Parla. Pero cuentan con una población muy joven, que está cambiando el perfil de la zona, y acogen a un gran volumen de población inmigrante. El IES Humanejos tiene una arraigada tradición en el campo de la Formación Profesional en Parla, pues fue el primer centro fundado con ese propósito. Sin embargo, encuentra dificultades para suscitar en sus alumnos el espíritu universitario. Al acabar la Enseñanza Secundaria Obligatoria la mayoría se decanta por otras opciones: muchos se incorporan al mundo laboral, otros inician estudios de FP y sólo un pequeño grupo elige continuar su formación en Bachillerato, con intención de acceder a estudios universitarios en el futuro. Como veremos, de los participantes en el estudio, los alumnos de Bachillerato del IES Humanejos son los más reacios a presentarse a las PAAU. En su lugar, abandonan los estudios o se incorporan a los Ciclos Superiores de Formación Profesional. No se pretende con este trabajo simplemente contrastar los resultados obtenidos entre centros, puesto que dejaríamos múltiples variables fuera de estudio. Más bien al contrario, nuestro objetivo es constatar el funcionamiento del C-test en distintos IES y situaciones, respetando siempre las peculiaridades de los IES y de los grupos de sujetos en que se aplican, independientemente de su origen y características. Por otra parte, la variedad de extracción de los grupos nos asegura un universo realista y plural. 8.5. Procedimiento En este apartado incluimos los detalles relativos a la selección de los sujetos, la distribución del tiempo y el proceso seguido para completar el estudio, teniendo en cuenta sus objetivos y las variables analizadas. Descripción del proceso metodológico 277 8.5.1. Selección de los sujetos: muestra Como paso previo a la recopilación de datos y materiales, contactamos personalmente, ya en el primer trimestre del curso 2000/01, con los distintos IES que iban a formar parte del estudio. El IES Humanejos y el San Isidoro ya habían colaborado desinteresadamente con nosotros en las pruebas piloto. Ahora la muestra se ampliaba para dar cabida a otros centros de ubicación y características diferentes, con intención de aumentar su representatividad. Las distintas profesoras de Inglés fueron informadas directamente por la investigadora, tanto oralmente como por escrito, de todos los detalles del trabajo y de los datos que iban a ser necesarios. Era vital una colaboración directa y estrecha. Nos comunicaron qué grupos concretos de 2º de Bachillerato iban a participar en el estudio y se mostraron dispuestas a ayudar activamente en todo el proceso. 8.5.2. Distribución del tiempo La recopilación del material para este trabajo comenzó en marzo de 2001, cuando se tomaron los datos de las calificaciones de los alumnos en la asignatura de Inglés en la 2ª evaluación del curso académico 2000/01. Continuó con la aplicación de la prueba Cavemen? en una de las primeras sesiones de clase de Inglés del tercer trimestre, en abril de 2001. Siguió con la administración del C-test y el cuestionario en el aula en el mismo mes. Y finalizó en junio de 2001 cuando se recogieron las calificaciones de Inglés de los alumnos presentados a las PAAU (véase la Fig. 8.6). Siguiendo el mencionado calendario, fuimos recogiendo los distintos materiales de cada grupo de sujetos. A medida que recibíamos los datos, se iban incluyendo en tablas para su posterior tratamiento informático y estadístico, asignando un lugar a cada IES y un número a cada alumno. El C-test: alternativa o complemento de otras pruebas en ILE 278 Figura 8.6. Distribución del tiempo Marzo de 2001 Recogida de las calificaciones de Inglés en la 2ª evaluación del curso 2000/01 Abril de 2001 Realización de la prueba Cavemen? en una sesión de inglés del tercer trimestre Abril de 2001 Realización del C-test y del cuestionario retrospectivo en una sesión de clase de Inglés Junio de 2001 Recogida de las calificaciones de Inglés en la convocatoria oficial de junio de 2001 de las PAAU. En primer lugar se confeccionaron las tablas con las calificaciones de Inglés de la 2ª Evaluación. Posteriormente se aplicó la prueba Cavemen? en una sesión de clase de Inglés del mes de abril. Cada profesora eligió la fecha que mejor se adaptaba a su programación de la asignatura. En ningún caso supuso una ruptura con la rutina de las clases de Inglés, puesto que este tipo de pruebas es habitual como preparación para la Selectividad. Se realizó en 60 minutos. Resulta un periodo de tiempo suficiente, a pesar de que en las PAAU oficiales la asignación de tiempo es mucho mayor. Los alumnos no fueron informados de que sus resultados serían analizados, pretendíamos que la prueba fuera reflejo real de la competencia lingüística del alumno en este punto del curso, cercana ya la Selectividad, y con los mínimos condicionantes externos. Una vez realizada fue corregida por las respectivas profesoras, siguiendo los criterios habituales que se recomiendan para las PAAU, pero como una más de las aplicadas durante el curso, y posteriormente revisadas por la investigadora. Recibimos una copia de cada uno de ellos y los datos obtenidos se incorporaron a la tabla: puntuación global, puntuación de cada pregunta y puntuación lograda al agrupar las preguntas de tipo objetivo y subjetivo. Una semana después se aplicó el C-test de 100 omisiones y el cuestionario retrospectivo. Se informó a los alumnos de que la prueba formaba parte de un estudio empírico: se trataba de una técnica nueva para medir su competencia en la Descripción del proceso metodológico 279 lengua. Después, en algunos casos, y por deseo expreso de las profesoras, los resultados obtenidos fueron tomados en cuenta en la evaluación de la asignatura. En cuanto al tiempo, Connelly (1997) recomienda que el dedicado a la resolución de C-tests sea generoso para que los sujetos puedan trabajarlos bien. Propone un tiempo mínimo de entre 5 y 7 minutos para cada subtest (20-25 ítems). En este caso, la prueba se administró también durante una sesión de clase de Inglés, de 50 minutos, aunque se hizo uso de los minutos previos para introducir la técnica con las explicaciones pertinentes y el modelo de C-test resuelto. Y cuando finalizó se ocuparon diez minutos más para contestar al cuestionario. Así pues, el tiempo real se incrementó sensiblemente hasta aproximadamente 60 minutos. Una vez recogidos fueron entregados a la investigadora para su corrección y análisis. Los C-tests corregidos se devolvieron a los alumnos pocos días después. Por tanto, los sujetos pudieron comprobar sus resultados, a veces sorprendentes. Algunas profesoras nos comunicaron que habían “reutilizado” el C-test a posteriori como material de clase para llamar la atención de los alumnos y reflexionar sobre determinados puntos gramaticales, de vocabulario, errores comunes, etc., y destacaron su eficacia, porque ayuda a tomar conciencia de las claves de que disponían para su solución y de las estrategias utilizadas. Hinofotis (1987) y Buck (1988) sugieren el uso de pruebas de cierre en las clases. En este sentido, Lee (1996: 65) confirma: “the confirmation of the cloze procedure as a valid language proficiency test suggests the use of the procedure beyond a testing format. It can be used as an effective teaching device”. En la práctica, constatamos que su apreciación puede aplicarse también al C-test. Las tablas de resultados se completaron con la puntuación total en el C-test (sobre 100) y la obtenida en cada uno de los subtests de 25 omisiones. Fueron denominados, respectivamente, Ctesttot, Ctest1, Ctest2, Ctest3 y Ctest4. Los cuestionarios de opinión quedaron en nuestras manos para su análisis. Por último, debimos esperar hasta la entrega de las calificaciones de las PAAU oficiales, en junio de 2001. Con este dato culminó la tarea de recopilación de los materiales necesarios para nuestro estudio. El C-test: alternativa o complemento de otras pruebas en ILE 280 8.6. Tratamiento de los datos La investigación actual sobre Evaluación de la Lengua utiliza los medios estadísticos. La ciencia estadística aporta al lingüista herramientas y procedimientos básicos para determinar el funcionamiento y la validez de una prueba. Alderson (en Bachman 2004: ix) explica así los lazos entre ambas ciencias: Language tests are intended to measure, and without quantification they cannot measure. Quantification implies numbers and numbers imply statistics. And so, although a firm understanding of the nature of language is essential for the trained language tester, so too is at least a basic familiarity with statistics. La estadística permite resumir y describir la gran cantidad de información que se extrae de un examen, para después hacer inferencias. Por tanto, podemos distinguir dos tipos de análisis estadístico: el descriptivo y el inferencial (Bachman 2004: 34). Desde esta perspectiva se ha llevado a cabo la investigación sobre el C- test, a partir de los resultados obtenidos en las distintas pruebas aplicadas. Se han realizado ambos tipos de análisis mediante diversas técnicas estadísticas, utilizando el programa Statistical Package for Social Sciences (SPSS 12.5). La distribución de las puntuaciones de las pruebas se refleja en los estadísticos descriptivos: tablas de frecuencias, histogramas, diagramas de cajas y barras. En los histogramas que ilustran nuestra investigación revisamos la simetría, la curtosis (leptocúrtica, mesocúrtica y platicúrtica) y el sesgo de las curvas (positivo o negativo). Para cada prueba se señalan las medidas de tendencia central: moda, mediana y media, así como el rango y la desviación estándar. A veces también se realiza el análisis de la varianza (ANOVA) y las pruebas de significación (T tests). El estudio intrínseco del C-test se completa desglosando la prueba en subtests y estudiando las correlaciones entre cada subtest y el total de la prueba. Además, según el formato de las omisiones, se divide la prueba en dos partes (con omisiones guiadas y no guiadas) y se comparan las medias obtenidas en cada una de ellas. Con respecto a la validez concurrente del C-test, el principal referente externo fue la prueba oficial de Inglés de Selectividad (junio de 2001), pero también la prueba Cavemen? realizada en el aula (subdividida en parte objetiva y subjetiva) y las calificaciones de Inglés en la 2ª Evaluación. La investigación correlacional intenta determinar la existencia de relación entre dos variables. El coeficiente de correlación Descripción del proceso metodológico 281 se expresa en valores desde 0 a 1, e indica si la relación entre las variables es lineal y significativa. El análisis de la validez concurrente se hace a través de las correlaciones de Pearson entre el C-test y las distintas pruebas. Por otra parte, la fiabilidad del C-test se comprueba mediante el método de “análisis por mitades” y el cálculo del Alfa de Cronbach (Klein-Braley 1984), además del análisis de las correlaciones. Para determinar los factores que condicionan el grado de facilidad/dificultad de recuperación de las omisiones: frecuencia, familiarización, términos léxicos o funcionales, formato, etc., estudiamos los estadísticos de frecuencias de distintos ítems y comparamos su funcionamiento en los modelos A y B. Indican el porcentaje de aciertos y fallos en cada ítem y los sujetos que lo dejan sin hacer. El análisis de las variables textuales se realiza mediante el cálculo de su variación y densidad léxicas, siguiendo las pautas de Laufer y Nation (1995) y Schmitt (2000: 75). La técnica de regresión lineal, que tiene valor predictivo, se utiliza en nuestra investigación para el analizar el carácter de la relación entre las distintas partes o subtests que forman el C-test (C-test 1, C-test 2, C-test 3 y C-test 4) y las otras pruebas aplicadas, que consideramos variables dependientes (VDs). Para explorar la incidencia de factores demográficos, como el género y el IES, en la actuación de los sujetos en el C-test, se analizan los promedios obtenidos en las pruebas, el ANOVA, el modelo lineal general y se hace el análisis de varianza univariante, puesto que la disparidad de promedios no implica necesariamente la existencia de diferencias significativas en la actuación de los grupos. Por último, la valoración de los datos obtenidos en el cuestionario, encaminado a determinar la validez aparente del C-test, se hace mediante la elaboración de tablas de frecuencias, diagramas de barras y el procedimiento de análisis factorial. Análisis empírico de la validez del C-test 283 CAPÍTULO 9. ANÁLISIS EMPÍRICO DE LA VALIDEZ DEL C-TEST 9.1. Introducción En este capítulo comienza el análisis del C-test desde una perspectiva empírica. Se intentará responder a las preguntas de investigación planteadas en la Introducción de la tesis siguiendo el orden de presentación de datos. De este modo, podremos confirmar o rechazar las cuatro primeras hipótesis de trabajo. Tomaremos como referencia las otras pruebas aplicadas a los sujetos en la fase experimental de nuestro trabajo y la Selectividad de junio de 2001. Los resultados corresponden a la sistematización de los datos recogidos a partir de los distintos materiales utilizados: puntuaciones en el C-test y los subtests que lo forman, en la prueba Cavemen? y sus subapartados, valoración del profesor de Inglés respectivo (calificaciones de la 2ª Evaluación) y calificación obtenida en la prueba de Inglés de las PAAU oficiales de junio de 2001. Se llevará a cabo el proceso de validación del C-test como prueba de evaluación. Partiremos del análisis intrínseco de la prueba: estructura en subtests, formato y modelos aplicados. Este proceso se desarrolla en los siguientes pasos: • Análisis comparativo de los resultados totales del C-test y de cada subtest: promedios e histogramas • Análisis de los resultados obtenidos en los modelos de C-test A y B • Análisis de las consecuencias del formato: omisiones guiadas o no • Análisis de las variables textuales: variación léxica, densidad léxica, tema del texto • Análisis de los factores que condicionan la recuperación de las omisiones: frecuencia, familiarización, términos léxicos o funcionales El C-test: alternativa o complemento de otras pruebas en ILE 284 Del análisis de la prueba de Inglés tipo PAAU Cavemen?, desglosada en parte objetiva y subjetiva, se pasará a determinar la validez concurrente del C-test y sus correlaciones con las otras pruebas, se analizará su validez criterial y la fiabilidad de la prueba. Se estudiarán los promedios y las correlaciones del C-test con cada una de las variables estudiadas. 9.2. Proceso de validación del C-test como prueba de competencia lingüística Al acometer el proceso de análisis y validación del C-test retomamos el concepto unitario de validez desarrollado por Messick (1989), basado en que todas las cualidades de las pruebas se interrelacionan. En el capítulo 3 de la tesis definimos los distintos tipos de validez. Aunque a menudo se solapan, para nuestro estudio es útil validar los diversos aspectos por separado. El C-test pretende ser una prueba de competencia lingüística (proficiency test) y, como tal, en su proceso de validación hemos de considerar: 1. Validez de constructo 2. Validez de contenido 3. Validez criterial: concurrente y predictiva 4. Validez aparente 5. Validez consecuencial 6. Fiabilidad Para demostrar la validez del C-test, en primer lugar es necesario fijar los límites del constructo que pretende medir. En este caso, ya se ha comentado que el C-test fue creado por Klein-Braley y Raatz (1981, 1984) para medir la competencia general en lengua inglesa y, como prueba de cierre, se inspira en los principios de “redundancia reducida” (Spolsky 1973) y “gramática pragmática de expectativas” (Oller 1979). Por otra parte, también hemos de tener en cuenta su validez de contenido (Hughes 1989; Bachman et al. 1996), es decir, la relevancia y representatividad de las estructuras que incluye la prueba. Puesto que el C-test se crea a partir de textos Análisis empírico de la validez del C-test 285 auténticos y variados, según Klein-Braley y Raatz (1984: 144), su representatividad queda asegurada: “The text is a sample of the language and the mutilations in the C- test sample the text”. Pero será el estudio de la actuación real de los sujetos en la prueba lo que nos dé muestras de su validez de forma definitiva. Centraremos nuestro análisis en la validez criterial. La literatura contempla dos tipos: concurrente y predictiva. En este capítulo intentaremos mostrar la validez criterial concurrente del C-test con respecto a otras pruebas independientes que miden la misma capacidad, tomadas como referencia (Cavemen? y PAAU oficiales). Puesto que las PAAU fueron realizadas con posterioridad al C-test, también encontraremos pistas relativas a su validez predictiva y de constructo. Como se comentó en el capítulo 3, la validez concurrente viene dada por la correlación entre los resultados de las pruebas. Para que la correlación tenga valor ambas pruebas se deben realizar en un breve intervalo de tiempo (Davies 1983; Hughes 1989). Los datos de nuestra investigación se recopilaron en un periodo aproximado de un mes (véase la temporalización en el capítulo 8, apartado 8.5.2), y las PAAU de referencia dos meses después (junio 2001). La validez predictiva, por otra parte, se refiere al grado en que los resultados obtenidos en una prueba pueden predecir la actuación del alumno en una situación futura. Si se hiciera un seguimiento, lo cual no es fácil dadas las características del estudio, los resultados de las PAAU deberían ser indicativos del futuro académico de los alumnos ya inmersos en el mundo universitario. En cuanto a la validez predictiva del C-test, el diseño y temporalización de nuestro trabajo empírico nos permitirán comprobar si los resultados del C-test correlacionan significativamente con los obtenidos por los alumnos en las PAAU de junio de 2001, que se realizaron dos meses después del C-test. La validez consecuencial, es decir, los posteriores efectos beneficiosos de la prueba en los distintos agentes que participan del proceso de enseñanza-aprendizaje, estará garantizada si la prueba demuestra ser válida en los aspectos anteriormente descritos, entendiendo la validez como marco unitario. El análisis de la validez aparente del C-test aplicado merece un espacio propio (capítulo 12). En él trabajaremos fundamentalmente con los datos del cuestionario retrospectivo. El C-test: alternativa o complemento de otras pruebas en ILE 286 9.3. Aspectos descriptivos del C-test aplicado: análisis intrínseco En capítulos anteriores hemos descrito el proceso de creación del C-test aplicado en este trabajo empírico. La fase de diseño es fundamental, puesto que, en realidad, supone el comienzo de la validación de la prueba (Messick 1989, 1996). Siguiendo los consejos de Klein-Braley y Raatz, aunque adaptándolos a nuestras necesidades, como producto final llegamos a dos versiones (modelos A y B) de un C-test de cien omisiones, formado por cuatro subtests de veinticinco omisiones cada uno (véase el capítulo 8). El análisis de las características del C-test aplicado es el paso previo para determinar, a partir de su funcionamiento en la práctica, la consistencia de la prueba. Analizaremos los resultados obtenidos por los sujetos en cada uno de los modelos y subtests. Para explicar las posibles diferencias entre ellos hemos de atender a las variables: - Tema de los textos. - Rasgos de los textos: grado de dificultad. - Orden de aparición en el C-test. - Formato aplicado: con o sin pistas acerca del número de letras omitidas. 9.3.1. Promedios del C-test y los subtests que lo forman Para comenzar nos centraremos en los promedios obtenidos en el C-test (100 omisiones) y en cada una de las partes o subtests en que podemos dividirlo. En este punto del análisis no tendremos en cuenta la división en modelos A y B. Queremos comprobar la consistencia interna de la prueba en conjunto, como un todo. Después veremos también las correlaciones entre los distintos subtests que lo forman y las de cada uno de ellos con el total del C-test. En la tabla de los promedios que aparece a continuación (Tabla 9.1) hemos llamado CTESTTOTAL a los resultados totales del C-test (100 omisiones) y a los subtests: CTEST1 (omisiones 1-25), CTEST2 (omisiones 26-50), CTEST3 (omisiones 51-75) y CTEST4 (de la 76 a la 100), para su mejor identificación. Análisis empírico de la validez del C-test 287 Tabla 9.1. Promedios y desviación típica del C-test y los subtests que lo forman Media Desviación típ. CTEST1 CTEST2 CTEST3 CTEST4 CTESTTOTAL 13,26 15,64 10,15 12,07 51,12 5,070 3,818 5,132 4,538 14,683 Nota: N = 162 (Los valores correspondientes a los subtests son la media alcanzada en una escala del 0 al 25) (Los valores correspondientes a CTESTTOTAL están expresados en una escala del 0 al 100) Sin tomar en consideración las posibles diferencias entre los dos modelos aplicados, en conjunto, vemos que la media obtenida por el C-test es de 51,12 puntos en escala de 0 a 100. Esta puntuación está justo en el punto que Klein-Braley y Raatz (1984: 144) y Klein-Braley (1984: 98) consideran adecuado para el C-test como prueba de tipo normativo que garantice la discriminación entre el alumnado: The C-test is a norm-oriented test, and as such, aims at medium level of difficulty on average. The mean score should be around 50% in order to ensure maximum differentiation between subjects. [...] If necessary we can afford to let the mean difficulty slide up to 60%. (Klein-Braley 1984: 98) El C-test que diseñamos y aplicamos cumple el requisito; su grado de dificultad es medio, de este modo aseguramos la diferenciación entre sujetos. También los promedios de los subtests se encuentran en ese punto adecuado de dificultad. Podemos ver que el histograma del C-test (Ctesttot10) en escala de 0 a 10 (Figura 9.1) presenta una distribución de frecuencias normal. Ningún alumno consiguió alcanzar la puntuación máxima, como tampoco ningún sujeto dejó la prueba en blanco. La desviación estándar es de 1,47. El C-test: alternativa o complemento de otras pruebas en ILE 288 Figura 9.1. Histograma del C-test (en escala de 0 a 10) 2,00 3,00 4,00 5,00 6,00 7,00 8,00 9,00 ctestt10 0 5 10 15 20 25 Fr ec ue nc ia Mean = 5,1142 Std. Dev. = 1,47011 N = 162 Pasemos a un análisis pormenorizado de los promedios obtenidos en los subtests de la prueba. La Tabla 9.1 muestra que la media obtenida en el C-test 1 (13,26 puntos de un total de 25) es superada en más de 2 puntos por el C-test 2 (15,64). La explicación parece sencilla: los sujetos acababan de conocer la técnica en el C-test 1 y la familiarización por la práctica produjo una sensible mejora de los resultados en el C-test 2. Sin embargo, en los dos subtests restantes observamos el efecto contrario, un decremento notable. La práctica ya no redunda en la mejora de los resultados de los C-tests 3 y 4. Debemos recordar que en el subtest 3 se introduce una nueva variable; el cambio en el formato de la prueba al introducir las omisiones no guiadas, hecho que, a la luz de los resultados (10,15 puntos de promedio), contribuyó a aumentar el grado de dificultad, tal y como preveía la hipótesis 4. El análisis de los histogramas de los subtests, sin desglosar en modelos A y B, (Fig. 9.2, 9.3, 9.4 y 9.5) indica que los resultados de los cuatro subtests presentan una distribución bastante normal y equilibrada, especialmente en los C-tests 1 y 4. El C-test 1 refleja una distribución bimodal manifiesta, es decir, hay dos grupos homogéneos en puntuaciones por encima y por debajo de la media, elemento de información muy importante si se planteara el C-test como elemento de trabajo en el aula más que como prueba de evaluación, ya que nos indicaría que tendríamos que tener en cuenta los dos niveles en nuestra docencia. Análisis empírico de la validez del C-test 289 El histograma del C-test 2 refleja una distribución normal, con un muy ligero sesgo negativo. En el histograma del C-test 3 la distribución es también normal y no se aprecian grupos heterogéneos, ya que se observa una curva de sesgo positivo, lo que pone de manifiesto que este subtest era más difícil que los demás. Figura 9.2. Histograma del C-test 1 Figura 9.3. Histograma del C-test 2 5 10 15 20 25 CTEST1 0 5 10 15 20 Fr ec ue nc ia Mean = 13,26 Std. Dev. = 5,073 N = 162 5 10 15 20 25 CTEST2 0 10 20 30 Fr ec ue nc ia Mean = 15,64 Std. Dev. = 3,818 N = 162 Figura 9.4. Histograma del C-test 3 Figura 9.5. Histograma del C-test 4 0 5 10 15 20 25 CTEST3 0 5 10 15 20 25 Fr ec ue nc ia Mean = 10,15 Std. Dev. = 5,132 N = 162 0 5 10 15 20 25 CTEST4 0 10 20 30 40 Fr ec ue nc ia Mean = 12,07 Std. Dev. = 4,538 N = 162 La cuarta pregunta de investigación: “¿Incide el formato utilizado en la recuperación de las omisiones?” nos cuestionaba acerca del formato del C-test en relación directa con la hipótesis 4: “Los cambios en el formato influyen directamente en los resultados obtenidos; si se incluye el número de letras que corresponde a cada omisión se facilita la tarea del alumno”. Aunque profundizaremos en ello en el apartado 9.3.3, adelantamos algunos aspectos que llaman nuestra atención al analizar los estadísticos (tablas y gráficos). El C-test: alternativa o complemento de otras pruebas en ILE 290 En los C-tests 1 y 2 las omisiones eran guiadas (con mención expresa del número de letras omitidas en cada ítem), mientras que esta ayuda desaparece en los C-tests 3 y 4. El diagrama de cajas (Figura 9.6) refleja gráficamente los promedios obtenidos por cada subtest y permite una visión comparativa de conjunto. La linea negra que aparece en cada caja, y que corresponde a la mediana, presenta unos valores semejantes a la media. Se aprecia más dispersión de puntuaciones en los C-tests 1 y 3. En el subtest 2 el diagrama de cajas detecta la presencia de un outlier o valor extremo, cuya puntuación es anormalmente baja. Figura 9.6. Diagrama de cajas de los promedios obtenidos en los subtests CTEST1 CTEST2 CTEST3 CTEST4 0 5 10 15 20 25 61 A continuación observamos en las tablas 9.2 y el diagrama de cajas (Fig. 9.7) la comparación de los promedios obtenidos en cada una de las dos mitades del C- test en escala de 0 a 50, para ello agrupamos las omisiones 1-50 correspondientes a los subtests 1 y 2 (guiadas) y las de los subtests 3 y 4 (omisiones 51-100 no guiadas). Queda patente que en las omisiones no guiadas los resultados descienden y hay diferencias significativas, con t= 10,894 y p<0001. Tabla 9.2a. Media de los ítems guiados (C-tests 1 y 2) y no guiados (C-tests 3 y 4) Estadísticos de muestras relacionadas Media N Desviación típ. Par 1 CTEST12 28,90 162 7,910 CTEST34 22,23 162 8,693 CTEST12 aglutina los resultados de los subtests 1 y 2 con omisiones guiadas CTEST34 aglutina los resultados de los subtests 3 y 4 con omisiones no guiadas Análisis empírico de la validez del C-test 291 Tabla 9.2b. Prueba de muestras relacionadas Diferencias relacionadas t Gl Sig. (bilate ral) Media Desviación típ. Error típ. de la media 95% Intervalo de confianza para la diferencia Inferior Superior Par 1 CTEST12 - CTEST34 6,667 7,789 ,612 5,458 7,875 10,894 161 ,000 Figura 9.7 .Diagrama de cajas de los promedios obtenidos en los subtests 1-2 y 3-4 CTEST12 CTEST34 0 10 20 30 40 50 21 La media de los subtests con omisiones guiadas es de 28,91 puntos en escala de 0 a 50, superior a la de los subtests con omisiones no guiadas (22,25 puntos). También la dispersión de puntuaciones, expresada en la desviación típica (8,675 frente a 7,943 puntos) es mayor cuando no se dan pistas. En los subtests no guiados aparece otra vez un caso extremo. Una vez revisados los datos, comprobamos que corresponde a un sujeto bilingüe, cuya puntuación supera ampliamente a la del resto de la muestra. El propósito del cambio de formato era lograr que la prueba aumentara su dificultad progresivamente a medida que el alumno se iba familiarizando con la técnica, como recomienda Klein-Braley (1985, 1997), puesto que, por su procedencia, el grado de dificultad de los textos debía ser similar. Además, este nuevo formato plantea un reto al alumno (Babaii y Ansary 2001) y contribuye a que no pierda interés a medida que conoce la técnica. El C-test: alternativa o complemento de otras pruebas en ILE 292 A pesar de todo, las instrucciones informaban al alumno de que en todo caso las omisiones corresponden siempre a la segunda “mitad” de la palabra. Nuestro interés se centra en estudiar cómo afecta este mínimo cambio a la actuación de los alumnos (hipótesis 4). A la vista de los resultados, podemos decir que, como se esperaba, supuso realmente una dificultad añadida67. Las opiniones de los alumnos, recogidas en el cuestionario retrospectivo, respaldan esta idea (véase el apartado 10.3 del capítulo 10). Pero sería demasiado aventurado achacar exclusivamente a este factor el descenso en la media. En los siguientes apartados veremos que hemos de atender también a la posible incidencia de otras variables, como las características de los textos. 9.3.2. Correlaciones entre el C-test y los subtests que lo forman Una vez examinados los promedios, pasamos a analizar las correlaciones entre los subtests y los resultados totales del C-test, para comprobar la coherencia interna de la prueba. Mediante el análisis determinaremos la existencia de relación entre las variables, aunque no las causas de ésta (Mackey y Gass 2005). La Tabla 9.3 muestra las correlaciones de Pearson. Se denominan “product- moment correlations”. Observamos cómo los resultados que plasma la tabla son coherentes con los expresados por los promedios y ya comentados. Todos los subtests correlacionan de forma significativa con el total del C-test, las correlaciones son muy altas en los C-tests 2 y 4 (0,841 y 0,877 respectivamente) y descienden algo en los C-tests 1 y 3 (0,727 y 0,741), aún siendo muy buenas. Vemos que el subtest 3 no correlaciona bien con el 1, pues se aprecia la correlación más baja (0,182), y con el 2, aunque mejora notablemente, el coeficiente (0,535) es inferior a los obtenidos por los otros subtests. 67 El trabajo de Babaii y Moghaddam (2006), recientemente publicado, explora la incidencia del formato en el tipo de procesamiento lingüístico utilizado para resolver C-tests. Se aplicó el mismo C- test con dos versiones (con y sin omisiones guiadas) a dos grupos diferentes de sujetos y se comprobó que cuando no se aporta ayuda extra, los sujetos se esfuerzan más por utilizar “macro- level processing”. Este hecho llevó a los autores a recomendar la creación de C-tests a partir de textos de cierta dificultad. Análisis empírico de la validez del C-test 293 Tabla 9.3. Correlaciones de Pearson entre los resultados globales del C-test y de los distintos subtests 1 2 3 4 5 1. CTEST1 -- 2. CTEST2 ,574(**) -- 3. CTEST3 ,182(*) ,533(**) -- 4. CTEST4 ,544(**) ,636(**) ,615(**) -- 5. TESTTOTAL ,727(**) ,841(**) ,741(**) ,877(**) -- ** La correlación es significativa al nivel 0,01 (bilateral). * La correlación es significante al nivel 0,05 (bilateral). N = 162 A pesar de la alta correlación entre el subtest 3 y el total del C-test (0,741), buscaremos evidencias de alguna variable en este subtest (C-test 3) que, junto al cambio de formato, contribuya a bajar los promedios. El descenso en las puntuaciones no puede achacarse al tema del texto porque no es el mismo en los dos modelos y, por los resultados y correlaciones veremos que un mismo texto (i.e. Road accidents, subtest 1 en el modelo A y subtest 3 en el B) funciona de forma totalmente distinta cuando se presenta en otro orden. Concretamente, cuando esto supone la introducción de las omisiones no guiadas (véase el apartado 9.3.2). En primera instancia, en el contexto del C-test aplicado, cabe pensar que, por el diseño de la prueba, el factor fundamental ha sido el cambio del formato, planteado en la hipótesis 4. Sin embargo, el C-test 4, que mantiene el formato de omisiones no guiadas, presenta la correlación más alta con el total del C-test, y es también el que mejor explica la varianza de la variable dependiente en el análisis de regresión lineal, como se verá en el capítulo siguiente. Este dato sugiere que, además del aprendizaje y familiarización, existen variables textuales en el C-test 3 que lo diferencian del resto. Pensamos en las características de los textos de partida: tema, variación léxica y densidad. Hacia estos aspectos dirigiremos nuestra atención en el apartado 9.3.4 de este capítulo. Hasta ahora se ha estudiado la relación entre el C-test en conjunto y los cuatro subtests que lo forman. Hemos visto el funcionamiento de cada subtest a partir de los promedios y que el subtest 3, con el descenso en las puntuaciones, marca un punto de inflexión en la prueba, coincidente con la introducción del cambio de El C-test: alternativa o complemento de otras pruebas en ILE 294 formato, pero que no puede achacarse exclusivamente a él. En los apartados siguientes concretaremos la incidencia del cambio de formato, revisaremos las características de los textos del C-test y definiremos cómo afecta a los resultados el modelo de C-test aplicado (A y B). El apartado 9.3.4 analiza las características de los cuatro textos a partir de los cuales se elaboró el C-test en ambos modelos. Si bien a priori se había considerado que su grado de dificultad era similar, ahora se impone una revisión más profunda de sus rasgos. Quizá sus peculiaridades contribuyan a explicar los datos estadísticos obtenidos por el C-test 3. El siguiente paso exige aplicar el análisis de la regresión lineal del C-test, que nos permite explorar y cuantificar la relación entre la variable dependiente, el C-test total, y las independientes, los distintos subtests. Con este tipo de análisis, al que dedicamos la parte final del capítulo, completaremos nuestra investigación. 9.3.3. Resultados obtenidos según el modelo de C-test: A y B Como hemos visto en la Metodología (capítulo 8), se aplicaron dos modelos diferentes de C-test con idénticos textos y mutilaciones, pero cambiando el orden de presentación de los mismos. En ambos modelos se aportaban pistas sobre el número de letras omitidas en los subtests 1 y 2 (cincuenta primeras omisiones). Fueron repartidos al azar. Exactamente la mitad de los sujetos de la muestra completó el C-test modelo A y la otra mitad el B. Téngase presente en el análisis la Figura 8.3 del capítulo 8, que refleja la estructura de la prueba (textos y formato aplicado). Basándonos en las puntuaciones observadas en los datos totales del C-test en una escala de puntuaciones del 0 al 100 (Tabla 9.5), que hemos denominado CTESTTOTAL, ya desglosados en ambos modelos, podemos comprobar que se consiguió mejor promedio en el modelo A (media = 51,84), lo cual indica que el modelo B (media = 50,41) resultó más difícil, si bien la diferencia es mínima. Ambos modelos entran en el rango de puntuaciones previsto por Klein-Braley y Raatz (1984) y citado en el apartado anterior. Análisis empírico de la validez del C-test 295 Tabla 9.5. Estadísticos de grupo: modelos A y B del C-test Modelo C-test Media Desviación típ. Error típ. De la media Modelo A CTESTTOTAL 51,84 14,980 1,664 Modelo B CTESTTOTAL 50,41 14,438 1,604 N = 81 Hagamos también este tipo de análisis para cada uno de los subtests En la Tabla 9.6 vemos los promedios obtenidos por cada subtest en ambos modelos, esta vez en una escala de puntuaciones de 0 a 25 puntos: Tabla 9.6. Estadísticos de grupo: modelos A y B de los distintos subtests Modelo C-test Mínimo Máximo Media Desv. Típ. Modelo A Modelo B CTEST1 CTEST2 CTEST3 CTEST4 CTEST1 CTEST2 CTEST3 CTEST4 5 9 0 2 2 4 5 1 24 25 20 22 21 22 24 24 16,15 16,12 7,47 12,10 10,37 15,15 12,84 12,05 4,126 3,858 4,799 4,437 4,226 3,739 3,923 4,663 N = 81 En todos los casos, excepto en el C-test 3, se consiguió mejor promedio en el modelo A. En el caso del C-test 1 se aprecia la mayor diferencia de promedios entre el modelo A y el B (de 16,15 a 10,37 puntos), y en el C-test 4 la menor (de 12,10 a 12,05 puntos). El C-test 3 de nuevo llama nuestra atención, puesto que presenta un comportamiento totalmente distinto. En este caso es el modelo B el que mejor funciona, con una diferencia de más de 5 puntos (promedio de 12,84 puntos en el modelo B frente a los 7,47 del modelo A). Esta diferencia de promedios obtenidos por el C-test 3 en uno y otro modelo muestra que las diferencias se deben más a los textos que al cambio de formato. Los promedios indican que las mayores dificultades aparecieron en el texto American imperialism cuando no tiene omisiones guiadas (modelo A). Sin embargo, El C-test: alternativa o complemento de otras pruebas en ILE 296 cabe destacar que cuando las tiene, aunque el promedio mejora sensiblemente (media con omisiones guiadas = 10,37; media sin pistas en las omisiones = 7,47), sigue siendo el más bajo de los obtenidos en los subtests con omisiones guiadas. Además, hemos de notar que la diferencia de promedios mencionada para el C-test 1 se produce con el mismo texto en el modelo B: American imperialism. Sin embargo, la mayor puntuación en subtests guiados corresponde al C-test 1 del modelo A (16,15) y en los no guiados al C-test 3 del B (12,84), ambos subtests creados a partir del texto Road accidents. La incidencia de los textos es ya evidente. Partiendo de estos datos profundizaremos en el análisis textual para buscar las causas de las particularidades detectadas en las puntuaciones. Nos planteamos varias cuestiones que iremos retomando a lo largo de nuestro análisis: • ¿qué características de los textos determinan las diferencias en los promedios?, • el tema de los textos, su variación léxica o su densidad, ¿determinan el grado de dificultad del C-test?, ¿son elementos que discriminan la competencia de los sujetos? (véase la pregunta de investigación 7) El C-test 3 del modelo A se basa en el texto American imperialism y el del modelo B en Road accidents. Si nos fijamos en los promedios obtenidos por ambos textos cuando se indica el número de letras omitidas en cada mutilación (Tabla 9.7), veremos que, efectivamente, se obtienen puntuaciones más elevadas. Pero también se observa que uno de los textos, Road accidents, resultó más fácil que el otro, independientemente del formato aplicado. Tabla 9.7. Diferencia de promedios según el formato de las omisiones Texto base Formato Media Texto base Formato Media Road accidents - - - - - 16,15 American imperialism - - - - - 10,37 Road accidents _____ 12,84 American imperialism _____ 7,47 Por otra parte, en el modelo B se produce un aumento de la media en el C-test 2 con respecto al C-test 1 (Tabla 9.6). En el texto Women doctors se alcanza un Análisis empírico de la validez del C-test 297 promedio de 15,15 puntos frente a 10,37 en American imperialism. En el caso del modelo A, los promedios de los subtests 1 y 2 son muy semejantes (16,15 y 16,12 respectivamente). Sin embargo, sí es importante el decremento de la puntuación en el C-test 3, circunstancia común a ambos modelos pero especialmente significativa en el A. Ya hemos comentado que un ligero decremento podría explicarse por el propio diseño de la prueba, que guía las omisiones 1-50 (C-test 1 y 2), lo que contribuye a facilitar la tarea del alumno. Cuando se deja de aportar la guía la dificultad aumenta, a pesar de que la práctica y el conocimiento progresivo de la prueba deberían también traducirse en una mayor destreza. En el modelo A, la media baja en el C-test 3 de forma mucho más llamativa. Por tanto, como hemos apuntado, cabe buscar los motivos del descenso de promedios en los rasgos del texto sobre el que se ha creado el C-test 3 del modelo A: American imperialism. En el apartado 9.4 analizaremos la incidencia de las variables tema, variación léxica y densidad. 9.3.4. Incidencia del cambio de formato En el diseño definitivo de la prueba se introdujo un cambio en el formato para que se produjera un progresivo aumento del grado de dificultad de los subtests a medida que el alumno se iba familiarizando con la técnica (omisiones 50 a 100). Klein-Braley propone hacerlo simplemente de forma intuitiva, atendiendo a la dificultad de los textos. Pero en nuestro diseño, al pasar de omisiones guiadas a no guiadas, la dificultad se guía por parámetros más objetivos. El diseño original del C-test que proponen Klein-Braley y Raatz no indica el número de letras correspondientes a las omisiones, aunque las instrucciones informan al alumno de que se omite “la segunda mitad” de cada palabra. En apartados anteriores hemos adelantado que, según los datos estadísticos de nuestro estudio, el cambio de formato influye en los promedios de todos los subtests, cualquiera que sea el texto sobre el que se crearon. Los promedios descienden en ambos modelos según se trate o no de omisiones guiadas. Así contestamos a la pregunta de investigación 4, sobre la incidencia del formato y confirmamos la hipótesis 4. El C-test: alternativa o complemento de otras pruebas en ILE 298 Hemos comprobado que en el C-test 3 se produce siempre un punto de inflexión y las medias descienden en los dos modelos con respecto al C-test 2. La tabla siguiente muestra las medias obtenidas para cada subtest con o sin omisiones guiadas. Tabla 9.8. Comparación de las medias obtenidas para cada texto según el formato aplicado Texto base Formato Media N Road accidents Evolution American imperialism Women doctors - - - - - _____ - - - - - _____ - - - - - _____ - - - - - _____ 16,15 12,84 16,12 12,05 10,37 7,47 15,15 12,10 81 81 81 81 81 81 81 81 Además de los promedios, es interesante ver gráficamente en los histogramas cómo varía la recuperación de un mismo texto, según se planteen omisiones guiadas o no en el C-test. A continuación aportamos ambos histogramas de American imperialism, en los que no sólo se reflejan las diferencias en los promedios, sino que también se aprecia claramente cómo cambia la distribución de puntuaciones. Cuando no se aporta el número de letras de cada omisión (AmImp.NG) obtenemos una curva sesgada positivamente, es decir, que las frecuencias más altas corresponden a los valores más bajos de la tabla (Fig. 9.8a: modelo A, C-test 3). La mayor parte de los sujetos de la muestra obtuvo una puntuación de menos de 7 puntos en escala de 0 a 25, y la puntuación máxima fue de 20 puntos. Por el contrario, en la figura 9.8b (AmImp.G), vemos que cuando se guían las omisiones (modelo B, C-test 1) se obtiene una distribución de frecuencias mucho más normal, reflejada en la curva. También es menor la desviación estándar: 4,22 frente a 4,79. En este caso, el C-test discrimina mejor entre los sujetos. Análisis empírico de la validez del C-test 299 Fig. 9.8a. y 9.8b. American Imperialism con omisiones no guiadas y guiadas: Histogramas Fig. 9.8a. Omisiones no guiadas Fig. 9.8b. Omisiones guiadas 0,00 5,00 10,00 15,00 20,00 AmImp.NG 0 2 4 6 8 10 12 14 Fr ec ue nc ia Mean = 7,4691 Std. Dev. = 4,79866 N = 81 3,00 6,00 9,00 12,00 15,00 18,00 21,00 AmImp.G 0 2 4 6 8 10 12 14 Fr ec ue nc ia Mean = 10,3704 Std. Dev. = 4,22624 N = 81 9.3.4.1. El cambio de formato y la recuperación de algunos ítems Veamos a continuación cómo incide el formato en la recuperación de los ítems con el fin de confirmar definitivamente la hipótesis 4. Para determinar las pautas de la incidencia del cambio de formato nos basamos en algunos ejemplos indicativos. Tomamos simplemente los estadísticos de frecuencias de tres ítems de carácter léxico y uno funcional de los C-tests modelos A y B creados a partir del texto American Imperialism. Indican el porcentaje de aciertos y fallos en cada ítem y los valores perdidos. Para cada modelo el total de sujetos de la muestra es de 81. Comenzamos con los ítems 1 y 2 del modelo B (omisiones guiadas), que se corresponden con los ítems 51 y 52 del modelo A (en este caso sin indicación expresa del número de letras omitidas). Tabla 9.9. Ítem 1 mod. B: hun_ _ _ (hunger) Frecuencia Porcentaje Porcentaje válido Porcentaje acumulado Incorrecto 46 56,8 65,7 65,7 Correcto 24 29,6 34,3 100,0 Válidos Total 70 86,4 100,0 Perdidos sin hacer 11 13,6 Total 81 100,0 El C-test: alternativa o complemento de otras pruebas en ILE 300 Tabla 9.10. Ítem 51 mod. A: hun_____ (hunger) Frecuencia Porcentaje Porcentaje válido Porcentaje acumulado Incorrecto 32 39,5 68,1 68,1 Correcto 15 18,5 31,9 100,0 Válidos Total 47 58,0 100,0 Perdidos sin hacer 34 42,0 Total 81 100,0 Los estadísticos de frecuencias indican que la recuperación del ítem hunger (término léxico) es más fácil si se aporta el número de letras omitidas; un 29,6% de los sujetos lo resuelven correctamente frente al 18,5% de aciertos cuando no se da la información. Además aumenta notablemente el porcentaje de sujetos que dejan el ítem sin hacer; un 42%. Este dato llama poderosamente nuestra atención porque muestra que prescindir del número de letras restantes produce un efecto psicológico de desánimo en los sujetos, muchos de los cuales ni siquiera intentan resolverlo. En cuanto a la recuperación del ítem 2 del modelo B, poverty, también un término de tipo léxico, vemos que de nuevo el porcentaje de aciertos es mayor cuando se dispone del número de letras omitidas; 49,4% frente al 42%, pero en este caso la diferencia es menor. Al igual que ocurría con los ítems 1(B) y 51(A), analizados anteriormente, aumenta el porcentaje de sujetos que abandonan la tarea al tener menos información, aunque ese efecto que hemos denominado de “desánimo” no es tan acusado en esta ocasión. Tabla 9.11. Ítem 2 mod. B: pov _ _ _ _ (poverty) Frecuencia Porcentaje Porcentaje válido Porcentaje acumulado Incorrecto 8 9,9 16,7 16,7 Correcto 40 49,4 83,3 100,0 Válidos Total 48 59,3 100,0 Perdidos sin hacer 33 40,7 Total 81 100,0 Análisis empírico de la validez del C-test 301 Tabla 9.12. Ítem 52 mod. A: pov ______ (poverty) Frecuencia Porcentaje Porcentaje válido Porcentaje acumulado Incorrecto 8 9,9 19,0 19,0 Correcto 34 42,0 81,0 100,0 Válidos Total 42 51,9 100,0 Perdidos sin hacer 39 48,1 Total 81 100,0 Las mismas pautas se siguen en los ítems 21(B) y 71(A): mejor recuperación de las omisiones y mayor proporción de intentos cuando se trata de omisiones guiadas y se dispone de más información sobre los ítems. En este caso se trata de un término muy frecuente en la lengua, factor que contribuye a su recuperación correcta. Tabla 9.13. Ítem 21 mod. B: pe _ _ _ (peace) Frecuencia Porcentaje Porcentaje válido Porcentaje acumulado Incorrecto 2 2,5 4,3 4,3 Correcto 45 55,6 95,7 100,0 Válidos Total 47 58,0 100,0 Perdidos sin hacer 34 42,0 Total 81 100,0 Tabla 9.14. Ítem 71 mod. A: pe____ (peace) Frecuencia Porcentaje Porcentaje válido Porcentaje acumulado Incorrecto 10 12,3 26,3 26,3 Correcto 28 34,6 73,7 100,0 Válidos Total 38 46,9 100,0 Perdidos sin hacer 43 53,1 Total 81 100,0 El C-test: alternativa o complemento de otras pruebas en ILE 302 Por último, vemos la recuperación de un término funcional: and, con omisiones guiadas o no, para corroborar que las frecuencias siguen el mismo patrón de comportamiento. Sin duda, este tipo de términos funcionales cortos, frecuentes y muy repetidos en la lengua, animan al sujeto en la realización de la prueba. Son factores de motivación más que de discriminación, por eso, al contrario que Babaii y Moghaddam (2006), consideramos que deben mantenerse en el C-test. Tabla 9.15. Ítem 15 mod. B: a _ _ (and) Frecuencia Porcentaje Porcentaje válido Porcentaje acumulado Incorrecto 18 22,2 24,7 24,7 Correcto 55 67,9 75,3 100,0 Válidos Total 73 90,1 100,0 Perdidos sin hacer 8 9,9 Total 81 100,0 Tabla 9.16. Ítem 65 mod. A: a___ (and) Frecuencia Porcentaje Porcentaje válido Porcentaje acumulado Incorrecto 23 28,4 39,7 39,7 Correcto 35 43,2 60,3 100,0 Válidos Total 58 71,6 100,0 Perdidos sin hacer 23 28,4 Total 81 100,0 Todos los ejemplos analizados están tomados del texto American Imperialism (C-test 1 en el modelo B y C-test 3 en el A), que es el que presenta las menores diferencias en los promedios con/sin omisiones guiadas, como vimos en la Tabla 9.8 que inicia este apartado. Pero también es el texto que obtiene los menores promedios y, por tanto, merece un análisis más profundo. Podríamos seguir con el análisis detallado de cada ítem del C-test para constatar estos hechos y reafirmar así nuestra hipótesis de partida: el diseño que incluye los espacios de las omisiones constituye una ayuda eficaz, ya que suministra un elemento más de información que permite al alumno potenciar y desarrollar el Análisis empírico de la validez del C-test 303 grado de inferencia. Circunstancia que supone un incremento o decremento de varios puntos en los promedios, según se trate de omisiones guiadas o no. A esto hemos de añadir que la ayuda extra de conocer de forma expresa el número de letras de cada omisión supone también un elemento clave de motivación para el sujeto que realiza la prueba, anima a intentar la recuperación de la palabra, como prueban los estadísticos de frecuencias de los ítems y manifiestan los propios alumnos en el cuestionario retrospectivo de opinión (véase el capítulo 12). 9.4. Análisis de los textos a partir de los cuales se creó el C-test aplicado Aunque todos los textos proceden de exámenes de Inglés de las PAAU propuestas por la Consejería de Educación de la CM para el acceso a las Universidades madrileñas, y por tanto su nivel se presuponía semejante, los resultados de los subtests indican claramente que no es así. Procede, así pues, analizar las características de los textos a partir de los cuales se diseñó el C-test. En la longitud de las oraciones de cada texto, rasgo que podría considerarse, no parece existir diferencias notables, y por tanto, queda fuera de este análisis. Tampoco el orden de presentación de los textos tiene gran incidencia en los resultados, excepto porque supone además el cambio en el formato de las omisiones. En este apartado estudiaremos cómo las variables tema, variación y densidad léxicas del texto influyen en los resultados del C-test. 9.4.1. La variable temática En cuanto a la variable temática, hemos de decir que todos los textos que aparecen en el C-test son de carácter divulgativo o periodístico, tratan temas de actualidad e interés general y, en este sentido, pueden considerarse semejantes. Sasaki (2000) mostró en su investigación cómo la familiarización con el vocabulario de los textos activa los esquemas que se utilizan en la resolución de pruebas de cierre. Los sujetos de su estudio encontraron en la familiarización El C-test: alternativa o complemento de otras pruebas en ILE 304 cultural un factor de motivación añadido. De ello, podemos deducir que el tema (culturalmente familiar o no) incide tanto en la comprensión de los textos como en la motivación que aporta a los sujetos para intentar recuperar el texto original. En nuestro caso, quizá los alumnos pudieran estar más familiarizados con unos temas que con otros, dependiendo de su conocimiento del mundo y sus preferencias o circunstancias personales, pero en primera instancia no parece que la variable temática pueda tener gran incidencia en la actuación en la prueba. Aún así, el tema que plantea American imperialism es de un registro menos común, político-histórico, presenta una realidad algo más lejana al alumno que los otros textos: • Road accidents plantea el problema de los accidentes de tráfico en Francia y las posibles soluciones, • Evolution trata de forma pseudocientífica la relación entre los primates y el ser humano, en el contexto de la evolución de la especie humana, • Women doctors introduce el tema de la mujer en el mundo del trabajo, el cambio progresivo de los roles de hombres y mujeres, en concreto, en la Medicina. Los tres temas anteriormente citados pueden considerarse familiares y relativamente cercanos a la realidad que vivimos. American Imperialism plantea un tema relacionado con la política internacional y las desigualdades entre países ricos y pobres, desde la perspectiva de los Estados Unidos. Es también un tema frecuente, incluso recurrente en los medios de comunicación en la actualidad. Pero pertenece a la esfera del pensamiento político-social y tiene mayor grado de abstracción que los otros. Es probable, además, que los asuntos relacionados con la política resulten distantes y no capten el interés de los adolescentes. Quizá esta diferencia temática planteara una primera dificultad a los sujetos, no obstante, veremos en el epígrafe siguiente que la densidad y variación léxicas del texto también deben ser tenidas en cuenta como factores determinantes del grado de dificultad de los subtests. Análisis empírico de la validez del C-test 305 9.4.2. Variación y densidad léxicas de los textos En los C-tests creados a partir del texto Road Accidents se consiguen las puntuaciones más altas, tanto con omisiones guiadas como no guiadas. Por el contrario, American Imperialism es, según los resultados, el texto más difícil de recuperar de los cuatro que forman el C-test, como vemos en los promedios obtenidos por el C-test 1 modelo B y el C-test 3 modelo A (Tablas 9.6, 9.7 y 9.8). Tratando de explicar mejor este factor de dificultad recurrimos a un análisis de la densidad y variación léxicas68 de cada texto, como aconsejan Laufer y Nation (1995) y Schmitt (2000: 75). Éstos son los resultados: Tabla 9.17. Variación y densidad léxica de los textos TEXTOS VARIACIÓN LÉXICA DENSIDAD LÉXICA Road Acccidents Evolution American Imperialism Women Doctors 69,47 63,46 70,37 69,14 58,94 45,19 60,18 58,51 La lectura de estos datos refleja que los valores obtenidos son muy semejantes, tanto desde el punto de vista de la variación como de la densidad léxica. Pero, efectivamente, en un continuo de facilidad/dificultad Evolution y American imperialism aparecerían en uno y otro extremo respectivamente. Las diferencias de los porcentajes en ambos textos podrían explicarse en función de la mayor o menor prototipicidad del léxico. El texto Road accidents obtiene los promedios más altos tanto en omisiones guiadas como no guiadas, aunque muy cercanos a los de Evolution y Women doctors, a pesar de no ser el más fácil, si atendemos a los datos de variación y densidad léxicas. 68 La variación léxica viene dada por la proporción entre types y tokens (type-token ratio). La proporción entre palabras funcionales y de contenido léxico indica la densidad léxica de un texto (véase el capítulo 4, apartados 4.2.3.1 y 4.2.3.2). El C-test: alternativa o complemento de otras pruebas en ILE 306 Los datos obtenidos al analizar la variación y densidad léxicas de los textos no parecen aportar suficiente información como para justificar las diferencias en los promedios. Así pues, en el apartado 9.5 daremos un paso más en el análisis, dirigiremos nuestra atención al grado de dificultad de los ítems más que al de los textos. Estudiaremos las características de los términos afectados por la mutilación en cada texto. Veremos cómo el tipo de término, léxico o funcional, afecta a su recuperación correcta en el C-test. 9.5. Factores que determinan la facilidad o dificultad de los ítems La mera observación de un C-test pone de manifiesto que no todas las omisiones son iguales y, por tanto, no se recuperan de la misma forma. El análisis pormenorizado prueba que no todos los ítems del C-test presentan el mismo grado de dificultad, tal y como predecíamos en la hipótesis 3, en torno a la cual girará ahora nuestro trabajo. En la Introducción de la tesis esbozamos la pregunta de investigación: - ¿Incide el tipo de término, léxico o funcional, afectado por la mutilación en la recuperación de las omisiones? Este apartado aborda el grado de dificultad de las omisiones, sus causas y posibles consecuencias para la prueba. 9.5.1. Términos léxicos y funcionales Laufer (1997) apuntó un buen número de factores que inciden en el grado de dificultad de las palabras. En este caso nos ocupamos de la categoría gramatical. Pero la autora menciona también la pronunciación, la correspondencia pronunciación-ortografía, la longitud de la palabra, su morfología (irregularidades en la flexión, derivación, etc.), la semejanza entre formas léxicas en L1 y L2, aspectos semánticos como el grado de abstracción, el registro lingüístico (frecuencia), la idiomaticidad y la multiplicidad de significados. Análisis empírico de la validez del C-test 307 Aunque en principio se puede considerar que los nombres son la categoría gramatical más sencilla, frente a la dificultad de los adverbios (Laufer 1997), con respecto a su recuperación en las pruebas de cierre, la literatura indica que, en general, los términos funcionales resultan más fáciles que los léxicos, debido a su frecuencia de uso y su cantidad limitada en la lengua (Klein-Braley 1985: 91, Dörnyei y Katona 1992: 197, Farhady y Keramati 1996:196). Partimos de esa base, aunque veremos que a veces se entrecruzan varios factores. Analizaremos algunos casos concretos y veremos los resultados estadísticos alcanzados por cada tipo de término en ambos modelos de C-test. Por lógica, hemos de pensar que los ítems excesivamente fáciles o difíciles no discriminan entre los sujetos. Babaii y Moghaddam (2006: 596) proponen, por ejemplo, que los términos repetidos queden intactos. Jafarpur (1999), en la línea de Grotjahn (1987) y Kamimoto (1993), planteó suprimirlos para obtener C-tests racionales, sin seguir siempre la regla del dos. Pero comprobó que su eliminación no cambia los resultados (véase el apartado 6.10.2 del capítulo 6). Nuestro análisis de estos valores extremos por su facilidad o dificultad confirma la tesis de Jafarpur. Si se toman los ítems que prácticamente recuperan con éxito todos los alumnos, por ejemplo, 7, 8, 12 y 32 del modelo A, se observa que la mayoría corresponden a preposiciones (in, to), términos de uso muy frecuente en la lengua, funcionales y de una exigencia mínima del nivel de inferencia ya que el alumno tan sólo tiene que recuperar una letra. En el caso del ítem animals se trata de un término léxico que aparece previamente en el texto (redundancia) y, por tratarse de un hiperónimo del inglés básico de gran frecuencia en la lengua, su recuperación no ofrece problemas. Por otra parte, términos como harm (ítem 58 del modelo A) resultan excesivamente difíciles. Ni los ítems que resuelven la mayoría de los alumnos ni los que nadie consigue recuperar discriminan entre los sujetos. Ahora bien, los fáciles (incluso los repetidos) aportan a la prueba un factor extra de motivación que es también interesante para la validez aparente de la prueba, por ello, al contrario de lo propuesto inicialmente por Jafarpur (1999), no consideramos procedente su eliminación de la prueba. El estudio de Dörnyei y Katona (1992: 198) con alumnos de Universidad y de Enseñanza Secundaria plantea también que a mayor competencia en la lengua El C-test: alternativa o complemento de otras pruebas en ILE 308 mejores predictores del comportamiento del sujeto son las omisiones de términos léxicos. Por el contrario, en niveles más bajos los términos funcionales son los que mejor discriminan. Al limitar nuestra investigación a un solo nivel (2º de Bachillerato) no se indagó en este aspecto, que podría retomarse en futuras investigaciones. Veamos ahora las tablas de frecuencia de algunos ítems de carácter léxico y funcional, a modo de ejemplo. Comenzamos con el ítem to, término funcional que exige la recuperación de sólo una letra y que, dado su escaso grado de dificultad, fue recuperado con éxito por el total de los sujetos de la muestra. Muy cerca de este resultado, los obtenidos por los ítems de función in (8 y 23 del modelo A), the y el frecuente, aunque término léxico, animals, que tampoco aportan información para discriminar a los sujetos. Tabla 9.18. Ítem 7 modelo A: t_ (to) Frecuencia Porcentaje Porcentaje válido Porcentaje acumulado Válidos correcto 81 100,0 100,0 100,0 Tabla 9.19. Ítem 8 modelo A: i_ (in) Frecuencia Porcentaje Porcentaje válido Porcentaje acumulado incorrecto 1 1,2 1,2 1,2 correcto 80 98,8 98,8 100,0 Válidos Total 81 100,0 100,0 Tabla 9.20. Ítem 12 modelo A: i_ (in) Frecuencia Porcentaje Porcentaje válido Porcentaje acumulado incorrecto 2 2,5 2,5 2,5 correcto 79 97,5 97,5 100,0 Válidos Total 81 100,0 100,0 Análisis empírico de la validez del C-test 309 Tabla 9.21. Ítem 32 modelo A: ani_ _ _ _ (animals) Frecuencia Porcentaje Porcentaje válido Porcentaje acumulado incorrecto 1 1,2 1,2 1,2 correcto 80 98,8 98,8 100,0 Válidos Total 81 100,0 100,0 Tabla 9.22. Ítem 82 modelo A: t___ (the) Frecuencia Porcentaje Porcentaje válido Porcentaje acumulado incorrecto 5 6,2 6,3 6,3 correcto 74 91,4 93,7 100,0 Válidos Total 79 97,5 100,0 Perdidos sin hacer 2 2,5 Total 81 100,0 En el otro extremo del continuo facilidad-dificultad se encuentran términos como los que presentamos a continuación. Los términos harm y wave resultaron difíciles, pocos alumnos los recuperan y muchos ni siquiera lo intentan. Tabla 9.23. Ítem 58 modelo A: ha___ (harm) Frecuencia Porcentaje Porcentaje válido Porcentaje acumulado incorrecto 42 51,9 95,5 95,5 correcto 2 2,5 4,5 100,0 Válidos Total 44 54,3 100,0 Perdidos sin hacer 37 45,7 Total 81 100,0 Tabla 9.24. Ítem 88 modelo A: Wa___ (wave) Frecuencia Porcentaje Porcentaje válido Porcentaje acumulado incorrecto 44 54,3 88,0 88,0 correcto 6 7,4 12,0 100,0 Válidos Total 50 61,7 100,0 Perdidos sin hacer 31 38,3 Total 81 100,0 El C-test: alternativa o complemento de otras pruebas en ILE 310 Según estos datos, es evidente que no siempre los términos de función se recuperan mejor. Hay otros factores que determinan la facilidad o dificultad de un ítem, como la redundancia del texto en que se encuentra. A pesar de todo, como veremos en los histogramas (Fig. 9.9, 9.10, 9.11 y 9.12) que reflejan la recuperación de ambos tipos de términos en los modelos A y B, en general, los términos funcionales se resuelven mejor. En el modelo A, el promedio para los funcionales es de 27 puntos frente a 24 en los léxicos. Además el histograma de los léxicos (Figura 9.10) muestra un sesgo positivo que indica que la mayor parte de las puntuaciones son bajas. 9.5.2. Incidencia del tipo de término omitido en la recuperación del texto. Análisis por modelos. Para determinar cómo incide el tipo de término omitido en la recuperación de los textos, en esta investigación, al igual que en la primera prueba piloto (véase el capítulo 7, apartado 7.2), se realizó un análisis estadístico de la recuperación de las palabras con significado léxico y gramatical para cada modelo de C-test (A y B). En la identificación de términos léxicos y funcionales de los textos seguimos de nuevo la clasificación de Quirk y Greenbaum (1973), Aarts y Aarts (1986), y Huddleston (1988), que coinciden con lo que Alarcos (1994) denomina términos dependientes e independientes. Tenemos presente que cabe un leve margen de error, ya que algunas palabras pueden adscribirse a una u otra clase (multiple membership). 9.5.2.1. Recuperación de omisiones de términos léxicos y funcionales Puesto que la densidad léxica del texto indica la proporción de términos léxicos y funcionales (apartado 9.3.5), en primer lugar, confeccionamos un listado de las palabras de cada tipo afectadas por la mutilación. En la tabla siguiente mostramos los porcentajes correspondientes a los cuatro textos utilizados en el C-test: Análisis empírico de la validez del C-test 311 Tabla 9.25. Porcentaje de omisiones en palabras léxicas y funcionales para cada texto Nº DE PALABRAS AFECTADAS POR LA MUTILACIÓN TEXTO DE CONTENIDO LÉXICO FUNCIONALES Road Accidents 13 52% 12 48% Evolution 10 40% 15 60% American Imperialism 19 76% 6 24% Women doctors 14 56% 11 44% Llaman la atención los datos correspondientes al texto American imperialism. Cuando analizamos la densidad del texto, ya vimos que resultaba ligeramente superior a la de los demás (60,18), si bien la diferencia no era tan acusada como al tener en cuenta las palabras afectadas por la mutilación. En este caso, las palabras de contenido léxico mutiladas suponen el 76% del texto frente al 24% de los términos de función (debido al azar al seguir la regla del 2). Esta circunstancia es clave para explicar la actuación de los alumnos. Sin duda, afecta a la resolución del C-test. No es casual que los C-tests creados a partir de este texto (con o sin omisiones guiadas) presenten los promedios más bajos: 10,37 y 7,47 respectivamente. Así mismo, destaca el bajo porcentaje de palabras de contenido léxico que resultan mutiladas en el texto Evolution, sólo el 40%, frente al 52% en Road accidents. Este dato aporta luz a la cuestión planteada en el apartado 9.3.5 relativa al grado de facilidad/dificultad de los textos; no sólo inciden la densidad y variación léxicas de los textos, sino también la proporción de palabras léxicas y funcionales que resultan afectadas por la mutilación al aplicar la “regla del dos”. Para analizar las diferencias en la recuperación de las palabras pertenecientes a clases cerradas (términos de función) y las que tienen carga semántica (términos léxicos), se hizo un análisis estadístico diferenciando entre los dos modelos de C- test aplicado (A y B). A continuación, vemos los datos globales de la recuperación de términos gramaticales y léxicos en ambos modelos de C-test. En la tabla 9.26 quedan reflejados los estadísticos del modelo A, cuyo promedio (51,84 puntos de un total de El C-test: alternativa o complemento de otras pruebas en ILE 312 100) es superior al del modelo B (50,41). En este modelo el promedio de recuperación de términos funcionales (27,10) es mayor que el de léxicos (24,74). Las diferencias entre los promedios de términos léxicos y de función son menores de lo que cabría esperar. Sin embargo, a partir del valor de la varianza se observa mayor dispersión de puntuaciones en los términos léxicos que en los funcionales, es decir, que los términos léxicos se recuperan muy bien o muy mal, según el dominio de la lengua que tienen los alumnos. La distribución de la asimetría no muestra diferencias notorias. Tabla 9.26. Estadísticos modelo A CTESTTOTAL modelo A T. Función T. Léxicos N Válidos 81 81 81 Perdidos 0 0 0 Media 51,84 27,10 24,74 Desv. típ. 14,98 6,741 8,819 Varianza 224,386 45,440 77,769 Asimetría ,404 ,116 ,506 Error típ. De asimetría ,267 ,267 ,267 Curtosis -,497 -,548 -,312 Error típ. De curtosis ,529 ,529 ,529 Mínimo 27,00 13 10 Máximo 86,00 42 48 Tabla 9.27. Promedios de recuperación de cada tipo de término en el Modelo A Media Desviación típ. Error típ. de la media CTESTTOTAL 51,84 14,980 1,664 T.Funcionales 27,10 6,741 ,749 T.Léxicos 24,74 8,819 ,980 N = 81 El histograma de la recuperación de términos funcionales del modelo A presenta una distribución de frecuencias normal (Fig. 9.9). Sin embargo el de los términos léxicos (Fig. 9.10) tiene un sesgo positivo (positively skewed), lo que indica que los ítems son más difíciles y en consecuencia, las puntuaciones más bajas. Análisis empírico de la validez del C-test 313 Figura 9.9. Modelo A: términos de función Figura 9.10. Modelo A: términos léxicos 10 20 30 40 T. Funcionales mod. A 0 2 4 6 8 10 12 14 Fr ec ue nc ia Mean = 27,1 Std. Dev. = 6,741 N = 81 10 20 30 40 50 T. Léxicos mod. A 0 3 6 9 12 15 Fr ec ue nc ia Mean = 24,74 Std. Dev. = 8,819 N = 81 El análisis de las correlaciones también aporta datos muy interesantes, puesto que muestra correlación “casi perfecta” entre los resultados obtenidos en el C-test modelo A y los de cada tipo de término. La correlación de los términos léxicos con el total del C-test modelo A es muy significativa (0,972). La de los términos funcionales también es muy alta (0,951), y la existente entre términos léxicos y funcionales del modelo A asciende a 0,851. Estos resultados indican que las variables término léxico y funcional están asociadas significativamente. En la Tabla 9.28 vemos el test estadístico de muestras relacionadas, en el que hay diferencias significativas con p<0,001. Tabla 9.28. Test de muestras relacionadas Diferencias relacionadas t gl Sig. (bilateral) Media Desviación típ. Error típ. de la media 95% Intervalo de confianza para la diferencia Modelo A Inferior Superior Par 1 T.Funcionales - T.Léxicos 2,358 4,694 ,522 1,320 3,396 4,521 80 ,000 Por el contrario, en el modelo B del C-test no hemos encontrado diferencias significativas entre la recuperación de términos léxicos y funcionales, con T=0,816 y p=0,417, como veremos en la Tabla 9.29. El C-test: alternativa o complemento de otras pruebas en ILE 314 En cuanto a los estadísticos, por agilidad, nos limitaremos a exponer los promedios totales y para cada tipo de término, que se reflejan en los histogramas correspondientes (Figuras 9.11 y 9.12). Hemos visto en el apartado 9.3.2 que modelo B baja ligeramente el promedio global del C-test (50,41). Igual que en el A, se mantiene un mejor promedio en la recuperación de los términos gramaticales, pero la diferencia en este modelo es mínima (25,47 puntos de promedio frente a 24,94). Las varianzas indican también una mayor dispersión de puntuaciones en los términos léxicos (8,758 frente a 6,684). De nuevo, las correlaciones entre la recuperación de términos léxicos y funcionales, y con el C-test modelo B en conjunto son significativas. Es especialmente alta en el caso de los términos léxicos (0,951). Podemos afirmar que las variables léxico y función están muy asociadas en el C-test modelo B. Los histogramas correspondientes lo reflejan claramente (Fig. 9.11 y 9.12). Tabla 9.29. Test T: Estadísticos de muestras relacionadas Diferencias relacionadas T Gl Sig. (bilateral) Modelo B Media Desviación típ. Error típ. De la media 95% Intervalo de confianza para la diferencia Inferior Superior Par 1 T.Funcionales - T.Léxicos ,531 5,857 ,651 -,764 1,826 ,816 80 ,417 Figura 9.11. Modelo B: términos de función Figura 9.12. Modelo B: términos léxicos 10 15 20 25 30 35 40 T. funcionales mod. B 0 3 6 9 12 15 Fre cu en cia Mean = 25,47 Std. Dev. = 6,684 N = 81 0 10 20 30 40 50 60 T. Lexicos mod. B 0 5 10 15 20 Fre cu en cia Mean = 24,94 Std. Dev. = 8,758 N = 81 Análisis empírico de la validez del C-test 315 A la luz de los estadísticos podemos concluir que los términos gramaticales se recuperan con mayor facilidad, pero la diferencia es mínima en ambos modelos de C-test. La redundancia de los textos es otro aspecto que hay que tener en cuenta. Al ser relativamente sencillos, en ellos abundaba la repetición de palabras relevantes desde el punto de vista léxico. Pensamos que la redundancia facilitó su recuperación y acortó diferencias. A pesar de todo, los términos gramaticales se recuperaron mejor, en consonancia con las investigaciones de Klein-Braley (1985: 91) y Dörnyei y Katona (1992:197). Así pues, en términos generales, se confirma la hipótesis 3: “En este tipo de prueba el alumno recuperarán mejor los términos funcionales que los de contenido léxico”. Ahora bien, hemos de matizar que, aunque en general, efectivamente, los términos funcionales se recuperan mejor, los de contenido léxico también resultan fáciles si aparecen previamente en el texto o son muy frecuentes en la lengua. Por otra parte, el hecho de que la recuperación de términos funcionales sea más sencilla no afecta de forma significativa en los C-tests aplicados. 9.6. Casuística en la recuperación de las omisiones: Análisis de los errores En apartados anteriores hemos analizado las diferencias de recuperación entre unos ítems y otros, basadas principalmente en su grado de dificultad. Entre los factores que determinan el grado de dificultad de un ítem hemos señalado: - su frecuencia en la lengua - su adscripción a clases abiertas o cerradas (términos léxicos y funcionales) - la redundancia del texto Se ha realizado un análisis cuantitativo, estudiando los estadísticos correspondientes. Sin embargo, también el análisis cualitativo de la recuperación de algunos ítems puede resultar interesante y aportar claves para futuros estudios. No El C-test: alternativa o complemento de otras pruebas en ILE 316 pretendemos hacer aquí un análisis de los errores exhaustivo, que escaparía a los objetivos de nuestra investigación, tan sólo mostrar algunas pautas de error e inferir sus causas. Para la corrección del C-test se adoptó el criterio de la “palabra exacta”. Aunque pareció ser el más adecuado y objetivo, hay que señalar que tiene sus limitaciones, ya que hemos comprobado que algunos términos no se recuperan correctamente, y en consecuencia no computan, debido a errores meramente ortográficos, que se podrían considerar “menores”. En un modelo comunicativo, este tipo de errores carece de importancia. Es obvio que, en estos casos, el sujeto reconoce el ítem omitido, pero comete fallos en la producción escrita. Se producen errores de transcripción, mucho más frecuentes aún en omisiones no guiadas: Los ítems 25 del modelo A y 75 del B, correspondientes a la omisión del término government, muestran los siguientes estadísticos: Tabla 9.30a. Ítem 25 modelo A: government Frecuencia Porcentaje Porcentaje válido Porcentaje acumulado Incorrecto 34 42,0 47,9 47,9 Correcto 37 45,7 52,1 100,0 Válidos Total 71 87,7 100,0 Perdidos Sin hacer 10 12,3 Total 81 100,0 Tabla 9.30b. Ítem 75 modelo B: government Frecuencia Porcentaje Porcentaje válido Porcentaje acumulado Incorrecto 59 72,8 76,6 76,6 Correcto 18 22,2 23,4 100,0 Válidos Total 77 95,1 100,0 Perdidos Sin hacer 4 4,9 Total 81 100,0 Cuando se aportan las pistas del número de letras omitidas (modelo A) 37 sujetos recuperan correctamente el término. Sin omisiones guiadas el número desciende hasta sólo los 18 sujetos. Análisis empírico de la validez del C-test 317 Sin embargo, en ambos casos es muy elevado el número de sujetos que intenta la recuperación, curiosamente mayor en las omisiones no guiadas. Esto se explica por la frecuencia de uso del término en la lengua. A pesar de todo, muchos de los sujetos de la muestra (números 39, 127, 129, 138) que no lo recuperaron consignaron *governament69 o *goverment en su lugar. Es decir, que muchos más sujetos de los que refleja la tabla de frecuencias habían identificado la palabra aunque no la recuperaron con éxito. Caso semejante encontramos en la recuperación de los términos vehicle y profession que aparecen con frecuencia transcritos como *vehicule, *vehiculs y *profesions respectivamente. La palabra awful se recupera como *awfull, sobre todo cuando la omisión no es guiada. Otras veces el término mutilado no se recupera correctamente pero se deduce que hay cierto grado de comprensión del texto, por ejemplo cuando se recupera *hungry por hunger o *patron por pattern. En el primer caso el sujeto ha comprendido el campo semántico y la familia a que pertenece el término buscado, aunque gramaticalmente realiza una incorrección grave. En el segundo, de nuevo el sujeto comprende el texto, pero no encuentra la palabra deseada y busca otra que se adapte al contexto (en este caso, contaminada por la L1). En ocasiones se cometen errores en la concordancia, algunos pueden deberse simplemente a la falta de atención, como cuando se recupera *animal por animals en el ítem 91 del modelo B (sujeto número 6). Otros errores evidencian el total desconocimiento del término por parte del sujeto, que actúa de forma aleatoria, esperando que el azar le ayude. Cuando el sujeto (al que se asignó el número 137 en el estudio) consigna *hundred por hunger, demuestra que no comprendió el texto ni buscó en el contexto inmediato de la omisión, simplemente intentó encontrar en el vocabulario que maneja otro término que comenzara del mismo modo y tuviera un número de letras similar. Varios sujetos (números 2, 93) consignaron el auxiliar *had en lugar de has en el ítem 10 del modelo A. Esto parece indicar que se fiaron del procesamiento automático al ver el inicio de la palabra requerida, pero no comprobaron mediante la adyacencia léxica las claves sintácticas que aparecían en el texto inmediato. Faltó 69 Los términos precedidos por el asterisco (*) son incorrectos en lengua inglesa, corresponden a la trascripción literal de cómo algunos sujetos de la muestra recuperan las omisiones del C-test. El C-test: alternativa o complemento de otras pruebas en ILE 318 atención y reflexión gramatical para identificar que el auxiliar formaba parte de la forma verbal “has been much reduced” en el contexto de “the last two decades”. Por otra parte, a partir de la observación minuciosa de las pruebas (lectura detallada, búsqueda de pautas de comportamiento al realizar la prueba, errores comunes, etc.) descubrimos algunos datos cualitativos que investigaciones posteriores deberán valorar de forma cuantitativa. Así, a los factores citados al comenzar este epígrafe (frecuencia, clase abierta o cerrada y redundancia del texto), que determinan la facilidad/dificultad de recuperación de los ítems, hemos de añadir dos más, que ya hemos apuntado a lo largo de este capítulo: - la longitud de la palabra - su grado de abstracción Hemos observado que la longitud del término mutilado afecta a su recuperación. Efectivamente, las palabras de mayor número de letras (y/o sílabas) coinciden con las que se recuperan peor a pesar de ser frecuentes (ver datos de la recuperación del término government), aunque reconocemos que esta variable se solapa en muchos casos con la de términos léxicos y funcionales, ya que los términos de función son generalmente cortos, frente a mayor variabilidad de tamaño de los términos léxicos. También el grado de abstracción de los textos, y por tanto, de su léxico parece dificultar la tarea de recuperación de las omisiones, en sintonía con los resultados que apuntan Babaii y Moghaddam (2006). Si nos fijamos en el texto American Imperialism, cuyo promedio desciende con respecto a los otros textos tanto en omisiones guiadas como no guiadas, veremos que contiene muchos términos “largos” (leadership, benefit, worldwide, weapons, peaceful, resolution, conflicts, proliferation, development, education, engagement, cooperation, prosperity, generous, peacemaking, etc.), algunos afectados por la mutilación, lo que pudo influir en la comprensión del texto y posterior recuperación correcta de los ítems. Son términos menos frecuentes en la lengua y muchos se pueden considerar “técnicos” o “académicos” (véase el capítulo 4, apartado 4.2.3.4). Análisis empírico de la validez del C-test 319 Laufer (1997) identificó la longitud de la palabra, la parte del discurso y su grado de abstracción como factores intraléxicos cuyo efecto en el aprendizaje del vocabulario no está claro “with no clear effect”. En la resolución de C-tests, sin embargo, es evidente su incidencia en el grado de dificultad de los ítems. 9.7. Análisis empírico de los resultados obtenidos en Cavemen? Por las razones que esbozamos en el capítulo anterior, se decidió administrar a los alumnos una prueba tipo PAAU: Cavemen?. Junto a los resultados de las PAAU oficiales, Cavemen? será tomada como principal referencia para el estudio de la validez concurrente del C-test mediante el análisis de su correlación con las otras pruebas aplicadas. Esta prueba aporta en sí misma gran cantidad de información a nuestra investigación. Disponemos de la puntuación global en la prueba. Además, contamos con la puntuación obtenida en cada una de las cinco preguntas de que consta. Por último, si las agrupamos atendiendo a su carácter objetivo/subjetivo, daremos un paso más, muy ilustrativo para nuestro trabajo. Y, al analizar sus correlaciones con el C-test, responderemos a la hipótesis de trabajo 2. 9.7.1. Descripción de Cavemen? Estructura e interrelaciones La tabla que aparece a continuación muestra de forma esquemática cómo se estructura la prueba, el rango de puntuaciones y el tipo de preguntas que contiene: Tabla 9.31. Estructura de la prueba de Inglés de las PAAU (Herrera 1999: 95) Item Score Competence Type of the item Technique 1. 0-2 Communicative Subjective Open answer 2. 0-2 Comprehension Objective True/False 3. 0-1 Lexis Objective Matching 4. 0-2 Syntax Objective Cloze 5. 0-3 Communicative Subjective Non-directed essay El C-test: alternativa o complemento de otras pruebas en ILE 320 La Tabla 9.32 refleja los estadísticos descriptivos obtenidos (N, medias y desviación típica) para cada pregunta de la prueba Cavemen? en escala de 0 a 10. T/F10 corresponde a la primera pregunta, de “verdadero o falso”. La segunda pregunta aparece como OPQ10 y corresponde a las preguntas abiertas sobre el texto. Ambas se valoran sobre 2 puntos en la prueba. La pregunta de vocabulario se identifica como LEX10 y supone 1 punto del total de la nota. La gramática aparece como SYNT10 y de nuevo tiene un valor de 2 puntos. La redacción final supone el 30% de la nota y aparece con la denominación de COMP10. Tabla 9.32. Estadísticos descriptivos Media Desv. Típ. T/F10 8,1096 2,70595 OPQ10 4,5448 2,90078 LEX10 6,0988 2,36554 SYNT10 4,3657 2,48429 COMP10 4,8097 2,67357 Ctestt10 5,1130 1,46754 N = 162 Llama la atención el elevado promedio conseguido en la pregunta de “verdadero o falso” (8,1 puntos), indicador de su escasa dificultad y pobreza discriminatoria. También la pregunta de vocabulario obtiene un buen promedio (6,09), frente a los de la gramática (4,36) y la parte subjetiva de la prueba (4,54 y 4,8). El C-test queda en un punto medio y su desviación típica es la menor. A continuación, observaremos los resultados obtenidos en la prueba agrupados según el tipo de pregunta. Llamamos CavemenTotal a la calificación global en Cavemen?. CavemenObj indica el resultado obtenido en la parte objetiva de la prueba (true/false + lexis + syntax) en escala de 0 a 10. CavemenSubj engloba las puntuaciones de la parte subjetiva (open questions + composition) en la misma escala. Puesto que es una prueba equilibrada, a cada parte le corresponden 5 puntos de los diez totales. En la Tabla 9.33 figura el promedio global de la prueba (5,44 puntos), ligeramente superior al del C-test (5,1) pero bastante inferior al conseguido en el examen oficial de las PAAU (6,3). No obstante, la diferencia con las PAAU oficiales Análisis empírico de la validez del C-test 321 se explica por el número y las características de los sujetos presentados (recordemos que la muestra se reduce a los 81 alumnos con el Bachillerato superado en junio). En cuanto al tiempo, las PAAU oficiales se realizaron aproximadamente dos meses después. Se presupone la motivación y el estudio de los alumnos presentados, debido a la trascendencia de su actuación para su futuro académico. Dentro de la prueba Cavemen?, la parte objetiva fue la mejor resuelta por los sujetos, ya que la media alcanza los 6,21 puntos. Mientras que en la parte subjetiva, sólo se obtiene un promedio de 4,69. Es evidente que la parte objetiva resultó más asequible a los alumnos, tanto, que se impone reflexionar acerca de la validez de algunos ítems que condicionan claramente los promedios, como la pregunta de verdadero o falso, que consigue una media de 1,6 en una escala de 0 a 2 puntos (véase la Tabla 9.32). Evidentemente, su grado de dificultad es mínimo y cabe valorar incluso el azar. En su estudio sobre el examen de Inglés de las PAAU, basándose en los datos de una muestra de 450 exámenes, Herrera (1999) cuestionó la validez de las preguntas de tipo objetivo de las PAAU, porque no discriminan entre el alumnado, cuando en realidad es esa la finalidad de la prueba. Observó el sesgo de las curvas correspondientes a los ítems objetivos y concluyó que el índice de facilidad/dificultad de los mismos es el causante de las altas puntuaciones. De este modo, se pierde el pretendido equilibrio de la prueba y la discriminación de los alumnos depende casi exclusivamente de la parte subjetiva del examen. Tabla 9.33. Estadísticos de muestras relacionadas Media Desv. Típ. Estadístico Error típ. Estadístico CavemenTotal 5,4485 0,15800 2,01101 CavemenObj 6,2105 0,14829 1,88741 CavemenSubj 4,6920 0,20134 2,56266 N = 162 Los datos que hemos obtenido a partir de Cavemen? corroboran los resultados de Herrera (1999). Coincidimos en que algunas preguntas objetivas, especialmente la de “verdadero o falso”, no discriminan entre los alumnos. Este hecho nos llevará a El C-test: alternativa o complemento de otras pruebas en ILE 322 proponer la revisión de la prueba de Inglés de las PAAU, uniéndonos a otras voces (Herrera 2005; García Laborda 2005; Watts y García Carbonell 2005; Fernández y Sanz 2005). Los histogramas que vemos a continuación muestran de forma clara que las preguntas de la prueba no están bien planteadas. En el histograma de la pregunta de verdadero/falso (Fig. 9.13) vemos que la curva es mesocúrtica y la distribución de las puntuaciones muy irregular. El sesgo negativo indica que la mayoría de las puntuaciones son altas, resultó muy fácil. Se observa que las frecuencias se concentran en los números enteros: 1 y 2, sobre todo en el 2. Así debe ser si los correctores siguen fielmente las instrucciones de corrección y califican cada apartado del ejercicio con notas enteras: 0 ó 1. Esta pregunta supone buena parte de la puntuación total de la prueba (dos puntos de los diez totales), puede resultar determinante en los resultados globales y, sin embargo, como vemos, su potencial para discriminar a los sujetos queda gravemente cuestionado. Figura 9.13. Histograma de la pregunta de “verdadero o falso” 0,00 0,50 1,00 1,50 2,00 true/false 0 20 40 60 80 100 Fr ec ue nc ia Mean = 1,6219 Std. Dev. = 0,54119 N = 162 De nuevo en la pregunta de vocabulario, que hemos denominado “lexis”, se aprecia un leve sesgo negativo y una distribución irregular de frecuencias. El sesgo indica que esta pregunta también resultó fácil (media de 6,09 puntos en escala de 0 a 10). Las calificaciones obtenidas se concentran en las puntuaciones múltiplos de 0,25, puntuación asignada a cada apartado de la pregunta. Análisis empírico de la validez del C-test 323 Figura 9.14. Histograma de la pregunta de vocabulario 0,00 0,20 0,40 0,60 0,80 1,00 lexis 0 10 20 30 40 50 60 Fr ec ue nc ia Mean = 0,6099 Std. Dev. = 0,23655 N = 162 No obstante, en la pregunta de gramática, la tercera que incluimos en la parte objetiva de las PAAU (Herrera 1999), la distribución tiende a la normalidad, como se aprecia en el histograma siguiente, en el que aparece con la denominación “syntax”. Figura 9.15. Histograma de la pregunta de gramática 0,00 0,50 1,00 1,50 2,00 syntax 0 10 20 30 40 Fr ec ue nc ia Mean = 0,8731 Std. Dev. = 0,49686 N = 162 Veamos ahora los resultados de la parte subjetiva de la prueba, formada por las preguntas abiertas y la redacción. El histograma de las preguntas abiertas presenta una media de 0,9 en una escala de 0 a 2 y una distribución mesocúrtica (Fig. 9.16). El correspondiente a la redacción presenta una curva bimodal, con sus picos en el 1 y en el 2. La media es de 1,44 en escala de 0 a 3 puntos (Fig. 9.17) y una distribución de puntuaciones muy similar a la del anterior. El C-test: alternativa o complemento de otras pruebas en ILE 324 Se aprecia claramente en él la dispersión de frecuencias y la tendencia del corrector a puntuaciones cerradas en los ensayos, es decir, a calificar con números enteros cuando no son valores extremos (Amengual 2003). Figura 9.16. Preguntas abiertas: histograma Figura 9.17. Redacción: histograma 0,00 0,50 1,00 1,50 2,00 open questions 0 5 10 15 20 25 30 Fr ec ue nc ia Mean = 0,909 Std. Dev. = 0,58016 N = 162 0,00 0,50 1,00 1,50 2,00 2,50 3,00 composition 0 5 10 15 20 25 Fr ec ue nc ia Mean = 1,4429 Std. Dev. = 0,80207 N = 162 Los histogramas que vemos a continuación corresponden a los resultados de la parte objetiva y subjetiva de la prueba Cavemen? respectivamente (Fig. 9.18 y 9.19). Figura 9.18. Cavemen?: parte objetiva Figura 9.19 Cavemen?: parte subjetiva 2,00 4,00 6,00 8,00 10,00 tcaveobj 0 10 20 30 40 Fr ec ue nc ia Mean = 6,2105 Std. Dev. = 1,88741 N = 162 0,00 2,00 4,00 6,00 8,00 10,00 tcavesub 0 5 10 15 20 Fr ec ue nc ia Mean = 4,692 Std. Dev. = 2,56266 N = 162 En la parte objetiva se obtuvo un promedio de 6,2 puntos en una escala de 0 a 10 (aunque, como hemos visto, supone la mitad del total del examen), lo cual indica que esta parte de la prueba resultó demasiado fácil y con poca potencia discriminatoria. Análisis empírico de la validez del C-test 325 Si lo comparamos con el histograma de la parte subjetiva de Cavemen? (preguntas abiertas y redacción), vemos que la media baja considerablemente, hasta 4,69 puntos sobre 10. La parte subjetiva resultó más difícil, pero a la vez es la de mayor poder discriminatorio. La distribución de frecuencias es normal en ambos casos. 9.7.2. Correlaciones entre Cavemen? y las otras pruebas: PAAU 2001, 2ª Evaluación y C-test La Tabla 9.34 refleja la correlación de Pearson entre las distintas pruebas analizadas. En primer lugar, nos fijamos en la correlación entre la prueba tipo PAAU realizada en clase, Cavemen?, y la calificación obtenida por los sujetos presentados en la prueba de Inglés de las PAAU de junio de 2001. Son semejantes en su formato y estructura, pero se diferencian, sobre todo, en las circunstancias de su aplicación y la trascendencia para los sujetos. Tabla 9.34. Correlaciones de Pearson entre las pruebas aplicadas en el estudio 1 2 3 4 1. Cavemen? -- 2. 2ª Evaluación ,805(**) -- 3. Selectividad 2001 ,654(**) ,575(**) -- 4. Ctestt10 ,750(**) ,723(**) ,722(**) -- ** La correlación es significativa al nivel 0,01 (bilateral). Se aprecia que la correlación de Pearson entre ambas pruebas es significativa: 0,654. Al compararlas estamos contrastando dos pruebas de rasgos comunes, pero con diferencias que hemos de valorar: - Variable textual: a pesar de compartir estructura (tipología) y grado de dificultad, cada prueba es diferente ya desde el texto elegido en torno al cual gira todo el examen (tema, densidad, registro, vocabulario, etc.) El C-test: alternativa o complemento de otras pruebas en ILE 326 - Variable temporal: la prueba Cavemen? se aplicó tres meses antes, durante los cuales se llevó a cabo una labor de aprendizaje, preparación y práctica en este tipo de prueba (teaching to the test). - Lugar y condiciones de aplicación: mientras que una de ellas se aplicó en el aula, con el profesor de la asignatura, las PAAU de junio se realizaron en las instalaciones de la Universidad correspondiente70. - Corrección: en la prueba Cavemen? la variable “corrector” queda controlada, puesto que fue corregida por las profesoras y la investigadora. En las PAAU, sin embargo, puede aparecer algún tipo de sesgo (dependiendo del tribunal). - Grado de significación: la primera era parte de la práctica habitual en 2º de Bachillerato, mientras que en la segunda entran en juego el nerviosismo y la ansiedad propias de las pruebas externas “a gran escala” en las que la actuación del sujeto tiene repercusiones concretas en su futuro (en este caso, supone el acceso a la Universidad y a una carrera determinada). Todas ellas determinan que la correlación entre las dos pruebas, a pesar de ser significativa, no sea perfecta. La Tabla 9.34 muestra que Cavemen? correlaciona incluso mejor con las calificaciones de la 2ª Evaluación (0,805) que la PAAU (0,575) y el C-test (0,722). La correlación PAAU-C-test es 0,750. Revela, además, que el C-test correlaciona de forma significativa en todos los casos. Queda patente, por tanto, la fiabilidad de la prueba y su validez de constructo. Resulta de especial interés para nuestro estudio constatar su alta correlación (0,722) con la PAAU de junio de 2001. Indica la validez predictiva del C-test (véase el apartado 9.7), basándonos en estos datos podemos recomendar el C-test como instrumento adecuado para la preparación de las actuales pruebas de Selectividad. 70 Entre las propuestas para la Selectividad en el futuro, García Laborda (2005:36) incluye que las pruebas de Acceso a la Universidad se realicen en los propios Institutos de Enseñanza Secundaria para reducir la ansiedad de los alumnos. Naturalmente, este cambio implicaría posiblemente también otros, como la realización de la prueba a través de Internet. Análisis empírico de la validez del C-test 327 Por otro lado, como veremos, consideramos que podría formar parte de la prueba de Selectividad sustituyendo a preguntas de la actual que no discriminan71. El histograma de la PAAU de Inglés de Junio de 2001 para los sujetos de la muestra presentados (Fig. 9.20) presenta una distribución normal, con un ligero sesgo negativo que refleja los buenos resultados obtenidos en la prueba. Se explica por los rasgos de la muestra; alumnos motivados y con el 2º curso de Bachillerato superado en todas las áreas. La mayoría de los sujetos consiguen más de cuatro puntos en la prueba (en escala de 0 a 10). La actuación de los sujetos se ve incentivada en el caso de la Selectividad por la relevancia ya comentada de la prueba externa para el futuro académico y personal del alumno. Figura 9.20. Histograma de la prueba de Selectividad (PAAU Junio 2001) 2,00 4,00 6,00 8,00 10,00 Selectividad 2001 0 3 6 9 12 15 Fr ec ue nc ia Mean = 6,3252 Std. Dev. = 1,68147 N = 81 71 Esta propuesta aparece ya en el artículo “Niveles de correlación entre el C-test y la prueba de Inglés de Selectividad” del libro Estudios y criterios para un Selectividad de calidad en el examen de Inglés (2005). El C-test: alternativa o complemento de otras pruebas en ILE 328 9.8. Análisis de la validez concurrente del C-test: correlaciones Aunque en el apartado anterior anticipamos algunos datos, continuamos con el estudio de las correlaciones entre las distintas pruebas que forman este estudio: - C-test - Calificaciones en Inglés en la 2ª evaluación del curso académico 2000/01 - Cavemen? - PAAU de junio de 2001 En este apartado respondemos a las preguntas de investigación que se corresponden con la primera hipótesis de trabajo. Son fundamentales, puesto que determinan la capacidad del C-test para medir lo que realmente pretende: la competencia global del alumno en lengua inglesa: 1. ¿Existe correlación significativa entre las puntuaciones obtenidas por un sujeto en un C-test y en la prueba de Inglés de las PAAU? ¿Y con respecto a la valoración que hace el profesor acerca de su progreso en la asignatura? 2. ¿Hay diferencias entre la correlación del C-test con las puntuaciones obtenidas en preguntas objetivas y subjetivas? Si las hay, ¿a qué se deben y cómo se explican? 3. ¿Discrimina el C-test de forma adecuada entre los sujetos, atendiendo a su competencia lingüística? Para comenzar, haremos un análisis comparativo de los promedios obtenidos en cada una de ellas (Tabla 9.35). Después, en la Tabla 9.36 presentaremos las correlaciones de Pearson entre las pruebas aplicadas y en la 9.37 la prueba de muestras relacionadas. En las tablas, la denominación CtestTotal10 corresponde a la nota obtenida en el C-test en una escala de 0 a 10 puntos. La prueba Cavemen? aparece también desglosada en parte objetiva: CavemenObj, y subjetiva: CavemenSubj. Análisis empírico de la validez del C-test 329 En la Tabla 9.35 se observa que el rango de variación de los promedios de las pruebas no es muy amplio, lo que es signo de consistencia y fiabilidad en la evaluación. No obstante, destaca la puntuación de la Selectividad 2001 en un extremo (6,32) y la de la parte subjetiva de Cavemen (4,69) en el otro. Tabla 9. 35. Estadísticos descriptivos: promedios N Media Desv. típica Estadístico Estadístico Error típico Estadístico 2ª Evaluación 161 5,50 ,163 2,068 Selectividad 2001 81 6,3252 ,186683 1,68147 CtestTotal10 162 5,1142 ,11550 1,47011 CavemenTotal 162 5,4485 ,15800 2,01101 CavemenObj 162 6,2105 ,14829 1,88741 CavemenSubj 162 4,6920 ,20134 2,56266 N válido (según lista) 80 El promedio más bajo (5,1) se lee en el C-test, si exceptuamos la parte subjetiva de Cavemen? cuya media es de sólo 4,69 puntos. Los promedios más altos en las pruebas que se han tomado como referencia: Cavemen? (5,44), las calificaciones de Inglés en la 2ª Evaluación (5,5) y el examen oficial de Inglés de las PAAU de Junio de 2001 (6,32). Podría justificarse, bien por la novedad del diseño del C-test, bien por la motivación que tienen cuando realizan un examen en función de una puntuación. En el caso de las PAAU de junio de 2001 existe otro componente más: el reducido número de alumnos que las realizan y su nivel de competencia, que se supone superior, ya que han superado el curso en todas las áreas, incluida la de Inglés. El diagrama de cajas, Figura 9.22, nos da la visión de conjunto. En el C-test se aprecia la menor dispersión de puntuaciones, tanto por encima como por debajo de la mediana, y en la 2ª Evaluación la mayor dispersión por encima de la mediana. El C-test: alternativa o complemento de otras pruebas en ILE 330 Figura 9.22. Diagrama de cajas de los promedios en las distintas pruebas 2ª Evaluación tipselto Selectividad 2001 ctestt10 0,00 2,00 4,00 6,00 8,00 10,00 35 Así pues, al valorar los resultados obtenidos en el C-test, no podemos olvidar la novedad de la técnica. Para nuestros alumnos era una prueba totalmente desconocida, lo cual no implica necesariamente su rechazo. Bachman (1990: 114) alerta de que la experiencia previa con una prueba concreta afecta a la actuación del sujeto, pero también al profesor y, en consecuencia, ha ser tenido en cuenta. Utilizing familiar testing techniques does, to some extent, simplify the test developer’s task, since this effectively narrows the range of techniques that must be considered. A potentially adverse effect of this, however, is the tendency for certain testing techniques to become institutionalized to the extend that they are perceived by test takers and test users alike as the only appropriate methods for testing language abilities. (Bachman 1990: 47-48) Quizá el razonamiento de Bachman explique la resistencia del profesorado y las instituciones a innovar en materia de evaluación. Una de las preguntas de investigación (3), en relación directa con la hipótesis 2, se refiere al tipo de prueba (objetiva o subjetiva) con que correlaciona mejor el C- test: “Si subdividimos la prueba de Inglés de las PAAU en las distintas preguntas que la forman, ¿hay diferencias entre la correlación del C-test con las puntuaciones obtenidas en preguntas de tipo objetivo y subjetivo? Si las hay, ¿a qué se deben y cómo se explican?” Análisis empírico de la validez del C-test 331 Para contestarla manejamos los datos obtenidos al desglosar el examen Cavemen? en parte objetiva y subjetiva, cuyos resultados muestran un notable nivel de semejanza con los de la segunda prueba piloto estudiada en el capítulo 7. Comprobamos que el subtest objetivo es el que mejor resuelven los alumnos (media 6,2), sin embargo, el que presenta mayor correlación con el C-test es el subjetivo, si bien en todos los casos las correlaciones son significativas según se aprecia en la Tabla 9.36, que amplía la 9.34, al incluir el desglose de Cavemen? en parte objetiva y subjetiva: Tabla 9.36. Correlaciones de muestras relacionadas 1 2 3 4 5 6 1. Ctestt10 -- N 162 2. 2ª Evaluación ,723(**) -- N 161 161 3. PAAU 2001 ,722(**) ,575(**) -- N 81 80 81 4. Cavemen? ,750(**) ,805(**) ,654(**) -- N 162 161 81 162 5. Caveobj ,659(**) ,672(**) ,571(**) ,867(**) -- N 162 161 81 162 162 6. Cavesub ,692(**) ,772(**) ,558(**) ,929(**) ,622(**) -- N 162 161 81 162 162 162 ** La correlación es significativa al nivel 0,01 (bilateral). Para precisar el carácter de la relación entre el C-test y cada una de las partes de la PAAU Cavemen?, en la siguiente Tabla (9.37) tomaremos las correlaciones desglosadas, lo que nos ayudará a rechazar o confirmar la hipótesis 2: “De ello se sigue que, por sus características, al ser una prueba objetiva de elementos discretos, para un mismo sujeto, el C-test correlacionará mejor con las pruebas de tipo objetivo que con las de tipo subjetivo y holístico”. (Hipótesis 2) El C-test: alternativa o complemento de otras pruebas en ILE 332 Tabla 9. 37. Correlaciones C-test-Cavemen? ctestt10 T/F10 OPQ10 LEX10 SYNT10 COMP10 CTESTT10 Correlación de Pearson -- ,385(**) ,616(**) ,309(**) ,672(**) ,665(**) N = 162 ** La correlación es significativa al nivel 0,01 (bilateral). Se aprecia que los valores más altos corresponden a la gramática (0,672), en consonancia con otros estudios (Cohen et al. 1984; Connelly 1997; Eckes y Grotjahn 2006). Sin embargo, curiosamente, la pregunta de vocabulario de la PAAU no correlaciona con el C-test, a pesar de que se reconoce a éste como prueba que mide el vocabulario (este aspecto contrasta con el estudio de Eckes y Grotjahn 2006). Posiblemente se deba al formato de la pregunta de lexis, recordemos que se trata simplemente de localizar cuatro sinónimos en el texto. Por ello, es una muestra insuficiente para formular conclusiones al respecto. Así pues, la parte objetiva de Cavemen? aglutina ítems muy distintos y resultados dispares. En cuanto a la parte subjetiva, tanto la redacción como las preguntas abiertas obtienen una correlación aceptable y uniforme (0,665 y 0,616). A la vista de los datos empíricos hemos de rechazar la hipótesis 2, puesto que, a pesar de ser una prueba objetiva de elementos discretos, el C-test correlaciona mejor con pruebas de tipo holístico, como las preguntas abiertas y la redacción. Estos resultados coinciden con los de Lee (1996), que estudió la validez concurrente de las pruebas de cierre de ratio fija y los ensayos. Considera que su alta correlación prueba “the common integrative nature between the essay and cloze tests” (op. cit.: 69). Lee (1996) se decanta por las pruebas de cierre como alternativa a otras pruebas: “This result confirms the finding of two previous studies (Fotos 1991, Hanania and Shikhani 1986) that cloze tests can be an alternative to essay tests” (la cursiva es mía). Además, sugiere su uso en la práctica docente: “as a teaching device in classroom situations” (op. cit.: 62). Al final de esta tesis haremos una propuesta similar para el C-test, apoyándonos en los datos estadísticos de nuestra investigación. Resulta llamativo que una prueba objetiva de elementos discretos, como el C- test, correlacione mejor con pruebas subjetivas (exceptuando su consabida conexión Análisis empírico de la validez del C-test 333 con los aspectos gramaticales). Parece indicar que el C-test es un tipo de examen más próximo a las pruebas subjetivas que a las objetivas; a pesar de que es objetivo sobre todo en la corrección, en su realización requiere producción y presenta rasgos creativos, puesto que va más allá del mero reconocimiento. Resumiendo, destacamos la correlación del C-test con los resultados globales de la prueba modelo de las PAAU realizada en clase, Cavemen? (0,750), aunque si tenemos en cuenta las dos partes en que se subdivide, la correlación baja sobre todo en la parte objetiva (0,659), aún siendo siempre significativa. La correlación entre las PAAU oficiales y el C-test es de 0,722, ligeramente inferior a la observada entre Cavemen? y el C-test (0,750). La tabla que muestra los promedios refleja que en las PAAU se alcanza la media más alta: 6,32. Se justifica por las características de las pruebas a gran escala (high-stake tests), a las que sólo se accede previa superación del Bachillerato, y en las que la motivación, competencia y rendimiento de los alumnos son superiores a la media, a pesar de la incidencia de otros factores (nervios, ansiedad, etc.). No obstante, es una correlación significativa en ambos casos, lo que indica que el C-test, dado su carácter económico en diseño y administración bien podría tenerse en cuenta como componente significativo en la configuración de la prueba de Inglés de las PAAU o de cualquier otra prueba selectiva que pretenda discriminar entre el alumnado. Confirmamos así parcialmente la primera hipótesis de trabajo: “Partiendo de las características de la prueba podemos predecir que el C- test correlacionará bien con otras pruebas estandarizadas que midan la competencia global en lengua extranjera, como las PAAU, y también con las calificaciones obtenidas por los alumnos en la asignatura de Inglés”. Efectivamente, el C-test correlaciona de forma significativa con otras pruebas estandarizadas que miden el mismo constructo: la competencia global en Inglés como Lengua Extranjera. En nuestro caso concreto, con las PAAU (tanto si se aplica este formato en el aula como si se hace de forma oficial). En cuanto a la apreciación de los respectivos profesores acerca de la competencia de los alumnos en lengua inglesa, expresada en la calificación de la asignatura en la 2ª Evaluación del curso, la correlación con el C-test es de 0,723. El C-test: alternativa o complemento de otras pruebas en ILE 334 Es importante corroborar que la valoración de los profesores está en sintonía con los resultados del C-test. Refleja un aspecto básico para la práctica docente y confirma ya en su totalidad la hipótesis que acabamos de citar; por sus características el C-test puede considerarse un instrumento de evaluación válido en el contexto del aula. La Tabla 9.38 presenta la prueba de muestras relacionadas. En ella, el T-test muestra que al comparar al C-test con la 2ª Evaluación se obtiene t=3,484 con p<0,001, lo que indica que existe diferencia significativa, es decir que el C-test resultó más difícil, circunstancia común a las otras pruebas (véase Fig. 9.22). Pero, a pesar de todo, las correlaciones reflejadas en la Tabla 9.36 indican la armonía entre las pruebas. Tabla 9.38. Prueba de muestras relacionadas: T-test. Diferencias relacionadas t Gl Sig. (bilate ral) Media Desv. típ. Error típ. de la media 95% Intervalo de confianza para la diferencia Inferior Superior Par 1 2ª Evaluación – ctestt10 ,39255 1,42953 ,11266 ,17005 ,61505 3,484 160 ,001 Par 2 Selectividad 2001 – ctestt10 ,57210 1,17885 ,13098 ,31143 ,83276 4,368 80 ,000 Par 3 Ctestt10 – tipselto -,33426 1,33127 ,10459 -,54081 -,12771 -3,196 161 ,002 Par 4 Ctestt10 – tcaveobj - 1,09630 1,43790 ,11297 - 1,31939 -,87320 -9,704 161 ,000 Par 5 Ctestt10 – tcavesub ,42222 1,87461 ,14728 ,13137 ,71308 2,867 161 ,005 Por otra parte, en la información que aportan los distintos modelos aplicados, los datos indican que hay pocas variaciones en el comportamiento de los modelos A y B del C-test, con correlaciones significativas en ambos modelos y promedios también similares: 5,18 en el A y 5,04 en el B. Análisis empírico de la validez del C-test 335 9.9. Validez predictiva Puesto que no es fácil realizar un seguimiento a largo plazo que pruebe la validez predictiva del C-test, veremos únicamente si sus resultados predicen bien los obtenidos en las PAAU, realizadas con posterioridad. Si tenemos en cuenta a los sujetos que se presentaron a la Selectividad, la muestra queda reducida a la mitad. Veremos los promedios de este grupo en las PAAU oficiales y en el C-test. Los alumnos que posteriormente se presentaron a las pruebas de Selectividad alcanzaron una media de 5,75 puntos en el C-test realizado dos meses antes. En las PAAU, la media se incrementó sensiblemente hasta llegar a 6,32 puntos. La mejora en los resultados se explica por la mayor competencia de los sujetos, el tiempo de estudio y práctica (teaching to the test) transcurrido entre ambas pruebas, y por factores derivados de la trascendencia que tiene la actuación en las PAAU para el futuro de los alumnos. Mientras que la media del total de la muestra (162 sujetos) en el C-test fue de 5,1 puntos, el promedio de los 81 sujetos que realizaron las PAAU asciende a 5,75. La correlación de Pearson entre los resultados del C-test y las PAAU de junio de 2001 es de 0,722, y expresa la validez predictiva del C-test (Véase Tabla 9.33). Este valor es incluso más alto que los correspondientes a las correlaciones entre las PAAU y las calificaciones de la 2ª Evaluación (0,575), y entre las PAAU y la prueba modelo de Selectividad, Cavemen? (0,654). Estos datos tan satisfactorios indican que, partiendo de la actuación de los sujetos en el C-test (abril 2001) podíamos predecir de forma empírica su actuación en un futuro cercano en las PAAU (junio 2001), a pesar de que otros muchos factores entran en juego (ansiedad, etc.). Y que podíamos hacerlo de manera más fiable que con otras pruebas. En concreto, llama la atención que el C-test obtenga mayor correlación con las PAAU oficiales que la prueba modelo de PAAU aplicada en clase, Cavemen?. Las implicaciones pedagógicas que se infieren de este dato son claves. El C-test se manifiesta como instrumento de evaluación de la lengua cuya validez predictiva queda demostrada. Entre otras virtudes (objetividad, facilidad de creación y corrección), este diseño ofrece al profesorado la posibilidad de predecir actuaciones futuras del alumno. Su uso en la preparación de la prueba de Inglés de la Selectividad resulta muy recomendable. El C-test: alternativa o complemento de otras pruebas en ILE 336 9.10. Fiabilidad Entendemos la fiabilidad como consistencia entre distintas actuaciones del mismo sujeto (véase el capítulo 3, apartado 3.3.1). La fiabilidad, como la validez de una prueba, es un indicador de su calidad. Siguiendo a Messick (1996), al asegurar que el C-test es una prueba fiable expresamos que refleja una consistencia en la actuación del sujeto en distintas tareas y ocasiones, y con correctores diferentes. La literatura ha señalado los posibles métodos para cuantificar la fiabilidad de una prueba (métodos test-retest y split-half, aplicar versiones paralelas de la prueba, cálculo del error estándar, Alfa de Cronbach, etc.) y los obstáculos que se encuentran en la práctica. Si hubiéramos administrado a nuestros alumnos un segundo C-test, el mismo o una versión paralela, se habría producido un aprendizaje (familiarización con la técnica) y posible desmotivación, que falsearían los resultados. Así pues, el método test-retest fue inmediatamente rechazado. Se decidió afrontar el análisis cuantitativo de la fiabilidad del C-test mediante el método de “análisis por mitades” y calculando el Alfa de Cronbach, además del análisis de las correlaciones con otras pruebas. 9.10.1. Análisis por mitades Planteamos aplicar en nuestro estudio de la fiabilidad del C-test el método split half. El número de ítems de la prueba permite subdividir fácilmente los resultados obtenidos en dos mitades equivalentes (de 50 ítems cada una) y así asignar dos puntuaciones a cada alumno. Debido al cambio de formato introducido en los ítems 51 al 100 del C-test, se decidió no hacer la división del modo más sencillo (ítems 1-50 y 51-100), sino tomando para cada una de las mitades 25 ítems guiados y 25 no guiados. El C-test de cada alumno quedó subdividido en: 1. Resultado obtenido en los subtests 1 y 3 (ítems 1-25 y 51-75). 2. Resultado obtenido en los subtests 2 y 4 (ítems 26-50 y 76-100). Análisis empírico de la validez del C-test 337 Los estadísticos descriptivos (Tabla 9.39) muestran que la media obtenida en la primera mitad es menor que la de la segunda, probablemente debido al aprendizaje. No obstante, se aprecian valores muy similares en las puntuaciones máximas y mínimas de ambas mitades, el error típico y la desviación, signo evidente de fiabilidad. Tabla 9.39. Estadísticos descriptivos de ambas mitades Mínimo Máximo Media Desv. típica Estadístico Estadístico Estadístico Error típico Estadístico Split half 1 5,00 45,00 23,4136 0,61638 7,84528 Split half 2 5,00 46,00 27,7099 0,59435 7,56478 N = 162 Tabla 9.40. Análisis del C-test por mitades: Correlaciones SplitHalf 1= Ctest1+Ctest3 SplitHalf 2= Ctest2+Ctest4 Correlaciones de Pearson 1 2 1. SplitHalf1 -- ,816(**) --2. SplitHalf2 N = 162 ** La correlación es significativa al nivel 0,01 (bilateral). La correlación entre los resultados obtenidos en ambas mitades es otro indicador del grado de fiabilidad de la prueba. En este caso se logra una correlación muy alta y significativa: 0,816, como queda reflejado en la Tabla 9.40. 9.10.2. Alfa de Cronbach La potencia de los tests estadísticos de que disponemos hace posible también el análisis de la fiabilidad del C-test mediante el cálculo del Alfa de Cronbach. En el documento electrónico de Klein-Braley y Raatz (1998) “Introduction to language El C-test: alternativa o complemento de otras pruebas en ILE 338 testing and C-tests” se recomienda el uso de esta fórmula en lugar de la de Kuder- Richardson para medir la consistencia del C-test. El C-test consigue un 0,794 (teniendo en cuenta los cuatro subtests que forman la prueba), como revelan la Tablas 9.41a y 9.41b. Podemos diferenciar además entre los dos modelos aplicados, A y B. Los datos estadísticos de fiabilidad, tanto del modelo A como del B muestran un Alfa de Cronbach muy elevada: 0,890 y 0,892 respectivamente (Tabla 9.42). Tabla 9.41a. Alfa de Cronbach del C-test Alfa de Cronbach Alfa de Cronbach basada en los elementos tipificados N de elementos ,794 ,809 4 Tabla 9.41b Estadísticos total-elemento Media de la escala si se elimina el elemento Varianza de la escala si se elimina el elemento Correlación múltiple al cuadrado Alfa de Cronbach si se elimina el elemento CTEST1 37,86 133,087 0,456 0,807 CTEST2 35,49 135,829 0,541 0,698 CTEST3 40,97 130,266 0,481 0,799 CTEST4 39,05 119,265 0,590 0,662 Tabla 9.42. Alfa de Cronbach del C-test: modelos A y B Modelo C-test Alfa de Cronbach N de elementos Modelo A 0,890 4 Modelo B 0,892 4 Klein Braley y Raatz (1984: 140) señalaron que incluso en los C-tests que resultaron demasiado fáciles o difíciles para los sujetos se encontraban coeficientes de validez y fiabilidad aceptables. El estudio de Dörnyei y Katona (1992: 193) respalda este hecho. Encontraron coeficientes de fiabilidad de 0,75 y 0,77 en Análisis empírico de la validez del C-test 339 estudiantes universitarios y de secundaria, respectivamente. Las tablas anteriores reflejan que los resultados de nuestra investigación están en la misma línea. 9.10.3. Validez y fiabilidad En el apartado 3.4 del capítulo 3 apuntamos que también podríamos basar el análisis de la fiabilidad en el de la validez, ya que estos dos rasgos de las pruebas están tan íntimamente relacionados que a veces se consideran conceptos superpuestos (Hughes 1989; Weir 1988, 1993; Bachman y Palmer 1990). Las correlaciones reflejan la consistencia entre las actuaciones de los alumnos en pruebas que miden el mismo constructo, como ocurre con el C-test y las PAAU. Se ha demostrado la validez concurrente del C-test a partir del análisis de sus correlaciones con las otras pruebas aplicadas en este estudio empírico, y por tanto, implícitamente, su validez de constructo y fiabilidad (apartado 9.8). Así pues, distintas vías nos llevan a concluir que el C-test es una prueba válida y fiable como instrumento de evaluación de la competencia general en lengua inglesa, con lo que la hipótesis 1 queda confirmada: “Partiendo de las características de la prueba podemos predecir que el C- test correlacionará bien con otras pruebas estandarizadas que midan la competencia global en lengua extranjera, como las PAAU, y también con las calificaciones obtenidas por los alumnos en la asignatura de Inglés”. Consideramos de especial importancia para nuestra investigación la confirmación de esta hipótesis, que engloba y da sentido a las restantes y al trabajo experimental aquí desarrollado. Estos resultados también contribuyen a demostrar lo que planteábamos en la Introducción como objetivo fundamental de la tesis: “El C-test es una prueba válida y fiable para medir la competencia global de los alumnos españoles de Enseñanzas Medias en Inglés como Lengua Extranjera”. El C-test: alternativa o complemento de otras pruebas en ILE 340 9.10.4. Fiabilidad del corrector No podemos olvidar en nuestro análisis la fiabilidad del corrector. Para que una prueba sea fiable ha de serlo también su corrección (Hughes 1989, 1994), y las pruebas de tipo objetivo facilitan la tarea. Amengual (2003) estudió las distintas variables (intra e inter corrector) y sesgos que intervienen en la corrección de pruebas subjetivas, como son los ensayos de las PAAU. En el caso del C-test, por las propias características de la prueba, cuyo diseño deja poco margen a la subjetividad, un alto grado de fiabilidad está asegurado. A pesar de todo, incluso en las pruebas más objetivas hay que reconocer cierta subjetividad, aunque sólo sea en el diseño y creación de la prueba. En la fase de creación del C-test, las únicas decisiones del profesor se reducen a la selección de los textos. Una vez elegidos, las normas de Klein-Braley y Raatz (1981, 1984, 1997) son estrictas. El criterio de corrección también garantiza la objetividad, puesto que en nuestro estudio empírico sólo la palabra exacta se considera válida. A pesar de que impone otras limitaciones (véase 9.3.8) fue el elegido para nuestra investigación. Después de este análisis estamos en condiciones de afirmar la validez y fiabilidad del C-test, objetivo fundamental de la tesis. A lo largo del capítulo han quedado confirmadas las hipótesis de trabajo 1, 3 y 4, que citamos de nuevo a continuación, aunque en algunos casos ha sido necesario matizar ciertos aspectos. Hipótesis 1 “Partiendo de las características de la prueba podemos predecir que el C-test deberá correlacionar bien con otras pruebas estandarizadas que midan la competencia global en lengua extranjera, como las PAAU, y también con las calificaciones obtenidas por los alumnos en la asignatura de Inglés”. Hipótesis 3 “En este tipo de prueba el alumno recuperará mejor los términos funcionales que los de contenido léxico”. Análisis empírico de la validez del C-test 341 Hipótesis 4 Los cambios en el formato influyen directamente en los resultados obtenidos; si se incluye el número de letras que corresponde a cada omisión se facilita la tarea del alumno. Por el contrario, la hipótesis 2 ha sido rechazada: Hipótesis 2 “De ello se sigue que, por sus características, al ser una prueba objetiva de elementos discretos, para un mismo sujeto, el C-test correlacionará mejor con las pruebas de tipo objetivo que con las de tipo subjetivo y holístico”. Análisis de regresión lineal 343 CAPÍTULO 10. ANÁLISIS DE REGRESIÓN LINEAL 10.1. Introducción El procedimiento de regresión lineal es una técnica estadística que se utiliza para el análisis de la relación entre variables cuantitativas. En esta investigación lo utilizaremos para explorar y cuantificar las relaciones entre las distintas partes o subtests que forman el C-test (C-test 1, C-test 2, C-test 3 y C-test 4) y las otras pruebas aplicadas: Cavemen?, la Selectividad de junio de 2001 y la calificación en la 2ª Evaluación, que consideraremos como variables dependientes (VDs). 10.2. Análisis de regresión lineal de la 2ª Evaluación Mediante este procedimiento comprobaremos el carácter de la relación existente entre los cuatro subtests del C-test72 y las calificaciones obtenidas por los sujetos de la muestra en Inglés en la 2ª Evaluación del curso. La 2ª Evaluación es la variable dependiente o criterio (VD) y los subtests, las variables independientes o predictoras (VIs). Se trata de regresión múltiple porque interviene más de una variable independiente. Determinaremos cómo cada subtest contribuye a explicar una parte de la varianza. En los diagramas de dispersión, como veremos, la relación quedará expresada por el grado en que la nube de puntos se ajuste a una línea recta. 72 En las tablas y gráficos los subtests se identifican como CTEST1, CTEST2, y así sucesivamente. La variable dependiente aparece como 2ª Evaluación. El C-test: alternativa o complemento de otras pruebas en ILE 344 En el apartado 9.8 del capítulo 9 comentamos la alta correlación entre las dos variables: C-test y calificaciones en Inglés en la 2ª Evaluación: 0,723. Mencionamos la importancia de este dato porque supone un alto grado de acuerdo entre la valoración de los profesores y los resultados conseguidos en el C-test. Si tenemos en cuenta los dos modelos de C-test se mantienen las cifras, especialmente en el modelo B (0,678 con el C-test modelo A y 0,788 con el B). Los promedios obtenidos, en escala del 1 al 10, fueron 5,5 puntos en la 2ª Evaluación y 5,1 en el C-test, aunque en el C-test se aprecia la menor dispersión de puntuaciones y en la 2ª Evaluación la mayor (véase la Tabla 9.34 del capítulo 9). La Tabla 10.1 resume los modelos aplicados para explicar la varianza de la variable dependiente (VD) 2ª Evaluación. Esta tabla recoge el coeficiente de correlación múltiple para cada paso, que va de 0,646 en el modelo 1, a 0,726 en el modelo 3. Cabe observar cómo, de manera automática, el sistema ha partido del C- test 4 como el mejor predictor de la VD, la 2ª Evaluación. el C-test 3 sólo entra en el último modelo y el C-test 1 ni siquiera aparece para explicar el 0,527 de la varianza, valor de R cuadrado. Tabla 10.1. Resumen del modelo Modelo R R cuadrado R cuadrado corregida Error típ. de la estimación Estadísticos de cambio Cambio en R cuadrado Cambio en F gl1 gl2 Sig. del cambio en F 1 ,646(a) ,417 ,414 1,583 ,417 113,912 1 159 ,000 2 ,707(b) ,499 ,493 1,472 ,082 25,908 1 158 ,000 3 ,726(c) ,527 ,518 1,436 ,027 9,113 1 157 ,003 a Variables predictoras: (Constante), CTEST4 b Variables predictoras: (Constante), CTEST4, CTEST2 c Variables predictoras: (Constante), CTEST4, CTEST2, CTEST3 El valor R2, o coeficiente de determinación, expresa la proporción de varianza de la VD que está explicada por la variable independiente (VI), que en este caso oscila entre 0,417 en el modelo 1 y 0,527 en el modelo 3. Conviene subrayar que estos valores del análisis de regresión no permiten afirmar que las relaciones detectadas entre la VD y las VIs sean de tipo causal sino que tan sólo muestran el grado de relación. Análisis de regresión lineal 345 Los valores de la R cuadrado corregida, cuarta columna, son una corrección a la baja de R2, ya que en su cálculo se tiene en cuenta el número de casos y de VIs. En la siguiente columna, el error típico de la estimación es la raíz cuadrada de la media cuadrática residual, es decir, la desviación típica de las distancias existentes entre las puntuaciones en la 2ª Evaluación y los pronósticos efectuados con la recta de regresión. La disminución del error típico en cada modelo indica la mejora en el ajuste. Los estadísticos de cambio nos permiten contrastar la hipótesis de que el cambio en R2 vale cero en la población. Con la primera variable predictora, C-test 4, Modelo 1, el valor de R2 es 0,417. Al contrastar la hipótesis de que R2 es cero se obtiene un estadístico F de 113,912, que con 1 y 160 grados de libertad, tiene una probabilidad asociada de 0,000. Puesto que este valor es <0,05, puede afirmarse que la varianza explicada por el C-test 4, Modelo 1, es significativamente distinta de cero. En el segundo paso, Modelo 2, el R2 aumenta hasta 0,082 y el valor del estadístico F es 25,908, que con 1 y 159 grados de libertad, tiene una probabilidad asociada de 0,000. En el tercer paso, Modelo 3, el valor del cambio en R2 es de 0,027 y, aunque el estadístico de cambio en F sigue siendo significativo (9,113), sólo contribuye a explicar de forma significativa (0,003) el comportamiento de la VD. Estos valores nos llevan a concluir que las tres VIs: C-test2, C-test3, y C-test 4, seleccionadas en el modelo final, consiguen explicar el 52,7 % de la variabilidad observada en la 2ª Evaluación (VD). La tabla resumen del ANOVA de la variable dependiente 2ª Evaluación (Tabla 10.2) refleja el valor del estadístico F obtenido al contrastar la hipótesis de que el valor poblacional de R2 en cada paso es cero. Ahora no se valora el cambio que se va produciendo en el valor de R2 de un paso a otro, sino el valor de R2 en cada paso. Aunque sólo mostramos el tercer paso, Modelo 3, la relación es significativa en cada uno de los pasos según se observa en los valores de los estadísticos F y la probabilidad asociada. El valor del nivel crítico (Sig. = 0,000), al ser menor que 0,05, indica que, además de existir una relación lineal significativa, el hiperplano definido por la ecuación de regresión tiene un buen ajuste a la nube de puntos. El C-test: alternativa o complemento de otras pruebas en ILE 346 Tabla 10.2. Tabla resumen del ANOVA de la variable dependiente 2ª Evaluación Modelo Suma de cuadrados gl Media cuadrática F Sig. 3 Regresión Residual Total 360,550 323,698 3 157 160 120,183 2,062 58,291 ,000c c. Variables predictoras: (Constante), CTEST4, CTEST2, CTEST3 La Tabla 10.3, que aparece a continuación, muestra los coeficientes de la recta de regresión parcial en el Modelo 3. Tabla 10.3. Coeficientes: Variable dependiente: 2ª Evaluación Coeficientes no estandarizados Coeficientes estandarizados Modelo B Error típ. Beta t Sig. 3 (Constante) CTEST4 CTEST2 CTEST3 ,195 ,138 ,176 ,088 ,479 ,036 ,040 ,029 ,304 ,325 ,217 ,407 3,840 4,440 3,019 ,685 ,000 ,000 ,003 Los coeficientes de regresión parcial correspondientes a cada una de las variables incluidas en el modelo de regresión sirven para construir la ecuación de regresión en cada paso. Las primeras columnas recogen el valor de los coeficientes de regresión parcial y su error típico. A continuación aparecen los coeficientes de regresión parcial estandarizados (Beta), los cuales informan acerca de la importancia relativa de cada variable dentro de la ecuación. Las dos últimas columnas muestran los estadísticos t y los niveles críticos de significación obtenidos al contrastar la hipótesis de que los coeficientes de regresión parcial valen 0 en la población. En consecuencia, los coeficientes Beta dan una pista sobre la importancia relativa de cada variable independiente, a mayor coeficiente estandarizado, mayor peso. En este caso, vemos que el C-test 4 es el de mayor coeficiente (de 0,646 a 0,304 cuando tenemos en cuenta las tres variables independientes), mientras que el Análisis de regresión lineal 347 C-test 3 presenta el menor coeficiente Beta (0,217). Es el subtest que introduce el cambio en el formato de las omisiones y la última variable para explicar la varianza. Debido a los efectos de interacción entre los factores, el coeficiente del C-test 2 en el Modelo 3 es el más alto de los tres (0,325); supera incluso al del C-test 4. El nivel de significación <0,05, en las VIs (0,000) indica que las tres variables utilizadas poseen coeficientes significativamente distintos de cero y que todas contribuyen a explicar lo que ocurre con la variable dependiente, de hecho, entre las tres la explican en un 94,6%, como vemos al sumar los coeficientes Beta de los subtests en el modelo 3. El comportamiento de cada subtest en relación con la 2ª Evaluación queda también reflejado en los diagramas de regresión parcial. A través de esta representación plástica de cada subtest nos formamos una idea rápida del tipo de relación con la VD. Los diagramas no se basan en las puntuaciones originales de las dos variables representadas, sino en los residuos obtenidos al realizar el análisis de regresión con las variables independientes. Muestran la relación neta entre las variables representadas, porque se controla el efecto de todas ellas. Se obtienen tantos gráficos como VIs; en nuestro estudio son C-test 2, C-test 3 y C-test 4. En los tres gráficos de regresión parcial de los subtests (VIs) se observa que la relación entre la VD y las VIs es positiva. Reflejan unas líneas de regresión aceptables que indican que los subtests discriminan entre los sujetos. A continuación se muestra el del C-test 4 a modo de ejemplo. Figura 10.1. G. de dispersión: C-test 4 -10 -5 0 5 10 CTEST4 -6 -4 -2 0 2 4 6 2ª E va lu ac ió n Variable dependiente: 2ª Evaluación Gráfico de regresión parcial Los residuos del modelo estadístico son las diferencias entre los valores observados y los pronosticados. Informan sobre el grado de exactitud de los El C-test: alternativa o complemento de otras pruebas en ILE 348 pronósticos; a menor error típico de los residuos, mejores pronósticos y por tanto mejor ajuste de la recta de regresión a los puntos del diagrama de dispersión. En nuestro modelo, el valor del rango del residuo tipificado está entre –4,370 y 2,548, lo que indica un buen ajuste, que queda reflejado en los gráficos siguientes. En primer lugar, observamos el histograma de los residuos tipificados de la 2ª Evaluación (VD), su gráfico de dispersión y el de probabilidad acumulada. Cuando los residuos se distribuyen normalmente, como en este caso, la nube de puntos se encuentra alineada sobre la diagonal del gráfico. Fig. 10.2. Histograma de los residuos de la VD Fig. 10.3. Gráfico de dispersión de la VD -6 -4 -2 0 2 4 Regresión Residuo tipificado 0 10 20 30 40 Fr ec ue nc ia Mean = -5,9E-17 Std. Dev. = 0,991 N = 161 Variable dependiente: 2ª Evaluación Histograma -4 -2 0 2 Regresión Residuo tipificado 0 2 4 6 8 10 2ª E va lu ac ió n Variable dependiente: 2ª Evaluación Gráfico de dispersión Figura 10.4. Gráfico de probabilidad acumulada del C-test 0,0 0,2 0,4 0,6 0,8 1,0 Prob acum observada 0,0 0,2 0,4 0,6 0,8 1,0 Pr ob a cu m e sp er ad a Variable dependiente: 2ª Evaluación Gráfico P-P normal de regresión Residuo tipificado Análisis de regresión lineal 349 Después del análisis realizado, podemos afirmar que la prueba de regresión lineal corrobora el buen funcionamiento del C-test como predictor de los resultados obtenidos en Inglés en la 2ª Evaluación. Nos sirve, además, para determinar que, en concreto, el subtest C-test 4 es el que mejor predice los resultados de los sujetos, y que, por el contrario, el C-test 1 no contribuye a explicar la varianza, lo cual no implica que se pudiera haber prescindido de él como predictor de la VD 2ª Evaluación en el diseño de la prueba. Podemos pensar que se debe a que supuso el primer contacto de los alumnos con la técnica del C-test, mientras que, tanto en el C- test 2 como en el C-test 4, los mejores predictores en el análisis de regresión, ya había un aprendizaje previo motivado por la práctica. Por otra parte, probablemente la explicación de los valores del C-test 3 hay que buscarla en el cambio de formato y las características textuales. La introducción de omisiones no guiadas, junto a la densidad y dificultad temática de los textos pueden haber sido la causa de que su contribución a la explicación de la varianza sea la más baja de los tres subtests. Así pues, los resultados del primer análisis de regresión nos hacen volver a algunas cuestiones ya discutidas a lo largo de este capítulo y el precedente. A pesar de la incidencia de la práctica previa, resulta llamativo que el subtest que mejor explica la varianza de las calificaciones en la 2ª Evaluación sea uno de los que tiene omisiones no guiadas (C-test 4). Si revisamos los textos sobre los que se diseñó el C-test 4 en los modelos A y B, Women doctors y Evolution respectivamente, veremos que sus características pueden influir en los resultados (véase capítulo 9). 10.3. Análisis de regresión lineal de Cavemen? En este apartado continuamos con el análisis de regresión lineal. Ahora tomamos la prueba Cavemen?, modelo PAAU realizada en el aula por todos los sujetos de la muestra, como variable dependiente (VD) y vemos cómo se relaciona con los distintos subtests del C-test aplicado (VIs). Como en el apartado anterior, partimos de las correlaciones de Pearson entre los distintos elementos. La correlación observada entre el C-test total y la prueba Cavemen? es de 0,750, la mayor obtenida en el estudio. Pero además, las correlaciones son significativas para todos los subtests, y especialmente altas en el C-test 4 (0,680). El C-test: alternativa o complemento de otras pruebas en ILE 350 La tabla resumen del modelo incluye en esta ocasión a todos los subtests de la prueba (Tabla 10.4). El C-test 4 es, de nuevo, el que mejor explica o predice la VD, Cavemen?. Por eso el sistema parte de él, sin embargo, el C-test 1 sólo aparece en el último modelo. En el modelo 1 el coeficiente de correlación múltiple ya es de 0,680 y alcanza el 0,753 en el modelo 4 con la entrada de la variable independiente C-test 1. El valor R cuadrado expresa la proporción de varianza explicada por el modelo. A partir de los valores obtenidos podemos concluir que las cuatro VIs seleccionadas en el modelo 4 explican el 56,8 de la VD. El cuadro resumen del ANOVA, con los valores de los estadísticos F y la probabilidad asociada, muestra que la relación es significativa en todos los pasos (Tabla 10.5). Tabla 10.4. Resumen del modelo Modelo R R cuadrado R cuadrado corregida Error típ. de la estimación 1 ,680(a) ,463 ,459 1,47893 2 ,724(b) ,525 ,519 1,39538 3 ,743(c) ,552 ,544 1,35864 4 ,753(d) ,568 ,557 1,33922 a Variables predictoras: (Constante), CTEST4 b Variables predictoras: (Constante), CTEST4, CTEST2 c Variables predictoras: (Constante), CTEST4, CTEST2, CTEST3 d Variables predictoras: (Constante), CTEST4, CTEST2, CTEST3, CTEST1 e Variable dependiente: Cavemen Tabla 10.5. Tabla resumen del ANOVA Modelo Suma de cuadrados Gl Media cuadrática F Sig. 1 Regresión Residual Total 301,148 349,960 651,107 1 160 161 301,148 2,187 137,683 ,000a 2 Regresión Residual Total 341,520 309,587 651,107 2 159 161 170,760 1,947 87,700 ,000b 3 Regresión Residual Total 359,453 291,654 651,107 3 158 161 119,818 1,846 64,910 ,000c 4 Regresión Residual Total 369,527 281,580 651,107 4 157 161 92,382 1,794 51,509 ,000d a Variables predictoras: (Constante), CTEST4 b Variables predictoras: (Constante), CTEST4, CTEST2 c Variables predictoras: (Constante), CTEST4, CTEST2, CTEST3 d Variables predictoras: (Constante), CTEST4, CTEST2, CTEST3, CTEST1 e Variable dependiente: Cavemen Análisis de regresión lineal 351 Por otra parte, los coeficientes de la recta de regresión parcial aparecen a continuación, en la Tabla 10.6. Tabla 10.6. Coeficientes Coeficientes no estandarizados Coeficientes estandarizados Modelo B Error tip. Beta t Sig. 1 (Constante) CTEST4 1,809 ,301 ,331 ,026 ,680 5,463 11,734 ,000 ,000 2 (Constante) CTEST4 CTEST2 ,250 ,210 ,170 ,464 ,031 ,037 ,475 ,323 ,540 6,695 4,554 ,590 ,000 ,000 3 (Constante) CTEST4 CTEST2 CTEST3 ,350 ,166 ,143 ,085 ,452 ,034 ,037 ,027 ,374 ,271 ,216 ,773 4,916 3,823 3,117 ,441 ,000 ,000 ,002 4 (Constante) CTEST4 CTEST2 CTEST3 CTEST1 ,294 ,131 ,101 ,108 ,067 ,447 ,036 ,041 ,029 ,028 ,296 ,193 ,276 ,169 ,658 3,613 2,486 3,784 2,370 ,511 ,000 ,014 ,000 ,019 a. Variable dependiente: Cavemen Finalmente, podemos observar el histograma de la regresión del residuo tipificado de la variable dependiente, la prueba tipo PAAU Cavemen?, y su gráfico de dispersión. En él, la nube de puntos tiende a alinearse sobre la diagonal. Fig. 10.5. Histograma de la VD Fig. 10.6. Gráfico de dispersión de la VD -3 -2 -1 0 1 2 3 Regresión Residuo tipificado 0 5 10 15 20 25 Fr ec ue nc ia Mean = -1,27E-15 Std. Dev. = 0,987 N = 162 Variable dependiente: Cavemen Histograma -3 -2 -1 0 1 2 3 Regresión Residuo tipificado 0,00 2,00 4,00 6,00 8,00 10,00 C av em en Variable dependiente: Cavemen Gráfico de dispersión El C-test: alternativa o complemento de otras pruebas en ILE 352 10.4. Análisis de regresión lineal de la Selectividad de junio de 2001 Con el presente apartado culminamos los análisis de regresión lineal. Hasta ahora hemos tomado la 2ª Evaluación y la prueba Cavemen? como variables dependientes y, como variables independientes, los subtests del C-test. Por último, este tipo de análisis nos dará pistas sobre la relación existente entre los subtests del C-test y la prueba de Inglés de Selectividad (PAAU) de junio de 2001, que hemos tomado como referencia externa en el proceso de validación del C-test. Hemos visto anteriormente que la correlación entre el C-test y la Selectividad es también muy alta (0,722). Como en los casos anteriores, las correlaciones son altas para todos los subtests; la mayor, de nuevo, para el C-test 4 (0,621). La matriz de correlaciones bivariadas muestra el número de casos sobre el que se calcula cada coeficiente (N), en este caso, los 81 sujetos presentados a las PAAU. En el apartado 9.9 del capítulo 9 se comentó que los promedios conseguidos por los 81 sujetos de la muestra son más elevados, se constata su mayor competencia (6,32 en la Selectividad y 5,75 en el C-test). En cuanto al análisis de regresión, en la Tabla 10.7, que resume el modelo, podemos observar cómo se explica la varianza de la prueba de Selectividad de 2001 (VD). El coeficiente de correlación múltiple para cada paso va de 0,621 en el modelo 1 a 0,730 en el 3. De nuevo, vemos que el sistema parte del C-test 4 como la variable que mejor predice la VD. En esta ocasión el C-test 2 no entra en el modelo. El valor R2 muestra la proporción de varianza explicada en cada modelo; de 0,378 (37,8%) a 0,515 (51,5%). Tabla 10.7. Resumen del modelo Modelo R R cuadrado R cuadrado corregida Error típ. de la estimación 1 ,621(a) ,385 ,378 1,32648 2 ,688(b) ,473 ,459 1,23658 3 ,730(c) ,533 ,515 1,17076 a Variables predictoras: (Constante), CTEST4 b Variables predictoras: (Constante), CTEST4, CTEST1 c Variables predictoras: (Constante), CTEST4, CTEST1, CTEST3 d Variable dependiente: Selectividad 2001 Análisis de regresión lineal 353 La tabla 10.8, resumen del ANOVA, indica el valor del estadístico F en el tercer paso, Modelo 3. Tabla 10.8. ANOVA: Variable dependiente: Selectividad 2001 Modelo Suma de cuadrados gl Media cuadrática F Sig. 3 Regresión Residual Total 120,645 105,542 226,187 3 77 80 40,215 1,371 29,340 ,000c c. Variables predictoras: (Constante), CTEST4, CTEST1, CTEST3 d. Variable dependiente: Selectividad 2001 Los coeficientes de regresión parcial conforman la ecuación de regresión en cada paso. Vemos que el C-test 4 tiene el coeficiente más alto (0,621) y el C-test 3 el más bajo (0,291). Por el nivel de significación constatamos que las tres variables independientes explican algo de la variable dependiente. Tabla 10.9 Coeficientes de regresión parcial: Variable dependiente: Selectividad 2001 Coeficientes no estandarizados Coeficientes estandarizados Modelo B Error típ. Beta t Sig. 3 (Constante) CTEST4 CTEST1 CTEST3 1,880 ,103 ,124 ,101 ,492 ,042 ,030 ,032 ,262 ,385 ,291 3,819 2,454 4,150 3,165 ,000 ,016 ,000 ,002 a. Variable dependiente: Selectividad 2001 Los coeficientes de regresión parcial de las variables excluidas de la ecuación en cada modelo reflejan que el C-test 2 queda fuera incluso en el modelo 3. Los residuos de un modelo estadístico son muy importantes en el análisis de regresión, porque informan sobre el grado de exactitud de los pronósticos. A menores residuos mejor ajuste de de la recta de regresión a los puntos del diagrama de dispersión. A continuación mostramos el histograma y el gráfico de dispersión de los residuos tipificados de la VD. El C-test: alternativa o complemento de otras pruebas en ILE 354 Figura 10.7. Histograma Figura 10.8. G. de dispersión -4 -3 -2 -1 0 1 2 Regresión Residuo tipificado 0 5 10 15 20 25 Fr ec ue nc ia Mean = -3,94E-15 Std. Dev. = 0,981 N = 81 Variable dependiente: Selectividad 2001 Histograma -4 -3 -2 -1 0 1 2 Regresión Residuo tipificado 0,00 2,00 4,00 6,00 8,00 10,00 Se le ct iv id ad 2 00 1 Variable dependiente: Selectividad 2001 Gráfico de dispersión 10.5. Conclusión A modo de conclusión, podemos decir que el análisis de regresión lineal aplicado, considerando como variables dependientes (VD) a las distintas pruebas que han participado en esta investigación (2ª Evaluación, Cavemen? y Selectividad 2001) y como variables independientes (VIs) a los cuatro subtests del C-test, ha puesto de manifiesto que: - Cuando tomamos las calificaciones de los sujetos en Inglés en la 2ª Evaluación como variable dependiente comprobamos que el C-test 4 es la variable independiente que mejor la predice. El C-test 1 queda excluido del modelo. - La situación persiste, tanto si la variable dependiente es la prueba tipo Selectividad realizada en las aulas, Cavemen?, como la Selectividad oficial de junio de 2001. El C-test 4 de nuevo es el que presenta el mejor funcionamiento. Estos datos coinciden con los del apartado 9.3.1 (Tabla 9.3) con los que abríamos este capítulo. De los cuatro subtests, es el C-test 4 el que consigue la mejor correlación con el C-test: 0,877 (aunque no los promedios más altos). Análisis de regresión lineal 355 En primer lugar, hemos de buscar las razones del buen funcionamiento del C- test 4 como predictor de todas las variables dependientes en el diseño global de la prueba. Al comenzar a realizar el C-test, el alumno se enfrenta a un formato totalmente novedoso y desconocido. Cuenta tan sólo con el modelo y las explicaciones del investigador, así pues, será la propia práctica la que le descubra lo que realmente se espera de él. A medida que se van completando los ítems y subtests se va produciendo un aprendizaje. En el subtest 3 la tarea de recuperar los textos se complica al ser omisiones no guiadas, pero en el subtest 4 deberían haberse superado ya todos los escollos propios de la técnica, para quedar únicamente las dificultades derivadas de los propios textos. Como hemos visto en el capítulo 9, en el modelo A el subtest 4 parte del texto Women doctors y en el modelo B de Evolution. En segundo término, tendremos en cuenta los rasgos textuales. Curiosamente se obtiene una media muy semejante en ambos textos, en torno a los 12 puntos en escala de 0 a 25, al comparar los promedios por modelos. Cuando se trata de omisiones guiadas los promedios mejoran sensiblemente. En el capítulo anterior hemos visto que ambos textos son los que presentan menor densidad y variación léxicas (Véase el apartado 9.4.2 del capítulo 9), lo que podría contribuir a facilitar su recuperación. De este modo, el análisis de regresión lineal del C-test ha contribuido a respaldar los resultados obtenidos en los análisis anteriores. Actuación en el C-test en función del estatus demográfico 357 CAPÍTULO 11. ACTUACIÓN EN EL C-TEST EN FUNCIÓN DEL ESTATUS DEMOGRÁFICO DE LOS SUJETOS 11. 1. Introducción En el capítulo 8, dedicado a la Metodología de nuestra investigación, hemos expuesto las principales características de la muestra en la que apoyamos el trabajo empírico de la tesis, constituida por 162 sujetos, todos ellos alumnos de 2º curso de Bachillerato en distintos IES de la Comunidad de Madrid. Atendiendo a las características de la misma distinguimos la existencia de factores demográficos que pueden llegar a determinar diferencias en la actuación de los sujetos en el C-test. Dada la homogeneidad de la muestra en variables como la edad y el nivel académico de los sujetos, en este capítulo analizaremos únicamente la incidencia de dos variables externas al C-test: el género y el IES de procedencia de los sujetos. 11.2. Incidencia de la variable de género A pesar de que la incidencia de la variable de género no se plantea como objetivo primordial de esta investigación, intentaremos determinar si el género influye en los resultados obtenidos en el C-test. Pretendemos confirmar o rechazar, con la ayuda de las herramientas estadísticas pertinentes, la hipótesis 6: “No habrá diferencias significativas al aplicar la variable de género”. Lo haremos mediante el análisis de los promedios obtenidos en las pruebas, el ANOVA y el modelo lineal general. El C-test: alternativa o complemento de otras pruebas en ILE 358 11.2.1. Características de género de la muestra y promedios obtenidos en las pruebas Un primer acercamiento pone de manifiesto que la muestra no es equilibrada en cuanto a género, ya que participaron en el estudio 103 mujeres (64%) frente a sólo 59 varones (36%). Sin embargo, la estadística refleja la tendencia social actual; el porcentaje de mujeres que acceden a estudios superiores en España es mayor que el de los hombres, muchos de los cuales deciden incorporarse antes al mundo laboral. Para valorar la posible incidencia de la variable género observamos los promedios obtenidos por hombres y mujeres en cada una de las pruebas aplicadas en el estudio. La tabla que aparece a continuación muestra que los resultados son siempre superiores en el caso de las mujeres, cualquiera que sea la prueba analizada (Tabla 11.1). Tabla 11.1. Estadísticos de grupo: promedios por género Género N Media Desviación típ. Error típ. de la media Varón CTESTTOTAL 59 4,863 1,2979 ,1690 2ª Evaluación 58 4,84 1,795 ,236 Selectividad 2001 25 5,8896 1,23310 ,24662 Cavemen? 59 4,9347 1,95845 ,25497 Mujer CTESTTOTAL 103 5,255 1,5455 ,1523 2ª Evaluación 103 5,86 2,128 ,210 Selectividad 2001 56 6,5196 1,82325 ,24364 Cavemen? 103 5,7427 1,99056 ,19614 (Los datos están calculados en escala de puntuaciones de 0 a 10) (Los datos correspondientes al C-test aparecen destacados en negrita) Comprobamos que las diferencias son bastante amplias en algunos casos. La más acusada se aprecia en la calificación de Inglés de la 2ª Evaluación, en torno a un punto en escala de 0 a 10. La menor, en el C-test (sólo 0,39 puntos en la misma escala). Actuación en el C-test en función del estatus demográfico 359 11.2.2. Repercusiones de la variable género en el C-test: modelos y subtests El C-test es la prueba que presenta las menores diferencias de género en los promedios, aunque sigue la tendencia general: media de 4,86 puntos obtenida por los varones frente a los 5,25 puntos de las mujeres (en escala de 0 a 10). En el caso del C-test esto supone que, como media, las mujeres del estudio recuperan de forma correcta aproximadamente cuatro omisiones más que los varones. Hay que notar, no obstante, que la desviación típica es ligeramente superior en las mujeres, lo que indica mayor dispersión de puntuaciones. Si analizamos lo ocurrido en cada modelo de C-test: A y B, veremos que se mantiene la pauta comentada previamente. Las tablas siguientes muestran los datos estadísticos para cada subtest de los modelos A (Tablas 11.2 y 11.3) y B (Tablas 11.4 y 11.5). Tabla 11.2. Estadísticos descriptivos por género. Modelo A: C-test y subtests. Descriptivos 31 15,81 3,754 ,674 14,43 17,18 9 24 50 16,36 4,365 ,617 15,12 17,60 5 24 81 16,15 4,126 ,458 15,24 17,06 5 24 31 15,55 3,434 ,617 14,29 16,81 9 23 50 16,48 4,092 ,579 15,32 17,64 10 25 81 16,12 3,858 ,429 15,27 16,98 9 25 31 6,84 4,670 ,839 5,13 8,55 1 17 50 7,86 4,882 ,690 6,47 9,25 0 20 81 7,47 4,799 ,533 6,41 8,53 0 20 31 11,00 4,626 ,831 9,30 12,70 2 20 50 12,78 4,220 ,597 11,58 13,98 3 22 81 12,10 4,437 ,493 11,12 13,08 2 22 31 49,19 14,605 2,623 43,84 54,55 28 81 50 53,48 15,119 2,138 49,18 57,78 27 86 81 51,84 14,980 1,664 48,53 55,15 27 86 varón mujer Total varón mujer Total varón mujer Total varón mujer Total varón mujer Total CTEST1 CTEST2 CTEST3 CTEST4 CTESTTOTAL N Media Desviación típica Error típico Límite inferior Límite superior Intervalo de confianza para la media al 95% Mínimo Máximo (Los promedios para cada subtest se calculan en escala de 0 a 25) (Los promedios para el total del C-test, en escala de 0 a100) En los estadísticos descriptivos (Tabla 11.2) observamos que los promedios de las mujeres superan aproximadamente en 1 punto por subtest a los de los varones en el modelo A. En el C-test 1 se aprecia la menor diferencia, que ronda el medio punto, y en el C-test 4 la mayor. En este último, la media de las mujeres asciende El C-test: alternativa o complemento de otras pruebas en ILE 360 casi 2 puntos (1,78), en una escala de 0 a 25, con respecto a la obtenida por los varones. La tabla revela que aunque, en general, las mujeres obtienen mejores promedios, la dispersión de las puntuaciones es también mayor en todos los casos, excepto en el subtest 4. Tabla 11.3. ANOVA de un factor: Género. Subtests del modelo A. Suma de cuadrados gl Media cuadrática F Sig. CTEST1 Inter-grupos Intra-grupos Total 5,864 1356,359 1362,222 1 79 80 5,864 17,169 ,342 ,561 CTEST2 Inter-grupos Intra-grupos Total 16,608 1174,157 1190,765 1 79 80 16,608 14,863 1,117 ,294 CTEST3 Inter-grupos Intra-grupos Total 19,959 1822,214 1842,173 1 79 80 19,959 23,066 ,865 ,355 CTEST4 Inter-grupos Intra-grupos Total 60,630 1514,580 1575,210 1 79 80 60,630 19,172 3,162 ,079 CTESTTOTAL Inter-grupos Intra-grupos Total 351,595 17599,319 17950,914 1 79 80 351,595 222,776 1,578 ,213 El análisis del ANOVA73 (Tabla 11.3), que nos sirve para comparar ambos grupos (mujeres y varones), indica que, a pesar de las diferencias en los promedios, no hay diferencias significativas en la actuación en el C-test. En el subtest 4 del modelo A se aprecian un poco más (Sig. 0,79), pero tampoco son notorias; se encuentran en el umbral de la significación. En el modelo B del C-test, que obtuvo un promedio ligeramente inferior al modelo A, las diferencias son menores (Tabla 11.4), especialmente en los subtests 1 y 2, en que los resultados obtenidos por varones y mujeres no llegan a un punto de diferencia en una escala de 0 a 25. Igual que en el modelo A, la desviación típica es levemente superior en la actuación de las mujeres. 73 Rietveld y van Hout (2005: 1) se refieren al Analysis Of Variance (ANOVA) de este modo: “This technique is the main instrument for social scientists and their linguistic colleagues to analyze the outcomes of research designs with more than two treatments or groups. Moreover, analysis of variance enables the researcher to assess the effects of more than one independent variable at the same time”. Actuación en el C-test en función del estatus demográfico 361 Tabla 11.4. Estadísticos descriptivos por género. Modelo B: C-test y subtests. Descriptivos 28 10,00 3,590 ,678 8,61 11,39 2 17 53 10,57 4,547 ,625 9,31 11,82 3 21 81 10,37 4,226 ,470 9,44 11,30 2 21 28 14,75 3,075 ,581 13,56 15,94 9 20 53 15,36 4,058 ,557 14,24 16,48 4 22 81 15,15 3,739 ,415 14,32 15,97 4 22 28 12,14 3,461 ,654 10,80 13,48 6 19 53 13,21 4,129 ,567 12,07 14,35 5 24 81 12,84 3,923 ,436 11,97 13,71 5 24 28 11,11 3,414 ,645 9,78 12,43 5 19 53 12,55 5,165 ,709 11,12 13,97 1 24 81 12,05 4,663 ,518 11,02 13,08 1 24 28 48,00 11,139 2,105 43,68 52,32 25 69 53 51,68 15,860 2,178 47,31 56,05 18 89 81 50,41 14,438 1,604 47,21 53,60 18 89 varón mujer Total varón mujer Total varón mujer Total varón mujer Total varón mujer Total CTEST1 CTEST2 CTEST3 CTEST4 CTESTTOTAL N Media Desviación típica Error típico Límite inferior Límite superior Intervalo de confianza para la media al 95% Mínimo Máximo El análisis del ANOVA muestra de nuevo que, a pesar de las diferencias en los promedios, no hay diferencias significativas en la actuación de varones y mujeres en el C-test modelo B (Tabla 11.5). Con estos datos, en principio, podríamos ya confirmar la hipótesis 6, pero antes profundizaremos en ello mediante el modelo lineal general. Tabla 11.5. ANOVA: subtests del modelo B Suma de cuadrados gl Media cuadrática F Sig. CTEST1 Inter-grupos Intra-grupos Total 5,870 1423,019 1428,889 1 79 80 5,870 18,013 ,326 ,570 CTEST2 Inter-grupos Intra-grupos Total 6,784 1111,439 1118,222 1 79 80 6,784 14,069 ,482 ,498 CTEST3 Inter-grupos Intra-grupos Total 20,768 1210,146 1230,914 1 79 80 20,768 15,318 1,356 ,248 CTEST4 Inter-grupos Intra-grupos Total 37,992 1701,811 1575,210 1 79 80 37,992 21,542 1,764 ,188 CTESTTOTAL Inter-grupos Intra-grupos Total 248,008 16429,547 16677,556 1 79 80 248,008 207,969 1,193 ,278 El C-test: alternativa o complemento de otras pruebas en ILE 362 En el capítulo 9 hemos señalado que el C-test es la prueba que obtiene los promedios más bajos de las aplicadas en este estudio empírico, con independencia de la variable genérica. En este capítulo vemos que, además, es la prueba que más acerca los promedios obtenidos por varones y mujeres (véase la Tabla 11.1). 11.2.3. Análisis de promedios mediante el modelo lineal general Para completar el análisis de los promedios y el ANOVA, veremos también la incidencia de la variable genérica mediante el modelo lineal general. En este caso tomamos como muestra sólo los 81 alumnos que realizaron la PAAU oficial, para poder tomar en consideración los datos de las cuatro pruebas (C-test, 2ª Evaluación, Cavemen? y PAAU de junio de 2001) en todos los sujetos. La Tabla 11.6 refleja las características de la muestra analizada. Tabla 11.6. Muestra de los sujetos presentados a las PAAU: género Etiqueta del valor N 1 Varón 24 Género 2 Mujer 56 Aunque el análisis multivariante aplicado al género indica que, en general, en este grupo no hay diferencias significativas en la actuación de los sujetos, la Tabla 11.7 refleja datos más concretos acerca de cada prueba. En este grupo no se aprecian diferencias significativas en cuanto al género en las pruebas de Inglés de las PAAU: ni en la Selectividad oficial de junio de 2001 ni en la prueba Cavemen? realizada en clase (sig.: 0,101 y 0,337), pero sí aparecen en el caso del C-test y las calificaciones en la 2ª Evaluación, puesto que 0,05 es el límite para la significación. No obstante, debemos tener en cuenta que en este análisis hemos introducido cambios. Por una parte, la muestra ha cambiado y por otra, hemos considerado el C-test globalmente y no desglosado en subtests. Veamos la información que aporta la Tabla 11.7. Actuación en el C-test en función del estatus demográfico 363 Tabla 11.7. Pruebas de los efectos inter-sujetos Fuente Variable dependiente Suma de cuadrados tipo III Gl Media cuadrática F Significación Modelo corregido 2ª Evaluación 16,010(a) 1 16,010 4,307 ,041 Selectividad 2001 7,684(b) 1 7,684 2,749 ,101 Cavemen? 2,605(c) 1 2,605 ,933 ,337 Ctestt10 8,700(d) 1 8,700 4,563 ,036 Intersección 2ª Evaluación 2650,060 1 2650,060 712,921 ,000 Selectividad 2001 2567,765 1 2567,765 918,565 ,000 Cavemen? 2792,980 1 2792,980 1000,377 ,000 Ctestt10 2105,376 1 2105,376 1104,119 ,000 Género 2ª Evaluación 16,010 1 16,010 4,307 ,041 Selectividad 2001 7,684 1 7,684 2,749 ,101 Cavemen? 2,605 1 2,605 ,933 ,337 Ctestt10 8,700 1 8,700 4,563 ,036 Error 2ª Evaluación 289,940 78 3,717 Selectividad 2001 218,042 78 2,795 Cavemen? 217,770 78 2,792 Ctestt10 148,733 78 1,907 Total 2ª Evaluación 3660,000 80 Selectividad 2001 3417,833 80 Cavemen? 3627,078 80 Ctestt10 2794,390 80 Total corregida 2ª Evaluación 305,950 79 Selectividad 2001 225,726 79 Cavemen? 220,375 79 Ctestt10 157,434 79 a R cuadrado = ,052 (R cuadrado corregida = ,040) b R cuadrado = ,034 (R cuadrado corregida = ,022) c R cuadrado = ,012 (R cuadrado corregida = -,001) d R cuadrado = ,055 (R cuadrado corregida = ,043) En consecuencia, a la luz de estos datos, cabe confirmar la hipótesis inicialmente planteada en el primer caso y rechazarla en el segundo. En una primera aproximación, tomando la muestra completa (162 sujetos) y desglosando el C-test en subtests, el análisis del ANOVA informa de que no se aprecian diferencias significativas en cuanto a la actuación de los géneros en el C-test. Pero cuando se analiza la incidencia del género en las cuatro pruebas valoradas en nuestra investigación, y la muestra queda reducida a la mitad que incluye a los sujetos de mayor competencia, tomando el C-test en su conjunto, el modelo lineal general precisa que, a pesar de que los promedios obtenidos por las mujeres son ligeramente superiores en todas las pruebas aplicadas, en el C-test y El C-test: alternativa o complemento de otras pruebas en ILE 364 en la valoración de la 2ª Evaluación los estadísticos muestran diferencias significativas en la actuación de varones y mujeres. Sería interesante, de cara a futuras investigaciones, indagar en las causas de estas diferencias que afectan a los sujetos con mayor competencia, y que podrían ir desde el uso que varones y mujeres hacen de las estrategias (Phakiti 2003), hasta la incidencia del tema (Lumley y O’Sullivan 2005), pasando por la motivación (Mori y Gobel 2006) o el tipo de tarea propuesta. 11.3. Incidencia del IES de procedencia de los sujetos En las hipótesis de partida de esta investigación planteamos también la posible incidencia de la procedencia de los sujetos que participaron en el estudio. Los sujetos de la muestra proceden de cuatro IES de la red de centros públicos de la Comunidad de Madrid que presentan características sociodemográficas muy distintas. El número de los sujetos de cada IES varía, desde los 45 del IES Ágora de Alcobendas hasta los 36 del IES Humanejos de Parla, siempre superando los 30 sujetos en cada subgrupo. En este apartado intentaremos determinar la validez de la hipótesis 7: “No se prevé que existan diferencias de funcionamiento del C-test al aplicar la variable IES” 11.3.1. Entorno de los IES en que se realizó el estudio A pesar de que el capítulo 8 incluye el perfil de los cuatro centros a los que pertenecen los sujetos de la muestra, antes de abordar las estadísticas de los resultados obtenidos por cada uno de ellos en las pruebas aplicadas, insistiremos en la variedad de los entornos socioeconómicos en que se encuentran ubicados. Del cuestionario retrospectivo que completaron los sujetos se extraen también datos significativos acerca de cómo afecta el entorno a las oportunidades de aprendizaje de los sujetos (véase el apartado 12.5.1 del capítulo 12). Las tablas de Actuación en el C-test en función del estatus demográfico 365 frecuencias de los conocimientos previos de los sujetos muestran, por ejemplo, que los alumnos de Madrid y Alcobendas son los que más han disfrutado de estancias en el extranjero para perfeccionar la lengua. Aunque estas oportunidades extra, externas a la escuela no sean determinantes para el rendimiento y competencia de los sujetos, una vez más queremos hacer constar que no es nuestro objetivo hacer una mera comparación de resultados, sino cerciorarnos de la validez y fiabilidad del C-test en todos los contextos como prueba que discrimina a los sujetos en función de su competencia lingüística. Se ha constatado que la correlación entre las distintas pruebas aplicadas es alta y significativa en los diferentes IES, por tanto, las diferencias que puedan aparecer al contrastarlos se explican en función de los datos sociales. 11.3.2. Análisis estadístico de los promedios de cada centro La Tabla 11.8 expone los resultados obtenidos por cada centro en las pruebas aplicadas. Además del número de sujetos (N), en la tabla aparece la media de cada prueba y la desviación típica, es decir, la dispersión de las puntuaciones. Para facilitar el análisis, todos los datos están en escala de 0 a 10. Tabla 11.8. Informe Centro C-test 2ª Evaluación Cavemen? Selectividad 2001 Alcobendas Media 5,1444 6,09 5,8756 6,1759 N 45 45 45 29 Desv. Típ. 1,43266 2,485 2,07204 1,70433 Pinto Media 4,5634 4,60 4,8232 5,9525 N 41 40 41 16 Desv. Típ. 1,49211 1,780 1,82024 1,35552 Madrid Media 6,1300 6,23 6,3412 7,1731 N 40 40 40 26 Desv. Típ. 1,30014 1,687 1,80544 1,36779 Parla Media 4,5750 4,94 4,6347 5,1500 N 36 36 36 10 Desv. Típ. 1,04809 1,672 1,87147 1,97625 Total Media 5,1142 5,50 5,4485 6,3252 N 162 161 162 81 Desv. Típ. 1,47011 2,068 2,01101 1,68147 El C-test: alternativa o complemento de otras pruebas en ILE 366 Lo primero que llama nuestra atención en la lectura de la tabla es que los promedios más altos en todas las pruebas se consiguen en el IES San Isidoro, de Madrid capital (los datos aparecen destacados en negrita). El IES San Isidoro presentó 26 sujetos de los 40 totales a las PAAU (un 65%) y obtuvo una media de 7,17 puntos. En el C-test logró una media de 6,13, muy semejante a la de la 2ª Evaluación (6,2) y la de Cavemen? (6,3). Este grupo de sujetos es también el que muestra mayor uniformidad en los promedios de las pruebas analizadas. Cabe señalar que este dato indica fiabilidad y coherencia en la actuación, es decir, menores diferencias entre los resultados obtenidos en unas pruebas y otras. Además la desviación típica indica que no hay gran dispersión de puntuaciones. Los datos nos llevan a pensar que a medida que mejora la competencia en la lengua, mejora también la actuación en el C-test (Klein-Braley 1984). Aunque Sussmich (1984) considera que el C-test es adecuado para todos los niveles, desde principiante hasta avanzado, parece que son los más hábiles en la lengua los que encuentran menos obstáculos en su realización. Lógicamente, estos sujetos manejarán mejor las estrategias. Y es posible que destaquen la validez aparente de la prueba, pero al ser un cuestionario anónimo, no contamos con ese dato. El IES Ágora, de Alcobendas, obtiene también buenos resultados y presentó a las PAAU un 64,4 % de los alumnos del grupo analizado, cifra muy semejante a la del IES San Isidoro. En el otro extremo, los resultados obtenidos por el IES Humanejos, de Parla y el IES Vicente Aleixandre, de Pinto. En cuanto a la desviación típica, vemos que el grupo de Parla es el más homogéneo en las puntuaciones en el C-test, pero el que más dispersión presenta en las calificaciones de Selectividad, a la que tan sólo se presentaron 10 sujetos. Aún sin pretender comparar los resultados de los diferentes IES participantes, atendiendo a los promedios, parece claro que las características socio-económicas del entorno en que se encuentra ubicado el IES condicionan la actuación de los sujetos. Las cifras corroboran las diferencias Norte-Sur también en el ámbito de nuestra Comunidad. Pero el frío análisis estadístico ha de ser matizado teniendo en cuenta las circunstancias concretas de los centros educativos, su entorno socio- económico, cultural, etc. (véase apartado 8.4.1, capítulo 8). En caso contrario recibiríamos una información sesgada y parcial de la realidad. Actuación en el C-test en función del estatus demográfico 367 11.3.3. Análisis de varianza univariante de los resultados de los centros A pesar de las diferencias constatadas en los promedios debemos completar este estudio con el análisis de varianza univariante, puesto que la disparidad de promedios no implica necesariamente la existencia de diferencias significativas en la actuación de los centros. En el análisis de varianza univariante se aprecian diferencias significativas entre centros en los resultados del C-test, concretamente entre el IES Ágora de Alcobendas y el IES San Isidoro, de Madrid capital. Las pruebas post-hoc muestran una significación de 0,005 en Bonferroni y 0,006 en Games-Howell (Tabla 11.9). Tabla 11.9. Pruebas post hoc Comparaciones múltiples Variable dependiente: CTESTTOTAL 5,72 2,890 ,297 -2,00 13,44 -9,94* 2,908 ,005 -17,72 -2,17 5,58 2,993 ,385 -2,42 13,57 -5,72 2,890 ,297 -13,44 2,00 -15,67* 2,974 ,000 -23,61 -7,72 -,14 3,057 1,000 -8,31 8,02 9,94* 2,908 ,005 2,17 17,72 15,67* 2,974 ,000 7,72 23,61 15,52* 3,075 ,000 7,31 23,74 -5,58 2,993 ,385 -13,57 2,42 ,14 3,057 1,000 -8,02 8,31 -15,52* 3,075 ,000 -23,74 -7,31 5,72 3,156 ,275 -2,55 14,00 -9,94* 2,959 ,006 -17,70 -2,19 5,58 2,752 ,187 -1,65 12,80 -5,72 3,156 ,275 -14,00 2,55 -15,67* 3,107 ,000 -23,82 -7,51 -,14 2,911 1,000 -7,80 7,51 9,94* 2,959 ,006 2,19 17,70 15,67* 3,107 ,000 7,51 23,82 15,52* 2,697 ,000 8,43 22,61 -5,58 2,752 ,187 -12,80 1,65 ,14 2,911 1,000 -7,51 7,80 -15,52* 2,697 ,000 -22,61 -8,43 (J) Centro Pinto Madrid Parla Alcobendas Madrid Parla Alcobendas Pinto Parla Alcobendas Pinto Madrid Pinto Madrid Parla Alcobendas Madrid Parla Alcobendas Pinto Parla Alcobendas Pinto Madrid (I) Centro Alcobendas Pinto Madrid Parla Alcobendas Pinto Madrid Parla Bonferroni Games-Howell Diferencia entre medias (I-J) Error típ. Significación Límite inferior Límite superior Intervalo de confianza al 95%. Basado en las medias observadas. La diferencia de medias es significativa al nivel ,05.*. El C-test: alternativa o complemento de otras pruebas en ILE 368 En la última parte de este capítulo (apartado 11.3.5), no obstante, veremos los resultados del análisis de varianza univariante aplicado a los dos factores en cuestión: género y centro. 11.3.4. Repercusiones de la variable IES de procedencia en el C-test A continuación centramos nuestro análisis en el C-test, buscando respuesta a última parte de la pregunta de investigación: “¿Qué influencia ejercen las variables género, formación previa y centro de estudios de los sujetos en los resultados obtenidos?”, que ha de confirmar o rechazar la hipótesis 7: “No se prevé que existan diferencias de funcionamiento del C-test al aplicar la variable IES”. Veamos un gráfico general de los resultados del C-test por centros: Figura 11.1. Diagrama de cajas: Promedios del C-test por centros Alcobendas Pinto Madrid Parla Centro 20 40 60 80 C TE ST TO TA L 32 74 El diagrama de cajas (Fig. 11.1) muestra lo ya constatado en este apartado; que el promedio más alto se logra en el IES de Madrid capital, seguido por el de Alcobendas, mientras que los IES de Parla y Pinto obtienen promedios bastante inferiores y muy próximos entre sí. En ambos centros se detecta la presencia de una puntuación extrema (outlier) que destaca del resto. Esto nos lleva a rechazar la hipótesis 7: “no hay diferencias de funcionamiento en el C-test al aplicar la variable IES” cuando hablamos de centros de distinto Actuación en el C-test en función del estatus demográfico 369 estatus. Sin embargo, podríamos confirmarla en centros de estatus similar, puesto que es el IES de Madrid capital el que se diferencia de los demás. A pesar de que al aplicar la variable de centro (por su ubicación y/o características) sí hay diferencias significativas en los resultados obtenidos en el C-test, éstas son comunes a todas las pruebas aplicadas y no sólo al C-test. El C-test sigue las mismas pautas de funcionamiento que cualquier otra prueba, y discrimina igual entre los alumnos, independientemente de las características del IES en que se aplique, como indica la alta correlación entre las pruebas. No obstante, en el siguiente epígrafe aplicaremos el análisis de varianza univariante a las variables “género” e “IES”. En la caja correspondiente al IES de Alcobendas vemos que la mediana no se corresponde exactamente con la media y que hay mayor dispersión de puntuaciones entre los sujetos, sobre todo en los que están por debajo de la media (Fig. 11.1). Sin embargo, el grupo de Parla es muy homogéneo, es el que presenta menor dispersión de puntuaciones, la mediana y la media prácticamente coinciden. No consideramos necesario el análisis más concreto de los resultados que se obtienen en el C-test en cada centro para los distintos modelos y subtests, puesto que no aportan datos de interés para nuestra investigación. Tanto en el modelo A como en el B, y en todos los subtests, los promedios más altos corresponden al IES San Isidoro. En el C-test 1 del modelo A, la diferencia entre promedios supera los 3 puntos (de 15,00 puntos en Parla a 18,31 en Madrid, en escala de 0 a 25). En los C-tests 3 y 4 hay aún mayor distancia entre promedios. Los estadísticos descriptivos para el modelo B son semejantes a los del A. Como ejemplo, la comparativa de promedios por centros en el subtest 1 del modelo A. Figura 11.2. Comparativa de promedios por centros: C-test 1 modelo A Alcobendas Pinto Madrid Parla Centro 15 16 17 18 19 M ed ia d e C TE ST 1 modelo C-test: modelo A El C-test: alternativa o complemento de otras pruebas en ILE 370 11.3.5. Análisis de varianza univariante de ambas variables Una vez analizados ambos factores por separado, afrontamos el análisis de varianza univariante siguiendo el modelo lineal general. Tomaremos el total del C- test como variable dependiente y veremos cómo afectan el género y el centro de los sujetos a la prueba. Una primera aproximación es el resumen de promedios en el C- test, desglosado en centros y género. Tabla 11.10. Estadísticos descriptivos Centro Género Media Desv. Típ. N Alcobendas Varón Mujer Total 49,13 52,59 51,36 12,258 15,340 12,275 16 29 45 Pinto Varón Mujer Total 46,07 45,41 45,63 12,363 16,308 14,921 14 27 41 Madrid Varón Mujer Total 62,22 61,03 61,30 12,882 13,235 13,001 9 31 40 Parla Varón Mujer Total 43,90 48,13 45,78 10,249 10,595 10,472 20 16 36 Total Varón Mujer Total 48,63 52,55 51,12 12,979 15,455 14,683 59 103 162 * Los datos de la tabla están en escala de 0 a 100 En la tabla aparece, además, el número total de sujetos de cada subgrupo (N) y la desviación típica. Podemos hacer una lectura de la tabla que no tenga en cuenta el género, sino sólo los promedios totales de cada centro en el C-test. Esta información ya la obtuvimos en la Tabla 11.8. El IES San Isidoro destaca frente al resto de los centros con una media de 61,30 en escala 0 a 100. El desglose por género aporta precisión. Nos muestra que, a pesar de los resultados totales, la actuación de las mujeres no siempre es mejor que la de los hombres. De hecho, en dos centros; el IES V. Aleixandre de Pinto y el S. Isidoro de Madrid, los varones obtienen resultados ligeramente superiores en el C-test (véase Fig. 11.3). No en vano, el C-test es la prueba de las estudiadas que presenta menores diferencias genéricas. Estudios posteriores, fuera ya del alcance de esta tesis, podrían encaminarse a determinar las causas de este hecho. Actuación en el C-test en función del estatus demográfico 371 Por otra parte, la dispersión de puntuaciones es, curiosamente, siempre superior en las mujeres (aunque en el IES Humanejos se obtienen valores muy cercanos). En la siguiente tabla vemos las pruebas de los efectos intersujetos que determinan el grado de significación de las variables género y centro. Tabla 11.11. Pruebas de los efectos intersujetos. Variable dependiente: CTESTTOTAL Fuente Suma de cuadrados tipo III gl Media cuadrática F Significación Modelo corregido Intersección Centro Género Centro * género Error Total Total corregida 6705,226ª 361675,713 5010,739 73,734 198,383 28006,305 458116,000 34711,531 7 1 3 1 3 154 162 161 957,889 361675,713 1670,246 73,734 66,128 181,859 5,267 1988,769 9,184 ,404 ,364 ,000 ,000 ,000 ,525 ,779 a. R cuadrado = ,193 (R cuadrado corregida = ,156) Se aprecia que no hay interrelación entre las variables centro y género, son independientes. Mientras que sí hay diferencias significativas en los resultados de los centros, no las hay en el género. Al hacer las comparaciones por pares (Tabla 11.12), teniendo en cuenta los centros, encontramos que el IES San Isidoro, de Madrid capital, es el que presenta diferencias significativas con los otros tres que forman parte del estudio (sig. = 0,008 con Alcobendas y 0,000 con Pinto y Parla). Recordemos la acusada diferencia entre el promedio de los varones del IES San Isidoro (62,22 puntos) y del IES Humanejos de Parla (43,90 puntos) en el C-test, que se lee en la Tabla 11.10. Entre los centros de Alcobendas, Pinto y Parla no se aprecian diferencias significativas. El C-test: alternativa o complemento de otras pruebas en ILE 372 Tabla 11. 12. Comparaciones por pares: Centros Comparaciones por pares Variable dependiente: CTESTTOTAL 5,116 3,056 ,577 -3,052 13,285 -10,772* 3,306 ,008 -19,607 -1,936 4,843 3,086 ,712 -3,405 13,092 -5,116 3,056 ,577 -13,285 3,052 -15,888* 3,384 ,000 -24,932 -6,844 -,273 3,170 1,000 -8,745 8,198 10,772* 3,306 ,008 1,936 19,607 15,888* 3,384 ,000 6,844 24,932 15,615* 3,411 ,000 6,499 24,731 -4,843 3,086 ,712 -13,092 3,405 ,273 3,170 1,000 -8,198 8,745 -15,615* 3,411 ,000 -24,731 -6,499 (J) Centro Pinto Madrid Parla Alcobendas Madrid Parla Alcobendas Pinto Parla Alcobendas Pinto Madrid (I) Centro Alcobendas Pinto Madrid Parla Diferencia entre medias (I-J) Error típ. Significacióna Límite inferior Límite superior Intervalo de confianza al 95 % para diferenciaa Basadas en las medias marginales estimadas. La diferencia de las medias es significativa al nivel ,05.*. Ajuste para comparaciones múltiples: Bonferroni.a. Por último, mostramos los resultados de las pruebas de Tuckey, Bonferroni y Games-Howel (Tabla 11.13, en la página siguiente). La Figura 11.3 refleja gráficamente el resumen de los datos analizados en este capítulo. Figura 11.3. Medias estimadas del C-test por géneros en los distintos IES Alcobendas Pinto Madrid Parla Centro 45 50 55 60 M ed ia s m ar gi na le s es tim ad as Género varón mujer Medias marginales estimadas de CTESTTOTAL Actuación en el C-test en función del estatus demográfico 373 Tabla 11.13. Comparaciones múltiples Comparaciones múltiples Variable dependiente: CTESTTOTAL 5,72 2,912 ,206 -1,84 13,28 -9,94* 2,930 ,005 -17,56 -2,33 5,58 3,015 ,254 -2,25 13,41 -5,72 2,912 ,206 -13,28 1,84 -15,67* 2,997 ,000 -23,45 -7,88 -,14 3,080 1,000 -8,14 7,86 9,94* 2,930 ,005 2,33 17,56 15,67* 2,997 ,000 7,88 23,45 15,52* 3,098 ,000 7,48 23,57 -5,58 3,015 ,254 -13,41 2,25 ,14 3,080 1,000 -7,86 8,14 -15,52* 3,098 ,000 -23,57 -7,48 5,72 2,912 ,307 -2,06 13,50 -9,94* 2,930 ,005 -17,78 -2,11 5,58 3,015 ,398 -2,48 13,64 -5,72 2,912 ,307 -13,50 2,06 -15,67* 2,997 ,000 -23,68 -7,66 -,14 3,080 1,000 -8,38 8,09 9,94* 2,930 ,005 2,11 17,78 15,67* 2,997 ,000 7,66 23,68 15,52* 3,098 ,000 7,24 23,80 -5,58 3,015 ,398 -13,64 2,48 ,14 3,080 1,000 -8,09 8,38 -15,52* 3,098 ,000 -23,80 -7,24 5,72 3,156 ,275 -2,55 14,00 -9,94* 2,959 ,006 -17,70 -2,19 5,58 2,752 ,187 -1,65 12,80 -5,72 3,156 ,275 -14,00 2,55 -15,67* 3,107 ,000 -23,82 -7,51 -,14 2,911 1,000 -7,80 7,51 9,94* 2,959 ,006 2,19 17,70 15,67* 3,107 ,000 7,51 23,82 15,52* 2,697 ,000 8,43 22,61 -5,58 2,752 ,187 -12,80 1,65 ,14 2,911 1,000 -7,51 7,80 -15,52* 2,697 ,000 -22,61 -8,43 (J) Centro Pinto Madrid Parla Alcobendas Madrid Parla Alcobendas Pinto Parla Alcobendas Pinto Madrid Pinto Madrid Parla Alcobendas Madrid Parla Alcobendas Pinto Parla Alcobendas Pinto Madrid Pinto Madrid Parla Alcobendas Madrid Parla Alcobendas Pinto Parla Alcobendas Pinto Madrid (I) Centro Alcobendas Pinto Madrid Parla Alcobendas Pinto Madrid Parla Alcobendas Pinto Madrid Parla DHS de Tukey Bonferroni Games-Howell Diferencia entre medias (I-J) Error típ. Significación Límite inferior Límite superior Intervalo de confianza al 95%. Basado en las medias observadas. La diferencia de medias es significativa al nivel ,05.*. Análisis de la validez aparente del C-test 375 CAPÍTULO 12: ANÁLISIS DE LA VALIDEZ APARENTE DEL C-TEST 12.1. Introducción El aspecto externo que presenta una prueba es, en palabras de Bachman (1990:289), “a very important consideration in test use”. Como en tantas otras cosas y situaciones, la primera información que percibimos acerca de una prueba es su apariencia física. A partir de ella los sujetos reaccionarán de una u otra forma. Y si el alumno no tiene confianza en la prueba como instrumento de medida, no hará un esfuerzo serio en su realización (Jafarpur 1995). A pesar de que algunos autores, como Anastasi (1982), la infravaloren, pensamos que la validez aparente de un examen no es una mera cuestión de preferencias o gustos personales, ni de estética o moda, sino un rasgo de las pruebas que debemos estudiar con detenimiento. El C-test presenta un aspecto que contrasta con el de otras pruebas, a pesar de la popularidad de algunos tipos de pruebas de cierre en la enseñanza del Inglés. Resulta novedoso, distinto, y esta circunstancia puede ser, en ocasiones, un motivo de rechazo inicial hacia la prueba. No en vano, el ser humano tiende a ofrecer resistencia al cambio en todos los ámbitos de la vida. Desde la creación del C-test (Klein-Braley y Raatz 1981) distintas voces se han alzado para cuestionar su validez aparente (Jafarpur 1995; Weir 1988; Bradshaw 1990). El formato del C-test ha sido tachado de fragmentario, “puzzle-like”, e inadecuado para su propósito. Dentro del proceso de validación del C-test, una vez probada su validez criterial concurrente y de constructo en el capítulo 9, en esta tesis nos disponemos a analizar la validez aparente de la prueba a partir de los resultados del cuestionario retrospectivo de opinión administrado a los 162 alumnos de la muestra (véase el capítulo 8, apartado 8.4.4) para confirmar o rechazar la hipótesis 5: El C-test: alternativa o complemento de otras pruebas en ILE 376 “Por su novedad y su carácter fragmentario, algo confuso al principio, puede conducir al rechazo. El C-test carece de validez aparente.” 12.2. La validez aparente del C-test en los estudios piloto El capítulo 7 de la tesis desarrolla los primeros contactos con el C-test a través de la aplicación de dos pruebas piloto. Como hemos visto, en la primera investigación (Estudio piloto I) no se estudió la validez aparente de manera formal, pero sí se sondeó de manera informal en el aula, escuchando las manifestaciones directas y espontáneas de los alumnos acerca de la prueba. Fueron el punto de partida para que en trabajos posteriores nos planteáramos la creación de un cuestionario de opinión que permitiera la valoración objetiva de este aspecto. En la Prueba piloto II se diseñó el primer modelo de cuestionario de opinión para el alumnado. Muy semejante ya al modelo definitivo utilizado en nuestra investigación (véase el Apéndice), se basaba en el ideado por Jafarpur (1995). No obstante, el cuestionario retrospectivo fue tomado únicamente como elemento informativo que recopilaba las impresiones del alumnado. En las dos ocasiones se apreció que los alumnos, a pesar de enfrentarse a una prueba nueva y diferente, lejos de rechazarla, manifestaban su aceptación de la misma. En la investigación definitiva sobre el C-test era preciso disponer de elementos de juicio objetivos y fiables. Se decidió administrar un cuestionario ya que este procedimiento permite recopilar cuantiosa información de manera rápida y sencilla. Su análisis estadístico posterior servirá para determinar la validez aparente de la prueba. 12.3. El cuestionario: partes y orígenes Para la confección del cuestionario retrospectivo de opinión acerca de la prueba tomamos como referencia el propuesto por Jafarpur (1995: 207). El autor planteó un cuestionario sobre la validez aparente del C-test. Lo administró a un grupo de alumnos y a sus profesores. En ambos casos obtuvo Análisis de la validez aparente del C-test 377 resultados negativos, sobre todo por parte de los alumnos (64%), que le llevaron a considerar al C-test como carente de validez aparente: “C-testing does not fulfil the exigency of this requirement” (ibíd.). Como mencionamos en la introducción del capítulo, Jafarpur (1995) considera que si los alumnos no valoran bien una prueba, no la toman en serio y, en consecuencia, no se esfuerzan en su realización. En su investigación descubrió que ni siquiera los profesores confiaban en la técnica. Aunque la valoraron mejor que los alumnos (respondieron positivamente al 57% de las preguntas), únicamente dos de los profesores manifestaron que la aceptarían como criterio selectivo en pruebas de acceso a la universidad. El propio autor califica las opiniones del colectivo como “conservadoras”. No obstante, la muestra de profesores era insuficiente para la extracción de conclusiones, ya que estaba constituida por sólo 5 sujetos. En nuestro estudio consideramos prioritaria la opinión de los alumnos y decidimos enfocar en ellos la investigación, puesto que el número de profesores de Inglés que han colaborado constituye una muestra de nuevo insuficiente para extraer conclusiones fiables. Futuros planteamientos podrían incluir la exploración de la opinión del profesorado sobre el C-test. El cuestionario de Jafarpur constaba de 10 preguntas, a las que el sujeto debía contestar de forma afirmativa o negativa. Admitía la posibilidad de explicar la respuesta en algunos casos. A continuación mostramos las preguntas que planteaba el cuestionario para el alumno (Jafarpur 1995): QUESTIONNAIRE ON C-TESTING 1. What do you think of this as a test of English? 2. Do you think it is a good test? 3. Do you think this test measures English proficiency only? 4. If not, what else does it measure? 5. Do you think it is a fair test of English? 6. Why so, or why not? 7. What do you think of the representativeness of this test? 8. What do you think of the completeness of this test? 9. Would you want your acceptance at university to depend on this test? 10. Why? El C-test: alternativa o complemento de otras pruebas en ILE 378 Las ventajas del uso de cuestionarios en términos de economía de esfuerzo, tiempo y dinero pueden verse gravemente menguadas si su diseño no es el apropiado (Dörnyei 2003). De ahí nuestro interés por lograr un cuestionario válido y fiable. Puesto que el contenido de las preguntas del de Jafarpur nos parecía adecuado (opinión general acerca de algunos rasgos de las pruebas como su representatividad, validez, fiabilidad, etc.), decidimos mantenerlas básicamente en el nuestro. Pero cambiamos el modelo de respuesta, que resultaba muy limitado, por otro que incluyera la posibilidad de gradación y facilitara el tratamiento estadístico de los datos. Se elaboró una primera versión del cuestionario muy similar al de Jafarpur (1995) y también en lengua inglesa. Finalmente optamos por traducirla al español para evitar los sesgos debidos a posibles problemas de comprensión. Además, incluimos algunos cambios, ya comentados en el capítulo 8, apartado 8.3.5: • En primer lugar se añadió una parte previa en la que solicitábamos información personal (biodata). En concreto, la edad y formación en la lengua objeto de estudio. Se respetó el anonimato para garantizar la plena libertad del sujeto al expresar sus opiniones. • La segunda parte del cuestionario se centra en la valoración personal del sujeto. Plantea una pregunta abierta y el resto pide al sujeto una estimación en escala del 1 al 5 (escala de Likert) acerca de las dificultades surgidas en su realización y sobre su percepción de los rasgos del C-test como instrumento de evaluación de la lengua (qué mide, si es adecuado, completo, si reflejará bien sus conocimientos, etc.). • Una tercera parte pide opinión sobre la posible utilización del C-test en pruebas selectivas (PAAU), como alternativa o complemento a otras pruebas. Concluye agradeciendo la colaboración de los alumnos. Así pues, el cuestionario final, que puede consultarse en el Apéndice, quedó configurado de tal modo que podemos identificar en él tres partes bien diferenciadas: Análisis de la validez aparente del C-test 379 1. Información personal 2. Valoración de la prueba en sí misma: 2.1. Dificultades encontradas 2.2. Qué mide el C-test 2.3. Rasgos que lo definen 3. Valoración de la prueba con respecto a la Selectividad Si el C-test como prueba de evaluación carece de validez aparente para los sujetos, esto provocará su rechazo hacia ella y se traducirá en una pobre valoración de la prueba. Optamos por aplicar el cuestionario exclusivamente a los alumnos participantes en la investigación, puesto que, en nuestro caso, de nuevo el escaso número de profesores no nos permitiría extrapolar resultados. La valoración del C-test por parte del profesorado de Inglés supondría el planteamiento de otro estudio diferente aunque complementario al de esta tesis. Para garantizar la total libertad de los sujetos al emitir sus juicios y opiniones se decidió respetar el anonimato (Dörnyei 2003). 12.4. Valoración global de las dificultades planteadas por el C-test La simple lectura de los cuestionarios antes de someterlos al tratamiento estadístico resulta interesante e ilustrativa. Evidencia que, al completarlos, los sujetos hicieron un importante ejercicio de reflexión acerca de su propio aprendizaje. Este hecho nos produce una satisfacción inicial, porque evidencia que, en general, los cuestionarios no fueron completados “a la ligera”. La primera pregunta del cuestionario es la única de tipo abierto, conscientes de la dificultad de este tipo de preguntas para ser codificadas de manera fiable, pero a la vez de la riqueza cualitativa que aportan a la investigación (Dörnyei 2003: 47). Esta pregunta abierta, aunque guiada, plantea si se han encontrado dificultades en la realización del C-test. Se refiere a problemas de tipo general, pero de la reacción de los alumnos a esta pregunta deducimos fallos en su comprensión y/o en su planteamiento, ya que las respuestas de algunos sujetos aluden a sus problemas El C-test: alternativa o complemento de otras pruebas en ILE 380 concretos para la resolución correcta de la prueba. La mayoría, por ejemplo, manifiesta que tuvo dificultades (aunque quizá deberían decir dudas o desconocimiento de algunas omisiones) e indica que el vocabulario fue el mayor problema. Algunos especifican más, y señalan la ortografía como motivo de error (nº 8574: “sé a veces qué palabra es, pero no sé como se escribe”). Merece la pena detenernos en el análisis cualitativo, ya que pese a los posibles problemas de comprensión, en las respuestas a la pregunta abierta “¿Has encontrado dificultades para realizarlo (el C-test)? ¿de qué tipo?“ encontramos algunas claves del diseño del C-test: - Los alumnos consideran que el contexto es fundamental (nº 91, 94, 141) y constatan sus limitaciones por desconocimiento del vocabulario “no sólo del que hay que rellenar” (nº 90) del texto correspondiente. - Señalan la frecuencia en las omisiones, que tachan de excesiva, como motivo de error: “es muy difícil comprender el texto si te quitan tantas palabras” (nº 84 y comentarios semejantes en 1, 21, 26). - Creen que para cada omisión hay varias posibilidades de respuesta correcta, probablemente porque en las pruebas de cierre tradicionales a veces ocurre así, y les lleva a confusión: “hay palabras que las confundes con otras que empiezan igual” (nº 43, 53, 59, 86, 103). - Son conscientes de que la segunda parte de la prueba (omisiones 51 a 100) supone una dificultad añadida y comentan: “las palabras que no tenían guiones eran mucho más difíciles” (comentario muy repetido en los cuestionarios). - Aluden al tema del texto como fuente de dificultad: “Dependiendo de cada texto he tenido mayor o menor dificultad, ya que hay temas de los textos que eran más fáciles” (nº 10). - Acerca de la confusión, que tanto se ha achacado al C-test en la literatura, también encontramos algún comentario. Un sujeto menciona el formato de la prueba: “La forma de ponerlo es muy confusa” (nº 76) y otro la novedad del examen: “estaba perdido, quizás no esté acostumbrado” (nº 8). 74 Puesto que los cuestionarios son anónimos les fue asignado un número de forma aleatoria (del 1 al 162) para su identificación en el tratamiento estadístico. Análisis de la validez aparente del C-test 381 - Algunos alumnos mencionan memoria e imaginación como ingredientes necesarios para la resolución de la prueba (nº 52 y 65). Cuando se refieren a la memoria, entendemos que aluden de nuevo al vocabulario. Por otra parte, llama nuestra atención que se mencione la imaginación, pero pensamos que esta percepción está en sintonía con la alta correlación entre el C-test y las pruebas subjetivas. - Por último, un alumno puntualiza: “no es un examen muy complejo si tienes claras las estructuras de la lengua inglesa” (nº 38), comentario que hace pensar que el sujeto reconoce la prueba como buen instrumento de evaluación de la competencia global en la lengua. A pesar de las dificultades que mencionan los alumnos, como veremos en el análisis de los porcentajes correspondientes a cada pregunta del cuestionario, la valoración de la prueba es positiva. 12.5. Análisis estadístico El estudio del cuestionario para determinar la validez aparente del C-test se realizó a partir de dos procedimientos estadísticos: - la confección de tablas de frecuencias - el procedimiento de análisis factorial. 12.5.1. Tablas de frecuencias El análisis de las tablas de frecuencias para cada pregunta planteada en el cuestionario permite la valoración de los porcentajes obtenidos en ellas. De la primera parte del cuestionario (información personal) sólo mostramos los estadísticos correspondientes a los conocimientos previos del sujeto, puesto que la edad es una variable muy homogénea en los sujetos de la muestra. En la Tabla 12.1 observamos que sólo 12 alumnos de los 162 totales (7,4%) ha disfrutado de alguna estancia lingüística en países de lengua inglesa. Por el El C-test: alternativa o complemento de otras pruebas en ILE 382 contrario, el 45,1% limita su conocimiento de la lengua a lo aprendido en la enseñanza reglada (colegio de Educación Primaria e IES) y el 47% la ha completado con formación extra en academias, escuelas, clases particulares, etc. Tabla 12.1. Frecuencias: Conocimientos previos Frecuencia Porcentaje Porcentaje válido Porcentaje acumulado Válidos Enseñanza reglada Extra academias Estancias en el extranjero Total 73 77 12 162 45,1 47,5 7,4 100,0 45,1 47,5 7,4 100,0 45,1 92,6 100,0 Si contemplamos los datos desglosados atendiendo a los IES de procedencia de los sujetos (Tablas 12.2) obtenemos una información complementaria muy útil para valorar las diferencias en los resultados de las pruebas cuando se aplica la variable IES, como queda reflejado en el capítulo 11 de la tesis. Tabla 12.2a. Conocimientos previos: IES Ágora (Alcobendas) Frecuencia Porcentaje Porcentaje válido Porcentaje acumulado Válidos Enseñanza reglada 21 46,7 46,7 46,7 Extra. Academias 20 44,4 44,4 91,1 Estancias en el extranjero 4 8,9 8,9 100,0 Total 45 100,0 100,0 Tabla 12.2b. Conocimientos previos: IES Vicente Aleixandre (Pinto) Frecuencia Porcentaje Porcentaje válido Porcentaje acumulado Válidos Enseñanza reglada 17 41,5 41,5 41,5 Extra. Academias 22 53,7 53,7 95,1 Estancias en el extranjero 2 4,9 4,9 100,0 Total 41 100,0 100,0 Análisis de la validez aparente del C-test 383 Tabla 12.2c. Conocimientos previos por IES: San Isidoro (Madrid) Frecuencia Porcentaje Porcentaje válido Porcentaje acumulado Válidos Enseñanza reglada 14 35,0 35,0 35,0 Extra. Academias 21 52,5 52,5 87,5 Estancias en el extranjero 5 12,5 12,5 100,0 Total 40 100,0 100,0 Tabla 12.2d. Conocimientos previos: IES Humanejos (Parla) Frecuencia Porcentaje Porcentaje válido Porcentaje acumulado Válidos Enseñanza reglada 21 58,3 58,3 58,3 Extra. Academias 14 38,9 38,9 97,2 Estancias en el extranjero 1 2,8 2,8 100,0 Total 36 100,0 100,0 En las Tablas 12.2 observamos que los porcentajes de alumnos que han completado su formación en Inglés fuera de los centros escolares oscilan entre el 38 % de Parla y el 53 % de Pinto. En cuanto a las estancias en el extranjero, de nuevo el menor porcentaje está en los alumnos del IES Humanejos (2,8 %), frente al del IES San Isidoro (12,5 %), en el otro extremo, y muy por debajo del promedio de la muestra (7,4%). Estos datos se explican por las diferencias socioeconómicas de las poblaciones en que están situados los IES que forman parte del estudio. Centraremos nuestro análisis de frecuencias en la parte central del cuestionario, en la que, mediante la escala de Likert, exploramos la valoración que los sujetos hacen de la prueba y sus características como instrumento de evaluación. Casi la totalidad de los alumnos (95%) manifestó que había encontrado dificultades para resolver el C-test. Como hemos mencionado en el apartado 12.3, la pregunta pretendía aludir a cuestiones de tipo general, de comprensión de la prueba, pero de las respuestas de los sujetos deducimos que se interpretó de manera diferente. Por tanto, aunque prácticamente todos manifiestan que la prueba les supuso dificultades (Tabla 12.3), entendemos que no más que cualquier otro examen o prueba. El C-test: alternativa o complemento de otras pruebas en ILE 384 Tabla 12.3. Frecuencias: Dificultades con el C-test Frecuencia Porcentaje Porcentaje válido Porcentaje acumulado Válidos Sí 155 95,7 95,7 95,7 No 5 3,1 3,1 98,8 valores perdidos 2 1,2 1,2 100,0 Total 162 100,0 100,0 En la tercera pregunta del cuestionario el sujeto debía valorar en una escala de Likert del 1 al 5 qué mide el C-test. A continuación veremos los promedios, las tablas de frecuencia y los diagramas de barras de los distintos aspectos a que aludía el cuestionario: gramática, ortografía, conocimiento general de la lengua, fluidez, y léxico. Atendiendo a los promedios, presentados en la Tabla 12.4, el léxico y la ortografía (spelling) son las variables que obtienen mayor puntuación al preguntar a los sujetos qué mide el C-test, no obstante también el conocimiento general en la lengua, la fluidez y la gramática logran puntuaciones cercanas a los 3 puntos. Por tanto, se identifica al C-test como prueba en que la variable “vocabulario” tiene un peso específico (véanse las frecuencias en las Tablas 12.5 y diagramas de barras, Fig. 12.1). Un 55 % de los sujetos asigna el valor máximo de la escala de valoración al léxico y un 37 % a la ortografía, éstos son también los dos aspectos que muestran la distribución de frecuencias más irregular. Tabla 12.4. Promedios. Estadísticos descriptivos Media Desviación típica N del análisis Gramática 2,96 1,074 162 Ortografía 3,94 1,061 162 General 3,36 1,193 162 Fluidez 3,32 1,135 162 Léxico 4,34 1,023 162 Adecuado 2,96 1,318 162 Completo 2,81 1,127 162 Válido 2,56 1,216 162 Análisis de la validez aparente del C-test 385 Las Tablas 12.5 reflejan todos estos datos. En la 12.5a vemos que sólo 11 sujetos consideran que el C-test mida primordialmente conocimientos gramaticales (5 en la escala de Likert). Las puntuaciones se concentran en los valores centrales 2, 3 y 4 (que suman un 83,3 % del total, correspondiendo al 3 el 35,2 %). Tabla 12.5a. Frecuencias: Gramática Frecuencia Porcentaje Porcentaje válido Porcentaje acumulado Válidos Mínimo 16 9,9 9,9 9,9 2 37 22,8 22,8 32,7 3 57 35,2 35,2 67,9 4 41 25,3 25,3 93,2 máximo (escala de Likert) 11 6,8 6,8 100,0 Total 162 100,0 100,0 Tabla 12.5b. Frecuencias: Ortografía Frecuencia Porcentaje Porcentaje válido Porcentaje acumulado Válidos Mínimo 6 3,7 3,7 3,7 2 8 4,9 4,9 8,6 3 36 22,2 22,2 30,9 4 52 32,1 32,1 63,0 Máximo (escala de Likert) 60 37,0 37,0 100,0 Total 162 100,0 100,0 Tabla 12.5c. Frecuencias: Conocimiento general de la lengua Frecuencia Porcentaje Porcentaje válido Porcentaje acumulado Válidos Mínimo 6 3,7 3,7 3,7 2 35 21,6 21,6 25,3 3 49 30,2 30,2 55,6 4 43 26,5 26,5 82,1 máximo (escala de Likert) 28 17,3 17,3 99,4 valores perdidos 1 ,6 ,6 100,0 Total 162 100,0 100,0 El C-test: alternativa o complemento de otras pruebas en ILE 386 Tabla 12.5d. Frecuencias: Fluidez Frecuencia Porcentaje Porcentaje válido Porcentaje acumulado Válidos Mínimo 9 5,6 5,6 5,6 2 26 16,0 16,0 21,6 3 54 33,3 33,3 54,9 4 54 33,3 33,3 88,3 máximo (escala de Likert) 18 11,1 11,1 99,4 valores perdidos 1 ,6 ,6 100,0 Total 162 100,0 100,0 En la Tabla siguiente (12.5e) veremos que 90 sujetos consideran que el C-test mide sobre todo los conocimientos de léxico y asignan al vocabulario el valor máximo de la escala. El 82,8 % del total de los alumnos se aglutina en los valores 4 y 5. Tabla 12.5e. Frecuencias: Léxico Frecuencia Porcentaje Porcentaje válido Porcentaje acumulado Válidos Mínimo 3 1,9 1,9 1,9 2 7 4,3 4,3 6,2 3 17 10,5 10,5 16,7 4 44 27,2 27,2 43,8 máximo (escala de Likert) 90 55,6 55,6 99,4 valores perdidos 1 ,6 ,6 100,0 Total 162 100,0 100,0 A continuación, las Figuras 12.1 muestran de forma gráfica, en diagramas de barras, los datos anteriores. Nos fijaremos especialmente en la distribución de frecuencias reflejada en los diagramas correspondientes al léxico y la ortografía, que asciende a medida que lo hace la escala de Likert. Sin embargo, los demás reflejan la tendencia central previamente comentada. Análisis de la validez aparente del C-test 387 Fig. 12.1a. Diagrama de barras: Gramática Fig. 12.1b. Diagrama de barras: Ortografía mínimo 2 3 4 máximo (escala de Likert) Gramática 0 10 20 30 40 Po rc en ta je Gramática mínimo 2 3 4 máximo (escala de Likert) Ortografía 0 10 20 30 40 Po rc en ta je Ortografía Fig. 12.1c. Diagrama de barras: C.General Fig. 12.1d. Diagrama de barras: Fluidez mínimo 2 3 4 máximo (escala de Likert9 valores perdidos General 0 10 20 30 40 50 Fr ec ue nc ia mínimo 2 3 4 máximo (escala de Likert) valores perdidos Fluidez 0 10 20 30 40 50 60 Fr ec ue nc ia Fig. 12.1e. Diagrama de barras: Léxico mínimo 2 3 4 máximo (escala de Likert) valores perdidos Léxico 0 20 40 60 80 100 Fr ec ue nc ia El C-test: alternativa o complemento de otras pruebas en ILE 388 Seguiremos con el análisis de la valoración que hacen los sujetos en cuanto a las características que podrían definir al C-test: adecuado, completo y válido como instrumento de evaluación. A partir de los porcentajes obtenidos (Tablas 12.6), podemos decir que los alumnos consideran al C-test como prueba apropiada (el 45% otorga un 3 en la escala a este rasgo), más que completa (el 32 %) y válida (34,6). Atendiendo a los promedios obtenidos por estos tres rasgos (Tabla 12.4), el C- test consigue una valoración media bastante alta, “aprueba”, a juicio del alumnado que se enfrenta a ella por primera vez (el rasgo “adecuado” consigue el mayor promedio, un 2,96 en escala de 1 a 5). La Tabla 12.6a, correspondiente al rasgo “adecuado”, indica que el 69 % de las puntuaciones está en los valores más altos de la escala de Likert (3, 4 y 5). Tabla 12.6a. Rasgos del C-test: Adecuado Frecuencia Porcentaje Porcentaje válido Porcentaje acumulado Válidos Mínimo 20 12,3 12,3 12,3 2 29 17,9 17,9 30,2 3 74 45,7 45,7 75,9 4 27 16,7 16,7 92,6 Máximo (escala de Likert) 9 5,6 5,6 98,1 Valores perdidos 3 1,9 1,9 100,0 Total 162 100,0 100,0 Tabla 12.6b. Rasgos del C-test: Completo Frecuencia Porcentaje Porcentaje válido Porcentaje acumulado Válidos Mínimo 14 8,6 8,6 8,6 2 55 34,0 34,0 42,6 3 53 32,7 32,7 75,3 4 31 19,1 19,1 94,4 Máximo (escala de Likert) 8 4,9 4,9 99,4 Valores perdidos 1 ,6 ,6 100,0 Total 162 100,0 100,0 Análisis de la validez aparente del C-test 389 En la Tabla 12.6c llama la atención el alto porcentaje de sujetos que asignan la puntuación mínima a la validez como rasgo de la prueba, probablemente por falta de comprensión o interpretación errónea de la terminología. Tabla 12.6c. Rasgos del C-test: Válido Frecuencia Porcentaje Porcentaje válido Porcentaje acumulado Válidos Mínimo 37 22,8 22,8 22,8 2 39 24,1 24,1 46,9 3 56 34,6 34,6 81,5 4 23 14,2 14,2 95,7 Máximo (escala de Likert) 6 3,7 3,7 99,4 Valores perdidos 1 ,6 ,6 100,0 Total 162 100,0 100,0 En la parte final del cuestionario planteamos la posibilidad de que el C-test fuera una alternativa a la prueba actual de Inglés de Selectividad (Tabla 12.7). Los sujetos manifestaron mayoritariamente su negativa (76,5 %). Esta reacción era previsible y podría deberse simplemente al miedo de enfrentarse a una prueba imprevista a sólo dos meses de las PAAU oficiales y después de una preparación enfocada a otro tipo de prueba. Cuando se propone el C-test sólo como complemento que podría completar el diseño de la actual prueba los porcentajes se equilibran bastante (Tabla 12.8), aunque sigue existiendo cierto recelo inevitable y resistencia al cambio, que, en nuestra opinión, puede enmascarar o sesgar la opinión real del sujeto. Tabla 12.7. El C-test como alternativa a la prueba de Inglés de Selectividad Frecuencia Porcentaje Porcentaje válido Porcentaje acumulado Válidos Sí 37 22,8 22,8 22,8 No 124 76,5 76,5 99,4 valores perdidos 1 ,6 ,6 100,0 Total 162 100,0 100,0 El C-test: alternativa o complemento de otras pruebas en ILE 390 Tabla 12.8. El C-test como complemento de la prueba de Inglés de Selectividad Frecuencia Porcentaje Porcentaje válido Porcentaje acumulado Válidos Sí 80 49,4 49,4 49,4 No 81 50,0 50,0 99,4 valores perdidos 1 ,6 ,6 100,0 Total 162 100,0 100,0 12.5.2. Análisis factorial El análisis factorial es una técnica de reducción de datos que permite encontrar grupos homogéneos de variables a partir de un conjunto de ellas que se consideran independientes. De este modo se pueden explicar mejor las respuestas de los sujetos. Aplicamos este procedimiento de análisis al cuestionario porque queremos comprobar si es posible resumir toda la información disponible sobre la opinión de los sujetos acerca del C-test mediante un número reducido de factores. Para comenzar volvemos a los promedios obtenidos por cada uno de los factores estudiados (Tabla 12.4) en escala del 1 al 5. Esta información nos da una primera aproximación de conjunto. Como hemos visto, destacan el léxico (4,34) y la ortografía (3,94) como factores más valorados, es decir que los sujetos piensan que el C-test mide, sobre todo, aspectos relacionados con el vocabulario. Le siguen otros aspectos como el conocimiento general de la lengua (3,36) y la fluidez (3,32), relativos al dominio de la lengua. Continuamos analizando el KMO. El estadístico KMO (Kaiser-Meyer-Olkin) varía entre 0 y 1. La medida de adecuación muestral (0,7) indica que sí es adecuado realizar el análisis factorial (Tabla 12.10). Si se hubiera obtenido un valor menor que 0,5 no habría sido pertinente continuar con el procedimiento. Un valor de significación mayor que 0,05 en la prueba de esfericidad de Bartlett tampoco lo habría recomendado. Por tanto, a partir de estos datos realizaremos un primer análisis factorial de dos componentes. Análisis de la validez aparente del C-test 391 Tabla 12.10. Estadístico KMO y prueba de Bartlett. Medida de adecuación muestral de Kaiser-Meyer-Olkin. ,717 Prueba de esfericidad de Bartlett Chi-cuadrado aproximado 291,901 Gl 28 Sig. ,000 La comunalidad de una variable es la proporción de su varianza que puede ser explicada por el modelo factorial obtenido. La Tabla 12.11 contiene las comunalidades asignadas inicialmente a las variables y las reproducidas por la solución factorial (extracción). En nuestro caso la ortografía es la variable peor explicada (30,6 % de la varianza). Tabla 12.11. Comunalidades Inicial Extracción Gramática 1,000 ,440 Ortografía 1,000 ,306 General 1,000 ,462 Fluidez 1,000 ,555 Léxico 1,000 ,672 Adecuado 1,000 ,648 Completo 1,000 ,732 Válido 1,000 ,484 Método de extracción: Análisis de Componentes principales. En la Tabla 12.12, los autovalores iniciales expresan la cantidad de varianza total explicada por cada factor. Vemos que con dos factores se explica el 53,7% de la varianza. El gráfico de sedimentación (Figura 12.2), en consonancia con la Tabla anteriormente citada, también muestra que destacan dos componentes, y a partir del tercero se observa que apenas contribuyen a explicar la varianza. Por tanto no es necesario continuar realizando el análisis factorial con tres componentes. El C-test: alternativa o complemento de otras pruebas en ILE 392 Tabla 12.12. Varianza total explicada Autovalores iniciales Sumas de las saturaciones al cuadrado de la extracción Componente Total % de la varianza % acumulado Total % de la varianza % acumulado 1 2,808 35,104 35,104 2,808 35,104 35,104 2 1,491 18,642 53,746 1,491 18,642 53,746 3 ,955 11,935 65,681 4 ,805 10,064 75,744 5 ,585 7,318 83,062 6 ,580 7,249 90,311 7 ,470 5,877 96,188 8 ,305 3,812 100,000 Método de extracción: Análisis de Componentes principales. Figura 12.2. Gráfico de sedimentación de Cattell 1 2 3 4 5 6 7 8 Número de componente 0,0 0,5 1,0 1,5 2,0 2,5 3,0 Au to val or Gráfico de sedimentación Por último, la matriz de componentes (Tabla 12.13) contiene las correlaciones entre las variables originales y cada uno de los factores. Se puede apreciar que el primer factor o componente está constituido por las variables ortografía y léxico, y refleja la dimensión de “vocabulario” en la prueba. El segundo factor está formado por la fluidez y el conocimiento general de la lengua y reflejan el “dominio” de la lengua. Estos resultados coinciden con lo ya observado en el análisis de las tablas de frecuencias del apartado 12.5.1. Análisis de la validez aparente del C-test 393 Tabla 12.13. Matriz de componentes (a) Componente 1 2 Gramática ,637 -,185 Ortografía ,173 ,525 General ,629 ,257 Fluidez ,556 ,496 Léxico ,177 ,800 Adecuado ,783 -,186 Completo ,825 -,225 Válido ,584 -,379 Método de extracción: Análisis de componentes principales. a 2 componentes extraídos 12.6. Conclusiones A partir de los datos obtenidos mediante el cuestionario retrospectivo de opinión y después del estudio de las tablas de frecuencias y del análisis factorial, comprobamos que los sujetos identifican al C-test como prueba que mide principalmente dos factores: vocabulario y destrezas generales. Del análisis, más cualitativo que cuantitativo, de las respuestas a la primera pregunta del cuestionario, de tipo abierto, podemos también extraer algunas conclusiones. Los alumnos fueron capaces de captar algunos aspectos clave del C- test, tales como: - La importancia del contexto en la recuperación de las omisiones. - La influencia del texto de partida (tema, características, etc.) en el grado de dificultad del C-test. - La complicación que supone el paso de omisiones guiadas a no guiadas en la segunda parte de la prueba. - La importancia del vocabulario en la prueba. - La relación del C-test con otras pruebas de cierre en que la frecuencia de las omisiones es menor. - La falta de familiarización con este tipo de prueba. El C-test: alternativa o complemento de otras pruebas en ILE 394 Es evidente que los sujetos reconocen los rasgos que aportan dificultad a la prueba, incluidos los derivados de su aspecto (frecuencia de las omisiones, falta de familiarización, etc.), pero la admiten y reconocen su validez como instrumento de medida. Son muy pocos los que aluden al aspecto externo del C-test como fuente de confusión, si bien algunos más señalan su novedad como problema añadido. Quizá sobrevaloran el papel del conocimiento del vocabulario para resolver correctamente un C-test e infravaloran el de los conocimientos generales de la lengua. Lo que indica que, por su aspecto, el C-test puede parecer una prueba que mide exclusivamente el vocabulario. Al contrario que Weir (1988), Jafarpur (1995) y Bradshaw (1990), entre otros, en este estudio hemos verificado que no hay rechazo hacia el C-test por su formato. El grado de satisfacción expresado por los sujetos supera incluso las expectativas de los propios creadores de la prueba. A pesar de su novedad, la prueba es, en general, bien valorada por los alumnos (según indican los promedios) como reflejo de su conocimiento de la lengua inglesa, especialmente en lo relativo al léxico. No obstante, se aprecia resistencia al cambio, que se expresa en la respuesta negativa a las preguntas que sugieren la inclusión de un C-test como alternativa a la actual prueba de Selectividad o como parte de ella, si bien hemos de atender a los posibles sesgos que afectan a estas cuestiones. Por tanto, el cuestionario retrospectivo ha puesto de manifiesto la validez aparente del C-test y, en consecuencia, se cuestiona y rechaza la hipótesis 5: “Por su novedad y su carácter fragmentario, algo confuso al principio, puede conducir al rechazo. El C-test carece de validez aparente.” Por otra parte, en este estudio se ha constatado que el hecho de que los cuestionarios sean anónimos, por una parte facilita la libre expresión de la opinión de los sujetos, pero por otra, limita el análisis, ya que impide hacer inferencias a partir de las correlaciones entre los resultados obtenidos en el C-test y la valoración que el sujeto hace de la prueba. En investigaciones posteriores este punto ha de ser tenido en cuenta. Conclusiones y síntesis de resultados 395 CONCLUSIONES Y SÍNTESIS DE RESULTADOS Introducción Este trabajo se inscribe en el marco general de la Evaluación de la Lengua, y más concretamente en el de la Evaluación del Inglés como Lengua Extranjera. En él se ha llevado a cabo el análisis del funcionamiento del C-test, subtipo de las pruebas de cierre. Se ha constatado que esta prueba de redundancia reducida presenta ventajas, sobre todo de tipo práctico, frente a los clozes tradicionales. Por ello, se está consolidando como instrumento de medida de la competencia general en Inglés como Lengua Extranjera. Se ha prestado especial atención a algunas de sus características; como la validez, la fiabilidad y la factibilidad. Partiendo de las investigaciones que demuestran la validez de constructo (Eckes y Grotjahn 2006; Klein-Braley y Raatz 1981, 1984; Spolsky 1973; Oller 1979) y contenido (Hughes 1989; Bachman et al. 1996) del C-test, en las que entronca directamente nuestro estudio, nos hemos centrado en su validez criterial y aparente. Nuestro trabajo empírico comienza con el diseño y aplicación de un C-test (formado por cuatro subtests: C-test 1, C-test 2, C-test 3 y C-test 4) a alumnos de 2º curso de Bachillerato. El estudio de la validez del C-test ha abordado varios aspectos. En primer lugar se ha analizado el funcionamiento del C-test partiendo de sus características intrínsecas: modelos y subtests. Se ha intentado acotar las variables que determinan la dificultad o facilidad de los ítems: factores textuales, de formato, tipo de término de las omisiones, etc. El C-test: alternativa o complemento de otras pruebas en ILE 396 En segundo lugar, para probar su validez criterial concurrente como instrumento de medida hemos tomado como referencia principal otra prueba, la de Inglés de las PAAU, ya instaurada y aplicada a gran escala en España. Hemos trabajado con una prueba modelo PAAU realizada en el aula por todos los sujetos de la muestra y con los resultados de la PAAU de Inglés de junio de 2001. Se han revisado las correlaciones entre el C-test, estas pruebas y la valoración que hacen los profesores de Inglés de la evolución y competencia de los sujetos en la 2ª Evaluación del curso escolar. Mediante el procedimiento de regresión lineal se han explorado las relaciones entre las distintas partes o subtests que forman el C-test (C-test 1, C-test 2, C-test 3 y C-test 4) y las otras pruebas aplicadas (VDs): Cavemen?, la Selectividad de junio de 2001 y las calificaciones en la 2ª Evaluación. Se ha analizado la validez aparente del C-test tomando como punto de partida el cuestionario retrospectivo de opinión aplicado a los sujetos de la muestra, a partir de dos procedimientos estadísticos: la confección de tablas de frecuencias y el análisis factorial. La fiabilidad del C-test ha sido estudiada principalmente mediante el método de “análisis por mitades” y calculando el Alfa de Cronbach. Nuestro trabajo ha corroborado la factibilidad de la prueba, reconocida ampliamente en la literatura (Süssmilch 1984; Döryei y Katona 1992; Klein-Braley 1997; Connelly 1997; Babaii y Ansary 2001) y su aplicabilidad, probablemente incluso en formato electrónico. Finalmente, atendiendo a las características de la muestra, detectamos la existencia de dos factores demográficos que pueden suponer diferencias en la actuación de los sujetos en el C-test: el género y el IES de procedencia. Abordamos el género con el análisis de los promedios desglosados por géneros, el ANOVA y el modelo lineal general. En cuanto a los IES, de muy diferente ubicación dentro de la Comunidad de Madrid, se revisaron las características del entorno, los promedios y se realizó un análisis de varianza univariante. A lo largo de nuestro trabajo, siguiendo el orden de presentación de los datos, se han confirmado las hipótesis 1, 3, 4 y 6, mientras que las hipótesis 2, 5, y 7 inicialmente planteadas, han sido rechazadas. Conclusiones y síntesis de resultados 397 Conclusiones Las conclusiones se han organizado en 7 apartados, de acuerdo con las líneas de investigación seguidas en nuestro trabajo. Empezaremos por exponer, en el apartado A, los resultados relativos a la validez de la prueba atendiendo a distintos aspectos. En primer lugar, en el apartado A.1 se analizan los promedios obtenidos en el C-test teniendo en cuenta sus características: estructura en subtests y formato de las omisiones. El apartado A.2 aborda la incidencia de las variables textuales en el grado de dificultad de la prueba. Seguidamente, en el A.3 se analiza la validez criterial concurrente del C-test a partir de sus correlaciones con la prueba de Inglés de las PAAU (oficial y en el aula) y con las calificaciones de Inglés en la 2ª Evaluación. En este apartado abordaremos también las diferencias en las correlaciones del C-test con distintos tipos de pregunta, en definitiva, con la parte objetiva y subjetiva de la prueba de Selectividad. El apartado A.4 mostrará las relaciones entre los subtests y el resto de las pruebas aplicadas (VDs) mediante el análisis de regresión lineal. Por último, en el apartado A.5 exploraremos el cuestionario retrospectivo, que aporta datos empíricos para valorar la validez aparente de la prueba. La fiabilidad del C-test se estudia en el apartado B mediante el método de “análisis por mitades”, el Alfa de Cronbach y el análisis de las correlaciones con las otras pruebas. A continuación, en el apartado C examinaremos la incidencia de dos factores externos a la prueba: el género de los sujetos y la ubicación del IES. Más adelante, en el D se analizarán las implicaciones pedagógicas de todo el trabajo y en el E se incluyen algunos consejos prácticos para la creación de C-tests. Finalmente, en el apartado F se presenta una síntesis de los resultados más relevantes del estudio, para concluir con la propuesta de posibles futuras líneas de investigación en el apartado G. El C-test: alternativa o complemento de otras pruebas en ILE 398 A. Validez del C-test En este epígrafe se exponen los resultados de nuestras investigaciones en torno a la validez de la prueba, estructuradas en varios apartados, desde la validez criterial concurrente hasta la aparente. Se tendrán en cuenta los factores propios del diseño del C-test (estructura en subtests, factores textuales, etc.) y los promedios obtenidos. A.1. Características intrínsecas del C-test aplicado y análisis de promedios Comenzaremos con el análisis de las características o aspectos intrínsecos de la prueba diseñada y aplicada en esta investigación que inciden en la actuación de los sujetos y en los resultados obtenidos en ella. El diseño de la prueba (100 ítems) se estructura en torno a cuatro textos a partir de los cuales se crean cuatro subtests de 25 omisiones cada uno. De este modo conseguimos un buen número de ítems, lo que asegura mayor validez y fiabilidad en las pruebas de cierre, según Farhady y Keramati (1996). En los dos últimos subtests se introduce un cambio de formato al retirar la ayuda de las omisiones. Se diseñaron dos modelos, A y B, alternando el orden de los textos. Los resultados obtenidos en los promedios del C-test (5,112 puntos en escala de 0 a 10) y los subtests son los adecuados para una prueba de tipo normativo con un grado de dificultad medio, y ponen de manifiesto el poder discriminatorio del C- test (Klein-Braley 1984). Los promedios de los subtests varían en función de su grado de dificultad, motivado por distintos factores, pero los histogramas reflejan siempre una distribución normal. Cuando se trata de omisiones no guiadas (subtests 3 y 4) los promedios descienden sensiblemente y la dispersión de puntuaciones es mayor, a pesar de la familiarización con la técnica, lo que indica que el formato de omisiones no guiadas aumenta la dificultad de la prueba. El análisis de las correlaciones entre el C-test y los subtests muestra que todos los subtests correlacionan de forma significativa con el total del C-test (con valores entre 0,727 y 0,877). Las correlaciones entre los subtests no presentan valores tan Conclusiones y síntesis de resultados 399 altos, concretamente el C-test 3 presenta una correlación muy baja con el C-test 1, lo que hace pensar de nuevo en el formato como principal factor de dificultad, aunque no el único. El estudio de los promedios en los subtests de los dos modelos de C-test (A y B) permitió constatar que un mismo texto puede presentar una diferencia de aproximadamente 3 ó 4 puntos en los promedios (sobre un total de 25) dependiendo del tipo de omisión (con o sin pistas). La ayuda que proporciona el número de letras de cada omisión facilita la inferencia. De este modo, se confirma la hipótesis 4; los cambios en el formato influyen directamente en los resultados obtenidos, cuando se incluye el número de letras que corresponde a cada omisión se facilita la tarea del alumno. La incidencia del formato en la recuperación de los ítems se muestra en los estadísticos de frecuencias de la recuperación de términos omitidos. Destaca el aumento de valores perdidos cuando no se aportan pistas, síntoma de lo que hemos denominado efecto psicológico de “desánimo” o desmotivación en los sujetos, que ni siquiera intentan resolverlos. Este tipo de acercamiento proporciona también algunas pautas de recuperación de los términos funcionales y léxicos. El análisis de promedios revela que las mayores dificultades para recuperar el texto inicial surgieron en los subtests creados a partir del texto American imperialism independientemente del formato aplicado, es decir, tanto con omisiones guiadas (10,37) como no guiadas (7,47). Además, los histogramas de American imperialism muestran cómo cambian la distribución de puntuaciones y la desviación estándar con formato guiado y no guiado. Mientras que con omisiones guiadas la distribución es normal, con no guiadas se aprecia un sesgo positivo que viene dado porque las frecuencias más altas corresponden a los valores más bajos de la tabla. En cuanto a la desviación estándar, es menor en el caso de omisiones guiadas. Para explicarlo, en los apartados siguientes dirigiremos nuestra atención a las características del texto sobre el que se diseñaron los subtests. El C-test: alternativa o complemento de otras pruebas en ILE 400 A.2. Incidencia de factores textuales en el grado de dificultad de la prueba En distintos momentos hemos comentado en esta tesis la importancia de los textos a partir de los cuales se crea el C-test. El análisis de los promedios revela la existencia de factores textuales que inciden directamente en la dificultad de la prueba. Entre ellos, mencionaremos el tema del texto, la variación y densidad léxicas, y el tipo de término afectado por la mutilación. Aunque algunos autores (Dörnyei y Katona 1992) mencionan también incidencia de la longitud de las oraciones, en nuestros C-tests se descartó este factor y, por tanto, no se consideró pertinente su análisis. Acerca del tema hemos de decir que la familiarización y el interés que suscita en los sujetos puede suponer una ayuda eficaz (Sasaki 2000). Los propios alumnos lo reflejan en el cuestionario retrospectivo. Sin embargo, resulta difícil cuantificar hasta qué punto influyen en la realización del C-test. En cuanto a la variación y densidad léxicas (Laufer y Nation 1995; Schmitt 2000) hemos visto que a medida que éstas aumentan lo hace también la dificultad del C-test. Según Dörnyei y Katona (1992: 197) y Babaii y Ansary (2001: 217) los textos fáciles son los que mejor funcionan para crear C-tests. En el apartado anterior hemos señalado que en los subtests creados a partir del texto American imperialism se obtienen los promedios más bajos (10,37 y 7,47 en omisiones guiadas y no guiadas, respectivamente). Como veremos a continuación, debido a sus características léxicas derivadas, entre otros factores, del tema del texto, resultó ser el más difícil. El texto presenta un tema de carácter político-histórico, quizá más lejano y de menor interés para el alumno que los otros. Si atendemos al vocabulario, veremos que en él abundan los términos de carácter léxico largos y abstractos, como leadership, development, engagement, cooperation, prosperity, peaceful, etc., algunos de ellos afectados por la mutilación (Laufer 1997). Así pues, la variable temática pudo incidir en la comprensión del texto y en la motivación para intentar recuperarlo correctamente (Sasaki 2000). Además, American imperialism muestra también los valores más altos en variación (70,37) y densidad léxicas (60,18). Y los porcentajes se disparan al tener Conclusiones y síntesis de resultados 401 en cuenta el tipo de término afectado por la mutilación: el 76% de las omisiones corresponde a términos léxicos y tan sólo el 24% a funcionales. La literatura muestra que los términos funcionales se recuperan mejor que los léxicos (Klein-Braley 1985, Dörnyei y Katona 1992, Farhady y Keramati 1996) en las pruebas de cierre. En general es así, pero en nuestro estudio comprobamos que es fundamental notar, además, la incidencia de la redundancia del texto, la longitud de la palabra omitida y su frecuencia en la lengua. A partir del análisis de las varianzas podemos decir que los términos léxicos se recuperan muy bien o muy mal, dependiendo del dominio de la lengua, mientras que en la recuperación de términos funcionales la dispersión de puntuaciones es menor. Estos resultados nos hacen confirmar la hipótesis 3. En ella planteábamos que la recuperación de los términos funcionales sería más fácil que la de los que tienen contenido léxico. Hemos constatado que, en general, los términos de función se recuperan mejor por ser un número limitado en la lengua, pero también debido a su frecuencia de uso y a su tamaño (generalmente son cortos). Por otra parte, los términos léxicos se recuperan bien si son frecuentes en la lengua o redundantes en el texto. La frecuencia es, por tanto, un factor que pondera de una manera significativa en el índice de facilidad/dificultad de los ítems. Así pues, a pesar de todo, la mera clasificación en términos léxicos y gramaticales nos parece insuficiente para explicar su comportamiento en el C-test. El análisis de las correlaciones entre la recuperación de términos léxicos y funcionales en ambos modelos de C-test nos permite afirmar que las variables “léxico” y “función” están muy asociadas en la prueba. Aunque en la literatura encontramos opiniones favorables a la supresión de los términos excesivamente fáciles o difíciles porque no discriminan entre los sujetos (Grotjan 1987; Kamimoto 1993; Jafarpur 1999), consideramos que este tipo de términos debe mantenerse, ya que los muy fáciles pueden resultar motivadores para los sujetos menos expertos y los difíciles un reto para los aventajados. Además, los estudios muestran que su eliminación no cambia los resultados (Jafarpur 1999). El C-test: alternativa o complemento de otras pruebas en ILE 402 A.3. Validez criterial concurrente del C-test Antes de abordar los resultados del análisis de las correlaciones entre el C-test y la prueba de Inglés de las PAAU revisaremos algunos aspectos relativos a la estructura de esta última prueba. La prueba de Inglés de las PAAU se estructura en torno a dos partes de igual valor (5 puntos), una de carácter objetivo y otra subjetiva. La parte objetiva está compuesta por tres preguntas, una de verdadero o falso, otra de vocabulario y una tercera de contenido gramatical. Una pregunta abierta y una redacción integran la subjetiva. En la investigación se trabajó con los resultados de dos pruebas semejantes; una aplicada en el aula (Cavemen?), lo que permitió su desglose, y la PAAU oficial de junio de 2001, a la que sólo se presentó la mitad de los sujetos de la muestra. Los resultados de este estudio confirman los resultados de Herrera (1999): algunas preguntas objetivas de la prueba no discriminan. Comparando los promedios e histogramas de la parte objetiva y subjetiva de la prueba Cavemen? (6,2 y 4,69 respectivamente) observamos que la parte subjetiva resultó más difícil, pero tiene mayor potencia discriminatoria. Resulta llamativo constatar que el C-test correlaciona mejor con la parte subjetiva. Hemos de rechazar, por tanto, la hipótesis 2 que presuponía que, atendiendo a sus características, por ser una prueba de elementos discretos, el C- test debería correlacionar mejor con pruebas de tipo objetivo. Se ha comprobado que, por su carácter de prueba holística en función del contexto, el C-test correlaciona mejor con pruebas de tipo subjetivo y holístico, como las preguntas abiertas y las redacciones. Soyoung Lee (1996), en la línea de Hanania y Shikhani (1986) y Fotos (1991), propone las pruebas de cierre como alternativa a los ensayos. Como veremos, los resultados de nuestra investigación permiten proponer al C-test como alternativa a otras pruebas, tanto de tipo objetivo como subjetivo. El análisis de la validez criterial concurrente del C-test pone de manifiesto que el C-test correlaciona de forma significativa con otras pruebas estandarizadas que miden la competencia global en lengua inglesa. Se obtienen unos valores de Conclusiones y síntesis de resultados 403 correlación muy semejantes (0,722 entre el C-test y la PAAU oficial de junio de 2001, 0,750 con Cavemen? y 0,723 con la 2ª Evaluación). Se confirma así la hipótesis 1, eje fundamental de nuestra investigación: El C-test correlaciona bien tanto con pruebas estandarizadas (PAAU) como con la valoración de los respectivos profesores de Inglés con respecto a la evolución en la asignatura. Entre las dos pruebas PAAU (Cavemen? y la prueba de Inglés de Selectividad de junio de 2001) se aprecia una buena correlación (0,654), aunque es todavía mejor con la 2ª Evaluación (0,805) y con el C-test (0,750). Hay que tener en cuenta la significación y trascendencia de la prueba oficial y las características de su aplicación (trascendencia, ansiedad, etc.). La correlación entre el C-test y la PAAU oficial es también un indicador de la validez predictiva del C-test (0,722). A la luz de estos resultados podemos proponer el uso de C-tests en la preparación de la prueba de Inglés de Selectividad vigente. Aunque el promedio de la PAAU (6,32) es superior al del C-test (5,75), la diferencia se justifica por las características de la PAAU. Para completar y corroborar los resultados obtenidos en el análisis de promedios y correlaciones, se analizó la relación entre los subtests del C-test y las otras pruebas de nuestra investigación mediante el procedimiento de regresión lineal. Con respecto a la 2ª Evaluación, determinamos que el C-test 4 es el que mejor predice los resultados de los sujetos, y que el C-test 1, por el contrario, no contribuye a explicar la varianza. De nuevo, en el caso de Cavemen? es el subtest 4 el mejor predictor de la VD y, el subtest 1, el peor. Este patrón se repite parcialmente también en la Selectividad oficial; el C-test 4 sigue siendo el que mejor explica la varianza, aunque en este caso el C-test 2 queda fuera del modelo. Así pues, el C-test 4 es el que presenta mejor funcionamiento como predictor de las tres variables dependientes estudiadas. Se explica por varias razones: en primer lugar, en el subtest 4 ya se ha producido una suficiente familiarización con la técnica a pesar de las omisiones no guiadas, en segundo lugar, este subtest está diseñado a partir de los dos textos en los que, casualmente, el nivel de densidad y variación léxicas es menor: Women doctors y Evolution, en los modelos A y B respectivamente. El C-test: alternativa o complemento de otras pruebas en ILE 404 A.4. Análisis de regresión lineal En esta investigación se ha utilizado el procedimiento de regresión lineal para explorar y cuantificar las relaciones entre los subtests que forman el C-test (C-test 1, C-test 2, C-test 3 y C-test 4) y las otras pruebas aplicadas (Cavemen?, PAAU de junio de 2001 y 2ª Evaluación). La prueba de regresión lineal corrobora el buen funcionamiento del C-test como predictor de los resultados obtenidos en Inglés en la 2ª Evaluación y en las pruebas de Inglés de Selectividad (oficiales o no). Concretamente, el subtest 4 es el que mejor predice los resultados de los sujetos en todos los casos, lo que no implica que se pudiera prescindir de los otros subtests. Podría resultar llamativo que el subtest que mejor explica la varianza tanto de las calificaciones en la 2ª Evaluación como de las PAAU aplicadas sea uno de los que tiene omisiones no guiadas (C-test 4). Pero estos resultados coinciden con los obtenidos al analizar las correlaciones de los subtests con el total de la prueba: el C- test 4 consigue la mejor correlación con el C-test (0,877), aunque no los promedios más altos. El diseño global de la prueba explica el buen funcionamiento del subtest 4 como predictor de todas las variables dependientes. Cuando se aplicó el C-test, éste era un formato nuevo para el alumno, y a través de la práctica se produjo un aprendizaje. En el subtest 3 la tarea de recuperar los textos se complica al comenzar las omisiones no guiadas, pero en el subtest 4 se domina la técnica, para quedar únicamente las dificultades derivadas de los propios textos: Women doctors (modelo A) y Evolution (modelo B). En este caso, son textos que no presentan dificultades de contenido, y su densidad y variación léxicas son las menores del C-test. Su buen funcionamiento corrobora la tesis de Dörnyei y Katona (1992: 197); los textos más fáciles son los más adecuados para la técnica del C-test. El análisis de regresión lineal aplicado contribuyó a respaldar los resultados obtenidos en los análisis anteriores. Conclusiones y síntesis de resultados 405 A.5. Validez aparente del C-test: cuestionario retrospectivo El aspecto externo del C-test y la novedad de la técnica han provocado reacciones de rechazo en los expertos (Weir 1988; Bradshaw 1990; Jafarpur 1995), que cuestionan la validez aparente de la prueba. Sin embargo, mediante el análisis de los resultados del cuestionario retrospectivo de opinión hemos probado la validez aparente del C-test aplicado. En sus respuestas al cuestionario los sujetos de la muestra manifiestan su aceptación del C-test y evidencian haber encontrado algunas claves de la prueba. En primer lugar, descubren la importancia del contexto para la recuperación de las omisiones, además son conscientes del papel del vocabulario, al que sobrevaloran. Por otra parte, reconocen aspectos que repercuten en el grado dificultad de la prueba, como la frecuencia de las omisiones, el que sean guiadas o no, el tema del texto, etc. Finalmente, descubren en la prueba un buen instrumento de medida de su competencia en lengua inglesa, aunque mencionan la novedad de la técnica y las dificultades encontradas en su resolución. El análisis de frecuencias correspondiente a la valoración del C-test como instrumento de evaluación muestra que la mayoría de los sujetos considera que la prueba mide principalmente aspectos relativos al vocabulario (léxico y ortografía), aunque el conocimiento general de la lengua obtiene también un 3,36 en escala de 1 a 5 y la fluidez un 3,32. Los sujetos destacan que el C-test es una prueba adecuada (el 68% de los sujetos de la muestra otorgan más de un 3 a este rasgo en la escala de Likert de 1 a 5, siendo 5 la puntuación máxima), pero también completa (el 56% la valora en más de 3 puntos en la misma escala) y válida (52,5%). Estos datos contrastan con el estudio de Jafarpur (1995), en el que el 64% de los alumnos y el 57% de los profesores valoraron negativamente al C-test. Ahora bien, cuando se planteó la posibilidad de que el C-test fuera la alternativa a la prueba de Inglés de Selectividad el 76% manifestaron su negativa. El porcentaje bajó considerablemente si se proponía al C-test sólo como parte o complemento de la prueba vigente. Estos porcentajes muestran en los alumnos la resistencia al cambio que Jafarpur (1995) señaló como rasgo del colectivo de los profesores, pero que es propio del ser humano, y el miedo a que en el breve tiempo El C-test: alternativa o complemento de otras pruebas en ILE 406 de unos meses cambiara el planteamiento de la prueba oficial en que se basaba su preparación a lo largo del curso. Mediante el análisis factorial tratamos de encontrar grupos homogéneos de variables, y descubrimos que con sólo dos factores se explica el 53,7% de la varianza. El primer factor se refiere a la dimensión del vocabulario y está formado por las variables “léxico” y “ortografía”. El segundo, formado por la “fluidez” y el “conocimiento general de la lengua” refleja el dominio de la lengua. Por tanto, podemos concluir que los sujetos de la muestra identifican al C-test como prueba que mide el vocabulario y la competencia general en lengua inglesa. No lo rechazan por su formato, aunque reconocen la dificultad que supone su novedad. Queda rechazada la hipótesis 5, que planteaba que el C-test carece de validez aparente y achacaba el rechazo al C-test por parte de los alumnos como consecuencia de su novedad y carácter fragmentario. B. Fiabilidad El estudio de la fiabilidad del C-test muestra la consistencia entre distintas actuaciones del mismo sujeto. Para cuantificar la fiabilidad de la prueba se utilizó el método de “análisis por mitades”, se calculó el Alfa de Cronbach y se revisó el análisis de las correlaciones con otras pruebas. Se rechazó el método test-retest por los posibles sesgos que habría introducido en la investigación (familiarización con la técnica y desmotivación). La estructura del C-test aplicado permitió su división en dos mitades equivalentes para después asignar dos puntuaciones a cada alumno. El análisis de los estadísticos descriptivos evidenció la fiabilidad de la prueba puesto que se obtuvieron valores muy semejantes en los promedios (levemente superiores en la segunda mitad, fruto de la práctica), las puntuaciones máximas y mínimas, el error típico y la desviación. La correlación entre los resultados de ambas mitades fue muy significativa (0,816) El C-test consigue un buen Alfa de Cronbach (0,794) y en total consonancia con los coeficientes de fiabilidad encontrados en el estudio de Dörnyei y Katona (1992: 193), se respalda así la teoría de Klein Braley y Raatz (1984: 140) de que en Conclusiones y síntesis de resultados 407 los C-tests se encuentran coeficientes de validez y fiabilidad aceptables, incluso en los demasiado fáciles o difíciles para los sujetos. En este caso, el C-test presenta una dificultad media, como mencionamos en el apartado A. Por otra parte, las correlaciones entre pruebas que miden el mismo constructo reflejan también consistencia en la actuación. Por tanto, si volvemos a los resultados reflejados en el apartado anterior constatamos una vez más la fiabilidad de la prueba. En cuanto a la fiabilidad del corrector, necesaria para que una prueba sea fiable (Hughes 1989, 1994), hemos de decir que en el C-test las propias características del diseño de la prueba, que deja poco margen a la subjetividad, aseguran un alto grado de fiabilidad. El criterio de corrección elegido también garantiza la objetividad, puesto que sólo la palabra exacta se considera válida. Por tanto, la subjetividad queda limitada a las decisiones del profesor en la fase de diseño de la prueba cuando realiza la selección de los textos a partir de los cuales se creará el C-test. Una vez elegidos, las normas son estrictas (Klein-Braley 1997; Klein-Braley y Raatz 1981, 1984). C. Incidencia de las variables género e IES Los resultados del análisis del ANOVA, el modelo lineal general y los promedios indican cómo inciden las variables externas: género e IES de procedencia de los sujetos en su actuación en el C-test. C.1. Incidencia del género de los sujetos en el C-test Aunque los promedios muestran que las mujeres obtienen mejores resultados que los varones (recordemos que, como media, las mujeres recuperaron aproximadamente cuatro omisiones del C-test más que los varones), el análisis del ANOVA indica que no hay diferencias significativas en la actuación de ambos géneros. Por el contrario, el análisis multivariante sí refleja la existencia de diferencias de género en el C-test y en la 2ª Evaluación, cuando se toma el C-test El C-test: alternativa o complemento de otras pruebas en ILE 408 sin desglosar en subtests, con la muestra de los 81 sujetos que se presentaron a las PAAU oficiales. A pesar todo, las diferencias en los promedios son menores en el C- test que en el resto de las pruebas analizadas. También debemos mencionar que la desviación típica es ligeramente superior en las mujeres. Así pues, los resultados de la variable género indican que no hay diferencias en la actuación de los géneros en el C-test si se toman los subtests individualmente y la muestra de sujetos completa. Pero cuando se reduce la muestra a los sujetos que se presentan a la Selectividad y se analiza el C-test globalmente, sí las hay, aunque otros factores pudieran justificarlas (motivación, interés vocacional, futuros estudios, etc.). Lo que nos lleva a confirmar la hipótesis 6: “No habrá diferencias significativas al aplicar la variable de género” en el primer caso, y a rechazarla en el segundo. C.2. IES de procedencia de los sujetos En cuanto a la variable IES de procedencia de los sujetos, nuestro análisis reveló diferencias en los promedios, fruto, entre otras variables, de las características del entorno socio-económico de los centros educativos (que repercuten en las oportunidades de aprendizaje de los sujetos fuera del IES). Puesto que la disparidad de promedios no implica diferencias significativas en la actuación, se realizó un análisis de varianza univariante que también mostró diferencias entre centros en los resultados del C-test, en concreto entre el IES San Isidoro de Madrid (en las pruebas post-hoc, sig. 0,005 con la corrección de Bonferroni y 0,006 aplicando la corrección de Games-Howell) y los de la periferia. Por otra parte, aunque se aprecian diferencias significativas inter-centros en los resultados de la prueba (debidas probablemente a circunstancias socio-económicas que no podemos valorar en este trabajo), al comparar el comportamiento de todas las pruebas aplicadas, vemos que el C-test funciona igual que cualquier otra prueba. Ha quedado demostrado que discrimina entre los sujetos atendiendo a su dominio de la lengua, independientemente de las características del centro educativo. Hemos de rechazar la hipótesis: “No se prevé que existan diferencias de funcionamiento del C-test al aplicar la variable IES” cuando nos referimos a centros de distinto estatus. Cabría confirmarla en centros de estatus semejante. Conclusiones y síntesis de resultados 409 Al aplicar el análisis de varianza univariante a las dos variables “género” e “IES” siguiendo el modelo lineal general, tomamos el total del C-test como variable dependiente y pudimos ver cómo afectan el género y el centro de los sujetos a la prueba. Descubrimos que ambas variables son independientes, y que el IES San Isidoro, de Madrid capital, presenta diferencias significativas con los otros tres que forman parte del estudio (sig. = 0,008 con Alcobendas y 0,000 con Pinto y Parla). D. Implicaciones pedagógicas Desde la Introducción de esta tesis se planteó la clara orientación pedagógica de la investigación que se ha llevado a cabo. Partimos del interés por encontrar instrumentos prácticos, válidos y fiables para la evaluación de la competencia en Inglés como Lengua Extranjera en la práctica docente. El C-test ha demostrado reunir los rasgos que requiere un instrumento tal de evaluación. Se ha trabajado, sobre todo, la validez criterial concurrente y la aparente del C-test, su fiabilidad y factibilidad. Todas estas características han quedado empíricamente probadas en nuestra investigación. El C-test es una prueba versátil y tiene algo que ofrecer a cada uno de los implicados en el proceso de enseñanza-aprendizaje del inglés. Responde de forma efectiva a las demandas y necesidades del profesorado de idiomas en materia de evaluación. Para el profesorado, el C-test se revela como una prueba válida y fiable para medir la competencia global de los sujetos en Inglés, como muestran las elevadas correlaciones con otras pruebas y el análisis de regresión lineal realizado. Pero no sólo eso, su factibilidad resulta fundamental. La economía de tiempo y esfuerzo que ofrece la prueba a este colectivo, por su facilidad de diseño y corrección es difícilmente igualable por otras pruebas. Momento de especial importancia en la creación de C-tests es el de selección de textos, puesto que las características textuales inciden en el grado de dificultad de la prueba (tema, familiarización, tipo de término omitido, variación y densidad léxicas, etc.). Una vez elegidos recomendamos seguir rigurosamente las indicaciones de Klein- Braley y Raatz (1984). Tanto si se aportan pistas para la recuperación de las omisiones como si no, se consiguen C-tests válidos y fiables. El C-test: alternativa o complemento de otras pruebas en ILE 410 Por otra parte, su carácter de prueba objetiva facilita la corrección, pero no le impide ser buen predictor de la actuación del alumno en pruebas de tipo subjetivo, como los ensayos. No sólo funciona bien como prueba de evaluación de distintos tipos (inicial de nivel, de control, evaluación final), también puede ser utilizado como actividad de aprendizaje en el aula (reflexión sobre la lengua, vocabulario, etc.), de repaso y revisión, incluso como ejercício de autoevaluación. Su diseño es muy apropiado para su explotación mediante las Nuevas Tecnologías, de hecho ya ha comenzado a utilizarse en versiones electrónicas, sobre todo en niveles universitarios. Es obvio que la técnica del C-test resulta muy rentable; podríamos decir que el C-test da mucho y pide muy poco al profesor. Ahora bien, a pesar de las virtudes de la prueba, no parece aconsejable limitar la evaluación del Inglés al uso de C-tests, pero sí incluir este tipo de prueba de cierre en baterías de pruebas y en pruebas estandarizadas, como la actual Selectividad. En el contexto de las PAAU vigentes, ampliamente cuestionadas (Herrera 2005, García Laborda 2005, Sanz y Fernández 2005) recomendamos la inclusión de un C-test en lugar de otras preguntas que han demostrado su bajo poder discriminatorio (como la prueba de “verdadero o falso”). En cuanto al alumnado, destacaremos la validez aparente de la prueba. El análisis del cuestionario retrospectivo de opinión muestra que se valora positivamente al C-test a pesar de su aspecto novedoso y algo confuso al principio, contrastando con los estudios de Bradshaw (1990) y Jafarpur (1995). Su resolución plantea un reto motivador al sujeto. E. Consejos para la creación de C-tests Tomando como referencia la investigación presentada en esta tesis, probadas las características básicas de la prueba (validez, fiabilidad, factibilidad, etc.), desde este trabajo animamos a docentes de Inglés como Lengua Extranjera y expertos en evaluación a la creación y aplicación de C-tests, tanto en el ámbito del aula (de cualquier nivel) como en el de exámenes estandarizados. Conclusiones y síntesis de resultados 411 En las clases de idiomas el C-test es un ejercicio interesante y motivador para reflexionar sobre la lengua, para introducir o fijar vocabulario, como autoevaluación después de haber trabajado un texto concreto, etc. Las posibilidades de aplicación dependen más de la creatividad del profesor, que puede adaptarla a su contexto y necesidades, que de la propia prueba. Y por supuesto, como ha demostrado nuestra investigación, funciona muy bien como prueba de evaluación de la competencia lingüística global del alumno. Por eso, partiendo de las indicaciones de expertos, tales como Hughes (1989: 37) y Klein-Braley (1997: 64) y de la propia experiencia en la elaboración de C-tests, presentamos las siguientes sugerencias para la creación de C-tests. La técnica del C-test permite seguir las recomendaciones de Hughes (1989); proponer una tarea precisa y controlada, clara y sin ambigüedades para el alumno, completa en cuanto al número de ítems pero no agobiante. La secuencia para diseñar un buen C-test incluye los pasos siguientes: • Pre-selección de un buen número de textos, preferiblemente auténticos, pero siempre adaptados al nivel de competencia de los sujetos. La selección final incluirá 4 ó 5 de nivel y tema adecuado, ordenados según su grado de dificultad. El C-test funcionará incluso con textos fáciles, debido a su potencia discriminatoria y carácter motivador. • Mutilación de los textos elegidos aplicando las normas y parámetros de Klein- Braley y Raatz (1984). • Administración de la prueba a un grupo de control (nativos o buenos conocedores de la lengua objeto de estudio), que ha de conseguir puntuaciones en torno al 90% de aciertos. Si los resultados muestran la validez y fiabilidad de la prueba, pueden aplicarse a los grupos a que van dirigidos, siempre cuidando los siguientes aspectos, comunes a cualquier otro tipo de prueba de evaluación: - Familiarizar al alumno con la técnica y formato de la prueba. - Cuidar la tipografía, el orden y la claridad. El C-test: alternativa o complemento de otras pruebas en ILE 412 - Proporcionar instrucciones claras y precisas, orales y escritas. También es aconsejable aportar un modelo de realización del C-test cuando es totalmente nuevo para los sujetos. - Dejar tiempo suficiente en la administración. - Procurar que las condiciones de administración del examen sean las adecuadas: duración de la prueba, lugar, luz, condiciones acústicas, temperatura, silencio, etc. El buen criterio del profesor debe guiar siempre el diseño de las pruebas. Dependiendo del contexto, del nivel de competencia del alumnado al que van dirigidos y los objetivos que se pretenda lograr, se utilizará un tipo u otro de texto (materiales auténticos, adaptados, previamente trabajados, nuevos, etc.) para la creación de C-tests. F. Síntesis de los resultados más relevantes del estudio A continuación resumiremos los resultados más significativos de esta tesis, que, no obstante, deben ser interpretados con cautela y debidamente contrastados en investigaciones posteriores: 1. Los promedios globales obtenidos en el C-test aplicado (5,112 puntos) muestran su potencia discriminatoria como prueba de tipo normativo, de dificultad media (Klein-Braley 1984). Los promedios de los subtests varían en función de su grado de dificultad, motivado por distintos factores. 2. Entre los factores que inciden en el grado de dificultad de la prueba destacan las características textuales y el formato de las omisiones. El formato de omisiones no guiadas (subtests 3 y 4) aumenta la dificultad de la prueba, pues los promedios descienden sensiblemente y la dispersión de puntuaciones aumenta, a pesar de la familiarización con la técnica. Pero se consiguen pruebas válidas y fiables independientemente del formato. En cuanto al texto, se hace hincapié en la apropiada selección (Dörnyei y Katona 1992, Babaii y Conclusiones y síntesis de resultados 413 Ansary 2001), pues aunque se logran C-tests válidos en textos difíciles (Klein Braley y Raatz 1984), el funcionamiento de la prueba mejora en los fáciles y adecuados al nivel de los sujetos, que resultan además motivadores. En nuestro estudio se ha analizado principalmente la incidencia del tema, variación y densidad léxicas, y el tipo de palabra afectada por la mutilación (términos léxicos y funcionales). El conocimiento e interés por el tema aumenta la motivación y facilita la tarea. A mayor variación y densidad léxicas, mayor dificultad en la resolución del C-test. Aunque se recuperan mejor los términos funcionales, reconocemos la influencia de otros factores, como la frecuencia de uso, el tamaño y grado de abstracción de los términos léxicos. 3. El análisis de las correlaciones del C-test con otras pruebas indica su validez criterial concurrente al medir la competencia global de los alumnos españoles de 2º de Bachillerato en Inglés como Lengua Extranjera. Los valores de correlación del C-test con las PAAU oficiales (0,722), con el modelo aplicado en el aula (0,750) y con la valoración de los profesores de Inglés en la 2ª Evaluación (0,723) son muy semejantes, y están en la línea de los obtenidos en otros estudios similares (Dörnyei y Katona 1992). Si tenemos en cuenta las dos partes (objetiva y subjetiva) que forman la PAAU de Inglés vigente vemos que el C-test correlaciona mejor con la parte subjetiva, que es también la que mejor discrimina entre los sujetos. Con las preguntas abiertas de Cavemen? se obtuvo una correlación de 0,616 y con la redacción 0,665. Obviamente, el C- test también ha mostrado en nuestro estudio su excelente correlación con la Gramática (0,672). Por todo ello, atendiendo a los resultados obtenidos y garantizada su validez, el C-test puede ser utilizado en el aula como preparación de las PAAU, como mera actividad de aprendizaje o autoevaluación, o bien podría formar parte de cualquier prueba estandarizada a gran escala, como la PAAU. 4. La fiabilidad o consistencia del C-test queda patente tanto en el Alfa de Cronbach (0,794) como en el análisis split-half, en el que la correlación entre los resultados de las dos mitades fue de 0,816. Asimismo, las características del diseño de la prueba, de tipo objetivo, a la vez que facilitan la tarea de la El C-test: alternativa o complemento de otras pruebas en ILE 414 corrección, aseguran un alto grado de fiabilidad del corrector pues no hay lugar para la subjetividad. 5. Contrastando con el punto de vista reflejado en los estudios de Bradshaw (1990) y Jafarpur (1995), nuestra investigación confirma la validez aparente del C-test. Aparece reflejada en los datos de nuestro cuestionario, que indaga en la opinión de los sujetos acerca de la prueba. Las escalas de Likert y el análisis factorial muestran que, a pesar de su novedad, los alumnos aceptan al C-test como prueba válida para medir su competencia en lengua inglesa, y reconocen la importancia de las claves contextuales para recuperar el texto y la ayuda que aportan las omisiones guiadas. 6. Siguiendo la pauta de otros estudios, puede observarse que los promedios en el C-test son más altos en el grupo de mujeres que en el de los varones. No obstante, el análisis del ANOVA revela que no hay diferencias significativas en la actuación de ambos géneros cuando se toman los subtests individualmente. Resultado que contrasta con el obtenido mediante el análisis multivariante, que refleja la existencia de diferencias entre géneros en el C-test y en la 2ª Evaluación, si se toma el C-test globalmente para el grupo de sujetos de mayor competencia lingüística, es decir, los que se presentaron a las PAAU oficiales. 7. Hay diferencias según el centro en función del medio social. Se aprecian en los promedios obtenidos en el C-test y en el análisis de varianza univariante. Pueden explicarse por las características de los entornos socio-económicos en que se encuentran ubicados los IES participantes en el estudio, que suponen la existencia o no de oportunidades de aprendizaje fuera de la escuela. Si se aplica el procedimiento de análisis de varianza univariante conjuntamente a las variables “género” e “IES” siguiendo el modelo lineal general, se observa la independencia de ambas variables, y que el IES San Isidoro, de Madrid capital, presenta diferencias significativas con los otros tres que forman parte del estudio (sig. = 0,008 con Alcobendas y 0,000 con Pinto y Parla), sus elevados promedios destacan siempre. Conclusiones y síntesis de resultados 415 8. A lo largo de nuestro trabajo el C-test se ha revelado como una prueba práctica y rentable, en la línea de autores como Süssmilch (1984), Dörnyei y Katona (1992), Klein-Braley (1997), Connelly (1997), Babaii y Ansary (2001). Su factibilidad y versatilidad como instrumento de evaluación no admite discusión. No es que el C-test valga “para todo” (Klein-Braley 1997), pero sí muestra rasgos tan ventajosos para el desarrollo de la tarea de evaluación de la lengua que merecen ser tomados en cuenta. G. Propuesta de posibles futuras líneas de investigación No podemos concluir nuestro trabajo sobre el C-test sin reconocer la amplitud de las vías de investigación que quedan todavía abiertas en torno a esta prueba de evaluación. Proponemos continuar el trabajo en los siguientes campos: - Desde la lingüística contrastiva, comparando su funcionamiento en sujetos de otras lenguas maternas y en el aprendizaje de Segundas Lenguas de características diferentes al Inglés. - Desde la validez de constructo. Queda abierto el reto de conocer qué mide realmente el C-test, pues hasta ahora tan sólo se han apuntado ideas que es necesario acotar y precisar. - Con el estudio de la validez del C-test en sujetos con distintos niveles de competencia en la lengua (niveles básicos, ESP, etc.). - Abordando su validez aparente mediante el análisis de la opinión del profesorado de idiomas. - En el análisis de sus posibles aportaciones en el aula de Lenguas Extranjeras como instrumento de aprendizaje más que de evaluación. - Valorando el papel de las estrategias de aprendizaje de lenguas que se utilizan en su resolución. - En la investigación y desarrollo de la aplicabilidad de la prueba en el ámbito de las Nuevas Tecnologías (Internet). Bibliografía 417 BIBLIOGRAFÍA Aarts, F. y J. Aarts (1988) English Syntactic Structures: Functions and Categories in Sentence Analysis. New York: Prentice-Hall. Adair, J. G. (1984) The Hawthorne Effect: A Reconsideration of the Methodological Artifact. Journal of Applied Psychology 69 (2), 334-345. Adair, J. G. et al. (1989) Hawthorne Control Procedures in Educational Experiments: A Reconsideration of Their Use and Effectiveness. Review of Educational Research 59 (2), 215-228. Alarcos, E. (1994) Gramática de la Lengua Española. Madrid: Espasa Calpe S.A. Alcaraz, E. y J. Ramón (1980) La evaluación del inglés. Teoría y práctica. Madrid: SGEL, S.A. Alcina J. y J. M. Blecua (1975) Gramática española. Barcelona: Ed. Ariel. Alderson, J. C. (1979) The cloze procedure and proficiency in English as a foreign language. TESOL Quarterly 13, 219-23. Alderson, J. C. (1980) Native and non-native speaker performance on cloze tests. Language Learning 30, 59-76. Alderson, J. C. (1990) Testing Reading Comprehension Skills (Part I). Reading in a Foreign Language 6 (2), 425-438. Alderson, J. C. (1991) Language Testing in the 1990´s: How far have we come? How much further have we to go? En Anivan, S., ed. Current developments in language testing, 1-26. Singapore: Regional Language Center. Alderson, J. C. (1995) Assessing Student Performance in the ESL Classroom. TESOL Quarterly 29 (1), 184-187. Alderson, J. C. (2000) Assessing Reading. Cambridge: Cambridge University Press. El C-test: alternativa o complemento de otras pruebas en ILE 418 Alderson, J. C. y J. Banerjee (2001) Language Testing and Assessment (Part I) Language Teaching: The International Abstracting Journal 213-236. Cambrige: Cambrige University Press. Alderson, J. C. y G. Buck (1993) Standards in testing: a study of the practice of UK examination boards in EFL/ESL testing. Language Testing 10 (1), 1-26. Alderson, J. C. y L. Hamp-Lyons (1996) TOEFL preparation courses: a study of washback. Language Testing 13 (3), 280-297. Alderson, J. C. y D. Wall (1993a) Does washback exist? Applied Linguistics 14 (2), 115-129. Alderson, J. C. y D. Wall (1993b) Examining washback: The Sri Lankan Impact Study. Language Testing 10 (1), 41-69. Allan, D. (1999) Testing and Assessment. English Teaching Professional 11, 19. Álvarez Méndez, J. M. (2001) Evaluar para conocer, examinar para excluir. Madrid: Ediciones Morata. Álvarez Méndez, J. M. (2003) La evaluación a examen. Ensayos críticos. Madrid: Miño y Dávila Eds. Andrés Cortés, J. (2004) Análisis Lingüístico de Términos Comparados en Inglés Técnico Agrícola. Tesis doctoral sin publicar. Madrid: Universidad Complutense. Andrews, S. et al. (2002) Targeting washback –a case-study. System 30, 207-223. Amengual Pizarro, M. (2003) Análisis de la fiabilidad en las puntuaciones holísticas de ítems abiertos. Tesis doctoral sin publicar. Madrid: Universidad Complutense. Amengual Pizarro, M. (2005) Posibles sesgos en el examen de Selectividad. En Herrera Soler, H. y J. García Laborda, eds. Estudios y criterios para una Selectividad de calidad en el examen de Inglés, 121-148. Valencia: Ed. Universidad Politécnica de Valencia. Amengual Pizarro, M. et al. (2001) Discrepancy in ratings of second language performance. La lingüística española a finales del siglo XX. Ensayos y propuestas, Tomo I, 23-29. AESLA. Universidad de Alcalá. Amengual Pizarro, M. y H. Herrera Soler (2001) Rater’s assumptions about form and content. En Trabajos en Lingüística aplicada, 63-71. AESLA. Barcelona. Bibliografía 419 Amengual Pizarro, M. y H. Herrera Soler (2003) What is it that raters are judging? Las lenguas en un mundo global, 319. AESLA. Universidad de Jaén. Arnaud, P. J. L. (1984) The lexical richness of L2 written productions and the validity of vocabulary tests. En Culhane, T. et al., eds. Practice and problems in language testing. Occasional Papers 29, 14-28. Colchester: University of Essex. Babaii, E. y H. Ansary (2001) The C-test. A valid operationalization of reduced redundancy principle? System 29, 209-219. Babaii, E. y M. J. Moghaddam (2006) On the interplay between test task difficulty and macro-level processing in the C-test. System 34, 586-600. Bacha, N. (2001) Writing evaluation: what can analytic versus holistic essay scoring tell us? System 29, 371-383. Bachman, L. F. (1982) The trait structure of cloze test scores. TESOL Quarterly 16, 61-70. Bachman, L. F. (1985) Performance on cloze tests with fixed ratio and rational deletions. TESOL Quarterly 19, 535-56. Bachman, L. F. (1990) Fundamental Considerations in Language Testing. Oxford: Oxford University Press. Bachman, L. F. (2000) Modern language testing at the turn of the century: assuring that what we count counts. Language Testing 17 (1), 1-42. Bachman, L. F. (2004) Statistical Analyses for Language Assessment. Cambridge: Cambridge University Press. Bachman, L. F. y A. S. Palmer (1996). Language Testing in Practice. Oxford: Oxford University Press. Bachman, L. et al. (1996) The use of test method characteristics in the content analysis and design of EFL proficiency tests. Language Testing 13 (3), 125- 149. Bailey, K. (1996) Working for washback: a review of the washback concept in language testing. Language Testing 13 (3), 257-259. Bello, A. (1984) Gramática de la Lengua Castellana. Madrid: EDAF, S.A. El C-test: alternativa o complemento de otras pruebas en ILE 420 Bensoussan, M. y R. Ramraz (1984) The fill-in test: a modified multiple-choice cloze technique to test reading comprehension of English as a foreign language. En Culhane et al., eds. Practice and problems in language testing. Occasional Papers 29, 44-65. Colchester: University of Essex. Bialystok, E. (1998) Coming of Age in Applied Linguistics. Language Learning 48 (4), 497-518. Bocanegra, A. (2001) El aula de lenguas segundas/extranjeras como contexto para la generación y procesamiento del aducto. En La Lingüística Aplicada a finales del siglo XX. Ensayos y propuestas. Tomo 1, 31-43. AESLA. Universidad de Alcalá. Bocanegra A. y P. Franco (2003) El aprendizaje estratégico de los estudiantes principiantes y avanzados de inglés como lengua extranjera. En Las lenguas en un mundo global, 320. AESLA. Jaén. Bogaards, P. (2000) Testing L2 Vocabulary Knowledge at a High Level: the Case of the Euralex French Tests. Applied Linguistics 21 (4), 490-516. Bradshaw, J. (1990) Test-takers’ reactions to a placement test. Language Testing 7 (1), 13-30. Braine, G. (2001) When an exit test fails. System 29, 221-234. Broadfoot (2005) Dark alleys and blind bends: testing the language of learning. Language Testing 22 (2), 123-141. Brown, J. D. (1983) A closer look at cloze: Validity and reliability. En J. W. Oller, Jr. ed, Issues in language testing research, 237-50. Rowley, Massachusetts: Newbury House Publishers. Brown, J. D. (1988) Understanding Research in Second Language Learning. Cambridge: Cambridge University Press. Brown, J. D. (1988) Tailored cloze: Improved with classical item analysis techniques. Language Testing 5, 19-31. Brown, J. D. (1993) What are the characteristics of natural cloze tests? Language Testing 10 (2), 93-116. Brumfit, C. J. (2001) Individual freedom in language teaching. Oxford: Oxford University Press. Butler, C. (1985) Statistics in Linguistics. Oxford: Blackwell. Bibliografía 421 Butler, F. A. y R. Stevens (2001) Standardized assessment of the content knowledge of English language learners K-12: current trends and old dilemmas. Language Testing 18 (4), 409-427. Bybee, J. (1995) Diachronic and Typological Properties of Morphology and their Implications for Representation. Morphological Aspects of Language Processing, 226-246. Feldman L. B., ed. Hillsdale (NJ): Lawrence Erlbaum. Bygate, M. (2004) Some current trends in applied linguistics: Towards a generic view. AILA Review 17, 6-22. Cabré T. y A. Adelstein (2001) ¿Es la terminología lingüística aplicada? En Trabajos en Lingüística aplicada, 387-393. AESLA. Barcelona. Cameron, D. (2005) Language, Gender, and Sexuality: Current Issues and New Directions. Applied Linguistics 26 (4), 482-502. Canale, M. (1988) The measurement of communicative competence. Annual Review of Applied Linguistics 8, 67-84. Canale, M. y M. Swain (1980) Theoretical bases of communicative approaches to second language teaching and testing. Applied Linguistics 1, 1-47. Carrol, J. B. (1982) Language testing –is there another way? En Heaton, J. B., ed. Language Testing. UK: Modern English Publications Ltd. Carroll, J. B. (1987) Review of “C-tests in der Praxis”, AKS Rundbrief 13/14 Bochum, 1985. Language Testing 4, 99-106. Carter, R. (1987) Vocabulary: Applied Linguistic Perspective (2nd Edition) London: Routledge. Carter, R. (1988) Vocabulary, cloze and discourse: an applied linguistic view. En Carter, R. y M. McCarthy, eds. Vocabulary and Language Teaching. London: Longman. Carter, R. y M. McCarthy, eds. (1988) Vocabulary and Language Teaching. London: Longman. Catford, J. C. (1998) Language Learning and Applied Linguistics: a Historical Sketch. Language Learning 48 (4), 465-496. Chalhoub-Deville, M. (1997) Theoretical Models, Assessment Frameworks and Test Construction. Language Testing 14 (1), 3-22. El C-test: alternativa o complemento de otras pruebas en ILE 422 Chalhoub-Deville, M. (2003) Second language interaction: current perspectives and future trends. Language Testing 20 (4), 369-383. Chamot, A. U. y J. M. O’Malley (1994) Language Learner and Learning Strategies. En Ellis, N. C., ed. Implicit and explicit learning of languages. London: Academic Press. Chapelle, C. A. (1994) Are C-tests valid measures for L2 vocabulary research? Second Language Research 10, 157-187. Chapelle, C. A. y R. G. Abraham (1990) Cloze Method: What Difference does it make? Language Testing 7 (2), 121-146. Chapelle, C. A. et al. (2003) Validation of a web-based ESL test. Language Testing 20 (4), 409-439. Chaudron, C. et al. (2001) La composición como comunicación: influencia en el desarrollo general del inglés como segunda lengua en un contexto de instrucción. La lingüística española a finales del siglo XX. Ensayos y propuestas. Tomo I, 54-62. AESLA. Universidad de Alcalá. Chavez-Oller, M. A. et al. (1985) When are cloze items sensitive to constraints across sentences? Language Learning 35, 181-206. Chihara, T. et al. (1977) Are cloze items sensitive to constraints across sentences? Language Learning 27, 63-73. Cohen, A. D. et al. (1984) The C-test in Hebrew. Research Note. Language Testing 1, 221-225. Connelly, M. (1997) Using C-Tests in English with Post-Graduate Students. English for Specific Purposes 16 (2), 139-150. Cook, V. (1996) (2nd Edition) Second Language Learning and Language Teaching. London: Arnold. Council of Europe (2001) Common European Framework of Reference for Languages: Learning, teaching, assessment. Cambridge: Cambridge University Press. Cronbach, L. J. (1971) (2nd Edition) Test validation. En Thorndike, R.L. Ed. Educational Measurement. Washington, DC: American Council of Education. Culhane, T. et al. Eds. (1984) Practice and problems in language testing. Occasional Papers 29. Colchester: University of Essex. Bibliografía 423 Cumming, A. (1990) Expertise in evaluating second language compositions. Language Testing 7 (1) 31-51. Cumming, A. (1996) Introduction: The Concept of Validation in Language Testing. En Cumming, A. y R. Berwick, eds. Validation in Language Testing, Modern Languages in Practice 2, 1-14. Clevendon: Multilingual Matters Ltd. Cumming, A. y R. Berwick, eds. (1996) Validation in Language Testing. Modern Languages in Practice 2. Clevendon: Multilingual Matters Ltd. Cushing, S. (1994) Effects of training on raters of ESL compositions. Language Testing11 (2) 197-223. Dastjerdi, H. V. y M. R. Talebinezhad (2006) Chain-preserving deletion procedure in cloze: a discoursal perspective. Language Testing 23 (1) 58-72. Davies, A. (1997) The limits of ethics in language testing. Language Testing 14 (3), 235-241. Davies, A. (1997) Demands of being professional in language testing. Language Testing 14 (3), 328-339. Davies, A. (2003) Three heresies of language testing research. Language Testing 20 (4), 355-367. Davidson, F. (1996) Principles of Statistical Data Handling. California: SAGE Publications, Inc. Decoo, W. (2003) Language Methods and CALL: Redefining our Relations. Computer Assissted Language Learning 16 (4), 269-274. Denton, J., Lewis, R. y A. Siles Suárez (1996) Themes for 1º Bachillerato. Burlington Books. Doménech, J. M. (2001) Fundamentos de diseño y estadística. UD 13: Correlación y regresión lineal. Barcelona: Signo. Dörnyei, Z. (2003) Questionnaires in Second Language Research: Construction, Administration, and Processing. Mahwah, NJ.: Lawrence Erlbaum Associates. Dörnyei, Z. y L. Katona (1992) Validation of the C-Test amongst Hungarian EFL Learners. Language Testing 9, 187-206. Doughty, C. I. y M. H. Long, eds. (2003) The Handbook of Second Language Acquisition. Oxford: Blackwell Publishing Ltd. El C-test: alternativa o complemento de otras pruebas en ILE 424 Douglas, D. y C. Chapelle (1993) A New Decade of Language Testing Research. Alexandria, Virginia: TESOL. Eckardt, A. y B. Voss (2006) The UNIcert® initiative -an Update. [Documento de Internet disponible en http://www.acad.polyu.edu.hk/~02900821r/ilta/rr-2.htm]. Eckes, T. y R. Grotjahn (2006) A closer look at the construct validity of C-tests. Language Testing 23 (3) 290-325. Eco, U. (1977) Come si fa una tesi di laurea. Le materie umanistiche. Milano: Tascabili Bompiani. Elder, C. (1997) What does test bias have to do with fairness? Language Testing 14 (3), 261-277. Ellis, N. C. y A. Beaton (1993) Psycholinguistic determinants of foreign language vocabulary learning. Language Learning 43 (4), 559-617. Ellis, R. (1985) Understanding Second Language Acquisition. Oxford: Oxford University Press. Ellis, N. C., ed. (2000) (1st Edition 1994) Implicit and explicit learning of languages. London: Academic Press. Esteban, M., Herrera, H. y M. Amengual (2001) ¿Puede el C-test ser una alternativa a otras pruebas en la enseñanza del inglés como segunda lengua? La lingüística española a finales del siglo XX. Ensayos y propuestas. Tomo I, 169- 175. AESLA. Universidad de Alcalá. Esteban, M., Herrera, H. y M. Amengual (2000) Niveles de correlación entre el C-test y las pruebas de Inglés de Selectividad. Comunicación al XIX Congreso Nacional de AESLA. Universidad de León. Esteban, M. y H. Herrera (2003) El C-test: instrumento apropiado para la evaluación de la competencia en inglés como lengua extranjera. Las lenguas en un mundo global, 323. AESLA. Universidad de Jaén. Esteban García, M. (2005) Niveles de correlación entre el C-test y la prueba de Inglés de Selectividad. En Herrera Soler, H. y J. García Laborda, eds. Estudios y criterios para una Selectividad de calidad en el examen de Inglés, 165-185. Valencia: Ed. Universidad Politécnica de Valencia. Falk, B. (1984) Can grammatical correctness and communication be tested simultaneously? En Culhane,T. et al., eds. Practice and problems in language testing. Occasional Papers 29, 90-96. Colchester: University of Essex. Bibliografía 425 Farhady, H. (1979) The disjunctive fallacy between discrete-point and integrative tests. TESOL Quarterly 13, 347-357. Farhady, H. y M. N. Keramati (1996) A text-driven method for the deletion procedure in cloze passages. Language Testing 13 (2), 191-207. Feldmann, U. y B. Stemmer (1987) Thin___ aloud a___ retrospective da___ in C- te___ taking: diffe___ languages- diff___ learners- sa___ approaches?. En Faerch, C. y G. Kasper, eds. Introspection in Second Language Research. Clevendon: Multilingual Matters Ltd. Fernández Álvarez, M. e I. Sanz Sáiz (2005) Breve historia del examen de Selectividad. En Herrera Soler, H. y J. García Laborda, eds. Estudios y criterios para una Selectividad de calidad en el examen de Inglés, 19-26. Valencia: Ed. Universidad Politécnica de Valencia. Fernández Álvarez, M. e I. Sanz Sáiz (2005) Metodología para el diseño de una prueba de Inglés en Selectividad. En Herrera Soler, H. y J. García Laborda, eds. Estudios y criterios para una Selectividad de calidad en el examen de Inglés, 41-62. Valencia: Ed. Universidad Politécnica de Valencia. Fernández Toledo, P. (2001) Uso de estrategias discursivas y de género en la comprensión lectora de inglés como lengua extranjera. En Perspectivas recientes sobre el discurso, 152. AESLA Universidad de León. Fotos, S. (1991) The Cloze Test as an Integrative Measure of EFL Proficiency: A Substitute for Essays on College Entrance Examinations. Language Learning 41 (3), 313-336. Fox. J. (2004) Test decisions over time: tracking validity. Language Testing 21 (4), 437-465. Freedle, R. y I. Kostin (1999) Does the test matter in a multiple-choice test of comprehension? The case for the construct validity of TOEF’s minitalks. Language Testing 16 (1), 2-32. Fries, C. C. (1945) Teaching and Learning English as a Second Language. Michigan: University Press. Fukkink, R. G. et al. (2001) Deriving Word Meaning from Written Context: A Multicomponential Skill. Language Learning 51 (3), 477-496. Fulcher, G. (1997) An English language placement test: issues in reliability and validity. Language Testing 14 (2), 113-138 El C-test: alternativa o complemento de otras pruebas en ILE 426 Fulcher, G. (1999a) Assessment in English for Academic Purposes: Putting Content Validity in Its Place. Applied Linguistics 20 (2), 221-236. Fulcher, G. (1999b) Ethics in Language Testing. TAE SIG Newsletter 1 (1), 1-4. [Documento de Internet disponible en http://taesig.8m.com/news1.html]. Gamaroff, R. (2000) Rater reliability in language assessment: the bug of all bears. System 28, (31-53). García Hoz, V. (1992) Enseñanza y aprendizaje de las lenguas modernas. Madrid: Ediciones Rialp, S.A. García Laborda, J. (2005) Un análisis cualitativo de la Selectividad de Inglés abierto a la esperanza. En Herrera Soler, H. y J. García Laborda, eds. Estudios y criterios para una Selectividad de calidad en el examen de Inglés, 27-40. Valencia: Ed. Universidad Politécnica de Valencia. García Laborda, J. y L. G. Bejarano (2005) Análisis de la necesidad de creación de páginas web para la evaluación y baremación de estudiantes internacionales: una experiencia internacional. En Actas de la XXII Edición del Congreso Internacional de la Asociación Española de Lingüística Aplicada (AESLA). García Laborda, J. y E. Enríquez Carrasco (2005) Expectativas institucionales del proyecto HIELO/HIEO en Internet (e intranet) en la baremación inicial (diagnóstico) de Lenguas para Fines Específicos a gran escala. Las TIC en el aula, 100-110. Madrid: UNED. Gibbons, J. y E. Ramírez (2004) Maintaining a Minority Language. A Case Study of Hispanic Teenagers. Clevendon: Multilingual Matters Ltd. Giné, N. y A. Parcerisa (2000) Evaluación en la educación secundaria. Elementos para la reflexión y recursos para la práctica. Barcelona: Ed. GRAÓ. Gipps, C. (1994) Beyond Testing. London: The Falmer Press. González-Cascos, E. (2000) La evaluación de la L2. En Ruiz, J. et al. (Coord.) Estudios de metodología de la lengua inglesa. Valladolid: Centro Buendía, Universidad de Valladolid. Graña López, B. (1997) Frecuencia y procesamiento léxico. Revista Española de Lingüística Aplicada 12, 27-41. Green, A. B. y C. J. Weir (2004) Can placement test inform instructional decisions? Language Testing 21 (4), 467-494. Bibliografía 427 Grotjahn, R. (1986) Test validation and cognitive psychology: some methodological considerations. Language Testing 3 (2), 159-85. Grotjahn, R. (1987) On the Methodological Basis of Introspective Methods. En Faerch, C. y G. Kasper, eds. Introspection in Second Language Research. Clevendon: Multilingual Matters Ltd. Goulden, R., Nation, P. y J. Read (1990) How Large Can a Receptive Vocabulary Be? Applied Linguistics 11, 431-359. Hadley G. S. y J. E. Naaykens (2006) An Investigation of the Selective Deletion Cloze Test as a Valid Measure of Grammar-Based Proficiency in Second Language Learning. [Documento de Internet disponible en http://www.nuis.ac.jp/~hadley/publication/nucloze/NUCLOZE.htm]. Halliday, M. A. K. (1987) An Introduction to Functional Grammar. London: Edward Arnold. Halliday, M. A. K. y R. Hasan (1987) Cohesion in English. London: Longman. Hamilton, J. et al. (2001) Teachers perceptions of on-line rater training and monitoring. System 29, 505-520. Hamp-Lyons, L. (1991) Scoring procedures for ESL contexts. En Hamp-Lyons, L., ed. Assessing Second Language Writing in Academic Contexts, 241-276. Norwood, NJ: Ablex. Hamp-Lyons, L. (1997) Washback, impact and validity: ethical concerns. Language Testing 14 (3), 295-303. Hatch, E. y C. Brown (1995) Vocabulary, Semantics and Language Education. Cambridge: Cambridge University Press. Heaton, J. B., ed. (1982) Language Testing. UK: Modern English Publications Ltd. Heinlenman, L. (1983) The use of a cloze procedure in foreign language placement. The Modern Language Journal 67, 121-6. Henricksen, B. (1999) Three dimensions on vocabulary development. Studies in Second Language Acquisition 21 (2), 303-317. Herrera Soler, H. (1999) Is the English test in the Spanish University Entrance Examination as discriminating as it should be? Estudios Ingleses de la Universidad Complutense 7, 89-107. El C-test: alternativa o complemento de otras pruebas en ILE 428 Herrera Soler, H. (2000-2001) The effect of gender and working place of raters on University Entrance Examination scores. RESLA 14, 161-179. Herrera Soler, H. (2005) El test de elección múltiple: herramienta básica en la Selectividad. En Herrera Soler, H. y J. García Laborda, eds. Estudios y criterios para una Selectividad de calidad en el examen de Inglés, 65-96. Valencia: Ed. Universidad Politécnica de Valencia. Herrera Soler, H. et al. (1999) Lectura de una prueba de selectividad desde una perspectiva pitagórica. La lingüística española a finales del siglo XX. Ensayos y propuestas Tomo I, 177-183. Universidad de Alcalá. Herrera Soler, H. y C. Martínez Arias (2002) A new insight into examinee behaviour in a multiple-choice test: a quantitative approach. Estudios Ingleses de la Universidad Complutense 10, 113-137. Huddleston, R. (1988) English Grammar. Cambridge: Cambridge University Press. Hughes, A. (1989) Testing for Language Teachers. Cambridge: Cambridge University Press. Huhta, A. y R. Randell (1995) Multiple-choice Summary: A Measure of Test Comprehension. En Cumming, A. y Berwick, R., eds. Validation in Language Testing. Modern Languages in Practice 2, 94-110. Clevendon: Multilingual Matters Ltd. Huhta, A. et al. (2006) Discursive construction of a high-stakes test: the many facets of a test-taker. Language Testing 23 (3), 326-350. Ikeguchi, C. B. (1998) Do different C-tests discriminate proficiency levels of EL2 learners? JAALT Testing and Evaluation SIG Newsletter 2 (1), 3-8. [Documento de Internet disponible en http://www.jalt.rg/test/ike_1.htm]. ILTA (2000) Code of Ethics for ILTA. [Documento de Internet disponible en http://www.Dundee.ac.uk./languagestudies/1test/ilta/ilta_test2.html]. In’nami, Y. (2006) The effects of text anxiety on listening test performance. System 34, 317-340 Jafarpur, A. (1995) Is C-testing superior to cloze? Language Testing 12 (2) 194-216. Jafarpur, A. (1999) Can the C-test be improved with classical item analysis? System 27, 79-89. Bibliografía 429 Johnson, R. K. (1982) Questioning some assumptions about cloze testing. En Heaton, J. B., ed. (1982) Language Testing. UK: Modern English Publications Ltd. Johnstone, R. (2002) Research on language teaching and learning: 2001. Language Teaching 35, 157-181. Jonz, J. (1987) Textual cohesion and second language comprehension. Language Learning 37, 409-38. Jonz, J. (1991) Cloze item types and second language comprehension. Language Testing 8 (1), 1-22. Kamimoto, T. (1989) C-tests and stylistic variation. Unpublished M. A. TEFL Dissertation. University of Reading. [Documento de Internet disponible en www.melta.org.my/modules/sections/12.doc]. Kamimoto, T. (2001) An examination of Nation’s (1990) Vocabulary Levels Test. Paper presented at JALT. [Documento de Internet disponible en http://www1.harenet.ne.jp/~waring/vocab/colloquium/tad2001.htm]. Kees de Bot (2004) Applied linguistics in Europe. AILA Review 17, 57-68. Katona L. y Z. Dörnyei (1993) The C-test: A Friendly Way to Test Language Proficiency. English Teaching FORUM on line 31 (2), 35. Katona L. y Z. Dörnyei (2004) What the C-test is. [Documento de Internet disponible en http://effortlessacquisition.blogspot.com/2004/10/what-c-test-is.html]. Klein-Braley, C. y U. Raatz (1984) A survey of research on the C-test. Language Testing 1, 134-146. Klein-Braley, C. (1985) A cloze-up on the C-test: a study in the construct validation of authentic tests. Language Testing 2, 76-104. Klein-Braley, C. (1984) Advanced prediction of difficulty with C-tests. En Culhane, T. et al., eds. Practice and problems in language testing. Occasional Papers 29, 97-112. Colchester: University of Essex. Klein-Braley, C. (1997) C-Tests in the context of reduced redundancy testing: an appraisal. Language Testing 14 (1), 47-84. Kokkota, V. (1988) Letter-deletion procedure: a flexible way of reducing text redundancy. Language Testing 5 (1), 115-119. El C-test: alternativa o complemento de otras pruebas en ILE 430 Köler, W. (1972) Psicología de la forma. Su tarea y últimas experiencias. Madrid: Biblioteca Nueva. Köler, W. (1998) El problema de la psicología de la forma. Madrid: Facultad de Filosofía. Universidad Complutense. Kroll, F. et al. (2002) The development of lexical fluency in a second language. Second Language Research 18 (2), 137-171. Lado, R. (1961) Language Testing. London: Longman. Laufer, B. (1997) What’s in a word that makes it hard or easy: some intralexical factors that affect the learning of words. En Schmitt, N. y M. McCarthy, eds. Vocabulary: Description, acquisition and pedagogy, 140-155. Cambridge: Cambridge University Press. Laufer, B. et al. (2004) Size and strength: do we need both to measure vocabulary knowledge? Language Testing 21 (2), 202-226. Laufer, B. y P. Nation (1995) Vocabulary Size and Use: Lexical Richness in L2 Written Production. Applied Linguistics 16 (3), 307-322. Laufer, B. y P. Nation (1999) A vocabulary-size test of controlled productive ability. Language Testing 16 (1), 33-51. Laufer, B. y Hulstijn, J. (2001) Incidental Vocabulary Acquisition in a Second Language: The Construct of Task-Induced Involvement. Applied Linguistics 22 (1), 1-26. Lawley, J. y R. Fernández (1998) Exam Strategies. Madrid: Alhambra Longman, S.A. Lawson, M. J. and D. Hogden (1996) The vocabulary-learning strategies of foreign- language students. Language Learning 46, 101-135. Lee, S. (1996) The Concurrent Validity of Cloze Test with Essay Test among Korean Students. Texas Papers in Foreign Language 2 (2), 57-69. Lee, S. H. (2003) ESL learner’s vocabulary use in writing and the effects of explicit vocabulary instruction. System 31, 537-561. Lee Y. P. (1985) Investigating the validity of the Cloze Score. En New Directions in Language Testing, 137-147. Lee et al., eds. Oxford: Pergamon Press. Bibliografía 431 Lee, Y. P. et al., eds. (1985) New Directions in Language Testing. Papers presented at the International Symposium on Language Testing, Hong Kong. Oxford: Pergamon Press. Linn, R. L. (1993) Educational Measurement. American Council on Education. (3rd edition). Phoenix: Oryx Press. Little, D. (2002) The European Language Portfolio: structure, origins, implementation and challenges. Language Teaching 35, 182-189. Liu, M. (2006) Anxiety in Chinese EFL students at different proficiency levels. System 34, 301-316. Lynch, B. K. (1997) In search of the ethical test. Language Testing 14 (3), 315-327. Lynch, B. K. (2001) Rethinking assessment from a critical perspective. Language Testing 18 (4), 351-372. Lumley, T. y T. F. McNamara (1995) Rater characteristics and rater bias: implications for training. Language Testing 12 (1), 54-71. Lumley, T. y B. O’Sullivan (2005) The effect of test-taker gender, audience and topic on task performance in tape-mediated assessment of speaking. Language Testing 22 (4), 415-437. Mackey, A. y S. M. Gass (2005) Second Language Research. Methodology and Design. Mahwah, NJ.: Lawrence Erlbaum Associates. MacNamara, T. (1997) Measuring Second Language Performance. London y New York: Longman. MacNamara, T. (1998) Policy and social considerations in language assessment. Annual Review of Applied Linguistics 18, 304-319. MacNamara, T. (2001a) Rethinking alternative assessment. Language Testing 18 (4), 329-332. MacNamara, T. (2001b) Language assessment as social practice: challenges for research. Language Testing 18 (4), 333-349. MacNamara, T. (2003) Looking back, looking forward: rethinking Bachman. Language Testing 20 (4), 466-473. Marcos Llinàs, M. (2006) Variables afectivas en el aprendizaje de una lengua. Tesis doctoral sin publicar. Mallorca: Universitat de les Illes Balears. El C-test: alternativa o complemento de otras pruebas en ILE 432 MEC (1992) Secundaria Obligatoria. Lenguas extranjeras. Secretaría de Estado de Educación. ISBN: 84-369-2186-0. MEC (1993) Documentos de apoyo a la evaluación. Educación Secundaria. Dirección General de Renovación Pedagógica. Subdirección General de Ordenación Académica. Meara, P. (1996). The dimensions of lexical competence. En G. Brown, K Malmkjaer y J. Williams, eds. Performance and Competence in Second Language Acquisition, 35-53. Cambridge: Cambridge University Press. Meara, P. (1997) Towards a new approach to modelling vocabulary acquisition. En Schmitt N. y M. McCarthy, eds. Vocabulary: Description, acquisition and pedagogy, 109-121. Cambridge: Cambridge University Press. Meara, P. (1999) The Vocabulary Knowledge Framework. [Documento de Internet disponible en http://www.swan.ac.uk/cals/calsres/vlibrary/pm96d.htm]. Meara, P. (2002) The rediscovery of vocabulary. Second Language Research 18 (4), 393-407. Meara, P. y T. Fitzpatrick (2000) Lex30: an improved method of assessing productive vocabulary in a L2. System 28, 19-39. Melka, F. (1997) Receptive vs. productive aspects of vocabulary. En Schmitt, N. y M. McCarthy, eds. Vocabulary: Description, acquisition and pedagogy, 84-102. Cambridge: Cambridge University Press. Messick, S. (1989) Validity. En Linn, R. Ed. Educational Measurement (3rd edition) 13-103. American Council of Education, Washington: Macmillan. Messick, S. (1996) Validity and washback in language testing. Language Testing 13 (3), 241-256. Moliner, M. (2000) Diccionario de uso del español. Madrid: Gredos. Monroy, R. (2000) Paradigmas de investigación y su incidencia en la enseñanza de lenguas extranjeras. En Ruiz, J. et al. (Coord.) Estudios de metodología de la lengua inglesa. Valladolid: Centro Buendía, Universidad de Valladolid. Moon, R. (1997) Vocabulary connections: multi-words items in English. En Schmitt N. y M. McCarthy, eds. Vocabulary: Description, acquisition and pedagogy, 40-63. Cambridge: Cambridge University Press. Bibliografía 433 Moya Santoyo, J. (2002) Historia de la Psicología. Autores más influyentes. Madrid: PS Editorial. Murtagh, L. (2003) Retention and Attrition of Irish as a Second Language. [Documento de Internet disponible en http://www.ite.ie/lmurtagh/RAISLeng.htm]. Nattinguer, J. R. y J. S. DeCarrico (1992) Lexical Phrases and Language Teaching. Oxford: Oxford University Press. Nation, I. S. P. y H. Kyongho. (1995). Where would general service vocabulary stop and special purposes vocabulary begin? System 23 (1), 35-41. Nation, I.S.P. (1995) The word on words: An interview with Paul Nation. Interviewed by N. Schmitt. The Language Teacher 19 (2), 5-7. Nation, I.S.P. (1990) Teaching and Learning Vocabulary. New York: Heinle and Heinle. Nation, I.S.P. (1993) Using dictionaries to estimate vocabulary size: essential but rarely followed procedures. Language Testing 10 (1), 27-40. Nation, I. S. P. (2001) Learning vocabulary in another Language. Cambridge: Cambridge University Press. Norton, B. (1998) Accountability in Language Testing. En Corson, D. y C. Clapham, eds. Language Testing and Assessment. Vol. 7 of the Encyclopedia of Language and Education, 313-322. Amsterdam: Kluwer Academic Publishers. Nunan, D. (1992) Research Methods in Language Learning. Cambridge: Cambridge University Press. Oh, J. (1992) The Effects of L2 Reading Assessment Methods on Anxiety Level. TESOL Quarterly 26 (1), 172-176. Oller, J. W. Jr. (1973a) Cloze tests of second language proficiency and what they measure. Language Learning 23, 105-18. Oller, J. W. Jr. (1973b) Discrete-point tests versus tests of integrative skills. En Oller, J. y J. Richards, eds. Focus on the learner, 184-199. Rowley, Massachusetts: Newbury House Publishers. Oller, J. W. Jr. (1979) Language tests at school. London & New York: Longman. El C-test: alternativa o complemento de otras pruebas en ILE 434 Oller, J. W., Jr. (1983) Evidence for a general language proficiency factor: an expectancy grammar. En Oller, J. W., Jr., ed. Issues in Language Testing Research, 3-10. Rowley, Massachusetts: Newbury House. Oller, J. W., Jr. (1995) Adding Abstract to Formal and Content Schemata: Results of Recent Work in Peircean Semiotics. Applied Linguistics 16 (3), 273-305. Oxford, R. L. (1990) Language Learner Strategies: What every teacher should know. New York: Newbury House. Pajares, R. et al. (2004) El proyecto PISA 2000: Aproximación a un modelo de evaluación. Madrid: Ministerio de Educación, Cultura y Deporte. Secretaría General Técnica. Instituto Nacional de Evaluación y Calidad del Sistema Educativo (INECSE). Papalia, D. E. y S. Wendkos (1988) Psicología. Mexico: Mc. Graw-Hill. Phakiti, A. (2003) A Closer Look at Gender and Strategy Use in L2 Reading. Language Learning 53 (4), 649-702. Pica, T. (2000) Tradition and transition in English language teaching methodology. System 28,1-18. Pilliner, A. E. G. (1968) Subjective and objective testing. En Davies (1968) Language Testing Symposium. A Psycholinguistic Perspective, 19-35. London: Oxford University Press. Porter, D. (1978) Cloze procedure and equivalence. Language Learning 28, 333-41. Prapphal, K. (1994) A study of the C-test and the X-Test Performed by First-Year Science-Oriented University Students. PASAA 24, 16-23. Prapphal, K. (2006) An investigation of the General and Academic English X-Tests in Measuring Grammatical Competence of Thai Science Students. [Documento de Internet disponible en http://pioneer.chula.ac.th/~pkanchan/html/x-tests.htm]. Qi, L. (2005) Stakeholders’ conflicting aims undermine the washback function of a high-stakes test. Language Testing 22 (2), 142-173. Quirk, R. y S. Greenbaum (1973) A University Grammar of English. Longman Group UK Ltd. Raatz, U. (1984) The factorial validity of C-tests. En Culhane, T. et al., eds. Practice and problems in language testing. Occasional Papers 29, 124-139. Colchester: University of Essex. Bibliografía 435 Raatz, U. (1985) Better theory for better tests. Language Testing 2, 60-75. Raatz, U. y C. Klein-Braley (2002) Introduction to language testing and to C-Tests. En University Language Learning and the C-test. Coleman, J. et al., eds. AKS- Verlag, Bochum. [Documento de Internet disponible en http://www.uni- duisburg.de/FB3/ANGLING/FORSCHUNG/HOWTODO.HTM]. Rashid, S. MD (2002) Validating the C-test amongst Malay ESL Learners. Tunku Mohani Tunku Mohtar, Fatimah Haron y S. Nackeeran, eds. Proceedings of Selected Papers of Fifth Malaysian English Language Teaching Association (MELTA) Biennial International Conference, Petaling Java, Malaysia. [Documento de Internet disponible en www.melta.org.my/modules/sections/12.doc]. Rea, M. P. (1984) Language tests as indicators of academic achievement. En Culhane, T. et al., eds. Practice and problems in language testing. Occasional Papers 29, 140-158. Colchester: University of Essex. Rea, M. P. (1985) Language Testing and the Communicative Curriculum (1). En New Directions in Language Testing, 15-31. Lee et al., eds. Oxford: Pergamon Press. Rea-Dickins, P. (2001) Mirror, mirror on the wall: identifying processes of classroom assessment. Language Testing 18 (4), 429-462. Rea-Dickins, P. (2004) Understanding teachers as agents of assessment. Language Testing 21 (3), 249-258. Read, J. (1993) The development of a new measure of L2 vocabulary knowledge. Language Testing 10 (3), 355-371. Read, J. (1997) Vocabulary and testing. En Schmitt, N. y M. McCarthy, eds. Vocabulary: Description, acquisition and pedagogy, 303-320. Cambridge: Cambridge University Press. Read, J. (2000) Assessing Vocabulary. Cambridge: Cambridge University Press. Read, J. y C. A. Chapelle (2001) A framework for second language vocabulary assessment. Language Testing 18 (1), 1-32. Rietveld, T. y R. van Hout. (2005) Statistics in Language Research: Analysis of Variance. Berlin: Mouton de Gruyter. Ruiz, J. M. y otros (2000) Estudios de metodología de la lengua inglesa. Valladolid: Centro Buendía, Universidad de Valladolid. El C-test: alternativa o complemento de otras pruebas en ILE 436 Saif, S. (2006) Aiming for positive washback: a case study of internacional teaching assistants. Language Testing 23 (1) 1-34. Sanz Saiz, I. (1999) El examen de Selectividad a examen. GRETA Revista para profesores de Inglés 7 (2), 16-29. Sanz Sáiz, I. y M. Fernández Álvarez (2005) La validez del examen de Inglés en Selectividad. En Herrera Soler, H. y J. García Laborda, eds. Estudios y criterios para una Selectividad de calidad en el examen de Inglés, 149-164. Valencia: Ed. Universidad Politécnica de Valencia Sasaki, M. (2000) Effects of cultural schemata on students’ test-taking processes for cloze tests: a multiple data source approach. Language Testing 17 (1), 85-114. Schmidt, R. (1994) Implicit Learning and the Cognitive Unconscious: Of Artificial Grammars and SLA. En Implicit and explicit learning of languages. N.C. Ellis, ed., London: Academic Press. Schmitt, N. (1997) Vocabulary learning strategies. En Schmitt, N. y M. McCarthy, eds. Vocabulary: Description, acquisition and pedagogy, 199-227. Cambridge: Cambridge University Press. Schmitt, N. (1998a) Quantifying word association responses: what is native-like? System 26 (3), 389-401. Schmitt, N. (1998b) Tracking the incremental acquisition of second language vocabulary: A longitudinal study. Language Learning 48 (2), 281-317. Schmitt, N. (1999) The relationship between TOEFL vocabulary items and meaning, association, collocation, and word class knowledge. Language Testing 16, 189- 216. Schmitt, N. (2000) Vocabulary in Language Teaching. Cambridge: Cambridge University Press. Schmitt, N. y M. McCarthy Eds. (1997) Vocabulary: Description, acquisition and pedagogy, 84-102. Cambridge: Cambridge University Press. Sheerin, P. H. (2000) Some reflections on the university-entrance exam in English. En Ruiz, J. et al. (Coord.) Estudios de metodología de la lengua inglesa. Valladolid: Centro Buendía, Universidad de Valladolid Skehan, P. (1989) Individual Differences in Second-Language Learning. UK: Edward Arnold. Bibliografía 437 Skehan, P. (1991) Progress in language testing: the 1990s. En Alderson, J. C. y B. North, eds. Language testing in the 1990s: the communicative legacy, 3-21. London: MacMillan. Shohamy, E. (1983) Interrater and intrarrater reliablility of the oral interview and concurrent validity with cloze procedure in Hebrew. En J. Oller, Jr., ed. Issues in language testing research, 229-236. Rowley, Massachusetts: Newbury House. Shohamy, E. (1984a) Does the testing method make a difference? The case of reading comprehension. Language Testing 1, 147-161. Shohamy, E. (1984b) Input and output in language testing. En Culhane, T. et al., eds. Practice and problems in language testing. Occasional Papers 29, 159-176. University of Essex. Colchester. Shohamy, E. et al. (1996) Test impact revisited: washback effect over time. Language Testing 13 (3), 298-317. Shohamy, E. (1997) Testing methods, testing consequences: are they ethical, are they fair? Language Testing 14 (3), 340-349. Shohamy, E. (2000) The relationship between language testing and second language acquisition, revisited. System 28, 541-553. Shohamy, E. (2001a) The power of tests. London: Longman. Shohamy, E. (2001b) Democratic assessment as an alternative. Language Testing 18 (4), 373-391. Shohamy, E. y T. Reves (1985) Authentic language tests: where from and where to? Language Testing 2 (1), 48-59. Schoonen, R. (2005) Generalizability of writing scores: an application of structural equation modelling. Language Testing 22 (1), 1-30. Sigott, G. y J. Kobrel (1993) Validating the X-Test. Language Testing Update 14, 53- 58. Singleton, D. (1999) Exploring the second language mental lexicon. Cambridge: Cambridge University Press. Snellings, P. et al. (2004) Validating a test of second language written lexical retrieval: a new measure of fluency in written language production. Language Testing 21 (2), 174-201. El C-test: alternativa o complemento de otras pruebas en ILE 438 Sökmen, A. J. (1997) Current trends in teaching second language vocabulary. En Schmitt N. y M. McCarthy, eds. Vocabulary: Description, acquisition and pedagogy, 40-63. Cambridge: Cambridge University Press. Spence-Brown, R. (2001) The eye of the beholder: autenticity as an embedded assessment task. Language Testing 18 (4), 463-481. Spolsky, B. (1973) What does it mean to know a language; or how do you get someone to perform his competence? En Oller, J. y J. Richards, eds. Focus on the learner, 164-176. Rowley Massachusetts: Newbury House Publishers. Spolsky, B. (1985) The limits of authenticity in language testing. Language Testing 2 (1), 31-40. Spolsky, B. (1990) The prehistory of TOEFL. Language Testing 7 (1), 98-115. Spolsky, B. (1995) Measured words. Oxford: Oxford University Press. Spolsky, B. (1997) The ethics of gatekeeping tests: what have we learnt in a hundred years? Language Testing 14 (3), 242-247. Storey, P. (1997) Examining the test-taking process: a cognitive perspective on the discourse cloze test. Language Testing 14 (2), 214-231. Stubbs, J. y Tucker, G. (1974) The cloze test as a measure of English proficiency. Modern Language Journal 58, 239-41. Suau (1998-99) La estrategia de inferencia léxica en textos de economía y empresa: aplicación y automatización por un grupo de estudiantes universitarios españoles. RESLA 13, 37-47. Süssmilch, E. (1984) Language testing with immigrant children. En Culhane, T. et al., eds. Practice and problems in language testing. Occasional Papers 29, 167- 176. Colchester: University of Essex. Swenson, L. C. (1980) Teorías del aprendizaje. Barcelona: Paidós. Takeuchi, O. (2003) What can we learn from good foreign language learners? A qualitative study in the Japanese foreign language context. System 31, 385-392. Tamburini, F. y Paci, S. (2002) Web-based language learning: authoring and assessment technologies. International Conference on Information and Communication Technologies in Education - ICTE2002, 871-877. Badajoz. [Documento de Internet disponible en http://137.204.243.238:8000/Tamburini/ICTE_2002.pdf]. Bibliografía 439 Taylor, L. (2005) Washback and impact. ELT Journal 59 (2), 154-155. Taylor, W. L. (1953) Cloze procedure: A new tool for measuring readability. Journalism Quarterly 30, 414-38. Thatcher, P. (2000) Acquisition and learning –theory matters. IRAL 38, 161-174. Tribble, C. (2000) Designing evaluation into educational change processes. ELT Journal 54 (4), 319-327. Wall, D. et al. (1994) Evaluating a placement test. Language Testing 11, 321 completar Wall, D. (1996) Introducing new tests into traditional systems: insights from general education and from innovation theory. Language Testing 13 (3), 334- 354. Wall, D. (2000) The impact of high stakes testing on teaching and learning: can this be predicted or controlled? System 28, 499-509. Waring, R. (1998) Receptive and productive foreign language vocabulary size II. Manuscrito sin publicar. [Documento de Internet disponible en http://www.1.harenet.ne.jp/-waring/vocabindex.html]. Watts, F. y A. García Carbonell (2005) Control de calidad en la calificación de la prueba de lengua inglesa de Selectividad. En Herrera Soler, H. y J. García Laborda, eds. Estudios y criterios para una Selectividad de calidad en el examen de Inglés, 99-119. Valencia: Ed. Universidad Politécnica de Valencia. Weigle, S. C. (1994) Effects of training on raters of ESL compositions. Language Testing 11 (2) 197-223. Weir, C. (1988) Communicative Language Testing. Exeter Linguistic Studies Vol. 11. Exeter: University of Exeter. Weir, C. J. (1990) Communicative Language Testing. Hemel Hempstead: Prentice Hall. Weir, C. y Roberts, J (1994) Evaluation in ELT. Oxford: Blackwell. Widdowson, H. G. (2000) On the Limitations of Linguistics Applied. Applied Linguistics 21 (1), 3-25. Wolter, B. (2002) Assessing proficiency through word associations: is there still hope? System 30, 315-329. El C-test: alternativa o complemento de otras pruebas en ILE 440 Wood, R. (1991) Assessment and Testing. A Survey or Research. Cambridge: Cambridge University Press. Wragg, E. C. (2003) Evaluación y aprendizaje en la escuela secundaria. Barcelona: Paidós. Yamashita, J. (2003) Processes of taking a gap-filling test: comparisons of skilled and less skilled EFL readers. Language Testing 20 (3), 267-293. Zimmerman, C. B. (1997) Historical trends in second language vocabulary instruction. En Coady, J. y T. Huckin, eds. Second language vocabulary acquisition, 5-19. Cambridge: Cambridge University Press. BASES DE DATOS CONSULTADAS LLBA (Language and Linguistic Behaviour Abstracts) ERIC (Educational Research International Centre) PROGRAMAS INFORMÁTICOS SPSS (Statistical Package for the Social Sciences) 8.1, 9.1 y 12.5 for Windows Apéndice 441 Apéndice 1. Modelo para la realización de C-tests. DIRECTIONS FOR TAKING C-TESTS At the bottom of this page is a sample of a new kind of test. The test is made by copying several varied short texts and deleting the second half of every second word, beginning with word two in sentence two. Your job will be to restore the texts by replacing the missing elements. Only entirely correct restorations are counted as correct. SAMPLE C-TEST BREAKFAST AROUND THE WORLD Breakfast is an important meal because it gives you energy to start the day. When (1) y_____ do (2) n_____ have a (3)go_____ breakfast, (4)y_____ feel (5)hun_____ and (6)e_____ cakes, (7)bisc____ or (8)swe_____ before lunchtime. ANSWERS 1. you 5. hungry 2. not 6. eat 3. good 7. biscuits 4. you 8. sweets El C-test: alternativa o complemento de otras pruebas en ILE 442 Apéndice 2. Estudio piloto I C-TEST 1 NAME DATE Complete the following text filling in the blanks with the appropriate letters. Every dash corresponds to a single letter. BREAKFAST AROUND THE WORLD Breakfast is an important meal because it gives you energy to start the day. When (1) y-- do (2) n-- have (3) - good (4) break----, you (5) f--- hungry (6) a-- eat (7) ca---, biscuits (8) o- sweets (9) be---- lunchtime. (10) Th-- type (11) o- food (12) i- bad (13) f-- you (14) bec---- it (15) i- not (16) v--- nutritious (17) a-- has (18) l--- of (19) su--- and (20) f--. Breakfast (21) i- not (22) t-- same (23) i- every (24) coun---.For(25) ex-----, many British (26) peo--- have (27) to--- or (28) ce---- and (29) - cup (30) o- tea. (31) Ot---- prefer (32) - traditional (33) break---- of (34) ba--- and (35) eg--. In (36) ot--- Northern European (37) coun-----, for (38) ex----- Germany (39) a-- Sweden, (40) peo--- eat (41) c--- meat (42) a-- cheese (43) w--- bread (44) a-- coffee. (45) I- Nigeria (46) h-- soup (47) i- very (48) co----. Many Brazilians (49) e-- different (50) trop---- fruit and cold meat for breakfast. However, in many parts of the world, people only eat a small dish of rice for breakfast. 1.y 11.o 21.i 31.ot 41.c 2.n 12.i 22.t 32. 42.a 3. 13.f 23.i 33.break 43.w 4.break 14.bec 24.coun 34.ba 44.a 5.f 15.i 25.ex 35.eg 45.i 6.a 16.v 26.peo 36.ot 46.h 7.ca 17.a 27.to 37.coun 47.i 8.o 18.l 28.ce 38.ex 48.co 9.be 19.su 29. 39.a 49.e 10.th 20.f 30.o 40.peo 50.trop Apéndice 443 C-TEST 2 NAME DATE Complete the following text filling in the blanks with the appropriate letters. Every dash corresponds to a single letter. MEALS IN BRITAIN A traditional English breakfast is a very big meal, sausages, bacon, eggs, tomatoes, mushrooms...But (1) now----- many (2) peo--- just (3) h--- cereal (4) w--- milk (5) a-- sugar, (6) o- toast (7) w--- marmalade, (8) j-- or (9) ho---. Marmalade (10) a-- jam (11) a-- not (12) t-- same! (13) Marm----- is (14) ma-- from (15) oran--- and (16) j-- is (17) ma-- from (18) o---- fruit. (19) T-- traditional (20) break---- drink (21) i- tea, (22) wh--- people (23) h--- with (24) c--- milk. (25) So-- people (26) h--- coffee, (27) of--- instant (28) co----, which (29) i- made (30) w--- just (31) h-- water. (32) Ma-- visitors (33) t- Britain (34) f--- this (35) co---- disgusting! (36) F-- many (37) peo--- lunch (38) i- a (39) qu--- meal. (40) I- cities (41) th--- are (42) - lot (43) o- sandwich (44) b---, where (45) off--- workers (46) c-- choose (47) t-- kind (48) o- bread (49) th-- want, (50) br--- , white or roll, and then all sorts of salad and meat or fish to go in the sandwich. Pubs often serve good, cheap food, both hot and cold. School children can have a hot meal at school, but many just take a snack from home, a sandwich, a drink, some fruit and perhaps some crisps. 1.now 11.a 21.i 31.h 41.th 2.peo 12.t 22.wh 32.ma 42. 3.h 13.marm 23.h 33.t 43.o 4.w 14.ma 24.c 34.f 44.b 5.a 15.oran 25.so 35.co 45.off 6.o 16.j 26.h 36.f 46.c 7.w 17.ma 27.of 37.peo 47.t 8.j 18.o 28.co 38.i 48.o 9.ho 19.t 29.i 39.qu 49.th 10.a 20.break 30.w 40.i 50.br El C-test: alternativa o complemento de otras pruebas en ILE 444 C-TEST 3 NAME DATE Complete the following text filling in the blanks with the appropriate letters. Every dash corresponds to a single letter. PROFILE OF A GENERATION Something is going on inside them. They are like volcanoes about to erupt, with a passion only youth can feel. Searching for self expression whilst enjoying the hotel they call home, life is not so bad for these well-fed citizens of tomorrow. They (1) a-- full (2) o- the (3)j--- of (4) li--. They (5) lo-- their (6) pa----- but (7) a-- not (8) su-- what (9) th-- country (10) ha- to (11) of--- them (12) i- the (13) fut---. Arguments (14) w--- parents: 8 (15) o-- of 10 (16) r-- with (17) pa----- about (18) t-- time (19) th-- have (20) t- be (21) ho-- at (22) n----. 7 out (23) o- 10 argue (24) w--- parents (25) ab--- not (26) hel---- around (27) t-- house. 6 (28) o-- of 10 (29) g---- complain (30) th-- their (31) bro----- do (32) n-- have (33) t- do (34) - thing, (35) wh--- they (36) a-- expected (37) t- do (38) house----. “I (39) g-- away (40) w--- everything (41) a- home, (42) s-- (my sister) (43) d--- not. (44) - am (45) n-- a (46) chauv-----. It (47) i- just (48) n-- my (49) ro--.” 5 out (50) o- 10 row with parents about their studies. Parents are loved, ...with the knowledge that they are only human, a difficult fact for some teenagers to face. 1.a 11.of 21.ho 31.bro 41.a 2.o 12.i 22.n 32.n 42.s 3.j 13.fut 23.o 33.t 43.d 4.li 14.w 24.w 34. 44. 5.lo 15.o 25.ab 35.wh 45.n 6.pa 16.r 26.hel 36.a 46.chauv 7.a 17.pa 27.t 37.t 47.i 8.su 18.t 28.o 38.house 48.n 9.th 19.th 29.g 39.g 49.ro 10.ha 20.t 30.th 40.w 50.o Apéndice 445 C-TEST 4 NAME DATE Complete the following text filling in the blanks with the appropriate letters. Every dash corresponds to a single letter. ARGUMENTS Read what an adult comments about the beliefs, ambitions and feelings of typical teenagers in Spain. Teenagers (1) ar--- with (2) th--- parents (3) f-- lots (4) o- different (5) rea----. Some (6) ar--- about (7) clo----, others (8) ab--- jobs (9) i- the (10) ho---, and (11) ot---- about (12) th--- friends. (13) - remember (14) wh-- I (15) w-- young (16) - argued (17) ab--- everything. (18) Wh-- my (19) m-- asked, (20) “H--- you (21) tid--- your (22)r---?” I (23) al---- replied, (24) “- am (25) go--- to (26) ti-- it (27) tom-----!” Of (28) co----, tomorrow (29) ne--- came (30) a-- we (31) h-- the (32) inev------ argument. (33) N-- I (34) h--- children (35) a-- they (36) h--- to (37) d- things (38) ar---- the (39) ho---, usually (40) tom-----! Sometimes (41) w- argue (42) a-- then (43) - remember (44) t-- arguments (45) - had (46) w--- my (47) mo---- and (48) sm--- about (49) h-- little (50) th---- have changed. It helps me to understand them. 1.ar 11.ot 21.tid 31.h 41.w 2.th 12.th 22.r 32.inev 42.a 3.f 13. 23.al 33.n 43. 4.o 14.wh 24. 34.h 44.t 5.rea 15.w 25.go 35.a 45. 6.ar 16. 26.ti 36.h 46.w 7.clo 17.ab 27.tom 37.d 47.mo 8.ab 18.wh 28.co 38.ar 48.sm 9.i 19.m 29.ne 39.ho 49.h 10.ho 20.h 30.a 40.tom 50.th El C-test: alternativa o complemento de otras pruebas en ILE 446 Apéndice 3. Estudio piloto II C-TEST 1 NAME DATE Now, complete the following texts filling in the blanks with the appropriate letters. 1. LEARN TO COMMUNICATE To be fluent in several languages is no longer considered a rare talent, but a necessity to succeed and communicate in the world in which we now live. Many (1)peo______ believe (2)th_______ once (3)y______ are (4)pa______ childhood, (5)lear______ a (6)n______ language (7)i______ too (8)diff______. This (9)i______ not (10)tr______. Whether (11)y______ want (12)t______ learn English, French, Spanish (13)o______ Polish there (14)a______ schools (15)a_______ courses (16)gea______ for (17)yo_______ needs (18)a______ specifically (19)ai______ at (20)ad______ learning. (21)Ad______ learning (22)i______ pro-active; (23)y______ are (24)invo______ with (25)t______ language from the beginning and encouraged to talk, whatever your ability. There are a variety of methods available. ANSWERS 1 6 11 16 21 2 7 12 17 22 3 8 13 18 23 4 9 14 19 24 5 10 15 20 25 2. THE HISTORIC VOYAGE OF CHISTOPHER COLUMBUS In 1992, more than thirty countries celebrated the 500th anniversary of the world´s most famous transatlantic voyage. Christopher Columbus is (26)cred______ with (27)“disco________” the New World (28)o______ that (29)hist______ trip (30)i______ 1492. In (31)fa______, of (32)cou______, some 20 million (33)nat_______ people (34)we______ already (35)th______ before (36)h______ stepped (37)ash______. Many (38)histo______ also (39)cl______ that (40)t______ Vikings saw (41)i______ first. (42)B______ it (43)w______ Columbus who (44)ma______ Europe aware (45)o______ the (46)exis______ of (47)t______ vast American (48)cont______ and (49)w______ started (50)t______ adventure which has never stopped since: the exploration, conquest and settlement of this newfound land. ANSWERS 26 31 36 41 46 27 32 37 42 47 28 33 38 43 48 29 34 39 44 49 30 35 40 45 50 Apéndice 447 3. COPING WITH ADDICTION Alcoholics Anonymous (AA), founded 60 years ago, is increasingly familiar to the general public as a network where ex-drinkers get together for the “talk therapy” that helps them to cope with their drink problem. Show (51)busi______ stars (52)ha______ contributed (53)t______ this (54)famil______ by (55)brea______ their (56)anon_______ and (57)refe______ publicly (58)t______ the (59)w______ AA has (60)hel______ them. (61)Tal______ on Radio Four (62)rece_______, the (63)ac______ Sir Anthony Hopkins confessed (64)th______ he (65)h______ been a (66)to______ mess (67)bef______ recovering (68)h______ sobriety (69)thr______ AA. Elton John is (70)ano______ one (71)a______ there (72)a______ some AA (73)meet______ in London (74)kn______ to (75)b______ startlingly glamorous and packed with celebrities. But AA is not looking for money from anyone. And it is not, curiously, looking for publicity either. ANSWERS 51 56 61 66 71 52 57 62 67 72 53 58 63 68 73 54 59 64 69 74 55 60 65 70 75 4. THE NEW GENERATION OF FARMYARD CLONES “I MAKE all my sheep here”. Bill Ritchie gestured (76)tow______ an (77)ann______ of (78)h______ laboratory (79)wh______ he (80)h______ used a (81)sp______ of (82)elect_______ to (83)viv_______ two (84)ce______ that (85)gr_______ into Morag (86)a_______ Megan, the (87)sis______ who (88)ma______ front-page (89)head______ earlier (90)th______ year (91)f______ being (92)“man-______”. As (93)t______ first (94)fr______ of a (95)tech______ that (96)c______ make (97)mill______ of (98)iden_____ sheep, (99)th______ innocent Welsh (100)moun______ sheep sparked a major controversy about the rights and wrongs of such research, which is currently extended to create supersheep and cloned cattle. ANSWERS 76 81 86 91 96 77 82 87 92 97 78 83 88 93 98 79 84 89 94 99 80 85 90 95 100 El C-test: alternativa o complemento de otras pruebas en ILE 448 Apéndice 4. Instrucciones para las profesoras de Inglés de los grupos participantes en el estudio Esta experiencia forma parte de una tesis doctoral que estudia un tipo nuevo de Cloze test, el C-test, y cómo correlaciona con otros tipos de examen, en concreto con las pruebas de Selectividad y con el progreso del alumno en la asignatura. No se va a estudiar el nivel de los alumnos en los distintos IES, sino la relación entre los resultados de las distintas pruebas de cada alumno (un examen del tipo de los de Selectividad y un C-test). No obstante, vamos a aplicar estos exámenes en grupos de 2º Bachillerato de diferentes IES de Madrid, para que la muestra sea variada y representativa. Te ruego que sigas los pasos que se indican a continuación: 1. Aplica la prueba de Selectividad Cavemen? (Sept.99-LOGSE) en una sesión normal de clase de 2º Bach. 2. Aplica el C-test en una sesión de clase. Puedes avisarles el día anterior de que van a hacer un tipo de examen nuevo y diferente, deben completar un texto en el que falta la 2ª mitad de cada 2ª palabra. El test tiene 100 omisiones o huecos. En los dos primeros textos, cada guión corresponde a una letra, en los dos siguientes no se les da esa “pista”. Sólo se considera correcta una respuesta si se recupera la palabra exacta (les das previamente la hoja de instrucciones que explica el procedimiento). Es una prueba experimental, y se les comunicarán sus resultados. Los textos a partir de los cuales se construye el C-test pertenecen a distintas pruebas de Selectividad de otros años. Como verás, la dificultad de los ítems varía mucho, sabemos que algunos son muy difíciles de recuperar. Hay dos versiones del C-test, A y B, debes repartirlas de forma aleatoria (pares e impares) en la clase, para que la mitad de cada grupo haga un modelo, cada uno el que le toque. Apéndice 449 3. Una vez aplicado el C-test en clase, debes administrar el cuestionario para que expresen de forma anónima su opinión sobre la prueba. No es necesario que pongan su nombre, sólo que contesten con sinceridad. Sí tienen que poner el nombre en las otras pruebas, porque hay que analizar mediante un programa estadístico todos los datos de cada alumno concreto, en ningún caso para darles una calificación. Los nombres y apellidos sirven sólo para identificarlos durante la investigación. Después, en todo momento se mantendrá el anonimato y se les asignará un número identificativo. 4. Anota la calificación de cada alumno en Inglés en la 2ª evaluación de este curso. 5. Te ruego que nos remitas las calificaciones que obtengan en Selectividad en Inglés en Junio los alumnos que se presenten. Por tanto, necesitamos: • los exámenes modelo de Selectividad Cavemen? • los C-tests • los cuestionarios • las calificaciones de la 2ª Evaluación en Inglés • la calificación de Inglés en las PAAU de junio (de los alumnos presentados) MUCHAS GRACIAS POR TU COLABORACIÓN. El C-test: alternativa o complemento de otras pruebas en ILE 450 Apéndice 5. C-TESTS PERSPECTIVA EMPÍRICA TESIS C-TEST A NAME SEX Male / Female DATE SCHOOL First of all, read each text carefully trying to understand its meaning. Remember that the second half of every second word has been deleted, beginning with word two in sentence two. Then, complete the texts filling in the blanks with the appropiate letters In the first two texts each dash corresponds to a single letter. 1. ROAD ACCIDENTS Your chances of dying in a road accident double in France. For (1)ev_ _ _ million (2)vehi_ _ _ _, 300 (3)peo_ _ _ die (4)o_ the French (5)ro_ _ _ every (6)ye_ _, compared (7)t_ 140 (8)i_ Britain. (9)T_ _ carnage (10)h_ _ been (11)mu_ _ reduced (12)i_ the (13)pa_ _ two (14)dec_ _ _ _, but 8,000 (15)dea_ _ _ a (16)ye_ _ is (17)st_ _ _ an (18)aw_ _ _ lot (19)o_ grief (20)a_ _ suffering -(21)t_ _ equivalent (22)o_ fifty (23)la_ _ _ plane (24)cra_ _ _ _. The French (25)gover_ _ _ _ _ has tough plans to halve the number of road deaths in five years. Their programme includes measures to discourage speeding, which is responsible for almost half the deaths of French roads. ANSWERS: 1 ev_ _ _ 6 ye_ _ 11 mu_ _ 16 ye_ _ 21 t_ _ 2 vehi_ _ _ _ 7 t_ 12 i_ 17 st_ _ _ 22 o_ 3 peo_ _ _ 8 i_ 13 pa_ _ 18 aw_ _ _ 23 la_ _ _ 4 o_ 9 T_ _ 14 dec_ _ _ _ 19 o_ 24 cra_ _ _ _ 5 ro_ _ _ 10 h_ _ 15 dea_ _ _ 20 a_ _ 25 gover_ _ _ _ _ 2. EVOLUTION In the classification of animals there is an order called Primates. In (1)th_ _ _ appearance (2)t_ _ primates (3)rese_ _ _ _ the (4)hu_ _ _ being (5)mo_ _ than (6)a_ _ other (7)ani_ _ _ _ do. (8)I_ is (9)nat_ _ _ _ to (10)ded_ _ _ that (11)th_ _ are (12)mo_ _ closely (13)rel_ _ _ _ to (14)hu_ _ _ beings (15)th_ _ other (16)ani_ _ _ _ are. (17)I_ fact, (18)t_ _ human (19)be_ _ _ must (20)b_ included (21)a_ a (22)pri_ _ _ _, if (23)a_ _ sense (24)a_ all (25)i_ to be made of animal classification. Once evolution is accepted, one must come to the inevitable conclusion that the various primates, including the human being, have developed from some single ancestral stem and that all are to varying degrees cousins, so to speak. ANSWERS: 1 th_ _ _ 6 a_ _ 11 th_ _ 16 ani_ _ _ _ 21 a_ 2 t_ _ 7 ani_ _ _ _ 12 mo_ _ 17 I_ 22 pri_ _ _ _ 3 rese_ _ _ _ 8 I_ 13 rel_ _ _ _ 18 t_ _ 23 a_ _ 4 hu_ _ _ 9 nat_ _ _ _ 14 hu_ _ _ 19 be_ _ _ 24 a_ 5 mo_ _ 10 ded_ _ _ 15 th_ _ 20 b_ 25 i_ Apéndice 451 3. AMERICAN IMPERIALISM Global leadership is both the price America pays and the benefit Americans derive from our wealth, our size and our strength. Worldwide (1)hun______ and (2)pov_____, the (3)spr______ of (4)nuc_______ weapons (5)a_____ the (6)prolif_______ of (7)vio_______ conflicts (8)ha_____ us (9)a______. Economic (10)devel_______, better (11)educ_______, better (12)con_______ of (13)ar______, cooperation (14)am______ nations (15)a_____ the (16)peac______ resolution (17)o_____ conflicts (18)he______ Americans (19)en_____ greater (20)prosp_______ and (21)pe_____. Positive (22)a______ active (23)engag________ in (24)wo______ affairs (25)i_____ the smart as well as the right thing for the United States to do. Yet among developed nations, America has become the least generous provider of either development aid or troops for peacemaking. Our virtue is fading. ANSWERS: 1 hun 6 prolif 11 educ 16 peac 21 pe 2 pov 7 vio 12 con 17 o 22 a 3 spr 8 ha 13 ar 18 he 23 engag 4 nuc 9 a 14 am 19 en 24 wo 5 a 10 devel 15 a 20 prosp 25 i 4. WOMEN DOCTORS. ARE THEY DIFFERENT? In 1974, 11% of the students graduating from medical school in the U.S. were female. In 1984 (1)th_____ proportion (2)w_____ close (3)t_____ 30%.(4)Wh_____ the (5)majo_______ of (6)doc______ in (7)t_____ United States (8)a_____ still (9)ma_____, that (10)pat______ is (11)chan_______ with (12)t_____ new (13)wa_____ of (14)med_______ students. (15)B_____ will (16)th_____ fact (17)ma_____ any (18)diffe______ to (19)t____ medical (20)profe_______? Are (21)fem______ doctors (22)rea______ different (23)fr______ male (24)doc_______? Traditionally (25)nur______ did the “female” jobs, such as taking care of patients’ basic physical needs and helping people and their families to face illness. Meanwhile, doctors did the aggressive part. ANSWERS: 1 th 6 doc 11 chan 16 th 21 fem 2 w 7 t 12 t 17 ma 22 rea 3 t 8 a 13 wa 18 diffe 23 fr 4 Wh 9 ma 14 med 19 t 24 doc 5 majo 10 pat 15 B 20 profe 25 nur El C-test: alternativa o complemento de otras pruebas en ILE 452 C-TEST B NAME SEX Male / Female DATE SCHOOL First of all, read each text carefully trying to understand its meaning. Then, complete the texts filling in the blanks with the appropiate letters Remember that the second half of every second word has been deleted, beginning with word two in sentence two. In the first two texts each dash corresponds to a single letter. 1. AMERICAN IMPERIALISM Global leadership is both the price America pays and the benefit Americans derive from our wealth, our size and our strength. Worldwide (1)hun_ _ _ and (2)pov_ _ _ _, the (3)spr_ _ _ of (4)nuc_ _ _ _ weapons (5)a_ _ the (6)prolif_ _ _ _ _ _ _ of (7)vio_ _ _ _ conflicts (8)ha_ _ us (9)a_ _. Economic (10)devel_ _ _ _ _ _, better (11)educ_ _ _ _ _, better (12)con_ _ _ _ of (13)ar_ _, cooperation (14)am_ _ _ nations (15)a_ _ the (16)peac_ _ _ _ resolution (17)o_ conflicts (18)he_ _ Americans (19)en_ _ _ greater (20)prosp_ _ _ _ _ and (21)pe_ _ _. Positive (22)a_ _ active (23)engag_ _ _ _ _ in (24)wo_ _ _ affairs (25)i_ the smart as well as the right thing for the United States to do. Yet among developed nations, America has become the least generous provider of either development aid or troops for peacemaking. Our virtue is fading. ANSWERS: 1 hun_ _ _ 6 prolif_ _ _ _ _ _ _ 11 educ_ _ _ _ _ 16 peac_ _ _ _ 21 pe_ _ _ 2 pov_ _ _ _ 7 vio_ _ _ _ 12 con_ _ _ _ 17 o_ 22 a_ _ 3 spr_ _ _ 8 ha_ _ 13 ar_ _ 18 he_ _ 23 engag_ _ _ _ 4 nuc_ _ _ _ 9 a_ _ 14 am_ _ _ 19 en_ _ _ 24 wo_ _ _ 5 a_ _ 10 devel_ _ _ _ _ _ 15 a_ _ 20 prosp_ _ _ _ _ 25 i_ 2. WOMEN DOCTORS. ARE THEY DIFFERENT? In 1974, 11% of the students graduating from medical school in the U.S. were female. In 1984 (1)th_ _ proportion (2)w_ _ close (3)t_ 30%. (4)Wh_ _ _ the (5)majo_ _ _ _ of (6)doc_ _ _ _ in (7)t_ _ United States (8)a_ _ still (9)ma_ _, that (10)pat _ _ _ _ is (11)chan_ _ _ _ with (12)t_ _ new (13)wa_ _ of (14)med_ _ _ _ students. (15)B_ _ will (16)th_ _ fact (17)ma_ _ any (18)diffe_ _ _ _ _ to (19)t_ _ medical (20)profe_ _ _ _ _? Are (21)fem_ _ _ doctors (22)rea_ _ _ different (23)fr_ _ male (24)doc_ _ _ _ ? Traditionally (25)nur_ _ _ did the “female” jobs, such as taking care of patients’ basic physical needs and helping people and their families to face illness. Meanwhile, doctors did the aggressive part. ANSWERS: 1 th_ _ 6 doc_ _ _ _ 11 chan_ _ _ _ 16 th_ _ 21 fem_ _ _ 2 w_ _ 7 t_ _ 12 t_ _ 17 ma_ _ 22 rea_ _ _ 3 t_ 8 a_ _ 13 wa_ _ 18 diffe_ _ _ _ _ 23 fr_ _ 4 Wh_ _ _ 9 ma_ _ 14 med_ _ _ _ 19 t_ _ 24 doc_ _ _ _ 5 majo_ _ _ _ 10 pat_ _ _ _ 15 B_ _ 20 profe_ _ _ _ _ 25 nur_ _ _ Apéndice 453 3. ROAD ACCIDENTS Your chances of dying in a road accident double in France. For (1)ev_____ million (2)vehi______, 300 (3)peo______ die (4)o____ the French (5)ro_____ every (6)ye____, compared (7)t____ 140 (8)i___ Britain. (9)T____ carnage (10)h___ been (11)mu___ reduced (12)i___ the (13)pa___ two (14)dec_____, but 8,000 (15)dea____ a (16)ye____ is (17)st____ an (18)aw____ lot (19)o___ grief (20)a____ suffering -(21)t___ equivalent (22)o____ fifty (23)la_____ plane (24)cra_____. The French (25)gover________ has tough plans to halve the number of road deaths in five years. Their programme includes measures to discourage speeding, which is responsible for almost half the deaths of French roads. ANSWERS: 1 ev 6 ye 11 mu 16 ye 21 t 2 vehi 7 t 12 i 17 st 22 o 3 peo 8 i 13 pa 18 aw 23 la 4 o 9 T 14 dec 19 o 24 cra 5 ro 10 h 15 dea 20 a 25 gover 4. EVOLUTION In the classification of animals there is an order called Primates. In (1)th___ appearance (2)t____ primates (3)rese______ the (4)hu_____ being (5)mo____ than (6)a____ other (7)ani_____ do. (8)I___ is (9)nat_____ to (10)ded____ that (11)th____ are (12)mo____ closely (13)rel_____ to (14)hu_____ beings (15)th____ other (16)ani_____ are. (17)I___ fact, (18)t____ human (19)be____ must (20)b___ included (21)a___ a (22)pri_____, if (23)a___ sense (24)a___ all (25)i___ to be made of animal classification. Once evolution is accepted, one must come to the inevitable conclusion that the various primates, including the human being, have developed from some single ancestral stem and that all are to varying degrees cousins, so to speak. ANSWERS: 1 th 6 a 11 th 16 ani 21 a 2 t 7 ani 12 mo 17 I 22 pri 3 rese 8 I 13 rel 18 t 23 a 4 hu 9 nat 14 hu 19 be 24 a 5 mo 10 ded 15 th 20 b 25 i El C-test: alternativa o complemento de otras pruebas en ILE 454 Apéndice 6. Textos sobre los que se diseñó el C-TEST ROAD ACCIDENTS Your chances of dying in a road accident double in France. For every million vehicles, 300 people die on the French roads every year, compared to 140 in Britain. The carnage has been much reduced in the past two decades, but 8,000 deaths a year is still an awful lot of grief and suffering –the equivalent of 50 large plane crashes.The French government has tough plans to halve the number of road deaths in five years. Their programme includes measures to discourage speeding, which is responsible for almost half the deaths of French roads. EVOLUTION In the classification of animals there is an order called Primates. In their appearance the primates resemble the human being more than any other animals do. It is natural to deduce that they are more closely related to human beings than other animals are. In fact, the human being must be included as a primate, if any sense at all is to be made of animal classification. Once evolution is accepted, one must come to the inevitable conclusion that the various primates, including the human being, have developed from some single ancestral stem and that all are to varying degrees cousins, so to speak. AMERICAN IMPERIALISM Global leadership is both the price America pays and the benefit Americans derive from our wealth, our size and our strength. Worldwide hunger and poverty, the spread of nuclear weapons and the proliferation of violent conflicts harm us all. Economic development, better education, better control of arms, cooperation among nations and the peaceful resolution of conflicts help Americans enjoy greater prosperity and peace. Positive and active engagement in world affairs is the smart as well as the right thing for the United States to do. Yet among developed nations, America has become the least generous provider of either development aid or troops for peacemaking. Our virtue is fading. WOMEN DOCTORS. ARE THEY DIFFERENT? In 1974, 11% of the students graduating from medical school in the U.S. were female. In 1984 that proportion was close to 30%.While the majority of doctors in the United States are still male, that pattern is changing with the new wave of medical students.But will this fact make any difference to the medical profession? Are female doctors really different from male doctors? Traditionally nurses did the “female” jobs, such as taking care of patients’ basic physical needs and helping people and their families to face illness. Meanwhile, doctors did the aggressive part. Apéndice 455 Apéndice 7. Cuestionario retrospectivo DATOS PERSONALES Edad .................. Sexo V / M IES.......................................... He aprendido Inglés: - en el colegio y después en el Instituto - además del colegio he asistido a clases en academias u otras instituciones de enseñanza de idiomas en alguna ocasión. - he asistido a cursos en países de habla inglesa CUESTIONARIO SOBRE EL C-TEST Queremos saber tu opinión sobre el test que acabas de realizar. Es un nuevo tipo de examen que pretende medir tu competencia global en lengua inglesa. 1. ¿Has encontrado dificultades para realizarlo? ¿de qué tipo? .................................................................................................................................. 2. Puntua del 1 al 5 el grado en que este examen mide los distintos aspectos de la lengua Rodea con un círculo (1=mínimo, 5=máximo) aspectos gramaticales 1 2 3 4 5 ortografía: spelling 1 2 3 4 5 conocimiento general de la lengua 1 2 3 4 5 fluidez 1 2 3 4 5 léxico: vocabulario 1 2 3 4 5 3. ¿Te parece un examen adecuado? 1 2 3 4 5 (1=nada adecuado, 5=muy adecuado) 4. ¿Te parece un examen completo? 1 2 3 4 5 (1=nada completo, 5=muy completo) 3. ¿Crees que reflejará bien tus conocimientos de Inglés? (1=mal, 5= muy bien) 1 2 3 4 5 6. ¿Te gustaría que tu acceso a la Universidad dependiera de un test como éste? Sí No 7. ¿Y que formara parte de la prueba de Inglés de Selectividad? Sí No Muchas gracias por tu colaboración. El C-test: alternativa o complemento de otras pruebas en ILE 456 Apéndice 8. Cavemen? Apéndice 457 Apéndice 9. Normas para la corrección de la prueba de Inglés de la PAAU ÍNDICE AGRADECIMIENTOS ABREVIATURAS PUBLICACIONES PREVIAS RELACIONADAS CON EL TEMA DE TESIS INTRODUCCIÓN 1.1. Enunciado del tema de tesis, motivación y objetivos 1.2. Hipótesis 1.3. Organización y contenido de la tesis PRIMERA PARTE. FUNDAMENTOS TEÓRICOS DE LA EVALUACIÓN DE LA LENGUA CAPÍTULO 1. APROXIMACIÓN TEÓRICA AL CONCEPTO DE EVALUACIÓN:LA EVALUACIÓN DE LA LENGUA 1.1. Introducción 1.2. El concepto de Evaluación de la Lengua 1.2.1. Aproximación terminológica 1.2.2. Límites de la evaluación 1.3. La evaluación en el sistema educativo español 1.3.1. Pautas de actuación LOGSE para el profesorado de Lenguas Extranjeras 1.3.2. Propuestas LOGSE para la evaluación de Lenguas Extranjeras 1.3.3. Panorama actual: La escuela ante las nuevas realidades sociales 1.4. Las pruebas de evaluación de la lengua 1.4.1. Peculiaridades de las pruebas de evaluación de la lengua 1.4.2. Diseño y creación de pruebas 1.4.3. Qué evaluar en las pruebas de Lengua Extranjera 1.5.Modelos de dominio de la lengua 1.5.1 Modelos de componentes 1.6. El concepto de redundancia de la lengua 1.7. El concepto de “gramática de expectativas” 1.8. Tipos de pruebas de evaluación de la lengua 1.8.1. Según su propósito 1.8.2. Según la naturaleza de las tareas propuestas 1.8.3. Según el número de elementos lingüísticos que se mida en cada prueba 1.8.4. Según el método de corrección 1.8.5. Según el marco de referencia utilizado 1.8.6. Según su ámbito de aplicación y consecuencias CAPÍTULO 2. PERSPECTIVA HISTÓRICA DE LA EVALUACIÓN DE LA LENGUA 2.1. Introducción 2.2. Orígenes de la Lingüística Aplicada 2.3. La Evaluación de la Lengua: trayectoria histórica 2.3.1 El movimiento estructuralista 2.3.2. El movimiento comunicativo 2.3.3. La evaluación en las últimas décadas: estado de la cuestión 2.4. La Evaluación de la Lengua de 1984 a 1994: State of the Art 2.4.1. Teoría de respuesta al ítem (IRT) 2.4.2. Análisis de pruebas estandarizadas 2.4.3. El problema de la autenticidad de las pruebas 2.4.4. La autoevaluación 2.4.5. La influencia de otros factores en la evaluación: el contexto y lascaracterísticas del alumno 2.4.6. Las técnicas de examen 2.5. La evaluación de la lengua desde 1994 hasta nuestros días 2.5.1. Introducción y fuentes 2.5.2. Principales temas que plantea la Evaluación de la Lengua en los últimosaños 2.5.3. Rasgos de las pruebas 2.5.4. Tipos de pruebas 2.5.5. Nuevos retos en la enseñanza de lenguas 2.6. Perspectivas de futuro CAPÍTULO 3. RASGOS DE LOS EXÁMENES O PRUEBAS 3.1. Introducción 3.2. Validez de las pruebas 3.2.1. Validez de constructo 3.2.2. Validez de contenido 3.2.3. Validez criterial 3.2.4. Validez aparente 3.3. Fiabilidad 3.3.1. Medidas cuantitativas de la fiabilidad 3.3.2. La fiabilidad de la corrección 3.3.3. Cómo asegurar la fiabilidad de las pruebas 3.4. Tensión validez-fiabilidad 3.5. Autenticidad 3.6. Carácter interactivo 3.7. Factibilidad 3.8. Impacto 3.8.1. Definición del concepto 3.8.2. El impacto de las pruebas en el enfoque comunicativo 3.8.3. Investigación empírica sobre el impacto 3.8.4. El impacto en los individuos: alumnos y profesores 3.8.5. El impacto de las pruebas externas en la enseñanza: enseñar para elexamen 3.8.6. Cómo conseguir que el efecto rebote sea beneficioso CAPÍTULO 4. LA EVALUACIÓN DEL VOCABULARIO 4.1. Introducción: el vocabulario en la enseñanza de Lenguas Extranjeras 4.2. Naturaleza del vocabulario 4.2.1. Concepto de palabra 4.2.2. Grado de conocimiento de una palabra 4.2.3. Tipos de palabras 4.2.4. Últimas definiciones del constructo del vocabulario 4.3. Adquisición y aprendizaje de vocabulario 4.3.1. Diferencias entre la adquisición de L1 y L2 4.3.2. Carácter gradual de la adquisición de vocabulario 4.3.3. La memoria en la adquisición de vocabulario 4.3.4. Incorporación sistemática de vocabulario 4.3.5. Incorporación incidental de vocabulario 4.3.6. Factores que afectan al aprendizaje de una palabra 4.3.7. Pasos en el aprendizaje de una palabra 4.3.8. Estrategias para el aprendizaje del vocabulario 4.4. Investigaciones sobre evaluación del vocabulario 4.4.1. El estudio del vocabulario: Perspectiva histórica 4.4.2. La evaluación del vocabulario en el siglo XX 4.4.3. Panorama actual en la evaluación del vocabulario 4.5. Las pruebas de vocabulario 4.5.1 Tipos de pruebas de vocabulario 4.5.2. Ejemplos de pruebas estandarizadas de vocabulario CAPÍTULO 5. LAS PRUEBAS DE CIERRE 5.1. Introducción 5.2. Concepto de “prueba de cierre” o cloze technique 5.3. La Psicología de la Gestalt 5.4. Los clozes como expresión de los principios de pregnancia y cierre 5.5. Qué miden las pruebas de cierre 5.6. Las pruebas de cierre como medida de la comprensión lectora 5.7. Rasgos fundamentales de las pruebas de cierre 5.7.1. Validez y fiabilidad 5.7.2. Factibilidad 5.8. Selección de textos para crear pruebas de cierre 5.9. Tipos de pruebas de cierre 5.9.1. De ratio fija 5.9.2. De ratio variable 5.9.3. De elección múltiple 5.9.4. Cloze-elide technique 5.9.5. C-test 5.10. Criterios de corrección de las pruebas de cierre 5.10.1. Palabra exacta 5.10.2. Palabra aceptable 5.10.3. Clozentrophy 5.10.4. Elección múltiple CAPÍTULO 6. EL C-TEST 6.1. Introducción 6.2. Antecedentes del C-test 6.3. Deficiencias de las pruebas de cierre tradicionales 6.4. Descripción de la técnica para diseñar C-tests 6.5. Aportación del C-test a los clozes 6.6. El C-test como prueba de redundancia reducida 6.7. Rasgos del C-test 6.7.1. Validez y fiabilidad 6.7.2. Autenticidad 6.7.3. Factibilidad 6.7.4. Efecto rebote 6.8. Métodos de análisis de los procesos que subyacen a la actuación delalumno en las pruebas de evaluación de la lengua 6.8.1. Estrategias para la resolución de C-tests: Validez de constructo 6.8.2. Qué mide exactamente el C-test 6.8.3. C-processing difficulty 6.9. Usos del C-test 6.10. Variaciones sobre la técnica del C-test 6.10.1. La “regla del tres” 6.10.2. C-tests “a la medida” 6.10.3. L-Test 6.10.4. The Productive Vocabulary Levels Test 6.10.5. Otras propuestas 6.11. Interpretación de los resultados obtenidos en un C-test 6.12. Líneas de futuro SEGUNDA PARTE. PERSPECTIVA EMPÍRICA CAPÍTULO 7. ESTUDIOS PILOTO 7.1. Introducción 7.2. Prueba piloto I 7.2.1. Objetivos del estudio 7.2.2. Sujetos 7.2.3. Materiales 7.2.4. Procedimiento 7.2.5. Resultados y discusión 7.2.6. Conclusión 7.3. Prueba piloto II 7.3.1. Objetivos del estudio 7.3.2. Sujetos 7.3.3. Materiales 7.3.4. Procedimiento 7.3.5. Resultados y discusión 7.3.6. Conclusión CAPÍTULO 8. DESCRIPCIÓN DEL PROCESO METODOLÓGICO 8.1. Introducción 8.2. Sujetos 8.3. Materiales 8.3.1. C-test: Diseño 8.3.2. Cavemen? 8.3.3. Calificaciones de Inglés en la 2ª Evaluación 8.3.4. Calificaciones del examen de Inglés de las PAAU oficiales 8.3.5. Cuestionario 8.4. Contexto: Perfil de los IES en que se realizó el estudio 8.5. Procedimiento 8.5.1. Selección de los sujetos: muestra 8.5.2. Distribución del tiempo 8.6. Tratamiento de los datos CAPÍTULO 9. ANÁLISIS EMPÍRICO DE LA VALIDEZ DEL C-TEST 9.1. Introducción 9.2. Proceso de validación del C-test como prueba de competencia lingüística 9.3. Aspectos descriptivos del C-test aplicado: análisis intrínseco 9.3.1. Promedios del C-test y los subtests que lo forman 9.3.2. Correlaciones entre el C-test y los subtests que lo forman 9.3.3. Resultados obtenidos según el modelo de C-test: A y B 9.3.4. Incidencia del cambio de formato 9.4. Análisis de los textos a partir de los cuales se creó el C-test aplicado 9.4.1. La variable temática 9.4.2. Variación y densidad léxicas de los textos 9.5. Factores que determinan la facilidad o dificultad de los ítems 9.5.1. Términos léxicos y funcionales 9.5.2. Incidencia del tipo de término omitido en la recuperación del texto.Análisis por modelos. 9.6. Casuística en la recuperación de las omisiones: Análisis de los errores 9.7. Análisis empírico de los resultados obtenidos en Cavemen? 9.7.1. Descripción de Cavemen? Estructura e interrelaciones 9.7.2. Correlaciones entre Cavemen? y las otras pruebas: PAAU 2001, 2ªEvaluación y C-test 9.8. Análisis de la validez concurrente del C-test: correlaciones 9.9. Validez predictiva 9.10. Fiabilidad 9.10.1. Análisis por mitades 9.10.2. Alfa de Cronbach 9.10.3. Validez y fiabilidad 9.10.4. Fiabilidad del corrector CAPÍTULO 10. ANÁLISIS DE REGRESIÓN LINEAL 10.1. Introducción 10.2. Análisis de regresión lineal de la 2ª Evaluación 10.3. Análisis de regresión lineal de Cavemen? 10.4. Análisis de regresión lineal de la Selectividad de junio de 2001 10.5. Conclusión CAPÍTULO 11. ACTUACIÓN EN EL C-TEST EN FUNCIÓN DEL ESTATUSDEMOGRÁFICO DE LOS SUJETOS 11. 1. Introducción 11.2. Incidencia de la variable de género 11.2.1. Características de género de la muestra y promedios obtenidos en laspruebas 11.2.2. Repercusiones de la variable género en el C-test: modelos y subtests 11.2.3. Análisis de promedios mediante el modelo lineal general 11.3. Incidencia del IES de procedencia de los sujetos 11.3.1. Entorno de los IES en que se realizó el estudio 11.3.2. Análisis estadístico de los promedios de cada centro 11.3.3. Análisis de varianza univariante de los resultados de los centros 11.3.4. Repercusiones de la variable IES de procedencia en el C-test 11.3.5. Análisis de varianza univariante de ambas variables CAPÍTULO 12: ANÁLISIS DE LA VALIDEZ APARENTE DEL C-TEST 12.1. Introducción 12.2. La validez aparente del C-test en los estudios piloto 12.3. El cuestionario: partes y orígenes 12.4. Valoración global de las dificultades planteadas por el C-test 12.5. Análisis estadístico 12.5.1. Tablas de frecuencias 12.5.2. Análisis factorial 12.6. Conclusiones CONCLUSIONES Y SÍNTESIS DE RESULTADOS Introducción Conclusiones A. Validez del C-test B. Fiabilidad C. Incidencia de las variables género e IES D. Implicaciones pedagógicas E. Consejos para la creación de C-tests F. Síntesis de los resultados más relevantes del estudio G. Propuesta de posibles futuras líneas de investigación BIBLIOGRAFÍA APENDICES Apéndice 1. Modelo para la realización de C-tests. Apéndice 2. Estudio piloto I Apéndice 3. Estudio piloto II Apéndice 4. Instrucciones para las profesoras de Inglés de los gruposparticipantes en el estudio Apéndice 5. C-TESTS PERSPECTIVA EMPÍRICA TESIS Apéndice 6. Textos sobre los que se diseñó el C-TEST Apéndice 7. Cuestionario retrospectivo Apéndice 8. Cavemen? Apéndice 9. Normas para la corrección de la prueba de Inglés de la PAAU