Cómo construir preguntas tipo test

Alejandro González
8 min readMay 15, 2020

A raíz de un brillante seminario web de Cara North, parte del Alchemy Lab, con trucos para evitar errores comunes en preguntas tipo test de opción múltiple, me he decidido a aportar mi granito de arena.

Os cuento una anécdota de este mismo mes: como diseñador instruccional, recibo un contenido al que le acompañan preguntas tipo test ya hechas. El agradecimiento inicial por el alivio de esa parte del trabajo se transforma en desazón cuando veo la calidad de las preguntas tipo test que el creador del contenido ha redactado. ¿Lo comunico y las cambio?, ¿lo valorará?, ¿se sentirá atacado por cambiárselo?, ¿alguien le da importancia a los exámenes tipo test en realidad?

Para hacer un buen cuestionario tipo test hay que pensar detenidamente el enunciado y las opciones de respuesta de cada pregunta. El test es nuestro instrumento de medición. No está exento de críticas como instrumento, pero es muy utilizado, y necesitamos calibrarlo al máximo posible.

El test tiene que medir conocimiento u opinión (más sobre esto en un momento). No es deseable que mida gestión del estrés o del tiempo, como miden algunos exámenes de oposición; comprensión lectora o distinción de caracteres tipográficos, como miden algunos exámenes con enunciados enrevesados, etc. Cuando uno tiene esto claro, se da cuenta de que una parte considerable de los exámenes tipo test que ha hecho tienen una utilidad cuestionable para medir cuánto se sabe.

La diferencia básica: rendimiento óptimo vs. rendimiento típico

¿Qué doctrina filosófica predomina en el poema didáctico De la naturaleza de las cosas, del poeta romano Lucrecio?

a) Dualismo

b) Epicureanismo

c) Platonismo

En una pregunta de este tipo solo hay una respuesta correcta. Estamos ante una pregunta que trata de evaluar el rendimiento y/o conocimiento, que iría desde pésimo hasta óptimo, desde el suspenso hasta el sobresaliente. Los tests de rendimiento óptimo, que así es como se llaman, constituyen el tipo de preguntas que seguramente más hemos visto en buena parte de nuestra formación académica.

También es el tipo de pregunta que mejor se lleva con una formación e-learning, ya que, al haber una única respuesta correcta, es sencillo implementar sistemas de corrección automática; es sencillo que los pueda corregir una máquina.

Por el contrario, mira una pregunta así:

¿Qué autor/a de la Generación del 27 es el más entretenido de leer?

a) Rafael Alberti

b) Federico García Lorca

c) María Teresa León

Aquí no hay una respuesta correcta, ya que fundamentalmente se está preguntando por opiniones. Cuando un encuestador crea preguntas así, lo que le interesa es conocer tipos; es decir, saber cuál es la tipicidad de la población a la que está encuestando. Le interesa saber con qué frecuencia se repiten determinados comportamientos, pero asumiendo que ninguno es la solución al problema o que ninguno es más correcto que otro. En esto consisten los tests de rendimiento típico. Muchas encuestas de orientación política, de satisfacción, etc., son de este tipo.

Lo cierto es que estos cuestionarios están más olvidados en el e-learning. Recientemente he visto las dificultades que tiene Articulate Rise para incluir preguntas de rendimiento típico. Hay que recurrir a la inventiva para poder hacerlas.

A pesar de que evalúen otro tipo de conocimiento, de percepciones o de actitudes, los tests de rendimiento típico deberían tener su espacio en la formación. Podemos usarlos para trabajar actitudinalmente un contenido, o para llamar al conocimiento previo colocándolo al principio, por ejemplo. Lamentablemente, al menos en mi experiencia en formación, no son demasiado populares.

Resumen: rendimiento óptimo, evaluar la nota; rendimiento típico, conocer valoraciones personales.

Un test mal hecho

Empecemos con un ejemplo.

El asunto de los ermitaños no es una cuestión moderna. ¿Cómo se llama el autor de Walden y dónde vivió?

a) Henry David Thoreau. Vivió en Massachusetts.

b) Henri David Thoreau. Vivió en Masachusets.

c) Hendry David Thorough. Vivió en Massachussets.

d) Henri David Thoraeu. Vivió en Massachussetss.

e) Fernando Conde. Vivió en Vigo.

f) Leovigildo. Vivió en el reino visigodo de Toledo.

¿Qué tiene de malo esta pregunta? Varias cosas:

  • El enunciado incluye información sobrante que, en realidad, solo está distrayendo.
  • Hay que estar muy atento para no equivocarse a la hora de elegir la opción de respuesta que contiene las letras adecuadas. ¿Queremos saber quién recuerda al autor del libro o estamos ante una práctica de agudeza visual?
  • Hay dos opciones de respuesta que difícilmente van a ser escogidas: las dos últimas. Se descartan tan fácilmente que no sirven para nada. Las opciones no correctas — llamadas distractores — deben tener apariencia de plausibilidad. Si se descartan con una lectura superficial, lo estamos haciendo mal.

Tiene una cosa buena, no obstante: todas las opciones tienen una longitud similar. Frecuentemente, la opción correcta es la más larga o la que tiene más detalles.

Otras prácticas no recomendables que son muy habituales son:

  • A) y C) son correctas: Normalmente, A) y C) harían referencia a conceptos distintos y, así, matando dos pájaros de un tiro, uno cree que está evaluando sobre los dos. Es recomendable que una pregunta mida un contenido específico. Si A) y C) son conceptos distintos, ¿no sería mejor dividirlo en dos preguntas, una para cada concepto? Un motivo es que, si en el análisis de las respuestas, vemos que este ítem (pregunta) da problemas (a saber, aciertan o suspenden casi todos), ¿cómo podríamos discriminar cuál es el concepto problemático, si A) y C) están juntos? Nuestro instrumento de medición debe ser todo lo preciso y ordenado que sea posible. Pienso que esta táctica se utiliza para ahorrarse pensar opciones distractoras y ahorrarse preguntas.
  • Todas las anteriores: La pereza de escribir preguntas adicionales y distractores llevada a su extremo.

Un test bien hecho

Si he desarrollado con los años una pequeña idea sobre cómo escribir preguntas tipo test, ha sido porque desde mis años de carrera he utilizado una lista de mandamientos. Esta lista la podéis consultar en A Review of Multiple-Choice Item-Writing. Guidelines for Classroom Assessment, de Thomas Haladyna, Steven Downing y Michael Rodriguez (enlace, en inglés). Estos autores proporcionan 31 consejos para redactar ítems en un test de rendimiento óptimo. Hablar de todas sería demasiado para este artículo, así que me voy a centrar en las que creo que más aplican al sector e-learning, que es en donde he tenido más oportunidades de ver gazapos.

1- Cada ítem debe reflejar un contenido específico.

3- Utiliza una redacción novedosa para las preguntas. Evita copias literales o paráfrasis muy semejantes. Si utilizamos copias literales, facilitamos más el recuerdo que la comprensión. Si las palabras son distintas, el encuestado que responda correctamente ha tenido que desplegar un esfuerzo mental mucho mayor, lo cual es reflejo de que ha habido entendimiento de los conceptos.

6- Evita preguntas basadas en la opinión. No deberíamos enmascarar una opinión como pregunta con respuestas correctas en un cuestionario de rendimiento óptimo. Por ejemplo, en vez de preguntar «¿Cuál es la mejor herramienta de autor?», podríamos hacer explícitas las características que lo hacen mejor y reformularlo, aunque eso nos obligue a partir la pregunta en varias: «¿Qué herramienta de autor trae statements de xAPI sin necesidad de código?», «¿Qué herramienta de autor permite editar el manifiesto?», etc.

7- Evita preguntas trampa. En el ejemplo anterior con H. D. Thoreau, encontramos la trampa de las letras parecidas, pero también entran en esta categoría el uso de negativos (como se menciona en la recomendación 17).

8- Utiliza un vocabulario simple y 13- Minimiza el tiempo de lectura. Con el firme propósito de que el instrumento de evaluación empleado trate de dilucidar el estado actual de conocimiento del sujeto que toma parte en el mismo, descartando usos más relacionados con la comprensión lingüística. La frase anterior sería un ejemplo de mal uso, y un buen ejemplo sería «Con el objetivo de que mida conocimiento y no comprensión lectora». Si tienen que navegar entre cláusulas y subordinadas, plantéate redactar de nuevo el enunciado.

12- Cuida la gramática, puntuación, uso de mayúsculas y minúsculas y ortografía. Una coma puede cambiar el sentido de una frase y una errata puede convertir una respuesta correcta en incorrecta. Para mí es una falta grave presentar un cuestionario con faltas de ortografía.

15- Incluye la idea principal en el enunciado y no en las opciones. Opino que esto es otro recurso perezoso para preguntar por varios conceptos en una misma pregunta.

17- Redacta la pregunta en positivo y, si debes usar negativas como «no» o «excepto», escríbelas en mayúscula y/o en negrita. De no hacerlo, la pregunta puede ir con truco.

18- Crea tantas opciones de respuesta como puedas, pero la investigación sugiere utilizar tres. ¡Aquí está la clave! Tres opciones de respuesta es lo recomendable. ¿Por qué desarrollar más, si con tres es mejor? Porque si el análisis de datos revela que la opción de respuesta no funciona bien, puedes emplear las no utilizadas y valorar si mejora. Te servirá para ir filtrando los mejores distractores.

19- Asegúrate de que solo una de las opciones es correcta. Tienen mucho peligro las preguntas en las que hay distintos grados de corrección y, supuestamente, una opción es la más correcta de todas. Tiene que ser un criterio objetivo y no una cuestión de opinión o de anécdota.

22- Las opciones de respuesta no deben solaparse. En el seminario web del que hablaba al inicio del artículo, se comenta un ejemplo similar a este: ante la pregunta de «¿A qué edad empieza la adolescencia?», si tenemos como opción A) «10–11 años» y como B) «11–12 años», y la respuesta correcta pongamos que es 11, tenemos un solapamiento, ya que 11 aparece en ambas.

23- Redacta homogéneamente las opciones de respuesta. Evita que A) sea una palabra y B) una frase, o que A) una tenga una estructura de sujeto y predicado y B) que sea un infinitivo con cláusulas, etc.

25– Usa con mucha cautela «Ninguna de las anteriores» y 26- Evita «Todas las anteriores».

29- Usa distractores plausibles.

30- Usa errores típicos para crear distractores. Aprovechemos los errores habituales que cometen los alumnos sobre un tema para introducirlos como opciones incorrectas. Para mí, una de las mejores recomendaciones.

Más allá de las recomendaciones anteriores, el sector e-learning, especialmente los destinados a formación corporativa, exsiten dos procedimientos fundamentales con respecto de los tests: hacer pruebas piloto a priori y usar el análisis de los datos para mejorar el test a posteriori.

Hacer pruebas piloto

Es más probable que descubramos los problemas tras la primera aplicación del cuestionario. Preguntas que aprobaron todos, preguntas que fallaron todos, preguntas que no se comprendieron, preguntas que sospechas que contestaron al azar... Idealmente, el pilotaje ha de ser con personas representativas de la población real a la que aplicarías el test finalmente.

Usar el análisis de datos para mejorar el test

Al término del curso, el cuestionario habrá reflejado una nota y el alumno tendrá su aprobado o su suspenso, que presentará al departamento de formación de su empresa o se llevará a FUNDAE o lo que sea. Proyecto terminado, factura ingresada y a otra cosa. Con menor frecuencia el diseñador instruccional analiza los datos pregunta a pregunta para ver cómo ha funcionado, para ver si el test ha medido lo que tenía que medir o para ver si ha habido alguna pregunta que haya destacado sobre otras. Muchas veces es la propia dinámica de los proyectos de formación la que impide un seguimiento a este nivel, pero sería lo óptimo para pulir los cuestionarios.

--

--