Resumen

Este artículo tiene como propósito presentar una revisión documental que da cuenta del panorama de la evaluación estandarizada y con mediciones particulares de la psicometría, evidenciando las tendencias que predominan en la investigación sobre estos temas. Se empleó el análisis interno de contenido para la revisión del corpus de los últimos 25 años de producción científica en el campo.

Palabras clave: evaluación de estudiantes, aprendizaje, psicometría, software educativo, pruebas

Abstrac

The purpose of this article is to present a documentary review that gives a view of the evaluation panorama under the standardized approach and with particular measurements of psychometry, evidencing the trends that predominate in research on these topics. Internal content analysis was used to review the corpus of the last 25 years of scientific production in the field.

Keys words: student evaluation, learning, psychometry, educational software, tests

La evaluación estandarizada del aprendizaje o llamada también evaluación de gran escala, es una forma de evaluación sistematizada del aprendizaje, caracterizada por seguir un proceso riguroso con marcos referenciales teóricos y metodológicos con los cuales se miden rasgos observables en la población objeto, estableciendo precisiones específicas, controles logísticos y administrativos. De igual manera se identifica por la sistematización de los instrumentos o técnicas con las que se recopila, analiza e interpreta la información, de forma tal que se utilicen los mismos instrumentos durante todo el proceso.

Las pruebas estandarizadas han surgido como una posible respuesta o herramienta para la mejora de los procesos educativos en las instituciones, en particular del fin de contar con instrumentos de evaluación que sean válidos y confiables, aportando información con la cual las instituciones educativas puedan tomar decisiones y emprender acciones para mejorar la calidad de sus procesos, y con ello el aprendizaje de sus estudiantes. Es por lo anterior que se ha visto utilizar pruebas estandarizadas con el fin de instaurar parámetros de desempeño imprescindibles para establecer objetivos educativos, o como índices para predecir desempeño de estudiantes, entre otros usos.

Los retos que significa la evaluación de los aprendizajes en la educación superior, tanto como actividad que responde a las demandas y necesidades formativas del siglo XXI, así como mecanismo de análisis e intervención en el campo de la investigación educativa, hacen del tema un campo de estudio apremiante. De esta manera, el presente estudio da cuenta del desarrollo del conocimiento científico que se ha realizado en los últimos años sobre la evaluación estandarizada de los aprendizajes, en términos de aplicación de la psicometría como método de medición y aseguramiento de la calidad, así como la inclusión de la tecnología aplicada a los procesos educativos y de evaluación. En consecuencia, este artículo de revisión expone los hallazgos más relevantes en la temática, así como la demarcación de los alcances y vacíos que ha tenido la comunidad científica en los último 25 años.

La estructura del documento se relaciona con tres grupos de análisis que corresponden directamente con el enfoque de la evaluación estandarizada de los aprendizajes. El primero corresponde a las investigaciones que dan cuenta sobre las modalidades de evaluación, teorías y metodologías que se aplican bajo este enfoque. En el segundo se refieren las investigaciones que abordan específicamente los mecanismos de medición, evaluación y/o la calidad de las pruebas estandarizadas, haciendo énfasis en la intervención o uso de la psicometría. Por último, se analizan las investigaciones que relacionan la evaluación del aprendizaje con la evaluación estandarizada, así como el uso de tecnología aplicada a la educación (software educativo con o sin funciones evaluativas). A guisa de cierre del artículo, se realiza un análisis de los vacíos de conocimiento existentes en relación a la aplicación de tecnología en la elaboración y puesta en práctica de pruebas estandarizadas, haciendo un análisis particular en los aspectos involucrados para determinar la calidad psicométrica de las mismas.

Metodología

La investigación se realizó a partir de un análisis profundo de carácter interno sobre el corpus diseñado para dicha empresa (ver Tabla 1) (López, 2002).

Tabla 1. Estructura del corpus de investigación

Tipo de publicación Cantidad revisada Tiempo comprendido
Artículo en revista indexada 45 1977-2019
Artículo en eventos académicos 5 1999-2019
Libros 6 1960-2014
Tesis de grado 2 2000-2006


Fuente: elaboración propia.

De esta manera, se entiende por análisis de contenido al conjunto de procedimientos que permiten realizar clasificaciones e inferencias, tanto válidas como reproducibles, de uno o varios textos que se relacionan entre sí por abordar un mismo tema de investigación; así mismo, hace hincapié en la exposición de los vacíos o lo no dicho en la materia (Aigeneren, 1999; Ulloa, 2015). El análisis realizado es de corte cualitativo por la pretensión de profundizar e interpretar los elementos más importantes de los documentos rectores en este trabajo, logrando así estimar los avances, retrocesos y retos en el campo de la evaluación estandarizada de los aprendizajes en la educación superior.

Dicha revisión de la literatura se desarrolló tomando como líneas de intelección —que a su vez fungieron también como criterios e inclusión y exclusión— las categorías, variables e indicadores diseñadas ex profeso para esta investigación (ver Figura 1), las cuales dirigieron el análisis de contenido de los últimos 25 años de producción científico en el campo de la evaluación educativa, en lo general, y la evaluación estandarizada de los aprendizajes, en lo específico.

Draft Content 975182882-291-image1.png

Figura 1. Categorías, variables e indicadores de análisis en la investigación. Fuente: elaboración propia.

A partir del fichaje —entendido como la técnica de recolección, almacenamiento y organización de información— se logró operativizar los ejes de macro (categorías), meso (variables) y micro (indicadores) análisis con los que se recuperaron los puntos de encuentro, desencuentro, tensiones y vacíos de conocimiento en este campo de investigación educativa, y que dan sustento a la caracterización de las prácticas de la evaluación de los aprendizajes, las metodologías que se utilizan para una evaluación de calidad, los principales atributos con los que se puede medir la calidad de una prueba estandarizada, así como las teorías sobre las que recaen todas las prácticas, técnicas o instrumentos que se emplean en la consecución de la evaluación estandarizada del aprendizaje.

Con base en la estructura de análisis de investigación señalada en el esquema anterior se procedió a la revisión sistemática de cada uno de los elementos que componen el corpus de la investigación, efectuando así un análisis cualitativo de estos documentos enfocando los esfuerzos en encontrar elementos relacionados con los indicadores definidos.

Evaluación del aprendizaje y pruebas estandarizadas

Las investigaciones que aquí se presentan se alinean al estudio del qué es y cómo se comprende la evaluación del aprendizaje, con un particular énfasis en las evaluaciones a gran escala o también conocidas como evaluaciones estandarizadas, en cuanto metodologías en el diseño o desarrollo de las mismas, y las teorías que fundamentan las técnicas o instrumentos con los cuales se elaboran este tipo de pruebas, cerrando con los usos y/o beneficios que se han logrado en la aplicación de estas.

Definir la evaluación del aprendizaje obliga la reflexión de las diferentes miradas que posicionan su objeto de estudio en este campo; esto con la finalidad de conceptualizarla en su justa medida, aunado al hecho que esta es una temática de interés actual para las instituciones de educación superior por la creciente exigencia sobre la calidad en la formación de las nuevas generaciones de profesionales.

La evaluación del aprendizaje puede clasificarse desde diferentes líneas y con base en una diversidad amplia de criterios; por ejemplo, el momento en que se evalúa (inicial o diagnóstica), por el actor que la realiza (autoevaluación, heteroevaluación, coevaluación, etcétera); por la forma en que esta se realiza (formativa, dinámica, estática, sumativa) o por el enfoque como lo es la evaluación autentica o alternativa centrada en los procesos (Izquierdo, 2008; Zúñiga, Solar, Lagos, Báez y Herrera, 2014). En este sentido, la evaluación de los aprendizajes funge como base fundamental para la observación de los aciertos y errores en las estrategias empleadas para lograr la adquisición de conocimientos en los estudiantes y con ello tomar decisiones en pro de su formación educativa. Bogantes (2015) comenta que la evaluación del aprendizaje es el ejercicio educativo o formativo que dictamina qué, cómo, por qué y cuándo se deben de enseñar; es decir, se asocia la evaluación del aprendizaje con las decisiones que se hayan o tomen durante los procesos de enseñanza y aprendizaje.

En este tenor, la evaluación es un proceso continuo que se realiza prácticamente desde que se tiene conciencia; por ello, Mendivil (2012) asevera que esta no surge en y para el ámbito pedagógico, ya que su génesis se alinea a la vida cotidiana, puesto que en todo momento efectuamos una evaluación del comportamiento, la expresión, el rendimiento. Por otro lado; en el ámbito de la educación superior se observa una tendencia por describir la evaluación como el producto de una serie de interacciones entre diferentes tipos de personas en un espacio y tiempo determinados, interacción que particularmente ofrece un marco referencial sobre el cual los docentes orientan las prácticas de evaluación (Contreras, 2010).

A pesar de la relevancia que enmarca al campo, en la actualidad existe una confusión o mala interpretación del significado real de la evaluación del aprendizaje, que llegan a reducirla a la mera acción de calificar; al respecto Alcaraz (2015) explica que:

en la actualidad aún seguimos … confundiendo algunas características de la evaluación con las de la calificación. De modo que, prácticas que dicen ser de evaluación tienen tras de sí muchas de las cualidades propias del acto de calificar. Decimos que evaluamos para comprobar si el alumnado está aprendiendo o no y olvidamos que la principal función de la evaluación no es tanto comprobar el aprendizaje como asegurar las condiciones para que se produzca dicho aprendizaje (pp. 210-211).

En general se observan definiciones de evaluación del aprendizaje que se pueden clasificar o resumir en una serie de fines particulares. Uno de ellos es la evaluación como mejora, que para ciertos autores se comprende por dos tipos de evaluación: la evaluación formativa y evaluación formadora (Umaña, A., Calvo, X. y Salas, N., 2017), la cual permite transformar la práctica del docente y el aprendizaje del estudiante; evaluación como rendimiento de cuentas del docente o de la institución, que se observa cuando los docentes demuestran que realizan correctamente su trabajo y que logran los objetivos educativos planteados por la institución; la evaluación como rendimiento de cuentas del alumno, donde el estudiante demuestra, en la mayoría de los casos, la prueba de su aprendizaje de un determinado tiempo (Hidalgo y Murillo, 2017).

Por otro lado, la evaluación estandarizada de los aprendizajes centra sus acciones desde lo que explican Tristan y Pedraza (2017):

Las pruebas estandarizadas … cuentan con un amplio desarrollo técnico y metodológico con formas perfeccionadas para medir los rasgos observables o latentes, en la población focal específica y con un grado de precisión previamente establecido y controlado por procedimientos logísticos y administrativos igualmente objetivos. (p.18)

Se observa que la estandarización se entiende como un proceso de sistematización de todos aquellos elementos que están asociados a una acción de recogida e interpretación de información, de tal forma que se utilicen los mismos instrumentos o técnicas tanto para recopilar, análisis e interpretar la información (Jornet, 2017). Es importante notar que otros autores refieren como características particulares de este tipo de pruebas son los marcos de referencia teóricos y metodológicos rigurosos (Popham, 1999; Martínez, 2001; Gómez, 2004; Backhoff, 2018; Fernández, Alcaraz y Sola, 2017), resaltando el hecho que se les asocia con fines de evaluación válidos y confiables. En las definiciones se hace un espacial énfasis en el elemento base de ser sistematizadas y que emplean métodos o instrumentos muy rigurosos para la recopilación y análisis de información.

Usos de las pruebas estandarizadas

En este apartado se hace primeramente una revisión histórica de este tipo de pruebas en México, luego se analiza la percepción general de los usos de este tipo de pruebas y posteriormente se examinan las diferencias o aspectos negativos que se observan sobre este tipo de pruebas.

En el caso particular de México este tipo de pruebas no han sido una práctica muy frecuente, la Secretaria de Educación Pública empieza a aplicarlas en 1972, estas se utilizaron para decidir la admisión de alumnos en secundaria (Martínez, 2009); sin embargo, la situación no tuvo otro avance sobresaliente hasta 1994, cuando se impulsó la realización de pruebas a gran escala en la educación básica mediante el proyecto denominado Estudio de Evaluación de la Educación Primaria.

Este año también fue importante para la evaluación en México, ya que con el ingreso a la OCDE se aumentaron los esfuerzos por integrarse a la vida internacional, lo cual incluía las evaluaciones educativas a gran escala. Esto produjo en consecuencia la creación del Centro Nacional para la Evaluación de la Educación Superior (CENEVAL) y con ello se extendió este tipo de evaluaciones a gran escala o estandarizadas en el país. En 1996 se realiza un trabajo de estándares curriculares produciendo evaluaciones en relación a ellos, lo que se conoció como Pruebas de Estándares Nacionales aplicadas por primera vez en 1998 (Martínez, 2001).

Considerando ahora el uso que se le dan a estas pruebas sobre salen apreciaciones que asocian este tipo de pruebas a rendimiento escolar, a calidad educativa en las instituciones e incluso a dar razones de la educación de en un país (Gómez, 2004; Tiramonti, 2014).

Como se ha mencionado, una característica de este tipo de pruebas es el exhaustivo control y método con el cual se realizan, y a este respecto Jornet (2017) destaca la relevancia de utilizar este tipo de pruebas:

La estandarización ha estado defendida desde posiciones en las que se enfatiza la necesidad de plantear un mismo sistema de acercamiento a la realidad (sea en pruebas de rendimiento, escalas de actitudes o sistemas de evaluación de docentes, instituciones, programas…) con el fin de que las diferencias en relación a los resultados puedan imputarse a la diversidad del objeto o sujeto evaluado o a efectos debidos a una intervención sobre ellos, y no a posibles factores diferenciales derivados del modo en que han diseñado, aplicado o interpretado los instrumentos. (p. 6).

Por su parte, algunos autores (Fernández, M., Alcaraz, N., y Sola, M., 2017) consideran que la importancia de usar estas pruebas radica al hecho que valoran el aprendizaje de los estudiantes de una forma masiva y lo atribuyen a los efectos del sistema educativo al que pertenecen, con lo que se permite proporcionar información sobre las fortaleza o debilidades.

Resulta interesante observar como el planteamiento principal de estos autores sobre la virtud de la prueba estandarizada es tratar de contar con un instrumento correctamente diseñado que minimice el error de medición, es decir que las diferencias en los resultados al ejecutar determinada prueba se deben a las características propias del individuo y no a un mal diseño o estructura de la prueba.

Sin embargo, se esbozan también por su parte ciertos aspectos que tienen que ver con el uso de estas pruebas y que no son del todo favorables o acertados para evaluar el aprendizaje de los estudiantes, o más bien la calidad educativa de la institución.

Contraparte de los usos de las pruebas estandarizadas

Como se mencionó anteriormente, hay autores que manifiestan las ventajas y usos de este tipo de pruebas (Jornet, 2017; Tiramonti, 2014), sin embargo, también existe una contraparte que expresan otros investigadores sobre las desventajas de utilizar pruebas estandarizadas. En este sentido Popham (1999) haciendo referencia a las pruebas para medir la calidad educativa de una institución considera:

Las pruebas estandarizadas de logros tienen la misión de medir algo distinto que cuán buena o cuán mala es una escuela. Las pruebas estandarizadas de logros deberían usarse para hacer las interpretaciones comparativas que se supone deben suministrar. No deberían ser usadas para evaluar la calidad educativa. (p.4)

A esta línea de intelección se agregan otros autores que con el paso de los años han observado un uso desvirtuado de este tipo de pruebas, y como es que se ha llegado a conclusiones erróneas sobre la calidad educativa de una institución por utilizar resultados que midieron todo menos la calidad de la institución. Por ejemplo, Gomez (2004) explica que el conocimiento que se tiene sobre el rendimiento de los estudiantes se limita al desempeño obtenido en las pruebas estandarizadas, hay un desconocimiento de otras habilidades, actitudes y competencias que son implícitos a cualquier área de conocimiento. Y por esta razón las conclusiones que se emiten sobre la calidad de un sistema educativo son incompletas.

Siguiendo esta misma crítica, se agregan elementos como la mala práctica de preparar a los estudiantes exclusivamente para lograr un buen rendimiento en pruebas estandarizadas, esto por la misma presión administrativa por querer obtener un buen ranking y con ello acceder a ciertos apoyos o bien lograr un estatus social. De acuerdo a esta situación, se hace notar como los estudiantes son orientados, enseñados o educados para responder correctamente a estas pruebas, en lugar de enseñarlos a pensar por sí mismos y convertirse en aprendices creativos (Buckman, citado en Moreno, 2016).

La revisión ha puesto de manifiesto situaciones desfavorables que trascienden la cuestión técnica de la prueba, y con esto se hace referencia a la manipulación de la información por parte de las instituciones u organismos encargados de aplicar estas pruebas.

Se encuentra que ciertas instituciones manejan la información de manera secreta, cuando en realidad debería de ser difundida, desde luego tomando en cuenta controles de integridad y confidencialidad de la información de los participantes directos de la prueba, ya que compartir dichos resultados es clave para tomar acciones de mejora hacia el interior e incluso exterior de la institución. Sin embargo, este tipo de prácticas en ocasiones son por motivos políticos (Martínez, 2001).

Un punto común que expresan estos autores es que se suelen tomar decisiones con información o resultados de pruebas que no fueron diseñadas para ello. Además, se hace referencia que las instituciones manipulan los resultados de una manera hermética con lo que se entorpece la difusión de resultados, difusión que es elemental para lograr la mejora de la misma institución. Aunque se encuentran opiniones desfavorables sobre las pruebas estandarizadas, la mayoría de estas están enfocadas en el uso que se da a los resultados obtenidos con ellas, y no tanto a un mal diseño de la prueba, a los métodos o técnicas de recopilación y análisis de resultados.

Teorías y fundamentos de las pruebas

El diseño de una prueba debe ir acompañado de un sustento teórico que sirva de referencia para la aplicación de una o más estrategias pedagógicas y a su vez entender que influencia o corriente cognitiva a modelado la elaboración de una prueba, en este sentido es importante observar cuales han sido las principales teorías sobre las que gira la evaluación del aprendizaje y el diseño de pruebas.

Una primera aproximación hace referencia al positivismo del siglo XX, con los trabajos de de Mill en 1822 y Comte en 1842, Binet (citado en Tristán Y Pedraza, 2017) explica que:

La idea de base de las pruebas estandarizadas como instrumentos de medidas de objetos abstractos o rasgos latentes cuenta con una profunda influencia del positivismo del siglo XIX, que buscaba establecer con el mayor rigor metodológico posible una definición del objeto de estudio, por ejemplo, la inteligencia o el rendimiento escolar. (p. 18).

Por su parte Martínez (2001) explica que las bases de la teoría de la medición fueron puestas por los trabajos de Laplace en 1796 sobre los fundamentos para la teoría de probabilidades y el de Gauss en 1798 con los fundamentos de la teoría de números. El interés por aplicar estas teorías de medición en contextos educativos surge con mayor auge en países como Alemania, Inglaterra, los Estados Unidos y, en menor medida, Francia y las regiones francófonas de Suiza y Bélgica.

Más adelante en 1907 Binet construyó el primer test estandarizado de inteligencia, el cual fue desarrollado teniendo como referencia los trabajos de Galton, Wundt, Ebbinghauss, Pearson y Spearman, quiénes a su vez sentaron las bases para la Antropometría y la Psicofísica (Aiken, citado en Escurra, 2011). Todos estos trabajos sentaron las bases de lo que más adelante seria conocida como la Teoría Clásica de los Test (TCT) siendo Gulliksen en 1950 quién lleva a cabo la síntesis canónica de este enfoque (Muñiz, 2010).

El avance en el campo de la medición y elaboración de pruebas gracias a la TCT continúo dando así el surgimiento de otras teorías como la Teoría de la Generalización (Cronbach, Gleser, Nanda y Rajaratnam, 1972) y la Teoría de Respuesta al Ítem (Rasch, 1960; Lord y Novick, 1968; Lord, 1980).

Ambas teorías son propuestas para mejorar aquellos aspectos susceptibles de error y ausencia de medición en la teoría clásica de los test. En el caso particular de la Teoría de Respuesta al Item (TRI) se busca un fundamento probabilístico al problema de medir constructos latentes (particularmente los no observables), en la cual se considera al ítem como la unidad básica de medición, con lo cual se puede pronosticar cómo responderá un sustentante a un ítem en particular (Cortada, 2004).

Actualmente se han desarrollado diversos trabajos basados en la TRI (Ferreyra y Backhoff, 2016; Santelices y Valenzuela, 2015; Baladrón, Sánchez, Romeo, Curbelo, Villacampa y Jiménez, 2017), los cuáles muestran que esta teoría es aplicable en diferentes áreas del conocimiento.

Psicometría

Calidad de las pruebas

En la investigación una categoría de estudio es la Psicometría, para esta se han definido dos indicadores de interés particular asociados a atributos psicométricos, a saber, la validez y la confiabilidad de una prueba. Haciendo una revisión inicial sobre la confiabilidad, se encuentra que este criterio se asocia con los errores de medición (Argibay, 2006), el autor explica que en toda medida el valor obtenido es compuesto por el valor verdadero y los errores en la medición, de forma tal que un instrumento será más confiable en razón de maximizar el valor verdadero. Al reducir el error de medición, se incrementa la similitud entre el valor verdadero y el obtenido con la medición, y en igual proporción la confiabilidad del instrumento.

En particular se señalan dos tipos de errores: los errores aleatorios que, dada su naturaleza, no hay una capacidad de control o predicción de los mismos, y por otro lado están los errores sistemáticos, que pueden ser controlados y ser sujetos de modificarse mediante alguna alteración en el mismo sistema. Para efectos de la calidad de una prueba, el error sobre el que hay interés es el error aleatorio (Argibay, 2006).

En términos académicos se ha encontrado que el concepto de confiabilidad se explica por ejemplo si en ausencia de cualquier cambio de manera permanente en una persona las calificaciones de una prueba varían en gran medida con el tiempo o en diferentes situaciones, es probable que la prueba no sea confiable, y por tal razón no pueda ser utilizada para explicar o predecir el comportamiento de los sustentantes (Aiken, citado en Árraga y Sánchez, 2012)

Como se observa, las investigaciones manifiestan la confiabilidad como un atributo elemental para considerar la calidad de una prueba. Sin embargo, la confiabilidad debe ir acompañada de otro atributo, la validez.

Una prueba puede ser confiable, pero si no es válida, los juicios emitidos a partir de los resultados serán erróneos o insuficientes para tomar decisiones. Lo anterior significa que de nada sirve tener un instrumento confiable si este no es el adecuado para la medición que quiere realizarse.

Con relación a la validez de una prueba, la conceptualización es explicada por Aliaga (2006) de la siguiente manera:

como un juicio evaluativo global en que la evidencia empírica y los supuestos teóricos respaldan la suficiencia y lo apropiado de las interpretaciones y acciones en base a los puntajes de las pruebas, que son función no sólo de los ítems sino también de la forma de responder de las personas, así como del contexto de la evaluación. (p. 95).

En términos coloquiales, Hernández (citado en Árraga y Sánchez, 2012, p. 383) lo define como: “el grado en el que un instrumento realmente mide la variable que pretende medir”.

Para este atributo hay diferentes tipos de evidencia, la asociada con el contenido, la que se relaciona con el criterio y la referida al constructo. Sin embargo, Gregory (citado en Árraga y Sánchez, 2012) señala que algunos autores e investigadores en psicometría como Cronbach en 1988, Guion en 1980 y Messick en 1995, consideran a la validez de constructo como el elemento central para todos los tipos de evidencia de validez, dejando los restantes tipos solo como apoyo.

Análisis psicométrico y medición de la calidad

En apartados anteriores se analizó como surgieron las primeras teorías que sentaron las bases para el desarrollo de pruebas. En el caso particular de la investigación una variable de estudio definida es la calidad de las pruebas mediante el uso de la psicometría. Para esta variable se definieron tres indicadores de interés especial, que a su vez son los atributos con los que se observa la calidad técnica de una prueba basada en la TRI, estos son: el índice de dificultad del ítem, índice de discriminación y el coeficiente de discriminación.

El índice de dificultad del ítem se define como la proporción de una muestra o población que responde acertadamente un ítem o pregunta en una prueba (Medina, Ramírez y Miranda, 2019).

Croker y Algina (citado en Backhoff, Larrazolo y Rosas, 2000) mencionan que usualmente, a esta proporción se le denota con una p, la cual indica la dificultad del ítem. El cálculo de este atributo se realiza mediante la división del número de personas que contesto acertadamente el ítem entre el número de personas que en total contestaron el ítem. La fórmula que expresa la operación anterior se representa de la siguiente manera:


En cuanto a los valores posibles de este atributo, estos van desde cero hasta uno, Wood explica (en Backhoff et al, 2000) “a mayor dificultad del ítem, menor será su índice” (p. 14). Lo anterior quiere decir que entre más cercano a uno se encuentre el valor de este índice, el ítem es más fácil de responder, y viceversa.

En relación al índice de discriminación de la prueba, la revisión encuentra que los autores han definido este atributo (Backhoff et al, 2000; Medina et al,2019) con una analogía simple, quien haya obtenido una mejor puntuación en todo el examen deberá tener mayores probabilidades de contestar correctamente un ítem, así pues, la discriminación es la cualidad que tiene un ítem para separar a los estudiantes con mejores puntuaciones de aquellos con menor puntuación final en la prueba.

Un método para obtener la discriminación consiste en separar a la población de los sustentantes en dos grupos, 50% con puntajes superiores a la media, y 50% con puntajes inferiores. El cálculo necesario para la obtención de este atributo está dado por la siguiente formula:

Donde es el número de sustentantes con puntaje superior a la media que acertaron el ítem, es el número de sustentantes con puntaje inferior a la media que acertaron el ítem y N es el número total de sustentantes que contestaron el ítem.

Otro método encontrado en la revisión de este apartado es tomando percentiles de la población, en lugar de considerar a todos los sustentantes, en este sentido Backhoff et al. (2000) solo considera al 54% de ellos, 27% de las puntuaciones más altas en el test y 27% de las puntuaciones más bajas en el test.

Para Backhoff et al. (2000) el cálculo necesario para la obtención de este atributo está dado por la siguiente formula:

Donde es el número de aciertos en el ítem del 27% de los sustentantes con las puntuaciones más altas en el examen, es el número de aciertos en el ítem del 27% de los sustentantes con las puntuaciones más bajas en el examen, y por último es el número de sustentantes en el grupo más numeroso ya sea GA o GB.

Para ambos autores la ventaja de utilizar este método permite reducir la probabilidad de subestimar el nivel de discriminación de los ítems, precisamente por incluir solo a aquellos sustentantes con mayor consistencia en su rendimiento. Para este atributo el rango de valores es de [-1,1].

Respecto a estos valores Ebel y Frisbie (citado en Backhoff et al, 2000) proponen una regla para clasificar la calidad del ítem en términos de índice de discriminación. Como mínimo este índice debe encontrarse por encima de .2 para considerarse regular, entre .3 y .39 se considera buena, y mayores a .39 son excelentes. Un índice por debajo de .2 significa que el ítem esta defectuoso, necesita revisión profunda o bien desecharse.

Además del índice de discriminación, también se ha investigado el coeficiente de discriminación (Pérez, Acuña y Arratia, 2008; Medina et al, 2019), el cual es conocido como el punto de correlación biserial (rpbis).

Este atributo se define como una medida de la consistencia de un ítem con toda la prueba en su conjunto, el cual refleja la correlación entre los puntajes de los sustentantes en un ítem en particular y sus puntajes en la prueba completa. Dicho atributo puede ser obtenido a partir del siguiente calculo:

Este coeficiente permite observar la probabilidad de que un ítem sea contestado correctamente por aquellos estudiantes con mayor puntuación en la prueba, esto se deduce al presentar una correlación positiva y que se encuentre cercana a uno, es decir que entre más cercano a uno sea la correlación, la probabilidad es más alta. En el caso contrario, si la correlación es negativa, significa que habrá una mayor tendencia de que los estudiantes con menor puntuación en la prueba acierten el ítem, lo que puede significar que el ítem es defectuoso. Por lo tanto, el rango de valores posibles para este atributo es de [-1,1].

En relación a los atributos que permiten observar la confiabilidad de una prueba mediante una medición están el Índice de Confiabilidad de Kuder-Richardson (KR20) y el Alfa de Cronbach, estos índices permiten medir la consistencia interna (Reidl, 2013) de instrumentos o pruebas, además de ser los procedimientos más comunes para dicho propósito. Para que el índice KR20 sea de calidad o aceptable, debe ser mayor a 0.70, mientras que para el Alfa de Cronbach debe ser de 0.80.

También otra forma de obtener una valoración de la confiabilidad de una prueba es mediante el método test retest, el cual consiste en aplicar la prueba en diferentes momentos a la misma muestra de sustentantes (Serra y Peña, 2006), para observar las fluctuaciones o variaciones en los resultados de estos. Robins (citado en Ezpeleta, De la Osa, Domenech, Navarro y Losilla, 1997) explican que: “La fiabilidad test-retest es una de las formas más rigurosas de medir la fiabilidad porque evalúa la estabilidad de la medida en el tiempo a pesar del cambio” (p. 530).

La valoración de confiabilidad mediante el método test retest se hace con el cálculo del coeficiente de correlación intraclase (CII) conocido también como índice de concordancia (Mandeville, 2005), los valores aceptados para este coeficiente van de 0 a 1, donde entre más cercano a uno significa un mayor grado de acuerdo, según la escala de Landish y Koch (1977).

Como se ha analizado, la mayoría de los autores contemplan como elementos básicos de validez las características de dificultad y discriminación de los ítems, con sus respectivas variantes como se veía en el caso de Backhoff et al. (2000) y Medina et al. (2019). Se observa también una concordancia en relación a que los atributos de confiabilidad que tienen uso en la evaluación de la calidad de una prueba son el índice de consistencia interna conocido como KR20 y el Alfa de Cronbach, aunque también se utiliza el método del test retest mediante el cálculo del CII, aunque cabe destacar que la mayoría de las investigaciones que aplican este método están asociados a estudios de carácter médico o de pruebas clínicas con pacientes.

Tecnología, evaluación y pruebas

En este siguiente grupo la revisión trata sobre aquellas investigaciones que abordan las teorías o metodologías que se han desarrollado para diseñar software con fines educativos, y como se evalúa la calidad de estos. Por otra parte, también se analizan los softwares existentes cuya finalidad particular es el análisis psicométrico.

Software educativo: modelos de evaluación y metodologías para el desarrollo

En general ciertos autores (Vidal, Gómez y Ruíz, 2010; Cataldi, 2000; Careaga, citado en Almaguel, Álvarez y Pernía, 2016; Gómez, 1998; Couturejuzón, 2003; Reyes, Fernández y Duarte, 2015) definen software educativo como todo aquel programa diseñado para facilitar la enseñanza y el aprendizaje. Es comprensible que en la medida que se ha difundido el uso de estas tecnologías en los contextos educativos, ha sido proporcional el interés por valorar realmente cual es el aporte significativo que tienen en relación al proceso de enseñanza aprendizaje. A este respecto Cataldi et al (citado en Reyes, Fernandez y Duarte, 2015) dice: “La proliferación de estos materiales de apoyo educativo lleva consigo la necesidad de evaluar su calidad pedagógica y su pertinencia con el entorno en el cual se van a utilizar” (p.187).

Se ha revisado como es que para ciertos autores (Cova, Arrieta y Riveros , 2008; Cataldi, 2000) la evaluación del software educativo debe responder a las experiencias de aprendizaje que aporta y el enfoque de la enseñanza con la que se sustenta. Para esto y en pro de normalizar los procesos de evaluación de software se han desarrollado diferentes modelos de evaluación del software. A este respecto se mencionan los trabajos de Clarke, Pete y Naidoo (citado en Cova et al., 2008), Díaz, Pérez, Mendoza y Grimán (2003) y Straccia, Zanetti y Pollo (2019).

Recopilando los aportes de los autores revisados en este apartado se puede notar que se tiene una fuerte influencia por incluir a profesionales en el área de las ciencias computacionales en los modelos de evaluación del software. También se observa que hay un común denominador en los autores al momento de clasificar la calidad del software mediante atributos observables, ya que los reducen a dos aspectos en concreto. El primero que tiene que ver con la parte educativa (llamada pedagógica en otros autores), y el segundo que comprende la parte tecnológica que (llamada técnica por otros autores) en algunos casos los autores la subdividen en 2 o más atributos de calidad.

En relación a metodologías para el desarrollo de software, en un principio la incursión de tecnología en los ambientes educativos representaba un reto. La percepción que se tenía del desarrollo de software educativo es captada por lo que dice Cataldi, Lage, Pessacq y García (1999) quienes explican:

Uno de los problemas más importantes … es la falta de marcos teóricos comunes que puedan ser usados por todas las personas que participan en el desarrollo del proyecto informático para aplicaciones generales. El problema se agrava cuando el desarrollo corresponde al ámbito educativo debido a la total inexistencia de marcos teóricos interdisciplinarios entre las dos áreas de trabajo. (p. 185-186).

Las primeras aproximaciones o marcos de desarrollo de software educativo eran limitados, por ejemplo Cataldi et al (1999) proporcionan una explicación de los diferentes modelos o metodologías de desarrollo de software con la intención de que el diseñador del software empleara alguna de estas metodologías de acuerdo al mejor acoplamiento o facilidad de uso en relación al tipo de proyecto (software educativo) a realizar, los recursos disponibles etc.

Autores como Marqués (en Cova et al, 2008) proponían una metodología para desarrollar software educativo, concentrada en el aparato pedagógico como principal fuente, en otras palabras, era adecuar el software a un modelo pedagógico, mientras que como se explicó anteriormente la ingeniería de software de esos años era lo contrario, adecuar una necesidad educativa a un modelo de desarrollo de software.

Sin embargo, con el pasar de los años, el avance de las ciencias computacionales y la llegada de internet (detonante en muchos otros aspectos tecnológicos y metodológicos) surgieron metodologías agiles de desarrollo de software como lo son Programación Extrema (XP por sus siglas en inglés), CRYSTAL, SCRUM, lo cual trajo consigo propuestas metodológicas que integraban estos nuevos modelos en la ingeniería de software con fines educativos. Así surgieron investigaciones como la de Orjuela y Rojas (2008), quienes proponían un modelo basado en siete etapas propias o de carácter general para cualquier desarrollo de software con base en una metodología ágil, así mismo también se rescatan las aportaciones de González (2006); García, Vite, Navarrate, García y Torres (2016); Madariaga, Riviero y Leyva (2016); y Esterkin y Pons (2017). Por su parte, la ingeniería del software aporta ventajas en el campo de la evaluación; como sugieren Tirado, Backhoff y Larrazolo (2016) al destacar la capacidad de transformación operativa que permite utilizar procedimientos más adecuados a los paradigmas cognoscitivos, como lo es efectuar mediciones del conocimiento representado en diferentes formatos digitales.

Software psicométrico

Con relación a esta temática se rescatan aquellas investigaciones sobre software con fines psicométricos o con capacidades psicométricas. Se entiende por capacidades psicométricas a aquel software que puede realizar por lo menos un análisis psicométrico básico de una prueba, tales como los revisados en apartados anteriores, calcular el índice de dificultad de la prueba, índice de dificultad del ítem, índice y coeficiente de discriminación del ítem, índice de consistencia interna KR20, Alfa de Cronbach entre otros.

Existen investigaciones que hacen uso de software especializado, tales como las de Cechova, Neubauer y Sedlacik, 2014; Thoe, Fook y Thah, 2008 en las que se utiliza el software ITEMAN de la compañía Assessment Systems Corporation. También existe el software Test Analysis Program (TAP) publicado por Brooks y Johanson (2003). Algunos otros trabajos de investigación (Backhoff, Larrazolo y Rosas, 2000) recurren al uso de software estadístico Statistical Package for the Social Sciences (SPSS) propiedad de IBM. También hay quienes (Marr, Gupchup & Anderson, 2016) implementan otro software conocido como R Studio, de distribución libre, con el cual se pueden efectuar análisis estadísticos.

Sin embargo, después de revisar las investigaciones o aportaciones sobre este campo, se hace notar la ausencia de software con capacidades de análisis psicométricos que estén integrados a su vez en software con fines educativos, sobre todo en aquellos que están diseñados con fines evaluativos específicamente. Esto señala que, primeramente, no todos los software poseen la capacidad de generar resultados en un formato o estructura base que sirva de insumo para software especializado para análisis psicométrico como es el caso de TAP y de ITEMAN, y en el caso de los software que se han revisado, no se integra en su diseño o funciones evaluativas la posibilidad de efectuar un análisis psicométrico en el mismo sistema, para esto recurren a un software de terceros, que en la mayoría de los casos que se analizaron necesitan un archivo fuente en un formato especifico y particular.

Discusión

Después de efectuar esta revisión se hicieron notar ciertas similitudes, así como diferencias entre los autores, según el grupo temático que se abordó. Por ejemplo, en cuanto a la evaluación del aprendizaje, se hizo ver que existe una influencia Europea sobre las metodologías o técnicas que competen a esta área, así como las teorías sobre las que se sustentan.

El interés por la evaluación del aprendizaje en el nivel superior es más latente, ya que hay una presión constante de la sociedad hacia las instituciones de educación superior por formar profesionales integrales, cuya capacidad de aprender a aprender sea permanente. Sin embargo, siguen existiendo espacios de confusión hacia dentro de las instituciones, ya que algunos autores referían que se sigue asociando el termino evaluar con el de calificar.

Por otra parte, fue relevante observar en cuanto a las pruebas estandarizadas como un grupo de autores defienden este tipo de pruebas por su calidad técnica, por la utilización de métodos científicos, marcos de referencia teóricos y metodológicos rigurosos, mientras que algunos otros, aunque no las rechazan por completo si hacen notar o señalar puntualmente cuáles son sus defectos. Hacían alusión a que estas pruebas se utilizaban para otros fines distintos para los cuales habían sido diseñadas, es decir, no hay una crítica negativa asociada al diseño y la calidad técnica de las pruebas, sino más bien que normalmente se les ha utilizado para medir aspectos educativos que no son adecuados mucho menos acertados, y que desgraciadamente en ocasiones los resultados de estas pruebas y sus malos usos tienen un alto impacto en las instituciones educativas.

Referente a las teorías y fundamentos de la prueba se observó la tendencia moderna de aplicar por ejemplo la TRI por encima de la TCT o la Teoría de la Generabilidad, también se notó como la mayoría de los autores concuerdan en que los atributos de validez y confiabilidad de la prueba pueden ser medidos con análisis de ciertos atributos psicométricos, como los índices de dificultad y de discriminación, pero resaltar que se considera más efectivo el coeficiente de discriminación. Y que en cuanto a la consistencia interna la mayoría de los estudios consideran de calidad los valores que se obtienen a partir del cálculo del KR20 y el Alfa de Cronbach.

En el último apartado, referente a la tecnología, se hizo notar la tendencia en los autores por resaltar la importancia del desarrollo tecnológico en la mejora de la calidad de la educación en general, y en particular de las capacidades para mejorar el proceso de enseñanza-aprendizaje. Se dio cuenta del surgimiento de los softwares educativos y como en sus primeros años no se tenía un marco de referencia para su diseño, tuvieron que pasar un par de años y un nuevo salto tecnológico para facilitar estos procesos, que a su vez también fue impulsado por los mismos cambios en esquemas y modelos educativos, que cada vez más hacían inclusión de tecnología en sus procesos.

Por último, y el espacio vacío más notorio después de hacer esta extensa revisión, fue la ausencia de software educativo con capacidades de análisis psicométrico integradas, en las investigaciones revisadas se encuentran estos dos elementos de forma separada, es decir, por un lado, se encuentra el software educativo que puede o no contar con capacidades evaluativas (esto dependiente del propósito del software, algunos son solo de carácter informativo, comunicativo etc), y por otro el software diseñado específicamente para realizar análisis psicométrico.

Sin embargo, se recalca nuevamente, que no existe la fusión de los mismos, probablemente como se ha abordo en la sección de medición de la calidad de la prueba, los cálculos que se efectúan son un tanto complejos, y al considerar que se trata de pruebas estandarizadas (o de gran escala) se tenga la creencia que incluir la capacidad psicométrica en un software que permita representar digitalmente una prueba lo haga muy robusto o pueda restarle rendimiento. Sin embargo, con los avances tecnológicos en cuanto a plataformas para desarrollo de software, gestores de bases de datos y hardware de alto rendimiento, lo anterior no debería ser una limitante.

Referencias

Aigeneren, M. (1999). Análisis de contenido: una introducción. Universidad de Antioquía. Recuperado de: https://webcache.googleusercontent.com/search?q=cache:GyfFmKMDlw [QJ:https://revistas.udea.edu.co/index.php/ceo/article/download/1550/1207+&cd=1&hl=es&ct=clnk&gl=mx&client=safari QJ:https://revistas.udea.edu.co/index.php/ceo/article/download/1550/1207+&cd=1&hl=es&ct=clnk&gl=mx&client=safari] (consulta: 1 abril de 2020).

Alcaraz, N. (2015). Evaluación versus calificación, Aula de Encuentro, 2, núm. 17, pp. 209-236.

Aliaga, J. (2006). Psicometría: test psicométricos, confiabilidad y validez, en: Quintana Alberto, Psicología: Tópicos de Actualidad. Lima: UNMSM. pp. 85-108.

Almaguel, A., Álvarez, D., & Pernía, L. (2016). Software educativo para el trabajo con matrices. Revista Digital: Matemática, Educación e Internet16(2),pp. 1-12.

Argibay, J. (2006). Técnicas psicométricas. Cuestiones de validez y confiabilidad, Subjetividad y procesos cognitivos, 8, pp. 15-33.

Árraga, M., & Sánchez, M. (2012). Validez y confiabilidad de la Escala de Felicidad de Lima en adultos mayores venezolanos, Universitas Psychologica21(2), pp. 381-393.

Backhoff, E. (2018). Evaluación estandarizada de logro educativo: contribuciones y retos, Revista Digital Universitaria19(6), pp. 1-14.

Backhoff, E., Larrazolo, N., & Rosas, M. (2000). Nivel de dificultad y poder de discriminación del Examen de Habilidades y Conocimientos Básicos (EXHCOBA), REDIE. Revista Electrónica de Investigación Educativa, 2(1), pp.11-28.

Baladrón, J., Sánchez, F., Romeo, J., Curbelo, J., Villacampa, P., & Jiménez, P. (2018). Evolución de los parámetros dificultad y discriminación en el ejercicio de examen MIR. Análisis de las convocatorias de 2009 a 2017, FEM: Revista de la Fundación Educación Médica, 21(4), pp. 181-193.

Bogantes, J. (2015). Estrategias para la evaluación en educación a distancia: un análisis de las opciones empleadas en el programa de educación general básica de la UNED, Innovaciones educativas, 17(22), pp. 15-25.

Brooks, G., & Johanson, G. (2003). TAP: Test Analysis Program, Applied Psychological Measurement27(4), pp. 303–304.

Cataldi, Z. (2000). Una metodología para el diseño, desarrollo y evaluación de software educativo. (Tesis de Magister). Buenos Aires, Universidad Nacional de la Plata (Argentina).

Cataldi, Z., Lage, F., Pessacq, R., & García, R. (1999). Ingeniería de software educativo. Ponencia presentada en el congreso V Congreso Internacional de ingeniería informática, Buenos aires. Recuperado de: http://laboratorios.fi.uba.ar/lsi/c-icie99-ingenieriasoftwareeducativo.pdf.

Cechova, I., Neubauer, J., & Sedlacik, M. (2014). Computer-adaptive testing: item analysis and statistics for effective testing. Ponencia presentada en European Conference on e-Learning, Copenhagen, 30-31 de octubre de 2014. Recuperado de: https://www.researchgate.net/publication/289093981_Computer-adaptive_testing_Item_analysis_and_statistics_for_effective_testing

Contreras, G. (2010). Diagnóstico de dificultades de la evaluación del aprendizaje en la universidad: un caso particular en Chile, Educación y Educadores13(2), pp. 219-238.

Cortada, N. (2004). Teoría de respuesta al ítem: supuestos básicos, Revista Evaluar4(1), pp. 95-110.

Couturejuzón, L. (2003). Cumplimiento de los principios didácticos en la utilización de un software educativo para la educación superior. Educación Médica Superior17(1), pp. 53-57.

Cova, A., Arrieta, X., & Riveros, V. (2008). Análisis y comparación de diversos modelos de evaluación de software educativo, Enl@ ce: Revista Venezolana de Información, Tecnología y Conocimientovol. V, núm. 3, pp. 45-67.

Cronbach, L., Gleser, G., Nanda, H., & Rajaratnam, N. (1972). The dependability of behavioral measurements: theory of generalizability for scores and profiles, New York, John Wiley and Sons.

Díaz, G., Pérez, M., Mendoza, L., & Grimán, A. (2003). Calidad Sistémica del Software Educativo. Ponencia presentada en el Congreso Internacional Edutec' 2003: Gestión de las Tecnologías de la Información y la Comunicación en los diferentes ámbitos educativos, Caracas, Universidad Central de Venezuela, 24 al 28 de noviembre de 2003. Recuperado de: https://www.researchgate.net/publication/258441358_Calidad_Sistemica_del_Software_Educativo

Esterkin, V., & Pons, C. (2017). Evaluación de calidad en el desarrollo de software dirigido por modelos, Ingeniare. Revista chilena de ingeniería25(3), pp. 449-463.

Ezpeleta, L., De La Osa, N., Domenech, J., Navarro, J., & Losilla, J. (1997). Fiabilidad test-retest de la adaptación española de la Diagnostic Interview for Children and Adolescents (DICA-R), Psicothema9(3), pp. 529-539.

Fernández, M., Alcaraz, N., & Sola, M. (2017). Evaluación y pruebas estandarizadas: Una reflexión sobre el sentido, utilidad y efectos de estas pruebas en el campo educativo, Revista Iberoamericana de Evaluación Educativa, 10(1), pp. 51-67.

Ferreyra, M., & Backhoff, E. (2016). Validez del Generador Automático de Ítems del Examen de Competencias Básicas (Excoba), RELIEVE-Revista Electrónica de Investigación y Evaluación Educativa22(1), pp. 1-16.

García, E., Vite, O., Navarrate, M., García, M., & Torres, V. (2016). Metodología para el desarrollo de software multimedia educativo MEDESME, CPU-e. Revista de Investigación Educativa, (23), pp. 216-226.

Gómez, M. (1998). Un ejemplo de evaluación de software educativo multimedia. Ponencia presentada en el “Congreso Internacional EDUTEC 97: Creación de materiales para la innovación educativa con nuevas tecnologías”, Málaga, 27-29 de octubre de 1997. Recuperado de: https://dialnet.unirioja.es/servlet/articulo?codigo=605110

Gómez, R. (2004). Calidad educativa: más que resultados en pruebas estandarizadas, Revista educación y pedagogía16(38), pp. 75-89.

González, Y. (2006). Diseño e implementación de un software educativo para el autoaprendizaje del diseño de bases de datos relacionales. (Tesis de licenciatura). Ciudad de México, Universidad Nacional Autónoma de México.

Hidalgo, N., & Murillo, F. (2017). Las concepciones sobre el proceso de evaluación del aprendizaje de los estudiantes, REICE: Revista Iberoamericana sobre Calidad, Eficacia y Cambio en Educación15(1), pp. 107-128.

Izquierdo, B. (2008). De la evaluación clásica a la evaluación pluralista. Criterios para clasificar los distintos tipos de evaluación, EMPIRIA. Revista de Metodología de las Ciencias Sociales, (16), pp. 115-134.

Jornet, J. (2017). Evaluación estandarizada, Revista iberoamericana de evaluación educativa, 10(1), pp. 5-8.

Landish, R., & Koch, G. (1977). The measurement of observer agreement for categorical data, Biometrics, 33(1), pp. 159-174.

López, F. (2002). El análisis de contenido como método de investigación, Revista de Educación, (4), pp. 167-179.

Lord, F. (1980). Applications of item response theory to practical testing problems, New York, Hillsdale: Erlbaum Associates.

Lord, F., & Novick, M. (1968). Statistical theories of mental test scores, New York, Addison-Wesley.

Madariaga, C., Rivero, Y., & Leya, A. (2016). Propuesta metodológica para desarrollo de software educativo en la Universidad de Holguín, Ciencias Holguín22(4), pp.1-17.

Mandeville, P. (2005). El coeficiente de correlación intraclase (ICC), Ciencia UANL, 8(3), pp. 414-416.

Marr, L., Gupchup, G., & Anderson, J. (2012). An evaluation of the psychometric properties of the Purdue Pharmacist Directive Guidance Scale using SPSS and R software packages, Research in Social and Administrative Pharmacy8(2), pp. 166-171.

Martínez, F. (2001). Evaluación educativa y pruebas estandarizadas. Elementos para enriquecer el debate, Revista de la educación superior30(120), pp. 1-12.

Martínez, F. (2009). Evaluación formativa en aula y evaluación a gran escala: hacia un sistema más equilibrado, Revista electrónica de investigación educativa11(2), pp. 1-18.

Medina, J., Ramírez, M., & Miranda, I. (2019). Validez y confiablidad de un test en línea sobre los fenómenos de reflexión y refracción del sonido, Apertura: Revista de Innovación Educativa11(2), pp. 104-121.

Mendivil, T. (2012). Sistema de evaluación del aprendizaje en los estudiantes de educación superior en la región caribe colombiana, Dimensión empresarial10(1), pp. 100-107.

Moreno, T. (2016). Las pruebas estandarizadas en la escuela contemporánea, ¿llave o cerrojo para la mejora de la educación?, Temas de Educación22(1), pp. 83-96.

Muñiz, J. (2010). Las teorías de los tests: teoría clásica y teoría de respuesta a los ítems, Papeles del Psicólogo: Revista del Colegio Oficial de Psicólogos, 31(1), pp. 57-66.

Orjuela, A., & Rojas, M. (2008). Las metodologías de desarrollo ágil como una oportunidad para la ingeniería del software educativo, Revista Avances en Sistemas e Informática5(2), pp. 59-171.

Pérez, J., Acuña, N., & Arratia, E. (2008). Nivel de dificultad y poder de discriminación del tercer y quinto examen parcial de la cátedra de cito-histología 2007 de la carrera de medicina de la UMSA, Cuadernos Hospital de Clínicas53(2), pp.16-22.

Popham, J. (1999). Why standardized test don´t measure educationaly quality (Programa de Promoción de la Reforma Educativa en América Latina y el Caribe, Grupo de Trabajo sobre Estándares y Evaluación, Trans), Educational Leadership56(6), pp. 2-11.

Rasch, G. (1960). Probabilistic models for some intelligence and attainment tests. Denmark, Copenhague Denmarks Paedagogiske Institut.

Reidl, L. (2013). Confiabilidad en la medición, Investigación en educación médica2(6), pp. 107-111.

Reyes, F., Fernández, F., & Duarte, J. (2015). Herramienta para la selección de software educativo aplicable al área de tecnología en educación básica, Entramado11(1), pp. 186-193.

Santelices, M., & Valenzuela, F. (2015). Importancia de las características del profesor y de la escuela en la calidad docente: Una aproximación desde la Teoría de Respuesta del Ítem, Estudios pedagógicos41(2), pp. 233-254.

Serra, A., & Peña, J. (2006). Fiabilidad test-retest e interevaluador del Test Barcelona, Neurología21(6), pp. 277-281.

Straccia,L., Zanetti, P., & Pollo, M. (2019). Definición de un estándar para la evaluación de calidad de software educativo. Ponencia presentada en el XXV Congreso Argentino de Ciencias de la Computación, Córdoba, 14 al 18 de octubre de 2019. Recuperado de: http://grupogemis.com.ar/wp-content/uploads/2019/10/CACIC-2019.-Straccia-Zanetti-Pollo.-Definicion-de-un-estandar-sw-educativo.pdf

Thoe, N., Fook, F., & Thah, S. (2009). Use of ICT tool for Item Analysis of a Science Performance Test, Journal of Educational Technology, 9(1), pp 5-15.

Tirado, F., Backhoff, E., & Larrazolo, N. (2016). La revolución digital y la evaluación: un nuevo paradigma, Perfiles educativos, 38(152), pp. 182-201.

Tiramonti, G. (2014). Las pruebas PISA en América Latina: resultados en contexto, Avances en Supervisión Educativa, (20), pp. 1-24.

Tristán, A., & Pedraza, N. (2017). La objetividad en las pruebas estandarizadas, Revista Iberoamericana de evaluación educativa. 10(1), pp. 11-31.

Ulloa, C. (2015). Análisis de contenido. Blogs UDLA. Recuperado de: https://cpb-us-w2.wpmucdn.com/blogs.udla.edu.ec/dist/b/364/files/2015/08/Cesar-Ulloa-An%C3%A1lisis-de-contenido_jun_15-1-1llzctz.pdf (consulta: 1 abril de 2020).

Umaña, A., Calvo, X., & Salas, N. (2017). Evaluar para aprender: estado actual de catorce asignaturas en la universidad estatal a distancia de Costa Rica, Revista Electrónica Calidad en la Educación Superior, 8(2), pp. 24-61.

Vidal, M., Gómez, F., & Ruiz, A. (2010). Software educativos. Educación Médica Superior24(1), pp. 97-110.

Zúñiga, M., Solar, M., Lagos, J., Báez, M., & Herrera, R. (2014). Evaluación de los aprendizajes: un acercamiento en educación superior, en: CINDA-Centro Interuniversitario de Desarrollo. Evaluación del aprendizaje en innovaciones curriculares de la educación superior, Santiago de Chile, Ediciones e Impresiones Copygraph, pp. 15-38.

Back to Top

Document information

Published on 07/10/21
Accepted on 07/10/21
Submitted on 07/10/21

Licence: CC BY-NC-SA license

Document Score

0

Views 1
Recommendations 0

Share this document

claim authorship

Are you one of the authors of this document?