Las pruebas estandarizadas de rendimiento académico, que se utilizan para evaluar la calidad y progreso educativos de un país, tomar decisiones de política educativa y rendir cuentas a la sociedad, inician a nivel mundial en los años sesenta del siglo pasado. Dos proyectos que destacan por su relevancia mundial son la creación de la Asociación Internacional de Evaluación de Logro (IEA, por sus siglas en inglés) y la implementación del Programa Nacional de Progreso Educativo (NAEP, por sus siglas en inglés) de los Estados Unidos. El primer estudio internacional de matemáticas y ciencias fue realizado por la IEA en 1964 (Husen, 1967), mientras que el primer estudio nacional de NAEP fue realizado en 1969 (National Center for Education Statistics, 2012).

01-enlace-01

Sin embargo, tuvieron que pasar casi cuatro décadas para que los gobernantes y la sociedad en general pusieran interés en los resultados de las evaluaciones de logro. Esta actitud cambió con la implementación del Programa Internacional de Evaluación de Estudiantes (PISA, por sus siglas en inglés), coordinado por la Organización para la Cooperación y Desarrollo Económico (OCDE) en el año 2000. Ahora, los tomadores de decisiones y la prensa de muchos países creen firmemente que tales estudios son importantes para las reformas educativas y le ponen mucha atención cada vez que se publican sus resultados (Ben-Simon y Cohen, 2004).

De esta manera, durante los años noventa, los resultados obtenidos mediante pruebas estandarizadas se convirtieron en información sustantiva para los tomadores de decisiones en Estados Unidos, así como un indicador importante para la rendición de cuentas (Koretz, 2010).  En 2002, el presidente George Bush decretó la ley federal Nochild left behind (NCLB), la cual ejerció presión a los estados para establecer estándares de desempeño para la rendición de cuentas e incrementar sus puntuaciones en las pruebas estandarizadas, año con año; asimismo, decretó cerrar las brechas educativas entre los sectores mayoritarios (blancos) y los minoritarios (afroamericanos y latinos) de la población; y condicionó el acceso de recursos federales de las escuelas a los resultados de aprendizaje obtenidos (Linn, Baker y Betebenner, 2002). Las pruebas implementadas en los estados comenzaron a tener consecuencias importantes para los alumnos, los docentes y los planteles, debido a la presión por alcanzar y superar los niveles de desempeño deseados (Heubert y Hauser, 1999; Koretz, 2010). Esto dio paso a que la rendición de cuentas  fuera poco a poco sustituyendo el propósito informativo y diagnóstico de las evaluaciones de aprendizaje de gran escala (Koretz, 2010).

A través de los años, la rendición de cuentas de la evaluación de logro ha adquirido gran preponderancia debido, al menos, a tres razones: (1) el convencimiento de los países de que una mejor educación traerá un mayor desarrollo económico y una menor desigualdad social; (2) la creencia de los gobernantes y de un sector de la sociedad de que la exposición pública de los resultados educativos sirve como “motor” o incentivo, por sí mismo, para el mejoramiento de la calidad educativa; y (3) la exigencia creciente de la sociedad por conocer los resultados de los programas de gobierno, entre los que se encuentran los educativos.

Esta exigencia ha pasado rápidamente, del ámbito nacional y estatal, al de la escuela y del docente. Más aún, a la evaluación con función de rendición de cuentas (que por sí misma tiene efectos sociales) se le han asociado recientemente consecuencias de mayor impacto, tales como el otorgamiento de estímulos económicos y laborales a los maestros, el reconocimiento a las escuelas y a los estudiantes con mejores puntuaciones, o la amenaza de cerrar aquellos planteles que no presenten una mejora significativa (consultar la Ley NCLB de los Estados Unidos y el Programa de Carrera Magisterial de México).

Las pruebas de logro con funciones de rendición de cuentas se consideran evaluaciones de alto impacto por las consecuencias que están asociadas a ellas. Este tipo de evaluaciones tiende a responsabilizar a las instituciones (autoridades federales y locales, organismos descentralizados, escuelas) y a las personas (directores y docentes) de los resultados de aprendizaje de los estudiantes. En consecuencia, cuando se rinden cuentas públicamente, el prestigio social de las instituciones y de las personas “responsables” de los bajos resultados educativos se pone en entredicho (Ravela, 2006). Esta situación genera incentivos para que se “inflen” los resultados de las evaluaciones a través de una gran variedad de mecanismos, algunos muy obvios y otros más sutiles.

En el ámbito educativo, la inflación de los resultados se entiende como un crecimiento desmedido de las puntuaciones que arroja una prueba conforme se aplique a lo largo del tiempo y se mantengan las consecuencias asociadas para los involucrados (Koretz, 2010). Este fenómeno inflacionario está muy bien estudiado en distintos ámbitos de las ciencias sociales y se le conoce como corrupción de las medidas y lleva el nombre de “Ley de Campbell”, la cual afirma que: “Entre más se utilice cualquier indicador social cuantitativo para tomar decisiones sociales, más sujeto estará a las presiones de corrupción y será más propenso a distorsionar y corromper los procesos sociales que pretende monitorear” (Campbell, 1975: 35). Lo anterior sugiere que no es necesario asociar a las mediciones estímulos de cualquier naturaleza para que éstas tiendan a corromperse; basta con que haya un interés público del indicador y que éste aparezca con suficiente frecuencia en los medios de comunicación.

Diversos investigadores se han dedicado a estudiar las razones y mecanismos que hacen que los resultados presenten estas inflaciones (Koretz, Linn, Dunbar y Shepard, 1991; Heubert y Hauser, 1999; Koretz, 2005; Holcombe, Jennings y Koretz, 2012). Por lo general, señalan que la presión por obtener mejores puntuaciones (o sufrir las consecuencias implícitas) induce a que los profesores reduzcan la enseñanza del currículo a los contenidos que evalúan las pruebas, dediquen gran parte del tiempo de clase a la preparación-para-la-prueba, permitan la copia entre estudiantes o eviten que los alumnos con menor rendimiento sean evaluados.

***

Sin duda alguna, Estados Unidos es el país con mayor tradición en el uso de pruebas estandarizadas y es donde más se han generado estudios sobre la validez de las pruebas de alto impacto (Koretz, 2000). Estas investigaciones advierten sobre los efectos inflacionarios en los resultados que se obtienen con pruebas que tienen consecuencias para los actores educativos (Koretz, Linn, Dunbar y Shepard, 1991; Koretz y Barron, 1998; Klein, Hamilton, McCaffrey y Stecher, 2000; Ho, 2007).

Un buen ejemplo que ilustra este fenómeno en Estados Unidos es el caso conocido como el “Milagro de Texas”. En los años noventa, los resultados estatales de Texas en la prueba criterial Texas Assessment of Academic Skills (TAAS) mostraron un progreso exponencial en los estudiantes, así como una reducción de las brechas entre las puntuaciones de los estudiantes blancos, y los estudiantes afroamericanos y latinos (Klein, Hamilton, McCaffrey y Stecher, 2000; Haney, 2000). En consecuencia, el estado de Texas recibió un gran reconocimiento de políticos y de medios de comunicación norteamericanos. Para algunos académicos, sin embargo, estos resultados generaron suspicacia sobre la validez de dichos resultados, debido a que el sistema de evaluación texano tenía un componente muy alto en la rendición de cuentas y en la asociación de consecuencias de alto impacto, entre las que se encontraban: premios en efectivo para escuelas que alcanzaran altas puntuaciones; sanciones, incluso la clausura para las escuelas que obtuvieran un bajo rendimiento dos veces consecutivas y acreditación del nivel secundaria para los estudiantes que aprobaran el examen (Haney, 2000).

En el año 2000, Klein, Hamilton, McCaffrey y Stecher realizaron un estudio para conocer si el progreso mostrado en las pruebas TAAS era similar al reportado por las pruebas NAEP, que se considera de bajo impacto debido a que son muestrales y no arrojan resultados, ni por escuela ni por estudiante. La comparación de los resultados de ambas pruebas mostró tendencias similares. Sin embargo, las ganancias observadas en TAAS eran muy superiores a las reportadas por NAEP, tanto en matemáticas como en inglés.

Otro ejemplo norteamericano que ilustra un caso similar al de Texas es el Kentucky Instructional Information System (KIRIS), que mostraba grandes ganancias anuales en las puntuaciones de los estudiantes, supuestamente debido al sistema de altas consencuencias asociadas a las evaluaciones, pero que no coincidía en magnitud con los resultados de NAEP (Koretz y Barron, 1998).

Un ejemplo más se puede ubicar en Australia, con las pruebas National Assessment Program: Literacy and Numeracy (NAPLAM), que fueron muy criticadas por usar los resultados de los estudiantes para hacer rankings nacionales, establecer comparaciones del progreso entre escuelas, ejercer presión para mejorar el rendimiento académico de los alumnos, condicionar el financiamiento de las escuelas e, incluso, promover la inasistencia de alumnos de bajo rendimiento el día de la prueba (Klenowski,y Wyatt-Smith, 2012; Polesel, Dulfer y Turnbull, 2012; Wyn, Turnbull y Grimshaw, 2014).

En Gran Bretaña el sistema de evaluación nacional también cuenta con un sistema severo de rendición de cuentas a través de pruebas estandarizadas, el cual ha generado importantes críticas y dudas sobre la validez de sus resultados (West, 2010).

En América Latina también han caído en la tentación de utilizar los resultados de las pruebas estandarizadas de gran escala para fines distintos al monitoreo y diagnóstico educativos. En Chile, por ejemplo, la prueba conocida como Sistema de Medición de la Calidad de la Educación (SIMCE) se creó con el fin de medir el nivel de aprendizaje y para que los docentes identificaran fortalezas y debilidades de sus estudiantes. Pronto los resultados del SIMCE comenzaron a utilizarse como indicadores para la evaluación de docentes y para elaborar ranking de escuelas, entre otros propósitos no previstos originalmente (Manzi, González y Sun, 2011). Fueron tantos Los efectos negativos asociados a la prueba provocaron que grupos de estudiantes y académicos chilenos emprendieran durante 2013 la campaña “Alto al SIMCE”, como forma de rechazo total a estas evaluaciones (Pino, 2014). Hoy la continuidad del SIMCE está en duda: la presidenta Michelle Bachelet ha solicitado un análisis técnico de éste, para evaluar su posible desaparición.

***

La experiencia de México en el uso de las evaluaciones de logro para la rendición de cuentas con alcance nacional se puede ubicar a mediados de los años noventa con su participación en el proyecto TIMSS (1995), de la IEA, y con el desarrollo de las evaluaciones conocidas como Estándares Nacionales que implementó la SEP. Desafortunadamente, México se retiró del proyecto TIMSS y la SEP no publicó los resultados de las evaluaciones de Estándares Nacionales (evaluaciones que pasaron después a ser responsabilidad del INEE).

A principios de siglo aparecen en el escenario nacional tres grandes proyectos evaluativos: PISA, que se implementa por primera ocasión en el año 2000; la creación del INEE en 2002 y, con él, las evaluaciones de aprendizaje de gran escala, conocidas como Excale (Exámenes para la Calidad y el Logro Educativos), cuyos resultados se publicaron por primera ocasión en 2005; y ENLACE (Exámenes Nacionales de Logro en Centros Escolares), proyecto de la SEP que también iniciara en 2005 en educación básica (ENLACE/básica), y en 2008 para educación media superior (ENLACE/MS).

Tanto PISA como Excale son evaluaciones de bajo impacto diseñadas para aplicarse a muestras nacionales de estudiantes de manera cíclica —PISA cada tres años y Excale cada cuatro—, con propósitos meramente informativos y de rendición de cuentas a escala nacional; por su naturaleza muestral los resultados solo se publican con altos niveles de agregación: país, estados y estratos educativos. Por su parte, la prueba ENLACE fue creada para ser utlizada de manera censal y anual. A pesar de que su propósito original fue meramente informativo y pedagógico (dirigido a padres de familia, docentes y directores) en un par de años se convirtió en un instrumento de rendición de cuentas de escuelas y docentes. Los resultados de ENLACE/básica se hicieron públicos a través de rankings escolares, a los docentes se les pagó un estímulo salarial de acuerdo con los resultados de sus estudiantes,1 y a las escuelas y alumnos con mejores resultados el Presidente de la República les entregaba un reconocimiento cada año.

En estas condiciones, la publicación de resultados de la prueba ENLACE/básica tuvo un gran impacto en la sociedad y en los medios de comunicación, ya que permitía hacer todo tipo de comparaciones y ordenamientos entre las cerca de 250 mil escuelas de educación básica del país. Desafortunadamente, las altas consecuencias que se le asociaron a ENLACE/básica, tanto sociales como económicas, generaron una dinámica perversa en el sector educativo para mejorar los resultados de los estudiantes a toda costa y, con ello, aumentar el prestigio social de los planteles y la percepción económica de los docentes.

Aunque solo se tiene información anecdótica y aislada, se sabe del robo y venta de exámenes, de la copia de respuestas entre alumnos, del dictado de respuestas por parte del docente encargado del examen, de la preparación que planea la escuela para la prueba (ejemplo: jueves de ENLACE), y de la costumbre de evitar que alumnos con bajo rendimiento asistan a la escuela el día de aplicación de la prueba. Estas prácticas ocasionaron un aparente incremento de las puntuaciones de ENLACE/básica, que inexplicablemente iban mejorando exponencialmente en algunos estados, especialmente en aquellos con los rendimientos más bajos, como eran los casos de Oaxaca, Chiapas y Guerrero.

Ante las diversas denuncias y críticas de las prácticas que incentivaba la prueba ENLACE/básica, así como la pérdida de credibilidad de sus resultados, en 2013 el secretario de Educación Pública, Emilio Chuayffet Chemor, declaró la supensión de las pruebas ENLACE/básica. Esta decisión fue apoyada por el INEE basándose en las evidencias de invalidez de los resultados que se disponían en el momento. Sin embargo, aún no existe una investigación formal que muestre el grado de inflación que han sufrido los resultados de la prueba ENLACE a lo largo del tiempo, en los distintos grados y asignaturas evaluadas. Por lo anterior, nos dimos a la tarea de estudiar el comportamiento de las puntuaciones de las tres evaluaciones que se han aplicado consistentemente en los últimos trece años en la educación obligatoria, con el objetivo de comparar la tendencia de los resultados de aprendizaje en la educación básica  y media superior del país, así como documentar la posible inflación de los resultados del programa de evaluaciones de ENLACE.

***

Esta investigación es de tipo retrospectivo y transversal. Consistió en comparar las puntuaciones medias que obtuvo México en las pruebas ENLACE, Excale y Pisa a lo largo de los años en que fueron aplicadas. La comparación se realizó para los dominios comunes que miden las pruebas, en aquellos grados en el que al menos dos de las tres evaluaciones coincidían, por lo que se analizaron los resultados de los grados 3º, 6º, 9º y 12º, en los dominios de español (lectura) y matemáticas. La información de los resultados de las evaluaciones se obtuvieron de las respectivas páginas de Internet del INEE2 (para Excale y PISA) y de la SEP3 (para ENLACE).

Las pruebas de ENLACE evaluaron tanto a educación básica como la educación media superior. Los exámenes de ENLACE/básica eran de tipo criterial y de opción múltiple. Su marco teórico fueron los planes y programas de estudios oficiales, de los que se seleccionaban los contenidos que se consideraban más importantes4 para el aprendizaje de los estudiantes. Estas pruebas se diseñaron para los grados 3º, 4º, 5º, 6º, 7º, 8º, y 9º. Se aplicaron de manera censal y anual en las asignaturas de español y matemáticas, aunque también se evaluaron, de forma rotativa, los dominios de ciencias naturales, historia, geografía, formación cívica y ética (SEP, 2013). Los primeros resultados se publicaron en 2006 y los últimos en 2013.

En 2008 se empezaron a publicar rankings de escuelas de manera oficial y se asociaron los resultados de los estudiantes a la evaluación de sus docentes en Carrrera Magisterial (programa de estímulos salariales). El peso o ponderación de la calificación de los estudiantes fue en principio de 20% y en 2011 de 50%. La aplicación de las pruebas se llevó a cabo con personal de las mismas escuelas y, en algunos casos, con participación de padres de familia. En cuanto a los exámenes de ENLACE/MS, iniciaron en 2008 y continúan hasta la fecha. Se aplican de forma censal a todos los estudiantes en el último ciclo de este nivel. A diferencia de educación básica, la prueba no está alineada a un currículo específico sino a un perfil referencial5 que se elaboró para evaluar las competencias disciplinares básicas en las áreas de comunicación (lectura) y matemáticas  de los estudiantes al egreso de la educación media superior. La aplicación de las pruebas se lleva a cabo por aplicadores externos a la escuela (CENEVAL, 2012) y sus resultados no tienen consecuencias para los planteles, docentes y estudiantes.

Las evaluaciones de Excale son de opción múltiple y de tipo criterial, cuyo referente es el currículo nacional. Excale tiene un diseño matricial6 que le permite evaluar una gran cantidad de contenidos de los planes y programas de estudio. Se evalúan las áreas de español (lectura) y de matemáticas (así como algunas asignaturas de las ciencias sociales y naturales, que varían según grado y año), de manera muestral y cíclica (cada cuatro años) a estudiantes del último grado de preescolar, así como de 3º, 6º, 9º y 12º grados (Backhoff, Monroy, Peón, Sánchez y Tanamachi, 2005). La aplicación de las pruebas se hace de manera controlada con personal ajeno a las escuelas y sus resultados no tienen ninguna consecuencia.

Las evaluaciones de PISA están diseñadas para evaluar las competencias que tienen los estudiantes de 15 años de distintos países y que estén inscritos en cualquier grado de secundaria o media superior. La cantidad de alumnos de secundaria y de bachillerato ha variado en cada aplicación. Por ejemplo, en el año 2000 la mayoría de estudiantes eran de secundaria; mientras que en la aplicación de 2009, cerca del 75% eran estudiantes de bachillerato (INEE, 2011). Las competencias que se evalúan no están alineadas al currículo y se centran en la solución de problemas de la vida real que se relacionen con la lectura, las matemáticas y las ciencias naturales. Los tres dominios se aplican cada tres años, poniendo en cada aplicación el énfasis en una de las tres áreas (Vidal y Díaz, 2004). La mitad de los reactivos de PISA son de opción múltiple y la otra mitad de respuesta construida corta. La aplicación de las pruebas se hace de manera controlada con personal ajeno a las escuelas.

En las tres pruebas, la escala de calificación es de 200 a 800 puntos, con una media de 500 y una desviación de 100 unidades. El escalamiento de las pruebas nacionales de ENLACE y Excale se hizo con base en muestras nacionales de estudiantes del grado correspondiente, mientras que el escalamiento de PISA se hizo con base en las muestras de estudiantes de los países pertenecientes a la OCDE.

***

A continuación se muestran los resultados nacionales de ENLACE, Excale y PISA de español (lectura) y matemáticas en educación básica, para  tercero y sexto de primaria, tercero de secundaria y tercero de media superior.

La Tabla 1, como todas las de su tipo, muestra los años de aplicación de las evaluaciones de los grados considerados para este estudio, la media nacional en español y matemáticas, el error estándar de la media (e.e.) y el número de estudiantes evaluados para cada caso (N). Para los grados de educación básica se realizaron ocho evaluaciones (2006 a 2013), mientras que para media superior  se llevaron a cabo seis (2008 a 2013). En total, las pruebas ENLACE han evaluado a cerca de 50 millones de estudiantes de estos cuatro grados.

Tabla 1
Puntuaciones de ENLACE/básica y ENLACE/MS en español y matemáticas: 2006-2013

Grado

Año

Español

Matemáticas

Media

e.e

N

Media

e.e.

N

3º Primaria

2006

500

3.2

1,852,158

500

3.1

1,840,417

2007

508

3.2

1,979,746

508

3.1

1,984,594

2008

521

3.2

2,023,253

516

3.0

2,009,201

2009

533

3.1

2,066,001

530

3.1

2,081,460

2010

544

3.1

2,197,455

528

3.0

2,224,353

2011

556

3.6

2,234,337

541

3.0

2,264,175

2012

556

3.2

1,979,850

569

3.1

1,979,766

2013

556

3.3

2,022,468

592

2.8

2,017,057

6º Primaria

2006

500

3.6

1,830,991

500

3.5

1,863,489

2007

509

3.5

1,973,453

510

3.4

1,984,347

2008

512

3.5

2,012,881

517

3.4

2,026,575

2009

514

3.6

1,886,331

527

3.5

1,874,055

2010

545

3.4

1,958,828

547

3.4

1,981,983

2011

549

3.1

1,976,231

551

3.1

2,000,214

2012

548

3.1

1,987,332

571

3.6

2,006,188

2013

550

3.3

2,158,956

588

3.2

2,180,349

3º Secundaria

2006

500

3.6

1,373,651

500

3.8

1,371,202

2007

514

3.6

1,522,573

511

3.7

1,526,867

2008

514

3.5

1,611,747

519

3.9

1,614,281

2009

514

3.7

1,571,859

519

3.5

1,582,315

2010

505

3.7

1,638,896

523

3.4

1,642,129

2011

501

3.6

1,635,712

527

3.5

1,636,471

2012

497

3.7

1,566,366

545

3.5

1,575,028

2013

494

3.3

1,646,054

554

3.1

1,650,732

3º Media Superior

2008

512

0.1

808,346

510

0.1

808,346

2009

587*

3.1

835,741

622*

3.6

835,741

2010

523

0.1

884,663

524

0.1

884,663

2011

516

0.1

912,878

542

0.1

912,878

2012

509

0.1

965,144

558

0.1

965,144

2013

504

0.1

1,012,952

574

0.1

1,012,952

Fuente: Los datos de educación básica se extrajeron del sitio web: http://www.enlace.sep.gob.mx/content/ba/pages/estadisticas/estadisticas_2013.html y de los manuales técnicos de ENLACE/básica. Los datos de media superior fueron por elaboración propia a partir de las bases de datos con los puntajes brutos de ENLACE MS.
*
Los puntajesde la aplicación de 2009 presentaron un comportamiento extraño que pudieron deberse a problemas técnicos de la prueba, por lo que deben tomarse con precaución o no considerarse.

La Tabla 2 muestra la información de las evaluaciones de Excale, donde se puede observar que en cada año se evaluaron grados diferentes, lo que obedeció al esquema cíclico de las evaluaciones del INEE. En el periodo 2005 a 2013, el tercero de primaria se evaluó en dos ocasiones, mientras que el sexto de primaria y el tercero de secundaria se evaluaron tres veces. Las pruebas Excale se han utilizado en cerca de 200 mil estudiantes de educación básica.

Tabla 2
Puntuaciones de Excale en español y matemáticas: 2005-2012

Grado

Año

Español

Matemáticas

Media

e.e.

N

Media

e.e

N

3º Primaria

2006

500

2.0

16,563

500

1.9

20,721

2010

511

1.6

21,174

526

1.8

21,187

6º Primaria

2005

500

1.4

47,858

500

1.5

47,858

2007

516

2.3

11,999

512

2.3

11,999

2009

518

1.6

19,090

511

1.6

18,859

3º Secundaria

2005

500

1.3

52,251

500

1.4

52,251

2008

498

2.0

23,971

504

2.1

23,967

2012

496

1.6

27,133

501

1.3

27,009

Fuente: Elaboración propia a partir de las bases de datos e informes de los Excale 03, 06 y 09 (Backhoff, et al 2006; INEE, 2008; INEE, 2009; INEE, 2013a; INEE, 2013b).

La Tabla 3 presenta las evaluaciones y resultados de PISA, en tres partes: la información de todos los alumnos de 15 años que participaron en los estudios de PISA (independientemente del grado que cursaran); la información de quienes se encontraban inscritos en el nivel de secundaria; y, la información de los alumnos de bachillerato. Aunque las cifras cambian en cada aplicación, en el último año, los estudiantes de secundaria de la muestra de PISA representa cerca del 25% de la población evaluada. En las evaluaciones de PISA han participado aproximádamente 140 estudiantes de 15 años de edad. Es interesante notar que, por alguna razón, en el año 2000 no se evaluaron estudiantes de bachillerato en el área de matemáticas.

Tabla 3
Puntuaciones de PISA en lectura y matemáticas: 2000-2012

Población

Año

Lectura

Matemáticas

Media

E.E.

n

Media

E.E.

n

15 años

2000

422

3.3

5,276

387

3.3

5,276

2003

400

4.0

29,983

385

3.6

29,983

2006

410

3.1

33,706

406

2.9

33,706

2009

425

2.0

38,250

419

1.8

38,250

2012

424

1.5

33,806

413

1.4

33,806

Secundaria

2000

375

5.0

1,735

345

4.9

967

2003

367

7.2

6,649

355

6.2

6,649

2006

367

0.3

6,362

364

0.5

6,362

2009

385

3.6

10,505

385

3.1

10,505

 

2012

392

1.5

8,764

385

2.5

8,764

Media Superior

2000

467

4.3

2,553

N/A

N/A

N/A

2003

441

1.8

22,802

422

2.1

22,802

2006

444

2.8

24,092

437

3.1

24,092

2009

465

2.8

19,741

457

0.2

19,741

2012

442

1.9

25,042

430

1.8

25,042

Notas: N/A: No aplicaron.
Fuente: Elaboración propia a partir de las bases de datos de PISA, tanto las disponibles en el sitio web de INEE, así como las disponibles en la OCDE para el caso de la aplicación de 2000 y 2006.

Tendencia de los aprendizajes en español/lectura

En las siguientes gráficas se muestran las tendencias en el aprendizaje de los estudiantes de la educación obligatoria en las dos asignaturas y cuatro grados escolares evaluados. La Figura 1 presenta los resultados de español en tercero de primaria. Esta gráfica, como todas las de su tipo, muestra las puntuaciones medias de los estudiantes en ambas pruebas (señaladas con rombos para ENLACE y cuadros para Excale), en los años correspondientes, así como las líneas de regresión que muestran las tendencias de los resultados de aprendizaje. Los valores de las tendencias de aprendizaje se muestran en las ecuaciones de las líneas de regresión correspondientes. En esta figura se puede apreciar que en 2006 las medias nacionales en las dos pruebas fue de 500 puntos (dado que en esta puntuación se centraron ambas escalas) y que la tendencia de las puntuaciones de los estudiantes muestran un incremento con el paso del tiempo.  

No obstante, la magnitud de las tendencias es muy distinto: mientras que el mejoramiento en las puntuaciones de Excale es moderado7 (2.8 puntos por año), el incremento en las puntuaciones de ENLACE es tres veces mayor (8.9 puntos anuales). De esta manera, las expectativas educativas y la toma de decisiones variarán significativamente según los resultados de las pruebas que se consulten.

Figura 1.

figura-01

 

Las tendencias en los resultados de español de sexto de primaria se muestran en la Figura 2, donde se observa un comportamiento parecido al de tercero de primaria. El crecimiento en los resultados en la prueba Excale es de 4.5 puntos por año, mientras que los de ENLACE es de 8.1 puntos anuales, lo que representa casi el doble en el “mejoramiento” del aprendizaje.

Figura 2.

figura-02

 

Respecto a las tendencias en el aprendizaje de español en tercer año de secundaria, en la Figura 3 se observan los resultados de ENLACE, Excale y PISA (tanto el puntaje global de los estudiantes de 15 años, como el puntaje de los alumnos de secundaria). Aquí existe una tendencia negativa o decremento de los resultados de español en las dos pruebas nacionales (-0.5 para Excale y -2.0 para ENLACE), mientras que en PISA hay un ligero incremento en las puntuaciones a lo largo de doce años (de un punto por año para estudiantes de 15 años y de 1.7 puntos al año para estudiantes de secundaria). Este caso es paradójico pues las tendencias en el aprendizaje son opuestas; no obstante, se debe matizar esta diferencia, ya que las pendientes son pequeñas (menores a dos puntos por año) y, probablemente, no significativas.

Figura 3.
figura-03

 

En cuanto a las tendencias del aprendizaje de comprensión lectora en la educación media superior, la Figura 4 muestra los resultados de ENLACE/MS8, así como las puntuaciones en PISA de los estudiantes de 15 años y de aquellos inscritos en bachillerato (PISA/MS). Los resultados de ENLACE/MS y los de PISA/MS muestran una desaceleración en el aprendizaje de -2.0 y -0.8 puntos anuales, respectivamente. Estos resultados contrastan ligeramente con los reportados para la población global de PISA, que se incrementan en 0.9 puntos por año. Como en el caso anterior, esta aparente discrepancia debe matizarse, debido a que los valores de las pendientes son pequeños y, probablemente, no significativos.

Figura 4.
figura-04

Nota: El puntaje ENLACE en 2009 se muestra en la gráfica pero no se consideró para calcular la línea de regresión.

 

Tendencia de aprendizaje en matemáticas

Los resultados de matemáticas de ENLACE y Excale, que se muestran en la Figura 5, indican que en tercero de primaria los estudiantes han ido mejorando su aprendizaje curriculares. Sin embargo, como en el caso del dominio del español, esta tendencia es muy distinta entre ambas pruebas. Mientras que en Excale el crecimiento es de 6.5 puntos por año, en ENLACE es de 12.2 puntos anuales, lo que equivale casi al doble de mejoramiento en los resultados de aprendizaje.

Figura 5.
figura-05

Por su parte, en la Figura 6 se muestran las tendencias en el aprendizaje de los estudiantes de sexto de primaria en matemáticas en Excale y ENLACE. En esta gráfica se puede apreciar que ambas  apuntan en la misma dirección, pero con tasas de crecimiento muy distintas. Mientras que en Excale se mejora a un ritmo de 2.6 puntos anuales, en ENLACE presenta un crecimiento de 12.4 puntos por año; es decir, cinco veces mayor que Excale.

Figura 6.
figura-06

La Figura 7 muestra las tendencias en el aprendizaje de matemáticas de tercero de secundaria en las pruebas de ENLACE, Excale y PISA. Como se puede observar, los resultados de ENLACE y PISA marcan un incremento de las puntuaciones en el tiempo, mientras que en Excale las puntuaciones permanecen prácticamente iguales. Los resultados de ENLACE presentan una tendencia más acelerada que los de PISA, ya que marcan un crecimiento anual de 6.8 puntos, mientras que en PISA el aumento anual es de 2.9 puntos para estudiantes de 15 años y de 3.7 puntos para estudiantes de secundaria.

Figura 7.
figura-07

Finalmente respecto a las tendencias en la competencia matemática en la educación media superior, la Figura 8 presenta las puntuaciones de ENLACE/MS junto con los dos puntajes de PISA (estudiantes de15 años y  de media superior). Se observa que las tendencias de las puntuaciones apuntan en un mismo sentido pero con magnitudes muy dierentes: mientras que el crecimiento de PISA es de 1.4 (estudiantes de 15 años) y 2.8 (estudiantes de media superior), el crecimiento de ENLACE/MS es de13 puntos por año, lo que representa un crecimiento mayor que PISA entre 4.6 y nueve veces por año.

Figura 8.
figura-08

Nota: El puntaje ENLACE en 2009 se muestra en la gráfica pero no se consideró para calcular la línea de regresión.

 

En síntesis, en la mayoría de los grados y asignaturas se observan diferencias muy importantes en las tendencias de aprendizaje de los estudiantes de educación básica, cuando se comparan los resultados de las pruebas de ENLACE, Excale y PISA. Por lo general, las tendencias de Excale y PISA son muy moderadas, mientras que las de ENLACE son muy aceleradas, llegando a ser el crecimiento hasta cinco veces mayor que las de Excale y nueve veces mayor que las de PISA (ver Figura 7).

***

En las últimas décadas, las evaluaciones estandarizadas que se utilizan para conocer la calidad educactiva de los países han tomado una gran relevancia por diversas razones, entre las que destacan tres: representan una manera de monitorear los resultados de los sistemas educativos a nivel nacional y regional, sirven para rendir cuentas a la sociedad y son un insumo para tomar decisiones de política educativa.

En fechas recientes, las evaluaciones estandarizadas se han utilizado también para evaluar a cada una de las escuelas, con la idea de responsabilizarlas (junto con sus maestros) por el rendimiento académico de sus estudiantes y, en consecuencia, premiarlas o castigarlas por sus resultados. Un ejemplo de lo anterior es la Ley estadounidense No child left behind (NCLB Act of 2001, 2008) que condicionó el acceso de recursos federales de las escuelas al incremento de sus puntuaciones en pruebas estandarizadas y a la reducción de las brechas educativas entre poblaciones extremas (Linn, Baker y Betebenner, 2002). Como era de esperarse, esta Ley puso una gran presión en las escuelas norteamericanas y tuvo consecuencias importantes para alumnos, docentes y planteles (Heubert y Hauser, 1999; Koretz, 2010).

A diferencia de las evaluaciones diagnósticas, las evaluaciones de logro que se diseñan para la rendición de cuentas son muy suceptibles a mostrar incrementos en sus resultados que no son producto de un mejor aprendizaje, sino del fenómeno social conocido como corrupción de la medida (Campbell, 1975), que trae como consecuencia una inflación en las puntuaciones. De esta manera, los propósitos informativos originales de este tipo de evaluaciones no solo no se cumplen, sino que distorsionan la realidad educativa de un país, estado o plantel, ocasionando que se tomen decisiones equivocadas al proporcionar información que no es válida.

Tomando en cuenta que en el caso de México, los resultados de la prueba ENLACE (de educación básica) se han venido utilizando para la rendición de cuentas, para el pago de estímulos económicos a los docentes (en educación básica) y para la toma de decisiones educativas, nos propusimos investigar: 1) las tendencias en el aprendizaje de los estudiantes mexicanos de la educación obligatoria y 2) el fenómeno de la inflación de resultados de la prueba ENLACE, tanto básica como media superior.

Una síntesis de los resultados encontrados en este estudio se muestra en la Tabla 4, donde se pueden apreciar los valores de las pendientes de las tres evaluaciones, de acuerdo a la asignatura y grado evaluados. Los avances en el aprendizaje en México se pueden analizar de dos maneras: de acuerdo con la prueba utilizada, y según el grado y asignatura correspondientes.

En el primer caso, las tendencias en el aprendizaje pueden variar considerablemente. ENLACE muestra avances en el aprendizaje de los estudiantes mexicanos a pasos muy acelerados en primaria, tanto en español como en matemáticas; también se observa progreso muy considerable en secundaria y bachillerato en el área de matemáticas, y una pequeña desaceleración (o estancamiento) en el área de español en la educación media superior. Por su parte, Excale muestra adelantos más modestos en la educación primaria, en las dos asignaturas, y prácticamente un estancamiento en la educación secundaria. Finalmente, PISA presenta una mejoría modesta en estudiantes de 15 años (de secundaria y bachillerato) en matemáticas y casi ningún avance en lectura; y muestra mayor avance, aunque moderado, en secundaria que en bachillerato en ambos dominios; inclusive en este nivel educativo muestra un ligero retroceso en el área de lectura.

Tabla 4
Valores de las pendientes de las tres evaluaciones de logro, según grado y asignatura.

Evaluación

Grado

Periodo

Español/Lectura

Matemáticas

ENLACE

3º primaria

2006-2013

8.88

12.24

6º primaria

2006-2013

8.14

12.44

3º secundaria

2006-2013

-2.01

6.79

3º media superior

2008-2013

-2.09

13.11

Excale

3º primaria

2006-2010

2.76

6.52

6º primaria

2005-2009

4.54

2.63

3º secundaria

2005-2012

-0.57

0.08

PISA

15 años

2000-2012

0.97

2.87

Secundaria

2000-2012

1.73

3.67

Media Superior

2000-2012

-0.84

1.40

Fuente: elaboración propia, con base en los resultados públicos de las evaluaciones

De acuerdo con la asignatura y grado escolar, independientemente de la prueba utilizada, los datos muestran que es en el nivel de primaria donde se dan los mayores avances, especialmente, en el área de matemáticas, seguidos por los resultados de español en este mismo grado. En secundaria los resultados no son consistentes: se observa un decrecimiento incipiente en español (ENLACE y Excale), así como un crecimiento incipiente e en matemáticas (PISA/secundaria), mientras que en matemáticas se observa un estancamiento (Excale), un crecimiento moderado (PISA) a un crecimiento considerable (ENLACE). Finalmente, en bachillerato los resultados muestran un decrecimiento en lectura y una discrepancia en matemáticas, donde se observa desde un crecimiento incipiente (PISA), hasta un crecimiento desproporcionado (ENLACE/MS).

En cuanto al fenómeno de la inflación, el promedio de las puntuaciones de ENLACE/básica mostraron un incremento aproximado de nueve puntos anuales, mientras que los incrementos de Excale y PISA fueron de tres y dos puntos, respectivamente. En conjunto, se observa mayor inflación de resultados en el nivel de primaria (3º y 6º grados). Asimismo, las tendencias en los resultados en matemáticas de ENLACE/MS supera en nueve veces a las de PISA/MS.

Tomando en cuenta los resultados obtenidos, podemos afirmar que debido a las altas consecuencias de ENLACE/básica (rendición de cuentas de las escuelas más estímulos económicos a los docentes) sus medidas se corrompieron, por lo que sus últimos resultados están inflados y no son confiables. Aunque en el caso de ENLACE/MS no hay aparentemente consecuencias, también se observa una inflación importante en las puntuaciones de matemáticas, lo que pudiera obedecer a posibles cambios en la estructura de la prueba. La magnitud de la inflación que se reporta en este trabajo para el caso de México es similar a la que han encontrado otros autores para el caso de Estados Unidos, cuando se comparan las evaluaciones estatales censales (con altas consecuencias) con las evaluaciones nacionales muestrales (sin consecuencias), que es del orden de tres a cinco veces (Koretz, 2005).

Finalmente, con la idea de mostrar hasta qué punto se llegaron a inflar las puntuaciones de ENLACE/básica, la Figura 9 muestra los resultados de tercero de secundaria en matemáticas para el estado de Chiapas, entidad cuyos estudiantes obtienen por lo general las puntuaciones más bajas en los estudios nacionales e internacionales (Backhoff y col., 2006; INEE, 2011). En esta gráfica se aprecia un incremento en ENLACE/básica de 19 puntos anuales, mientras que en Excale no se muestra ningún incremento a lo largo de los mismos años.

Figura 9.
figura-09

Es interesante hacer notar que la alta inflación de los resultados de ENLACE/básica de Chiapas (así como de Guerrero, Oaxaca y Michoacán, que no se  muestran en este trabajo) confirma lo que señalan Holcombe, Jennings y Koretz (2012), en el sentido de que las escuelas que atienden a estudiantes de bajos recursos y que pertenecen a minorías sociales, son quienes enfrentan mayor presión por incrementar de manera rápida las puntuaciones de las evaluaciones y, por lo tanto, donde más se reflejan los efectos de inflación de manera más severa. Aunado a esto, el comportamiento exponencial de las puntuaciones de Chiapas en ENLACE/básica también confirman lo señalado por Koretz (2010) respecto a que las puntuaciones de las evaluaciones de alto impacto tienden a inflarse cada vez más conforme se sigan aplicando la misma generación de evaluaciones.

Para finalizar, hay que decir que las evaluaciones estandarizadas, cuando se utilizan con mucha frecuencia, sirven para la rendición de cuentas y tienen consecuencias importantes para las escuelas, los docentes o los alumnos tienden a corromperse pronto y ocasionan el fenómeno de la inflación, lo que a su vez, invalida la información que pretenden proporcionar. Esta realidad nos confronta con un dilema social y nos obliga a repensar cómo utilizar la evaluacion de logro para la mejora educativa. Algunos autores, como la Comisión Gordon (2013) ya lo han hecho, al señalar que se debe de disminuir el peso que tiene la rendición de cuentas en las evaluaciones estandarizadas y aumentar la importancia de su función pedagógica, es decir, aquella que es útil en el salón de clases para el docente y sus estudiantes.

En otras palabras, como dice Martínez-Rizo (2003), “la evaluación de la calidad educativa cobra sentido cuando contribuye a que dicha calidad mejore”. Para que las evaluaciones nacionales cumplan con sus propósitos es importante que tengan un perfil de bajo impacto que ayuden a garantizar que la información que proporcionan, tengan la mayor validez y confiabilidad posible. De tal suerte que orienten las estrategias necesarias para contribuir a la calidad de la educación y al máximo de los aprendizajes de los estudiantes, tal y como lo señala la Reforma Educativa en México (Congreso de la Unión, 2013).

 

Sofía Contreras Roldán
Jefa de Proyecto en la Junta de Gobierno del Instituto Nacional para la Evaluación de la Educación.

Eduardo Backhoff Escudero
Consejero de la Junta de Gobierno del Instituto Nacional para la Evaluación de la Educación.


1 En 2008, como una medida para mejorar los resultados, se determinó que las puntuaciones de los alumnos tendrían un valor del 20% del programa de Carrera Magisterial. En 2011, las puntuaciones de ENLACE/básica alcanzaron un valor del 50% en el programa de Carrera Magisterial.

2 http://www.inee.edu.mx/index.php/bases-de-datos/bases-de-datos-excale/ y http://www.inee.edu.mx/index.php/bases-de-datos/bases-de-datos-pisa

3 http://www.enlace.sep.gob.mx/

4 Para saber más sobre los criterios de selección de los contenidos a evaluar, consultar el sitio web de http://www.enlace.sep.gob.mx/ en Información general sobre ENLACE/básica 2012.

5 Para conocer más sobre el marco teórico de ENLACE/MS, consultar el Manual técnico en http://www.enlace.sep.gob.mx/content/ms/docs/2012/Manual_Tecnico_ENLACE_MS.pdf

6 Consiste en un muestreo matricial de reactivos, es decir, se aplican una gran cantidad de contenidos curriculares que se distribuyen entre todos los estudiantes aplicados de tal forma que no todos los estudiantes tengan que contestar a todos los contenidos sino solo a un subconjunto (INEE, 2009).

7 Es importante señalar que la tendencia en la prueba de Excale se obtuvo con solo dos datos (2006 y 2010), por lo que seguramente la pendiente podrá cambiar en las siguientes evaluaciones.

8 Es importante aclarar que las puntuaciones de ENLACE/MS de 2009 se excluyeron del cálculo de las pendientes, debido a que su comportamiento es poco confiable.

 

9 comentarios en “Tendencias en el aprendizaje de la educación en México: Una comparación entre ENLACE, Excale y Pisa

  1. Mientras las pruebas estandarizadas de alto impacto se dejan de utilizar en los estudiantes, se generan instrumentos de la misma naturaleza para el ingreso al servicio profesional docente y para la permanencia. El estímulo económico a manera de motivación extrínseca, ahora es punitiva.

  2. Me quedo la duda acerca de los datos de la primera tabla que presenta las medias del puntaje de la prueba ENLACE con su respectivo error estándar, si embargo, esta prueba es censal. Los autores no explican si obtuvieron una muestra de los resultados o cual fue su procedimiento. Pero sumamente interesante el artículo.

    • Estimado Benjamín, al pie de la tabla que hace referencia, se menciona que los datos se obtuvieron tal cual de la página de ENLACE, con los datos censales; y los errores estándar se compilaron de lo que se reportó en los Manuales técnicos de ENLACE de cada año. A excepción de un año (que no recuerdo) que no se reportaba los errores estándar y se solicitaron a la DGEP.

  3. Háganme el favor de incluir también la bibliografía!! El artículo es demasiado interesante para indagar dichas fuentes bibliográficas. Suplico publiquen el artículo incluyendo las referencias bibliográficas. En espera de verme favorecido con mi petición, aprovecho la ocasión para enviarles cordial saludo.

    • Estimado Eduardo,
      Estoy de acuerdo con usted. Desconozco por qué no incluyeron las referencias, supongo que por el espacio. Pero yo con mucho gusto puedo proporcionárselas si me deja un correo electrónico. Gracias por su interés en el artículo.

      • opino que está bien que no publiquen las referencias ya que es un tema el cuál debemos investigar si estamos interesados, el tema se da para hacer artículos de congreso, y como pasan los datosdirectos como un estudio y un método estadístico, opino que se presta para sacarle jugo a lo que arriba presentaron, en mi opinión, ustedes pueden tener más artículos del presente, y así sin referencias, se presta para que “yo” siga intrigada y en dado caso hasta comprar su libro :), DADO que, opino que es un estudio que además incluye una percepción de como se manejan las pruebas enlace, además opino que es verdad que cuando una escuela dice ser el #X en la prueba enlace, éste adquiere mayor demanda y sí, eso de que X niño no venga ese día, y eso que se escuche y se sepa de padres de familia en distintas escuelas de mi ciudad (tengo conocidos y muchos amigos) pues no puede ser una mentira, aunque sólo apoyo la opinión de la publicación, muchas gracias por informarme.

  4. Es un discurso expositivo redundante, no sale de las fronteras de su función evaluativa. El propósito de tales mediciones parece del todo evidente, sin embargo, el rendimiento educativo de profesores y alumnos parece que mide el desempeño de zombies, sujetos de los que se pretende y espera un rendimiento, pero el resultado esperado de la educación parece la imagen de una serpiente que se va comiendo a si misma desde su cola, porque no va a ninguna parte. El significado de la educación está directamente relacionado con su función de constituir un vehículo de la sociedad para ir en alguna dirección, pero eso es algo para o que el INEE no fue diseñado, supuestamente eso es tarea de los políticos, pero los políticos tampoco tienen consciencia de esta situación de una educación que no va a ninguna parte, porque no hay definida ninguna suerte de derrotero. Las funciones del INEE definidas en torno a la evaluación, tienen significado para la víbora que se devora a sí misma, pero no para el interés del desarrollo del país en algún sentido.

  5. El artículo es una referencia respecto a la importancia que implican los procesos de evaluación y, como estos inciden en el diseño de políticas educativas que permitan reorientar las prácticas formativas de los docentes. No habrá mejora substancial en nuestro Sistema Educativo Mexicano, mientras las políticas de Estado, en materia educativa, sigan manipulando los resultados surgidos de la diversidad de exámenes que son sometidos los alumnos de educación básica. La cultura de los exámenes esta marginando los procesos de enseñanza-aprendizaje.

  6. Un hacha, que normalmente sirve para cortar àrboles, también puede servir para cortarle la cabeza a la gente. Las evaluaciones, hablo de PISA que es la que conozco, fue hecha para evaluar grandes tendencias y de esa manera orientar a las polîticas pùblicas. Si en algunos paîses las estàn utilizando para cortar cabezas….