Agradecimientos

Queremos expresar en primer lugar nuestro agradecimiento a todos los docentes que, en el marco de los trabajos de investigación que realizamos en los años 2008 (en Lima, Montevideo, Buenos Aires, Cali, Ciudad de Guatemala, Ciudad de México, San Salvador y San José de Costa Rica) y 2012 (en Cali, Lima, Montevideo y Santiago de Chile), nos permitieron acceder a sus clases, a sus materiales de trabajo y a sus preocupaciones en torno a la evaluación, y compartieron con nosotros sus reflexiones y sus propuestas para la evaluación de aprendizajes de sus estudiantes.

Del mismo modo, queremos expresar nuestro reconocimiento a todos los docentes y directivos con quienes tuvimos la oportunidad de interactuar y compartir reflexiones y experiencias en torno a la evaluación, durante los cinco años en que los autores trabajamos juntos en los Diplomas en Evaluación de Aprendizajes (2009 a 2013), realizados en Uruguay y Panamá, así como en Talleres realizados en Aguascalientes, Buenos Aires, Cali, Ciudad de Guatemala, Ciudad de México, Ciudad de Panamá, Lima, Montevideo, Piura, Santo Domingo y San José de Costa Rica.

Agradecemos especialmente la colaboración con nuestros trabajos de campo, de las siguientes instituciones: la Fundación Chile en Santiago; el Grupo de Investigación sobre Evaluación de la Calidad de la Educación (GIECE) en la Universidad Sanbuenaventura de Cali; la Unidad de Medición de la Calidad (UMC) del Perú; el Departamento de Educación de la Universidad Católica Argentina; el Instituto Nacional para la Evaluación de la Educación (INEE) de México; la Dirección de Gestión y Evaluación de la Calidad de Costa Rica; el Sistema Nacional de Evaluación de los Aprendizajes (SINEA) de El Salvador y la Dirección General de Evaluación Investigación y Estándares Educativos (DIGEDUCA) de Guatemala.

Queremos también hacer un reconocimiento explícito de los intercambios académicos que mantuvimos con el GIECE de la Universidad San Buenaventura de Cali, liderado por Dulfay Astrid González y con el equipo de investigación de la Universidad Autónoma de Aguascalientes, liderado por Felipe Martínez Rizo.

Un reconocimiento especial al apoyo brindado por Adriana Aristimuño, quien fue Decana de la Facultad de Ciencias Humanas de la Universidad Católica del Uruguay durante el período en que se creó el Instituto de Evaluación Educativa y el Diploma en Evaluación de Aprendizajes.

Muchísimas gracias a la Maestra Margarita Zorrilla, de larga trayectoria y reconocimiento en México, tanto en el campo pedagógico como en el de las políticas educativas, que aceptó revisar nuestro texto y escribir el prólogo.

Finalmente, queremos expresar un especial y entrañable agradecimiento y reconocimiento a Patricia Arregui, por su apoyo y amistad, quien desde GRADE en Perú y desde su liderazgo en el Grupo de Trabajo sobre Estándares y Evaluación de PREAL, nos animó e impulsó a estudiar las evaluaciones en el aula y nos estimuló incansablemente en la realización de nuestras investigaciones y en la difusión de sus resultados en toda la región.

A Patricia y a todos los docentes les dedicamos este libro.

Capítulo 1

El elefante invisible

Evaluar es una tarea ingrata. La mayoría de los docentes preferiríamos sencillamente enseñar y no tener que evaluar. Los sentimientos negativos relacionados con la evaluación son variados. Entre los principales están, en primer término, el vinculado a la sobrecarga de trabajo y el cansancio que implica. Evaluar requiere revisar y corregir grandes cantidades de tareas, normalmente en horarios en los que, se supone, no estamos trabajando (noches, feriados y fines de semana). Siempre tenemos “tarea pendiente”: cuando terminamos de corregir una tanda de trabajos, ya tenemos otra por delante. Un segundo sentimiento es el de aburrimiento, derivado del hecho de corregir varias decenas de trabajos similares (varios centenares, en la educación media). Leer repetidamente las mismas respuestas o corregir los mismos ejercicios es algo tedioso. Un tercer tipo de sentimiento que muchas veces está presente, es el de frustración. Esta se deriva del hecho de que al evaluar solemos constatar la distancia que existe entre lo que intentamos enseñar y el desempeño de nuestros estudiantes. En cuarto lugar cabe mencionar el sentimiento de incertidumbre y aún de cierto estrés o angustia. Esto suele ocurrir en las instancias de evaluación en las que tenemos que tomar decisiones vinculadas a la aprobación o reprobación de un curso. En esos momentos nos preguntamos si estamos evaluando en forma apropiada y si las decisiones que tomamos, que afectarán la vida de nuestros estudiantes, son justas y tienen el sustento adecuado. La pregunta “¿lo estaré haciendo bien?” sobrevuela nuestras evaluaciones en forma más o menos permanente.

Muchos de nosotros preferiríamos no tener que evaluar y no lo haríamos, si no fuese un requerimiento administrativo y una forma de “motivar” -¿obligar?- a los estudiantes a estudiar y a realizar las tareas propias del aprendizaje. Vivimos en una cierta contradicción. No nos gusta evaluar y no sabemos del todo cómo hacerlo bien, pero calificamos o asignamos puntajes la mayor parte del tiempo. Sostenemos en el discurso la importancia de la evaluación formativa por sobre las calificaciones, pero continuamente ponemos y registramos “notas”. Esto ocurre por varias razones. Por un lado, porque es un requisito administrativo. Por otra parte, porque es una demanda constante de los propios estudiantes y de muchas familias. Y, además, porque en cierta medida percibimos que es la única forma de lograr que los estudiantes se involucren con las tareas que les proponemos.

Por lo general no hemos tenido la oportunidad de formarnos adecuadamente para evaluar. La evaluación suele estar casi ausente, tanto durante las carreras de formación inicial como en los programas de formación en servicio. Cuando hay alguna instancia de formación, esta suele ser poco relevante para la práctica. Se enseñan algunos conceptos básicos (tales como la distinción entre evaluación formativa, sumativa y diagnóstica), algunos discursos teóricos sobre la misma y algunos conceptos de estadística que no suelen tener aplicación en la vida real en el aula (tales como la media, el modo, la mediana, la distribución de frecuencias y curva normal). En esta situación, cada docente “aprende” a evaluar como puede, en forma más o menos intuitiva, en cierta medida reproduciendo las formas en que fue evaluado cuando era estudiante y, a veces, recurriendo a materiales prestados de algún colega.

Con el paso de los años y la acumulación de experiencia, vamos desarrollando nuestra capacidad de valorar la diversidad de desempeños de nuestros estudiantes y cierta dosis de “buen ojo” para evaluar. Mientras algunos docentes se apoyan más en la asignación de puntajes a distintas tareas y ejercicios, otros optan por una aproximación más basada en sus percepciones del desempeño de los estudiantes que en puntajes matemáticos. Pero a todos nos cuesta explicitar a los estudiantes con claridad qué esperamos de ellos y qué criterios emplearemos para evaluarlos. El modo en que definimos las calificaciones suele ser opaco y difícil de comprender para los estudiantes, por más que interiormente nosotros tengamos cierto grado de certeza con respecto a la calificación que asignamos. También tenemos ciertas dudas existenciales con respecto a qué cosas valorar y qué peso darle a cada una: ¿debemos tener en cuenta el trabajo realizado por el estudiante o valorar el esfuerzo?; ¿hasta qué punto mantener la exigencia alta?; ¿en qué circunstancias o ante qué estudiantes debemos ser más “tolerantes”?

Este libro intentará clarificar algunos aspectos clave de la evaluación de aprendizajes en el aula y ofrecer pistas de trabajo que permitan abordar dicha tarea de un modo más satisfactorio para el docente y más justo con los estudiantes, y que sea consistente con nuestras intenciones educativas y con los aprendizajes que querríamos que desarrollen nuestros estudiantes.

1. El elefante invisible

En un reciente libro en el que realiza una completa e interesante revisión de las políticas educativas desarrolladas en América Latina durante la última década y media, Axel Rivas (2015) destaca que “los exámenes y las calificaciones son el esqueleto de los sistemas educativos” y los describe como un “elefante invisible”, haciendo alusión a la vez a la importancia que tienen y a la poca atención que se les presta. De Axel Rivas tomamos esta expresión como título para este capítulo.

En un apartado dedicado a analizar las políticas de evaluación de los estudiantes, Rivas se pregunta qué ocurrió en la región con los sistemas de promoción de los alumnos y las pruebas, reglamentos y requisitos para aprobar los cursos desde el comienzo del nuevo siglo. Su conclusión es que este tema ha recibido escasa atención y casi no ha sido estudiado, a pesar de su importancia crucial en la determinación de los aprendizajes y de la experiencia educativa de niños y jóvenes.

“El esqueleto del sistema educativo es un elefante invisible. Pocos estudios de política educativa hablan de los regímenes académicos de la educación primaria y secundaria. Es un tema escasamente investigado en relación con su peso en la vida de los sistemas y, sobre todo, de los alumnos. Basta ver qué preguntan la mayoría de ellos cuando comienza un curso en cualquier tipo de institución educativa del mundo: ¿cómo seremos evaluados?” (Rivas, 2015: 101).

Los sistemas de calificaciones juegan un papel central en la educación formal tal como está organizada en la mayor parte de nuestros países. Son un factor determinante de la experiencia educativa de los estudiantes y de su concepción acerca de en qué consiste su “oficio” como tales, es decir, aprender. Lo que evaluamos a través de pruebas y exámenes constituye un fuerte mensaje que comunica a estudiantes y familias qué esperamos que sean capaces de hacer y qué es valioso para nosotros -los docentes- como logro educativo. Por otra parte, mientras los docentes tendemos, al menos en el discurso, a dar más importancia a la función formativa de la evaluación que a las calificaciones, para los estudiantes evaluación es, ante todo, sinónimo de calificaciones o notas. Estas se han constituido en una pieza clave de los sistemas educativos que determina fuertemente toda la experiencia escolar, a pesar de que, según analizaremos en el capítulo 5, constituyen una rémora del modelo escolar propio de la sociedad industrial.

Según muestra Rivas en su estudio, una de las principales contradicciones que se han puesto de manifiesto en las políticas educativas en los últimos quince años, es la derivada de la tensión entre garantizar aprendizajes comunes a todos y atender a la diversidad de los estudiantes de un modo que les permita avanzar en sus trayectorias educativas. Esta tensión no siempre ha sido bien resuelta. Las principales medidas de política educativa en los países de la región en estos temas, han sido la eliminación de la repetición en algunos grados de primaria y la flexibilización de los regímenes de pasaje de grado en la educación media.

“Quizás, el mayor cambio fue la emergencia de nuevas instancias de evaluación y aprendizaje, conocidas como períodos de compensación o recuperación. Se instalaron las recuperaciones pedagógicas, como períodos breves antes del inicio del ciclo escolar, donde los alumnos tienen clases antes de ser evaluados, o las evaluaciones preventivas durante el curso escolar, para detectar situaciones problemáticas y atenderlas dentro de la cursada con adecuaciones de pedagogía diferenciada. Todo esto trajo diversas respuestas docentes, políticas y sociales. Muchos consideraron que las nuevas posibilidades empujaban a los docentes a aprobar a los alumnos a cualquier costo. Eran los que tenían menos vocación de revisar las pedagogías o educar en la diversidad. La creencia en la meritocracia como criterio llevaba a la repetición y a la expulsión como medidas necesarias para mantener el orden en las aulas. Sin ellas, todo el reino escolar se pervertía en el caos del facilismo. Fue arduo el trabajo de muchos pedagogos, funcionarios y colectivos docentes, incluidos la mayoría de los sindicatos docentes de la región para evitar una confusión decisiva: que todo lo que implica dar nuevas posibilidades a los alumnos fuese visto como sinónimo de facilismo. En realidad, la propuesta era exactamente lo contrario: un trabajo arduo para enseñar más, revisar las pedagogías, personalizar la enseñanza y generar interés en los alumnos por su propia escolarización. Pero, muchas veces, ese mensaje llegaba de manos de gobiernos lejanos a las vivencias diarias de las aulas. Frías normativas que poco podían hacer con décadas de naturalización pedagógica de la exclusión. En muchas escuelas, la falta de recursos o de nuevas prácticas de formación docente para asumir estos desafíos pedagógicos se manifestaban de lleno en los intentos de hacer política por vía de la normativa. En muchos casos, esto generó frustración y resistencia, en uno de los capítulos claves de las brechas entre las políticas y las prácticas pedagógicas” (Rivas, 2015: 105).

Desde nuestra perspectiva el análisis de Rivas peca de cierto “exceso” de optimismo. En primer lugar, porque en cierto modo plantea que la tensión ha sido resuelta cuando en general continúa instalada, de la misma manera que, con o sin razón, persisten las resistencias a la flexibilización de los regímenes académicos. En segundo lugar, porque entendemos que “la revisión de las pedagogías” (tal vez más bien de las didácticas), la “personalización de la enseñanza” y la generación de “interés en los alumnos por su propia escolarización” son aun tareas pendientes. Como veremos a lo largo de este libro, si bien existe la preocupación por introducir diversidad en las formas de enseñar y por asegurar las trayectorias de los estudiantes, estamos lejos aún de lograr cambios sustantivos en las formas de trabajar dentro del aula, en nuestras concepciones de qué son saberes relevantes y en los modelos de organización de las instituciones educativas.

Estos tres elementos van de la mano: la concepción de qué merece la pena ser aprendido y cómo; las formas de evaluar a los estudiantes y sus aprendizajes; y los modos de organizar la institución escolar en lo relativo a la estructuración de los tiempos cotidianos, los espacios físicos, las formas de agrupar a los estudiantes, los períodos anuales de cursos, las relaciones entre estudiantes y docentes, y los momentos en los que se determina si un estudiante ha logrado o no los aprendizajes esperados (así como la propia definición de “aprendizaje esperado”) y su consecuencia inmediata, la aprobación o reprobación de un curso.

En este sentido, el elefante invisible sigue siéndolo y es más grande que lo planteado por el autor. Mientras el trabajo de Rivas utiliza esta imagen para referirse específicamente en los regímenes de aprobación y reprobación de cursos, en este libro analizaremos más ampliamente las prácticas de evaluación en el aula, tanto las que tienen por finalidad establecer una calificación como aquellas que tienen una finalidad formativa y que están estrechamente imbricadas con la propuesta de enseñanza del docente. Ambas reflejan nuestra forma de enseñar y lo que esperamos de nuestros estudiantes, ambas moldean la percepción y las actitudes de los estudiantes hacia la educación.

La evaluación en el aula constituye uno de los pilares de la cultura escolar dominante. Y, sin embargo, en general la ignoramos. No suele ser objeto de investigación y tiene un lugar absolutamente secundario en la formación de docentes, tanto en la inicial como en los programas de formación en servicio y desarrollo profesional. Es un elefante invisible. Mientras se invierten grandes cantidades de tiempo y dinero en la realización de evaluaciones a gran escala, son casi inexistentes los recursos y la atención destinada a mejorar las evaluaciones que ocurren cotidianamente dentro del aula. Pero el impacto de estas últimas sobre la enseñanza y sobre el aprendizaje es enorme, seguramente mucho mayor que el de las evaluaciones externas. Y nosotros, los docentes, seguimos haciendo las cosas como siempre se hicieron, asumiendo como “naturales” las formas establecidas de evaluar a los estudiantes.

El propósito de este libro es poner sobre la mesa las prácticas de evaluación, en tanto emergente o indicador que muestra qué y cómo enseñamos. Creemos que colocar nuestras propuestas y prácticas de evaluación como objeto de análisis y discusión es un excelente punto de partida para iniciar un proceso colectivo de revisión y cambio en las mismas.

2. La evaluación como forma de conocimiento

Evaluar es una actividad esencial y natural para el ser humano. Continuamente estamos evaluando para tomar decisiones de distinto tipo, tanto a nivel individual como colectivo. Normalmente toda decisión de cierta importancia, así como buena parte de las decisiones triviales, están precedidas de alguna forma de evaluación.

A nivel individual o familiar, decisiones como la elección de un servicio de salud, el alquiler de una vivienda o la compra de una prenda de vestir, están precedidas por un proceso en el cual identificamos las distintas alternativas existentes y buscamos información sobre cada una de ellas: los servicios que se ofrecen; los costos de distintas alternativas; en el caso del servicio de salud, en qué lugares físicos hay servicios disponibles puede ser un dato importante, porque implica traslados; la distancia al lugar de trabajo puede ser un elemento importante para elegir vivienda, así como la cantidad de dormitorios y la iluminación; en el caso de la adquisición de una prenda de vestir, observaremos el diseño, los colores y, seguramente, nos la probaremos y observaremos “cómo nos queda”. A medida que recogemos este tipo de información sobre las distintas alternativas, la iremos combinando con ciertas valoraciones: qué cosas priorizamos en un servicio de salud, según cuál sea nuestro estado físico; qué tipo de vestimenta nos resulta más agradable; qué ubicación, tamaño y estilo de vivienda queremos para vivir; cuánto estamos dispuestos a pagar; por mencionar algunas. Como resultado de esta interrelación entre información y valoraciones, llegaremos en cada caso a un juicio de valor o conclusión valorativa -“esta es la mejor opción dentro de mis posibilidades”, “este servicio es mejor que el resto teniendo en cuenta el costo”-, que nos permitirá tomar una decisión.

A nivel social la evaluación está presente, de manera explícita o implícita en todas las decisiones colectivas y políticas. Evaluamos antes de decidir invertir en la ampliación de las actividades de una empresa, para resolver a cuánto debe incrementarse el salario mínimo nacional o antes de introducir cambios que permitan mejorar la implementación de un programa para erradicar el trabajo infantil. También en estos casos las decisiones están precedidas por la recogida y análisis de información y datos (en mayor cantidad y en forma más sistemática que en los ejemplos de la vida personal), que se combinan con valoraciones éticas y políticas, para llegar a juicios de valor del tipo: “es mejor no ampliar las actividades de la empresa en este momento porque es muy riesgoso”; “es deseable incrementar el salario mínimo nacional hasta tal cifra pero hacerlo por encima de la misma será contraproducente para el conjunto de la economía”; “sería necesario mejorar el programa de erradicación del trabajo infantil introduciendo cinco cambios principales en su forma de operar”.

Si el lector analiza con cuidado cada uno de los casos propuestos, notará que en todos ellos los juicios de valor resultantes y las decisiones a las que conducen son “discutibles”, es decir, no son las únicas posibles. Utilizando la misma información de base, dos personas distintas pueden llegar a juicios de valor y a decisiones diferentes sobre el servicio de salud a contratar, sobre la vivienda a alquilar, o sobre la prenda de vestir a comprar. De la misma manera, diferentes especialistas o políticos pueden llegar a juicios de valor y decisiones diferentes acerca de cuál podría ser la cifra adecuada para el salario mínimo nacional o cuáles deberían ser los principales cambios a introducir en el programa de erradicación del trabajo infantil. En el caso de la empresa, distintas personas dentro de la misma podrían considerar que el riesgo de la inversión está dentro de lo razonable y que este sería un buen momento para realizarla.

Esta es una característica central de los procesos de evaluación: sus “conclusiones” no son únicas ni indiscutibles, dado que se apoyan en información y en valoraciones. Como consecuencia de ello, a partir de los mismos datos, las “conclusiones evaluativas” pueden variar en función de los valores que se toman en consideración.

Este hecho suele dar lugar a una confusión: considerar que la evaluación es algo meramente subjetivo, una cuestión de gustos o preferencias, en cierto modo aleatorio o antojadizo. No lo es, en la medida en que tampoco lo son los valores éticos o estéticos. Los valores pueden ser diversos, pero no por ello son algo meramente caprichoso. Tampoco lo son las valoraciones que emergen de un proceso de evaluación: si la evaluación ha sido realizada de un modo apropiado, sus conclusiones serán consistentes con la evidencia empírica empleada y con los referentes valorativos considerados, si bien variarán en función de estos últimos.

Michael Scriven1 (2013) define a la evaluación como “el acto o proceso cognitivo por el cual establecemos una afirmación acerca de la calidad, valor o importancia de cierta entidad”. Dicha entidad, a la que denomina “evaluando”, puede ser un objeto, un programa, un curso de acción, un desempeño, entre otros. Según Scriven, es necesario combatir la idea de que los valores son esencialmente subjetivos, una cuestión de gustos idiosincráticos, no contrastables o esencialmente imprecisos y cualitativos (32). El hecho de que “el contenido de las afirmaciones evaluativas es extremadamente dependiente del contexto, difiriendo de un usuario a otro o de una situación a otra para un mismo usuario, no significa que su significado no sea claro” (25).

De acuerdo con Scriven (2011), la evaluación es una forma de conocimiento, decisiva para la especie humana. “Los seres humanos primitivos fueron evaluadores prácticos de todo lo existente” (17). Probablemente algunas de las primeras inferencias evaluativas estuvieron vinculadas a los frutos a ingerir como alimento y a la selección de piedras apropiadas para la construcción de instrumentos. La elección y el descarte paralelo de piedras para construir instrumentos “implican el empleo de estándares de aceptabilidad” (17). A partir de la observación de distintas características de las piedras, los humanos debieron llegar a un juicio de valor, caso por caso, de cuáles podrían servir y cuáles no, o cuáles serían mejores que otras.

Desde ese hipotético comienzo, la evaluación ha sido una forma de conocimiento determinante y permanente en la adaptación y evolución de los seres humanos a lo largo de su historia sobre el planeta. “La habilidad para evaluar es una parte importante del cuerpo de conocimiento que hemos aprendido fuera de la escuela. Se aprende por ensayo y error e inferencia y, luego de mucha experiencia (que puede ser supervisada), se internaliza como una habilidad perceptiva” (27). Además de su uso cotidiano de un modo no sistemático por todas las personas, se transformó en una disciplina y en una profesión, que tiene sus procedimientos propios y sus requerimientos técnicos y éticos. “La evaluación es una de las formas principales de ciencia social aplicada” (21). En realidad, afirma el autor, la evaluación es una transdisciplina (11, 36), es decir, una disciplina que aporta herramientas a las restantes (36) (otros ejemplos de transdisciplina son la estadística y el diseño). En este sentido, la evaluación está presente al interior de todas las disciplinas y áreas de la actividad humana: en la producción de conocimiento en las diferentes ciencias, en las artes, en los deportes, en la educación, en la medicina, en la ingeniería, en la economía y en la política, por mencionar las principales. En todas ellas es necesario, en forma continua, tomar decisiones basadas en evidencia y valores, lo cual constituye la esencia de la evaluación.

En las distintas disciplinas y ámbitos de actividad humana la evaluación tiene siempre una misma lógica básica (Ravela 2003 y 2006; Scriven 2013):

El término “coligar” ha sido acuñado por Scriven (2013: 25-28). Implica observar las dimensiones relevantes, establecer el valor de la realidad evaluada en cada una de ellas y su importancia relativa, para finalmente combinarlos en forma ponderada en una conclusión o afirmación evaluativa. Scriven propone como ejemplo la evaluación de un mango en un puesto de frutas. Las principales propiedades a ser coligadas -los criterios de valor- son el color, la textura, el peso, el olor y la firmeza.

“El comprador ha aprendido cómo evaluar mangos por sí mismo o con el grupo de consumidores para el cual trabaja, esto es, (1) qué propiedades son relevantes (y deben ser coligadas); (2) cómo estimar cada una de ellas por la vista, el tacto y el aroma; (3) cómo la escala de valoración se vincula con la gama de colores, esencias o firmezas que pueden ser encontradas en la realidad, esto es, la escala de valoración”. A partir de este ejemplo Scriven destaca un par de detalles importantes. En primer lugar, que algunas propiedades son evaluadas en forma dicotómica (existen o no existen) (por ejemplo, el olor); otras son evaluadas en una gradación (malo, regular, bueno, muy bueno) (por ejemplo, la firmeza); en tanto que otras pueden tener un valor numérico (por ejemplo, el peso). En segundo lugar, que algunas propiedades pueden tener mayor importancia que otras y constituir un punto de corte. Por ejemplo, si el mango es tan liviano que su interior parece ser una gelatina (firmeza), puede ser evaluado como inaceptable, aunque el color y el aroma sean muy buenos. En toda evaluación el evaluador “pondera” de algún modo las diferentes propiedades o aspectos relevantes de la realidad evaluada.

La evaluación en la educación se rige por esta misma lógica:

Al igual que en el ejemplo de los mangos, en general establecemos ponderaciones de los distintos contenidos y saberes que enseñamos. No todos tienen la misma importancia. Algunos pueden constituir un “punto de corte”: “si no sabe esto no puede aprobar el curso”.

En el caso del mango, afirma Scriven, la evaluación es principalmente perceptiva: las valoraciones y su coligación surgen en forma inmediata de la observación. Algo parecido ocurre en muchas situaciones de la vida cotidiana, al igual que en ciertas disciplinas artísticas y deportivas. Por ejemplo, la gimnasia olímpica, los saltos ornamentales en piscina, la danza, la actuación de conjuntos de carnaval, la música, el teatro o la cata de vinos. En todos estos casos los evaluadores acuerdan explícitamente el conjunto de aspectos o dimensiones a valorar, y la valoración de las mismas emerge en forma inmediata de la percepción. La “evidencia empírica” es la observación. Por ejemplo, en el caso de un conjunto de carnaval, los miembros del jurado evalúan la letra, la música y el vestuario, entre otros aspectos. Si bien para el observador externo esta evaluación puede parecer arbitraria o caprichosa, en realidad está basada en una importante acumulación de experiencia de cada miembro del jurado. No cualquiera puede evaluar vinos, ni gimnasia olímpica ni danzas. Pero, al mismo tiempo, como es sabido que la evaluación no es “objetiva”, sino que interviene la apreciación subjetiva del evaluador, se recurre a un jurado integrado por varios miembros, como forma de neutralizar el inevitable sesgo de cada uno de ellos. Es importante, además, retener lo señalado unas líneas más arriba: si bien la valoración es en cierto grado subjetiva porque se desprende de la percepción directa del evaluador, las dimensiones a observar y los “criterios de valor” son explícitos, acordados previamente y conocidos por todos, evaluadores y evaluados.

En otros casos la evaluación no es perceptiva sino inferencial. Por ejemplo, en la evaluación que antecede a la determinación de comprar o alquilar una vivienda o a la decisión de cómo mejorar un programa para la erradicación del trabajo infantil. En estas situaciones la importancia de definir los referentes valorativos o criterios de valor es similar a los casos de evaluación perceptiva antes analizados, pero la cuestión de la evidencia empírica es más complicada. No alcanza con la observación directa, sino que se requiere de un trabajo más o menos extenso de recopilación y análisis de información, a partir de lo cual será necesario realizar inferencias. Por ejemplo, a partir de la información sobre cinco posibles departamentos para alquilar, del análisis de la misma y de la ponderación de las principales “dimensiones” (la ubicación, la cantidad de dormitorios, el estilo, la iluminación y el costo mensual), llegamos a una conclusión evaluativa sobre cuál es la mejor opción para nosotros en este momento. Al igual que en el caso de la evaluación perceptiva, la inferencial no da lugar a una única conclusión evaluativa posible. Diversas personas pueden llegar a valoraciones diferentes a partir del mismo conjunto de información.

En la educación en general realizamos ambos tipos de evaluaciones. Muchas veces operamos en forma perceptiva: a partir de la simple observación directa de la actuación de un estudiante o de la revisión de su trabajo, llegamos directamente a una valoración. Otras veces actuamos en forma inferencial: analizamos varias piezas de información sobre el desempeño del estudiante para llegar a una conclusión.

Al igual que en los ejemplos antes planteados (la cata de los vinos o los conjuntos de carnaval), la evaluación en educación descansa fuertemente en la acumulación de saber y de experiencia de cada docente. Y, del mismo modo, el resultado de una evaluación, tomando como punto de partida los mismos trabajos de los mismos estudiantes, puede diferir en función del docente que evalúa. Esto no necesariamente es malo en sí mismo. Cierto grado de subjetividad es parte de la lógica de la evaluación en todos los campos de la actividad humana. El problema no es la subjetividad, sino la opacidad: no siempre explicitamos y comunicamos con claridad cuáles son los aspectos o dimensiones importantes, ni sobre la base de qué criterios y con qué evidencias estamos evaluando.

Los criterios que utiliza un jurado de gimnasia olímpica son explícitos. Los atletas los conocen. Los criterios que utiliza un catador de vinos son compartidos entre los entendidos, pero opacos para los no especializados. Cuando uno lee en la etiqueta de un vino que tiene “un intenso gusto a fruta madura con notas de cacao y café y un sutil aroma a madera”, lo prueba y no sabe de qué le están hablando, salvo que sea un consumidor con cierta “especialización”. Algo parecido le pasa a los estudiantes con muchas de nuestras evaluaciones: no comprenden mucho de lo que les decimos cuando los evaluamos. Para ellos somos como un sommelier (de allí que se fijen solamente en la nota). Una de las principales dificultades en la evaluación en educación es que, en general, no tenemos un abordaje sistemático, claro y explícito de la misma y de su lógica. Tendemos a pensar la evaluación a partir de ciertos procedimientos, preguntas, actividades o tipos de ejercicios que hemos ido elaborando a lo largo de los años, a partir de la experiencia. Nos enfocamos mucho en los instrumentos (la evidencia) y poco en los criterios o referentes, que no solemos explicar suficientemente a nuestros estudiantes. Según analizaremos en profundidad a lo largo del libro, la cuestión de la comunicación de qué aprendizajes queremos que logren nuestros estudiantes y qué es un desempeño aceptable o uno destacado, es uno de los desafíos más importantes para la evaluación en el aula.

Una segunda cuestión importante que analizaremos en este libro es la relativa a las finalidades de la evaluación y a la distinción entre evaluación para la certificación y evaluación para el aprendizaje. El modo de llevar adelante la evaluación depende fuertemente de su finalidad o propósito. En educación evaluamos con dos finalidades principales: para dar cuenta en forma pública de lo que han logrado los estudiantes (para lo cual establecemos calificaciones) y para ayudarles a avanzar en sus procesos de aprendizajes (para lo cual necesitamos propiciar instancias de evaluación formativa). Según analizaremos más adelante, estas dos finalidades dan lugar a dos formas de evaluación completamente diferentes. Sin embargo, los docentes en general tendemos a no diferenciarlas y a calificar a los estudiantes con excesiva frecuencia. En los capítulos 4 y 5 explicaremos por qué ocurre esto, las diferencias fundamentales entre ambas formas de evaluación y cómo realizar mejor cada una de ellas.

Un tercer desafío fundamental es aprender a actuar más como entrenadores que como jurados. Un entrenador de gimnasia olímpica que continuamente le diese un puntaje a sus atletas, similar al que le darán los jurados en la competencia, no los ayudaría mucho a mejorar su desempeño. El papel del entrenador no es dar puntajes, sino devoluciones que ayuden a que el atleta aprenda a percibir y valorar sus movimientos y “darse cuenta” de qué es lo que tiene que corregir. Nuestra situación como docentes es similar a la del entrenador de gimnasia olímpica: necesitamos desarrollar estrategias orientadas a que nuestros estudiantes desarrollen su capacidad para apreciar qué es un buen desempeño o un buen trabajo en nuestra disciplina o materia. Necesitamos trabajar en el desarrollo de la capacidad de autopercepción y autoevaluación de los estudiantes. Trabajaremos este aspecto en profundidad en el capítulo 4.

3. La enseñanza como práctica cultural

La mayoría de los docentes intentamos, a lo largo de los años, ir cambiando y mejorando nuestras formas de enseñar y de evaluar. Algunas cosas logramos, pero muchas prácticas y rutinas permanecen incambiadas. Cuando participamos en un taller o leemos algo nuevo, muchas veces nos entusiasmamos con la idea de intentar nuevas propuestas de enseñanza y/o de evaluación. Pero la mayoría de las veces el entusiasmo queda rápidamente por el camino. El ambiente de trabajo, las dificultades, el aislamiento en el que trabajamos, las demandas de los propios estudiantes, nos retrotraen a las prácticas habituales y nos ganan las rutinas que tenemos construidas. Cambiar los modos de trabajar en el aula es complejo. ¿Por qué es tan difícil?

Una primera razón importante detrás de las dificultades para modificar las formas de enseñar está vinculada con las concepciones predominantes acerca del trabajo docente y las condiciones de trabajo que se derivan de dichas concepciones: la falta de reconocimiento al trabajo fuera del aula y el desempeño “en solitario”.

Enseñar es una tarea difícil y exigente. Todos los días es necesario preparar y llevar adelante una o varias “representaciones” o performances, frente a uno o varios grupos de niños, niñas y/o adolescentes. Estas performances incluyen explicaciones y actividades que interesen y, ojalá, entusiasmen a los estudiantes, en torno a un conjunto de saberes que la sociedad y los educadores hemos decidido que son importantes. Intentamos interesarlos con las ciencias, la literatura, la historia y las artes. Nos proponemos, por encima de todo, contribuir al desarrollo personal y social de nuestros estudiantes, a que aprendan a vivir con otros, a concebir y llevar adelante proyectos, a participar en la comunidad y en la sociedad de las que forman parte. Cada día, cada docente, debe realizar una o varias performances distintas. En primaria es una y dura varias horas. En secundaria es más breve, pero el docente debe realizar varias diferentes para distintos grupos de estudiantes.

El día a día en el aula requiere en forma continua la preparación de presentaciones y exposiciones; la concepción de nuevas actividades; la revisión y modificación de lo realizado en oportunidades anteriores; la búsqueda de nuevos materiales; la elaboración de actividades específicas para situaciones específicas o estudiantes concretos. Y, además de lo anterior, revisar y corregir las tareas realizadas por los estudiantes.

El problema central es que para hacer esto bien se necesita tiempo de preparación, en lo posible con otros colegas. Quien haya dado alguna vez una clase o una conferencia sabe que cada hora de “actividad en el aula” requiere, como mínimo, otra hora para prepararla. Sin embargo, en la mayor parte de los países de la región el trabajo docente es concebido y remunerado como horas en el aula2. Y, en parte como consecuencia de ello, la docencia es concebida como una actividad estrictamente individual.

Con las distancias del caso, la situación es similar a la de un actor de teatro que tuviese que representar un nuevo guión cada noche, sin tiempo para ensayar y, además, sin director ni colegas de los cuales recibir sugerencias y orientaciones. Por otra parte, el actor solo debe preocuparse por su actuación. Debe representar bien su papel, pero no es responsable de que los espectadores comprendan la obra. Es más, cada espectador puede entender algo distinto y eso no constituye un problema. El docente, en cambio, debe asegurarse de que cada estudiante comprenda aquello que quiso trasmitir a sus alumnos.

En primaria el maestro tiene la ventaja de trabajar con menos grupos de alumnos (normalmente uno o dos), pero tiene la desventaja de que debe preparar clases sobre todas las áreas y temas (lenguaje, matemáticas, historia, geografía, formación ciudadana...). El profesor de educación media tiene la ventaja de concentrarse en un área de conocimiento o disciplina, pero la desventaja de trabajar con varios grupos distintos de estudiantes y, muchas veces, con diversidad de cursos para distintos niveles.

Además de lo anterior, la docencia es una actividad predominantemente solitaria. Si bien uno interactúa con colegas todos los días, lo que ocurre dentro del aula es, en cierto modo, “secreto”. No porque nadie sepa cómo trabaja cada uno, sino porque de eso en general no se habla. En realidad es una suerte de “secreto a voces”: aunque todos en una institución educativa sepan qué dificultades tiene cada docente dentro del aula, no se comparten ni son objeto de intercambio y análisis. En nuestros países, el trabajo en equipo que involucre la observación y el análisis de las formas de llevar adelante las clases son muy poco comunes. Por otra parte, las visitas de supervisores suelen tener un carácter predominantemente formal y administrativo.

Una de las consecuencias principales de lo anterior es la dificultad para crear y compartir un “corpus” de conocimiento profesional. Muchos docentes desarrollan importantes e interesantes experiencias de enseñanza. A lo largo de este libro tendremos la oportunidad de presentar varios casos de experiencias de evaluación desarrolladas por docentes. Pero estas experiencias son poco conocidas por sus colegas. A lo sumo se comparten entre los dos o tres más cercanos. El conocimiento eminentemente práctico y aplicado, generado en el marco de la actividad docente, tiene muy poca circulación y casi no se acumula. Los docentes tendemos a leer lo que escriben sobre la educación y la enseñanza otros especialistas que, como los autores de este libro3, observan el trabajo docente desde fuera del aula.

La falta de tiempo para la preparación de clases y el aislamiento en que se desarrolla la labor docente son, por tanto, dos limitaciones centrales para la innovación en la educación y para la creación y acumulación de conocimiento desde y sobre el trabajo de la propia profesión. La consecuencia principal es que cada docente va construyendo, a lo largo de los años, un conjunto de prácticas y modos de hacer las cosas, que le permite llevar el día a día y “sobrevivir” a las demandas cotidianas del aula, que se van consolidando y que son muy difíciles de modificar.

Pero existe una razón más profunda detrás de las dificultades para cambiar las formas de hacer las cosas en el aula: la enseñanza es, ante todo, una actividad cultural. Enseñar “es más parecido a participar en una cena familiar que a aprender a usar una computadora… [en el sentido de que no se aprende como una técnica en un momento dado, sino por acumulación de experiencia de manera informal a través de largos períodos de tiempo] ...mucha gente cree que la enseñanza es una habilidad innata, algo con lo que uno nace. Otros creen que los docentes aprenden a enseñar haciendo una carrera en los Institutos de Formación Docente. Nosotros creemos que ninguna de estas descripciones es la más apropiada. A enseñar, al igual que otras actividades culturales, se aprende a través de la participación directa durante largos períodos de tiempo. Es algo que uno aprende más por crecer en una determinada cultura que por estudiarlo formalmente... La mayoría de las personas no estudió para ser docente pero han sido estudiantes. Por eso la gente dentro de una determinada cultura comparte una imagen mental de qué es enseñar. Llamamos a esta imagen mental “guión” [“script”, en inglés, en el original]... creemos que los guiones explican por qué las clases dentro de un país siguen un patrón común, a pesar de las diferencias individuales: las clases fueron preparadas y enseñadas por docentes que comparten los mismos guiones” (Stigler y Hiebert, 1999: 86-87).

Estos autores realizaron varios trabajos comparando las formas de enseñar matemáticas y ciencias en distintos países del mundo, basándose en cientos de clases filmadas en video (Hiebert y otros, 2003; Roth y otros, 2006). Quedaron sorprendidos por lo mucho que varían las formas de enseñar entre países y lo mucho que se parecen dentro de un mismo país (Stigler y Hiebert, 1999: 11).

De acuerdo con los autores, en los Estados Unidos los profesores conciben la matemática como un conjunto de procedimientos que sirven para resolver problemas. También creen que aprender términos nuevos y practicar procedimientos no es interesante, por lo cual buscan hacer la clase entretenida haciendo bromas o conversando un rato de otros temas. Su objetivo principal es que los alumnos aprendan destrezas para resolver ejercicios. En Japón, en cambio, los profesores conciben la matemática como un conjunto de relaciones entre conceptos, hechos y procedimientos. Estas relaciones se descubren mediante el desarrollo de métodos variados de resolución de problemas nuevos, estudiando dichos métodos, buscando los más efectivos y discutiendo las propiedades que subyacen a cada uno. Los profesores japoneses actúan como si la matemática fuese naturalmente interesante y partiendo de la base de que a los alumnos les resultará interesante explorar soluciones a los problemas. Su objetivo principal es que los alumnos aprendan a pensar sobre las cosas de maneras nuevas. En Japón, dentro del aula, los profesores no suelen hacer bromas ni conversar sobre temas ajenos a la clase.

Los autores ilustran estas diferencias a través de dos formas típicas de enseñar operaciones con fracciones. En los Estados Unidos los profesores comienzan trabajando con las fracciones más simples (por ejemplo, 1/5 + 2/5), luego pasan a actividades un poco más complejas (por ejemplo, 1/2 + 1/4), para recién al final llegar a lo más difícil. La idea es ir complejizando progresivamente la propuesta, graduando las dificultades y practicando mucho. En Japón, en cambio, los profesores comienzan planteando directamente una operación difícil (por ejemplo, 2/3 + 4/7). Creen que los estudiantes aprenden mejor intentando resolver problemas por sí mismos y discutiendo las posibles soluciones. La frustración y la confusión se consideran parte natural del proceso. Esto requiere tiempo para explorar e inventar, para equivocarse, para recibir orientación en el momento oportuno y para reflexionar. El propio manual del maestro dice que los estudiantes comprenderán mejor si se equivocan y examinan las consecuencias de ello.

De acuerdo con Hiebert y Stigler (1999), las actividades mediante las cuales los docentes interactúan con sus alumnos no están determinadas principalmente por su formación, ni se modifican a través de la misma. Las prácticas no se inventan, se heredan de las generaciones anteriores. “La mayor parte de lo que ocurre en el aula está determinado por un código cultural que funciona, en algunos sentidos, como el ADN de la enseñanza” (prefacio, p. xii). Esto ocurre, en buena medida, porque aprendemos a enseñar desde niños, cuando vamos a la escuela y, antes aún, cuando jugamos a estar en la escuela. Por esta razón los “guiones” comienzan a conformarse muy tempranamente, incluso antes de entrar a la escuela. Luego se consolidan a lo largo de 12 años de escolaridad.

El carácter cultural de la enseñanza explica las dificultades para cambiarla, dado que tanto los docentes como los estudiantes comparten los mismos “guiones” y saben qué deben esperar unos de otros y qué roles deben desempeñar (Hiebert y Stigler, 1999). Las reflexiones anteriores incluyen, por cierto, a la evaluación. Los modos en que evaluamos a nuestros estudiantes, en particular las prácticas vinculadas con la asignación de calificaciones, forman parte del ADN del modelo educativo en el que trabajamos.

“Es necesario darse cuenta de cuáles son las rutinas culturales que gobiernan la vida en el aula, cuestionar los supuestos de estas rutinas, y trabajar para modificarlas durante un largo tiempo. Implica reconocer que los detalles de lo que los docentes hacen -las preguntas específicas que formulan, el tipo de tareas que proponen a los estudiantes, las explicaciones que dan- son cosas fundamentales para el aprendizaje de los estudiantes...”