¿Los programas generativos “Transformer” AI y ChatGPT, una oportunidad para la evaluación formativa? (IV): Repercusiones para la educación y para el aprendizaje.

Imagen generada por “The generative “Transformer” AI systems, digital art”, DALL·E. Human & AI

Cómo citar este trabajo:

Zapata-Ros, M. (2023). Los programas generativos “Transformer” AI, entre los que está ChatGPT, ¿una oportunidad para la evaluación formativa? Preprint DOI 10.13140/RG.2.2.18669.46565

Repercusiones positivas

Bastantes cosas de las que se han dicho sobre las ventajas del ChatGPT en educación, matizadas y contextualizadas adecuadamente, son ciertas.

Así por ejemplo es obvio que este transformer como el resto forman parte de la IA de asistencia educativa tutorizada. De cuya naturaleza educativos participan. También es previsible que compartan esa naturaleza las versiones sucesivas ChatGPT-n. Lo que se dice de esta AI es cierto para ellos: proporcionarían acceso de forma sistematizada a la información existente y a autoservicios de ese tipo, de forma permanente las 24 horas del día, los 7 días de la semana. Todo ello si no entramos más en detalle de como lo hacen, con qué fiabilidad, etc tal como lo hemos visto y lo seguiremos viendo.

También serán útiles para cierto tipo de evaluación. Sobre todo, si consideramos que unas pruebas “objetivas” del tipo de respuesta múltiple o de verdadero y falso, más sofisticadas que las actuales en el sentido de tener más en cuenta condiciones de contexto, se pueden considerar evaluación de aprendizajes y de logros.

Así, a lo largo de muchos años, la IA que apoya a los estudiantes se ha desarrollado para incluir, por ejemplo, herramientas de aprendizaje adaptativo “para dominios complejos como lenguajes de programación, matemáticas, medicina, física, solución de problemas de aviónica y electrónica” (Wasson 1997 : 572); también para la captura y el análisis de una amplia gama de señales en el aula (por ejemplo, medir la atención, la empatía y la emoción), el uso de una gama cada vez mayor de hardware (desde teléfonos móviles hasta auriculares EEG), en cuyo contexto y con cuya ayuda se han diseñado chatbots para brindar a los alumnos soporte todo el tiempo, y por último , para incluir organizadores de redes de aprendizaje diseñados para construir comunidades de estudiantes, evaluación automática de escritura, etc.

En general en las últimas tres décadas, la mayor parte del enfoque de investigación sobre IA y Educación (AIED) se ha centrado en el apoyo que la IA puede suministrar al del alumno, pensando en aquella que, por definición, tiene como objetivo automatizar las funciones del docente, de modo que los alumnos puedan aprender independientemente de que tengan profesor o no. Es decir, que tengan su propio tutor personal artificial y puedan aprovechar en sentido muy relajado lo que se sostiene acerca de la enseñanza mentorizada a partir de las conclusiones del estudio conocido como problema de dos sigmas de Bloom.

Sin embargo, gran parte de todo esto adopta un enfoque bastante tosco y primitivo de la pedagogía y, con demasiada frecuencia, se centra en la automatización de prácticas pedagógicas poco eficientes para satisfacer a usuarios poco exigentes, cuando no banales, en lugar de la esforzarse por una innovación de pedagogía científica de calidad, como es por ejemplo de idear formas innovadoras de evaluar y acreditar el aprendizaje, en lugar de facilitar exámenes sin abandonar la idea del propio examen como verificación de registro memorístico o de información, pero cada vez con recursos de verificación de esa información, en vez de considerar la verificación como evaluación del aprendizaje real.

Un beneficio claro está siendo la emergencia y la constatación de la necesidad de otras ideas positivas alternativas para utilizar los transformers o con ellos. Así podemos ver que en los próximos tiempos podrían ocurrir algunas de estas cosas:

El ensayo, trabajo fin de máster (TFM), de Grado (TFG), de asignatura, o como quiera que se le llame o se utilice, perdería vigencia. Los profesores podrían restringir las asignaciones por estos conceptos, en las ponderaciones que se hagan para superar estudios, a los trabajos informes o de ensayos, en favor de otro tipo de pruebas como son exámenes supervisados, o trabajos y prácticas muy supervisadas con entrevistas. El problema es que estos procedimientos no generan pruebas, son poco formales, y consumen mucho tiempo.

Otra alternativa que podría generarse es la de establecer tareas escritas reflexivas y contextualizadas que la IA no podría generar. Para esto es clave la interacción. De manera que los sucesivos refinamientos tengan que hacer alusión a las propuestas de mejora específicas de profesor. Por ejemplo, el tutor podría asignarle a cada estudiante un proyecto de investigación independiente, luego solicitar un informe escrito sobre ese proyecto concreto, dar retroalimentación al estudiante sobre el informe y luego pedirle que escriba una reflexión crítica sobre la retroalimentación y los problemas planteados por el proyecto a los que aludió en su primer informe de revisión.

En fin, existen muchas formas imaginativas y nuevas, algunas de las cuales pueden integrar incluso los programas Transformers. La cuestión es que en todas estas como en las anteriores se exigen un considerable esfuerzo por los profesores y un pacto tácito de confianza y de colaboración por parte de alumnos y familias.

Así, una forma imaginativa de incorporar texto generado por estos procedimientos en las tareas educativas, podría ser que el profesor emplee un Transformer AI para generar un conjunto de ensayos alternativos sobre un tema, luego pida a los estudiantes que los critiquen y escriban sus propias versiones mejores.

O que establezca una pregunta compleja y luego pida a cada estudiante que genere respuestas de IA a la pregunta y que sea el estudiante el que evalúe estas respuestas en relación con los criterios de evaluación.

Seguro que en la literatura y en las prácticas experimentales aparecerán opciones de uso educativo de los Transformers, pero nunca tendrán los efectos taumatúrgicos que ahora se les otorgan.

Repercusiones negativas

Se puede decir que tiene tantas repercusiones negativas como positivas hemos visto, siempre que no se no se satisfagan unas mínimas condiciones de intervención educativa humana.
Así cuando hablamos de acceso de forma sistematizada a información existente o de proporcionar autoservicios que funcionan las 24 horas del día, los 7 días de la semana las consecuencias pueden no ser educativas sino que se pueden incluso derivar en aprendizajes no deseados o perjudiciales, a consecuencia de ausencia de metacognición o de criterios adecuados de administrar la información y de valorarla críticamente. Este efecto también puede producirse a consecuencia de una ausencia de elaboración propia del alumno, con la falta de una adecuada atribución de sentido y, la ya señalada, de interacción que valide la corrección de las respuestas. Cuestión que, como hemos visto, en sentido educativo, ChatGPT no tiene ni se espera que lo tenga próximamente, por no estar en la agenda y ser muy caro. Lo primero como consecuencia de lo segundo.

Cuestiones en las que ChapGPT participa de las características de la IA educativa:

Por último, no conviene olvidar que los Transformers y el ChatGPT participan de todos aquellos factores que hacen criticables la IA por tomar decisiones basadas en resultados algorítmicos. Es decir, de todos los inconvenientes que en general tienen que ver con la IA como generadora de ideas sin mediación ni validación humana intermedia.

En educación, esto es aplicable igualmente a ChatGPT

Surden (2019) identifica problemas de la sociedad contemporánea que incluyen el sesgo en la toma de decisiones algorítmicas, en la interpretabilidad de sistemas de muy variada naturaleza a través de la IA. Y que son derivados de la falta de transparencia sobre cómo los sistemas de IA toman sus decisiones y en la deferencia que se hace hacia ellos como con una especie de respeto y de reverencia que los hace como no cuestionables. Todos ellos considerados como problemas en línea con los desafíos reconocidos para la IA y su aplicación en general.

Este razonamiento y estas conclusiones las hace Surden cuando describe la aplicación de la IA en el uso y estudio de las leyes. Pero cada uno de estos temas contemporáneos es, de forma análoga, extremadamente relevante para comprender y evaluar el uso de la IA en la educación, en particular a la luz de lo que pueda surgir con ChatGPT

No olvidemos que en su origen es un producto de la psicología conductista más pura, del aprendizaje por refuerzo

Cuando creíamos que los modelos simplistas y mecanicistas de la psicología conductista y del aprendizaje humano por refuerzo ya se habían extinguido y se consideraban como una cosa del pasado, ahora resucitan con los Transformers GPT.

Recordemos que, según toda la literatura suministrada por Open AI, ChatGPT se basa en InstructGPT, un modelo conversacional de aprendizaje por refuerzo a partir de la retroalimentación humana ( RLHF ) ). Es una versión “rectificada” de GPT-3, creada a partir de procesos de anotación genérica de textos, que genera otros textos. De esta forma, el modelo incorpora para ello toda una serie de recompensas y penalizaciones que cumplen varias funciones: reforzar la coherencia del texto generado, evitar falsedades flagrantes, pero también moderar por anticipación posibles derivas tóxicas.

Así pues, el avance de ChatGPT sobre los GPT3 y anteriores se basa en que, de todo el universo de respuestas lingüísticamente correctas que podrían generar los predecesores, chatGPT opta por aquellas que son más correctas en un contexto de chat: esto se llama “alineación de IA”. Utilizando este mismo principio, chatGPT a veces también se niega rotundamente a responder.

Éste es el esquema:

Imagen 1. Fuente y original: Ryan Lowe & Jan Leike (January 27, 2022) Aligning language models to follow instructions. Language, Human feedback, Safety & Alignment, Responsible AI, Milestone, Publication. https://openai.com/research/instruction-following

Texto del esquema traducido

Paso 1

Izquierda:

Recopile datos de demostración y entrene una política supervisada.

Se muestrea un aviso de nuestro conjunto de datos de avisos.

Una etiquetadora demuestra el comportamiento de salida deseado.

Estos datos se utilizan para afinar GPT-3.5 con aprendizaje supervisado.

Derecha:

Explique el aprendizaje por refuerzo a un niño de 6 años.

Damos golosinas y castigos para enseñar...

SFT

Paso 2

Izquierda

Recopile datos de comparación y entrene un modelo de recompensa.

Se muestrean un aviso y varias salidas del modelo.

Una etiquetadora clasifica los resultados de mejor a peor.

Estos datos se utilizan para entrenar nuestro modelo de recompensa.

Derecha

Explique el aprendizaje por refuerzo a un niño de 6 años.

Paso 3

Izquierda

Optimice una política contra el modelo de recompensa utilizando el algoritmo de aprendizaje por refuerzo de PPO.

Se muestrea un nuevo aviso del conjunto de datos.

El modelo PPO se inicializa desde la póliza supervisada.

Explique las recompensas...

Damos golosinas y castigos a

La política genera una salida.

El modelo de recompensa calcula una recompensa por la salida.

La recompensa se utiliza para actualizar la póliza mediante PPO.

Derecha

Escribe una historia sobre las nutrias.

OPP

Érase una vez...

Este trabajo (Ryan Lowe & Jan Leike, January 27, 2022) enlaza con otro documento del propio Open IA que hace referencia al aprendizaje por refuerzo: InstructGPT.

En este documento y en otros se señala que, para enseñar a los tres modelos (Chap GPT, GPT 3 e InstructGPT), se utilizaron formas semejantes a a las conductistas o de aprendizaje por condicionamiento o por refuerzo para enseñar a los programas, para que aprendiesen por estos métodos desfasados.

Dando por supuesto eso, nos podemos plantear ¿se puede enseñar sin saber aprender? ¿Podrían estos programas actuar como educadores si están hechos sin conocer los modelos y teorías vigentes y probadas del aprendizaje? ¿Qué garantías ofrecen?
Eso cuestionaría todo el uso educativo o al menos como tutor o instructor o evaluador de ChatGPT

De hecho, el aprendizaje por refuerzo hace que el ChatGPT esté en una fase histórica del desarrollo del aprendizaje previa a las ideas y a los planteamientos cognitivos.

Al programa se le enseña por refuerzo, pero carece de habilidades, métodos o formas de operar (de hecho, los programadores ni se lo plantean en sus algoritmos, no hay una pedagogía y mucho menos una pedagogía cognitivista) que tengan en cuenta:

La atribución de sentido
La experiencia o experiencias vividas e incorporadas.
Los valores.

Tampoco cuestiones, desarrollos y condiciones que implican considerar el conocimiento estructurado por relaciones de significación necesarias para ensamblar, integrar y cohesionar los nuevos conocimientos con los previos. Es lo que se llama el andamiaje cognitivo, los conceptos inclusores, los conceptos previos, las relaciones de significación, etc.

En definitiva, a ChatGPT le falta el alma o lo que Siemens consideraba el “beingness”^{^[1]}

Este procedimiento, el de recurrir a la imitación humana del aprendizaje por refuerzo, lo podemos ver en las propias declaraciones de OpenIA:

En Introducing ChatGPT dice, en el apartado “métodos”:

Entrenamos este modelo usando Aprendizaje por refuerzo a partir de retroalimentación humana (RLHF), usando los mismos métodos que InstructGPT , pero con ligeras diferencias en la configuración de recopilación de datos. Entrenamos un modelo inicial mediante un ajuste fino supervisado: los entrenadores humanos de IA proporcionaron conversaciones en las que jugaron en ambos lados: el usuario y un asistente de IA. Les dimos a los capacitadores acceso a sugerencias escritas en modelos para ayudarlos a redactar sus respuestas. Mezclamos este nuevo conjunto de datos de diálogo con el conjunto de datos InstructGPT, que transformamos en un formato de diálogo.

Para crear un modelo de recompensa para el aprendizaje por refuerzo, necesitábamos recopilar datos de comparación, que consistían en dos o más respuestas del modelo clasificadas por calidad. Para recopilar estos datos, tomamos conversaciones que los entrenadores de IA tuvieron con el chatbot. Seleccionamos al azar un mensaje escrito por un modelo, probamos varias finalizaciones alternativas e hicimos que los entrenadores de IA las clasificaran. Usando estos modelos de recompensa, podemos ajustar el modelo usando la Optimización de Política Proximal . Realizamos varias iteraciones de este proceso.

En la descripción que se hace de InstructGPT en el documento Aligning language models to follow instructions de OpenIA, dice:

Para hacer que nuestros modelos sean más seguros, más útiles y más alineados, utilizamos una técnica existente llamada aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF) . En las solicitudes enviadas por nuestros clientes a la API, nuestros etiquetadores brindan demostraciones del comportamiento deseado del modelo y clasifican varios resultados de nuestros modelos. Luego usamos estos datos para ajustar GPT-3.

Los modelos InstructGPT resultantes son mucho mejores para seguir instrucciones que GPT-3. También inventan hechos con menos frecuencia y muestran pequeñas disminuciones en la generación de productos tóxicos. Nuestras etiquetadoras prefieren las salidas de nuestro modelo 1.3B InstructGPT a las salidas de un modelo 175B GPT-3, a pesar de tener más de 100 veces menos parámetros. Al mismo tiempo, demostramos que no tenemos que comprometer las capacidades de GPT-3, según lo medido por el rendimiento de nuestro modelo en las evaluaciones académicas de PNL.”

Y también, en ese mismo documento, sobre InstructGPT () dice

“Para entrenar modelos de InstructGPT, nuestra técnica central es el aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF) , un método que ayudamos a ser pionero en nuestra investigación de alineación anterior. Esta técnica utiliza las preferencias humanas como una señal de recompensa para ajustar nuestros modelos, lo cual es importante ya que los problemas de seguridad y alineación que buscamos resolver son complejos y subjetivos, y no se capturan completamente mediante métricas automáticas simples.”

Por último, en el documento “Learning from human preferences“. dan una vuelta de tuerca más al decir que se basan en los mecanismos simples, que utilizan los humanos para discernir entre dos procedimientos, que utilizan los juegos de Atari, en un alarde de conductismo primario:

Hemos probado nuestro método en una serie de tareas en los dominios de robótica simulada y Atari (sin tener acceso a la función de recompensa: en Atari, sin tener acceso a la puntuación del juego). Nuestros agentes pueden aprender de los comentarios humanos para lograr un rendimiento sólido y, a veces, sobrehumano en muchos de los entornos que probamos. En la siguiente animación puedes ver agentes entrenados con nuestra técnica jugando a una variedad de juegos de Atari.

Para a continuación ilustrar el tema con animaciones de juegos elementales del tipo:

Imagino que tanto Clark como Pedreño habrán visto esto antes de realizar las declaraciones que señalábamos al principio de este documento (serie de posts).

No todo es descartable, en “aprender de las preferencias humana” hay un esquema interesante al menos la parte suficiente para justificar que es compendio de métodos e ideas conductistas los que se utilizan para enseñar a ChatGPT. Es un ciclo de retroalimentación de 3 pasos entre el ser humano, la comprensión del objetivo por parte del agente y la capacitación por RL (aprendizaje por refuerzo restringido al mundo de los videojuegos, Reinforcement Learning RL^{^[2]})

Imagen 2

Que nos sugiere este otro:

Imagen 3

Referencias. -

Surden H. (2019), "Inteligencia artificial y derecho: una descripción general", Revista de derecho de la Universidad Estatal de Georgia, vol. 35, disponible en https://papers.ssrn.com/sol3/papers.cfm?abstract_id=3411869# .

[1] “Beingness is the final domain of human intellectual effort and should be the core of schooling.” — George Siemens, 2023. Twitter.

[2] Reinforcement Learning is a study of an agent learning through interactions with the environment. Thus, to test and compare results of different reinforcement learning algorithms, we need testbed environments. By far the most commonly used testbed has been 57 Atari 2600 games. However, different environments require different exploration schemes and different algorithms. Thus, it is important to have various environments.

Recursos educativos, contenidos y libros de texto con la INTELIGENCIA ARTIFICIAL GENERATIVA

(*) El diseño instruccional tal como lo definimos [1] tiene distintas componentes, una es la evaluación que ya hemos visto. Otra son los recursos, que trataremos aquí. En lo sucesivo es de esperar que vayamos completando ese marco. Dentro del diseño instruccional que se haga con la IA generativa es inevitable que se cuente con los recursos como una componente más pero fundamental, bien en el sentido tradicional bien en el nuevo sentido que se le asigne. En este apartado de recursos no es de esperar que los libros de texto, por el volumen de negocio que suponen y por la inversión actual de las empresas y por lo que estés dispuestas a invertir, sean ajenos al gran movimiento de capitales y esfuerzos que está suponiendo la IA generativa. De hecho, las editoriales ya van teniendo sus propios LLM. Una opción posible: los LLM como materiales de estudio (contenidos) En los próximos años, es probable que los materiales de los estudios (cursos y asignaturas) ---los textos--- pasen de tener...

INTELIGENCIA ARTIFICIAL, EDUCACIÓN Y APRENDIZAJE

Buscar este blog