¿Los programas generativos “Transformer” AI y ChatGPT, una oportunidad para la evaluación formativa? (IV): Repercusiones para la educación y para el aprendizaje.
Imagen generada por “The generative “Transformer” AI systems, digital art”, DALL·E. Human & AI
Cómo citar este trabajo:
Zapata-Ros, M. (2023). Los programas generativos “Transformer” AI, entre los que está ChatGPT, ¿una oportunidad para la evaluación formativa? Preprint DOI 10.13140/RG.2.2.18669.46565
Repercusiones positivas
Bastantes cosas de
las que se han dicho sobre las ventajas del ChatGPT en educación, matizadas y
contextualizadas adecuadamente, son ciertas.
Así por ejemplo es
obvio que este transformer como el resto forman parte de la IA de
asistencia educativa tutorizada. De cuya naturaleza educativos participan.
También es previsible que compartan esa naturaleza las versiones sucesivas
ChatGPT-n. Lo que se dice de esta AI es cierto para ellos: proporcionarían acceso
de forma sistematizada a la información existente y a autoservicios de ese tipo,
de forma permanente las 24 horas del día, los 7 días de la semana. Todo ello si
no entramos más en detalle de como lo hacen, con qué fiabilidad, etc tal como
lo hemos visto y lo seguiremos viendo.
También serán
útiles para cierto tipo de evaluación. Sobre
todo, si consideramos que unas pruebas “objetivas” del tipo de respuesta
múltiple o de verdadero y falso, más sofisticadas que las actuales en el
sentido de tener más en cuenta condiciones de contexto, se pueden considerar evaluación
de aprendizajes y de logros.
Así, a lo largo de
muchos años, la IA que apoya a los estudiantes se ha desarrollado para incluir,
por ejemplo, herramientas de aprendizaje adaptativo “para dominios complejos
como lenguajes de programación, matemáticas, medicina, física, solución de
problemas de aviónica y electrónica” (Wasson 1997 : 572); también para la
captura y el análisis de una amplia gama de señales en el aula (por ejemplo,
medir la atención, la empatía y la emoción), el uso de una gama cada vez mayor
de hardware (desde teléfonos móviles hasta auriculares EEG), en cuyo contexto y
con cuya ayuda se han diseñado chatbots para brindar a los alumnos soporte todo
el tiempo, y por último , para incluir organizadores de redes de aprendizaje
diseñados para construir comunidades de estudiantes, evaluación automática de
escritura, etc.
En general en las
últimas tres décadas, la mayor parte del enfoque de investigación sobre IA y
Educación (AIED) se ha centrado en el apoyo que la IA puede suministrar al del
alumno, pensando en aquella que, por definición, tiene como objetivo
automatizar las funciones del docente, de modo que los alumnos puedan aprender
independientemente de que tengan profesor o no. Es decir, que tengan su propio
tutor personal artificial y puedan aprovechar en sentido muy relajado lo que se
sostiene acerca de la enseñanza mentorizada a partir de las conclusiones del estudio conocido
como problema de dos sigmas de Bloom.
Sin embargo, gran
parte de todo esto adopta un enfoque bastante tosco y primitivo de la pedagogía
y, con demasiada frecuencia, se centra en la automatización de prácticas
pedagógicas poco eficientes para satisfacer a usuarios poco exigentes, cuando
no banales, en lugar de la esforzarse por una innovación de pedagogía
científica de calidad, como es por ejemplo de idear formas innovadoras de
evaluar y acreditar el aprendizaje, en lugar de facilitar exámenes sin
abandonar la idea del propio examen como verificación de registro memorístico o
de información, pero cada vez con recursos de verificación de esa información,
en vez de considerar la verificación como evaluación del aprendizaje real.
Un beneficio claro está siendo la emergencia y la constatación de la necesidad de otras ideas positivas alternativas para utilizar los transformers o con ellos. Así podemos ver que en los próximos tiempos podrían ocurrir algunas de estas cosas:
El ensayo, trabajo fin de máster (TFM), de Grado (TFG), de asignatura, o como quiera que se le llame o se utilice, perdería vigencia. Los profesores podrían restringir las asignaciones por estos conceptos, en las ponderaciones que se hagan para superar estudios, a los trabajos informes o de ensayos, en favor de otro tipo de pruebas como son exámenes supervisados, o trabajos y prácticas muy supervisadas con entrevistas. El problema es que estos procedimientos no generan pruebas, son poco formales, y consumen mucho tiempo.
Otra alternativa que podría generarse es la de establecer tareas escritas reflexivas y contextualizadas que la IA no podría generar. Para esto es clave la interacción. De manera que los sucesivos refinamientos tengan que hacer alusión a las propuestas de mejora específicas de profesor. Por ejemplo, el tutor podría asignarle a cada estudiante un proyecto de investigación independiente, luego solicitar un informe escrito sobre ese proyecto concreto, dar retroalimentación al estudiante sobre el informe y luego pedirle que escriba una reflexión crítica sobre la retroalimentación y los problemas planteados por el proyecto a los que aludió en su primer informe de revisión.
En fin, existen muchas formas imaginativas y nuevas, algunas de las cuales pueden integrar incluso los programas Transformers. La cuestión es que en todas estas como en las anteriores se exigen un considerable esfuerzo por los profesores y un pacto tácito de confianza y de colaboración por parte de alumnos y familias.
Así, una forma imaginativa de incorporar texto generado por estos procedimientos en las tareas educativas, podría ser que el profesor emplee un Transformer AI para generar un conjunto de ensayos alternativos sobre un tema, luego pida a los estudiantes que los critiquen y escriban sus propias versiones mejores.
O que establezca una pregunta compleja y luego pida a cada estudiante que genere respuestas de IA a la pregunta y que sea el estudiante el que evalúe estas respuestas en relación con los criterios de evaluación.
Seguro que en la literatura y en las prácticas experimentales aparecerán opciones de uso educativo de los Transformers, pero nunca tendrán los efectos taumatúrgicos que ahora se les otorgan.
Repercusiones negativas
Así cuando hablamos de acceso de forma sistematizada a información existente o de proporcionar autoservicios que funcionan las 24 horas del día, los 7 días de la semana las consecuencias pueden no ser educativas sino que se pueden incluso derivar en aprendizajes no deseados o perjudiciales, a consecuencia de ausencia de metacognición o de criterios adecuados de administrar la información y de valorarla críticamente. Este efecto también puede producirse a consecuencia de una ausencia de elaboración propia del alumno, con la falta de una adecuada atribución de sentido y, la ya señalada, de interacción que valide la corrección de las respuestas. Cuestión que, como hemos visto, en sentido educativo, ChatGPT no tiene ni se espera que lo tenga próximamente, por no estar en la agenda y ser muy caro. Lo primero como consecuencia de lo segundo.
Cuestiones en las que ChapGPT participa de las características de la IA educativa:
Por último, no conviene olvidar
que los Transformers y el ChatGPT participan de todos aquellos factores que
hacen criticables la IA por tomar decisiones basadas en resultados
algorítmicos. Es decir, de todos los inconvenientes que en general tienen que
ver con la IA como generadora de ideas sin mediación ni validación humana
intermedia.
En educación, esto es aplicable igualmente
a ChatGPT
Surden (2019) identifica problemas
de la sociedad contemporánea que incluyen el sesgo en la toma de decisiones
algorítmicas, en la interpretabilidad de sistemas de muy variada naturaleza a
través de la IA. Y que son derivados de la falta de transparencia sobre cómo
los sistemas de IA toman sus decisiones y en la deferencia que se hace hacia
ellos como con una especie de respeto y de reverencia que los hace como no
cuestionables. Todos ellos considerados como problemas en línea con los
desafíos reconocidos para la IA y su aplicación en general.
Este razonamiento y estas
conclusiones las hace Surden cuando describe la aplicación de la IA en el uso y
estudio de las leyes. Pero cada uno de estos temas contemporáneos es, de forma
análoga, extremadamente relevante para comprender y evaluar el uso de la IA en la
educación, en particular a la luz de lo que pueda surgir con ChatGPT
No olvidemos que en su origen es un producto de la psicología conductista más pura, del aprendizaje por refuerzo
Cuando creíamos que los modelos
simplistas y mecanicistas de la psicología conductista y del aprendizaje humano
por refuerzo ya se habían extinguido y se consideraban como una cosa del
pasado, ahora resucitan con los Transformers GPT.
Recordemos que, según toda la
literatura suministrada por Open AI, ChatGPT se basa en InstructGPT, un modelo conversacional de
aprendizaje por refuerzo a partir de la retroalimentación humana ( RLHF )
). Es una versión “rectificada” de GPT-3, creada a partir de procesos de anotación
genérica de textos, que genera otros textos. De esta forma, el modelo
incorpora para ello toda una serie de recompensas y penalizaciones que cumplen
varias funciones: reforzar la coherencia del texto generado, evitar falsedades
flagrantes, pero también moderar por anticipación posibles derivas tóxicas.
Así pues, el avance de ChatGPT
sobre los GPT3 y anteriores se basa en que, de todo el universo de respuestas
lingüísticamente correctas que podrían generar los predecesores, chatGPT opta
por aquellas que son más correctas en un contexto de chat: esto se llama
“alineación de IA”. Utilizando este mismo principio, chatGPT a veces
también se niega rotundamente a responder.
Éste es el esquema:
Imagen 1. Fuente y original: Ryan Lowe
& Jan Leike (January 27, 2022) Aligning language models
to follow instructions. Language,
Human feedback, Safety & Alignment, Responsible AI, Milestone, Publication.
https://openai.com/research/instruction-following
Texto del esquema traducido
Paso 1
Izquierda:
Recopile datos
de demostración y entrene una política supervisada.
Se muestrea un
aviso de nuestro conjunto de datos de avisos.
Una
etiquetadora demuestra el comportamiento de salida deseado.
Estos datos se
utilizan para afinar GPT-3.5 con aprendizaje supervisado.
Derecha:
Explique el
aprendizaje por refuerzo a un niño de 6 años.
Damos
golosinas y castigos para enseñar...
SFT
Paso 2
Izquierda
Recopile datos
de comparación y entrene un modelo de recompensa.
Se muestrean
un aviso y varias salidas del modelo.
Una
etiquetadora clasifica los resultados de mejor a peor.
Estos datos se
utilizan para entrenar nuestro modelo de recompensa.
Derecha
Explique el aprendizaje
por refuerzo a un niño de 6 años.
Paso 3
Izquierda
Optimice una
política contra el modelo de recompensa utilizando el algoritmo de aprendizaje
por refuerzo de PPO.
Se muestrea un
nuevo aviso del conjunto de datos.
El modelo PPO
se inicializa desde la póliza supervisada.
Explique las
recompensas...
Damos
golosinas y castigos a
La política
genera una salida.
El modelo de
recompensa calcula una recompensa por la salida.
La recompensa
se utiliza para actualizar la póliza mediante PPO.
Derecha
Escribe una
historia sobre las nutrias.
OPP
Érase una
vez...
RM
RM
Este trabajo (Ryan Lowe
& Jan Leike, January 27, 2022) enlaza con otro documento
del propio Open IA que hace referencia al aprendizaje por refuerzo:
InstructGPT.
En este documento y en otros se
señala que, para enseñar a los tres modelos (Chap GPT, GPT 3 e InstructGPT), se
utilizaron formas semejantes a a las conductistas o de aprendizaje por condicionamiento
o por refuerzo para enseñar a los programas, para que aprendiesen por estos métodos
desfasados.
Dando por supuesto eso, nos podemos
plantear ¿se puede enseñar sin saber aprender? ¿Podrían estos programas actuar
como educadores si están hechos sin conocer los modelos y teorías vigentes y
probadas del aprendizaje? ¿Qué garantías ofrecen?
Eso cuestionaría todo el uso educativo o al menos como tutor o instructor o
evaluador de ChatGPT
De hecho, el aprendizaje por
refuerzo hace que el ChatGPT esté en una fase histórica del desarrollo del
aprendizaje previa a las ideas y a los planteamientos cognitivos.
Al programa se le enseña por refuerzo,
pero carece de habilidades, métodos o formas de operar (de hecho, los
programadores ni se lo plantean en sus algoritmos, no hay una pedagogía y mucho
menos una pedagogía cognitivista) que tengan en cuenta:
- La atribución de sentido
- La experiencia o experiencias vividas e incorporadas.
- Los valores.
Tampoco cuestiones, desarrollos y
condiciones que implican considerar el conocimiento estructurado por relaciones
de significación necesarias para ensamblar, integrar y cohesionar los nuevos
conocimientos con los previos. Es lo que se llama el andamiaje cognitivo, los
conceptos inclusores, los conceptos previos, las relaciones de significación,
etc.
En definitiva, a ChatGPT le falta
el alma o lo que Siemens consideraba el “beingness”[1]
Este procedimiento, el de recurrir
a la imitación humana del aprendizaje por refuerzo, lo podemos ver en las
propias declaraciones de OpenIA:
En Introducing ChatGPT dice, en el apartado “métodos”:
Entrenamos este modelo usando Aprendizaje por
refuerzo a partir de retroalimentación humana (RLHF), usando los mismos métodos
que InstructGPT , pero con ligeras diferencias en la configuración
de recopilación de datos. Entrenamos un modelo inicial mediante un ajuste
fino supervisado: los entrenadores humanos de IA proporcionaron conversaciones
en las que jugaron en ambos lados: el usuario y un asistente de IA. Les
dimos a los capacitadores acceso a sugerencias escritas en modelos para
ayudarlos a redactar sus respuestas. Mezclamos este nuevo conjunto de
datos de diálogo con el conjunto de datos InstructGPT, que transformamos en un
formato de diálogo.
Para crear un
modelo de recompensa para el aprendizaje por refuerzo, necesitábamos recopilar
datos de comparación, que consistían en dos o más respuestas del modelo
clasificadas por calidad. Para recopilar estos datos, tomamos
conversaciones que los entrenadores de IA tuvieron con el chatbot. Seleccionamos
al azar un mensaje escrito por un modelo, probamos varias finalizaciones
alternativas e hicimos que los entrenadores de IA las clasificaran. Usando
estos modelos de recompensa, podemos ajustar el modelo usando la Optimización de Política Proximal . Realizamos
varias iteraciones de este proceso.
En la descripción que se hace de InstructGPT
en el documento Aligning language models to follow instructions de OpenIA,
dice:
Para
hacer que nuestros modelos sean más seguros, más útiles y más alineados,
utilizamos una técnica existente llamada aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF) . En
las solicitudes enviadas por nuestros clientes a la API, nuestros
etiquetadores brindan demostraciones del comportamiento deseado del modelo y
clasifican varios resultados de nuestros modelos. Luego usamos estos datos
para ajustar GPT-3.
Los
modelos InstructGPT resultantes son mucho mejores para seguir instrucciones que
GPT-3. También inventan hechos con menos frecuencia y muestran pequeñas
disminuciones en la generación de productos tóxicos. Nuestras
etiquetadoras prefieren las salidas de nuestro modelo 1.3B InstructGPT a las salidas
de un modelo 175B GPT-3, a pesar de tener más de 100 veces menos
parámetros. Al mismo tiempo, demostramos que no tenemos que comprometer
las capacidades de GPT-3, según lo medido por el rendimiento de nuestro modelo
en las evaluaciones académicas de PNL.”
Y también, en ese mismo documento,
sobre InstructGPT () dice
“Para
entrenar modelos de InstructGPT, nuestra técnica central es el aprendizaje por refuerzo a partir de la retroalimentación humana
(RLHF) , un método que ayudamos a ser pionero en nuestra
investigación de alineación anterior. Esta técnica utiliza las
preferencias humanas como una señal de recompensa para ajustar nuestros modelos,
lo cual es importante ya que los problemas de seguridad y alineación que
buscamos resolver son complejos y subjetivos, y no se capturan completamente
mediante métricas automáticas simples.”
Por
último, en el documento “Learning
from human preferences“. dan una vuelta de tuerca más al decir que se basan
en los mecanismos simples, que utilizan los humanos para discernir entre dos
procedimientos, que utilizan los juegos de Atari, en un alarde de conductismo
primario:
Hemos
probado nuestro método en una serie de tareas en los dominios de robótica
simulada y Atari (sin tener acceso a la función de recompensa: en Atari, sin
tener acceso a la puntuación del juego). Nuestros agentes pueden aprender
de los comentarios humanos para lograr un rendimiento sólido y, a veces,
sobrehumano en muchos de los entornos que probamos. En la siguiente
animación puedes ver agentes entrenados con nuestra técnica jugando a una
variedad de juegos de Atari.
Para
a continuación ilustrar el tema con animaciones de juegos elementales del tipo:
Imagino
que tanto Clark como Pedreño habrán visto esto antes de realizar las declaraciones
que señalábamos al principio de este documento (serie de posts).
No
todo es descartable, en “aprender de
las preferencias humana” hay un esquema interesante al menos la parte
suficiente para justificar que es compendio de métodos e ideas conductistas los
que se utilizan para enseñar a ChatGPT. Es un ciclo de retroalimentación de 3
pasos entre el ser humano, la comprensión del objetivo por parte del agente y
la capacitación por RL (aprendizaje por refuerzo restringido al mundo de
los videojuegos, Reinforcement Learning RL[2])
Referencias. -
Surden H. (2019), "Inteligencia artificial y derecho: una descripción general", Revista de derecho de la Universidad Estatal de Georgia, vol. 35, disponible en https://papers.ssrn.com/sol3/papers.cfm?abstract_id=3411869# .
[1] “Beingness is the final domain of human intellectual
effort and should be the core of schooling.” — George Siemens, 2023. Twitter.
[2] Reinforcement Learning is a study of
an agent learning through interactions with the environment. Thus, to test and
compare results of different reinforcement learning algorithms, we need testbed environments. By far the most
commonly used testbed has been 57 Atari 2600 games. However, different environments
require different exploration schemes and different algorithms. Thus, it is important to have
various environments.
Comentarios
Publicar un comentario