¿Los programas generativos “Transformer” AI y ChatGPT, una oportunidad para la evaluación formativa? (V): TFM, TFG, tesis doctorales y artículos científicos. La evaluación con informes, ensayos y proyectos.
Los ensayos, trabajos o informes han formado parte de la evaluación
educativa, y principalmente académica y universitaria, desde principios del
siglo XIX, cuando los estudiantes de algunas universidades europeas debían
escribir artículos académicos para su discusión en seminarios (Kruse, 2006 ).
Hoy los ensayos académicos continúan siendo un pilar de la
evaluación en escuelas, colegios y universidades muy aceptables porque superan
las limitaciones de los exámenes, restringidos a lo que un alumno sabe o es
capaz de recordar en un momento determinado. Han triunfado y constituyen los
conocidos TFM, TFG y trabajo final de cualquier curso o asignatura. Incluso una
disertación de tesis doctoral no escapa a este formato. Son fáciles de establecer,
permiten evaluar la profundidad de la comprensión e hipotéticamente demuestran
la capacidad de los estudiantes sobre cómo expresar un argumento. En los
últimos años, el alcance de los trabajos escritos se ha ampliado para incluir
trabajos narrativos, argumentativos, reflexivos, expresivos, receptivos y
analíticos.
Sin embargo no todo es bueno, la práctica generalizada de establecer tareas escritas como trabajo de curso ha sido criticada como laboriosa e injusta (Race, 2018). Pero sobre todo está sujeto a trampas, imposturas y fraudes en general. Prácticas que actualmente se han constituido en un lucrativo negocio con contratos de encargo a través de "fábricas de TFM, TFG y trabajos en general", que venden tareas de este tipo escritas por encargo, a tarifas de hasta 500 euros por escribir un ensayo de 20 páginas (ver anuncios y tarifas). Un estudio de Newton (2018) encontró que el 15,7% de los estudiantes encuestados admitió haber pagado a otra persona para que escribiera una tarea.
Ahora la cosa con ChatGPT da un salto cualitativo: Una consecuencia, no
deseada ni perseguida como objetivo, de estos sistemas es que democratizan el
fraude. Un estudiante puede generar un ensayo completo en segundos, aun costo de alrededor de 50 centavos de dólar.
Peor aún, si cabe, es que los
aspirantes a investigadores científicos puedan recurrir a estos sistemas para
generar artículos y enviarlos a congresos y revistas.
Desde el lanzamiento de ChatGPT, los investigadores han estado lidiando
con los problemas éticos que rodean su uso, porque según Holly Else en Nature, “gran
parte de su producción puede ser difícil de distinguir del texto escrito por
humanos”.
Se pueden citar distintos casos y experimentos:
Uno es el de los investigadores Blanco-González, A. et al. (2022) y O'Connor,
S. & ChatGPT (2023) han publicado un preprint y un editorial escritos
por ChatGPT.
Otro es un grupo dirigido por Catherine Gao en la Universidad
Northwestern en Chicago, que ha utilizado ChatGPT para generar resúmenes de
trabajos de investigación artificiales para probar si los científicos pueden
detectarlos. Son interesantes los planteamientos y resultados.
Los investigadores le pidieron a ChatGPT que escribiera 50
resúmenes de investigación médica basados en una selección publicada en JAMA , The
New England Journal of Medicine , The
BMJ , The Lancet y Nature Medicine . Luego los
compararon con los resúmenes originales pasándolos por un detector de plagio y un detector de
salida de IA, también le pidieron a un grupo de investigadores médicos que
detectaran los resúmenes artificiales.
El
resultado que dio sobre los resúmenes generados por ChatGPT el verificador de
plagio sobre la originalidad fue del 100 %, lo que indica que no se detectó
plagio. El detector de salida de IA detectó el 66 % de los resúmenes
generados. Pero los revisores humanos no lo hicieron mucho mejor:
identificaron correctamente sólo el 68 % de los resúmenes generados y el 86% de
los resúmenes genuinos. Identificaron incorrectamente el 32 % de los
resúmenes generados como reales y el 14 % de los resúmenes genuinos como
generados. Todo ello muy elocuente.
Las conclusiones de los autores
del preprint, Gao y sus colegas, son
- “ChatGPT escribe resúmenes científicos creíbles”
- “Quedan por determinarse los límites del uso ético y aceptable de grandes modelos lingüísticos para ayudar a la redacción científica”.
Otros trabajos
sobre el tema los podemos encontrar en
AI
bot ChatGPT writes smart essays — should professors worry?
The
ChatGPT revolution of academic research has begun
En enero
de 2023, Nature informó sobre dos preprints y dos artículos en
los campos de la ciencia y la salud que incluyeron a ChatGPT como autor
firmado. Cada uno de estos incluye una afiliación para ChatGPT, y uno de los
artículos incluye una dirección de correo electrónico para el "autor"
no humano. Según Nature, la inclusión de ChatGPT en ese artículo en
la firma del autor fue un "error que pronto se corregirá" (Stokel-Walker, 2023). Sin embargo, estos artículos y
sus “autores” no humanos ya han sido indexados en PubMed y Google Scholar.
Experiencias
como ésta han llevado a las instituciones, revistas y editoriales a tomar
medidas. De entre las más importantes podemos destacar lo que sigue.
Nature ha
definido una política para guiar el uso de modelos de transformadores de lenguaje
a gran escala en la publicación científica: prohíbe nombrar herramientas como
"autor acreditado en un artículo de investigación" porque "la
atribución de autoría conlleva responsabilidad por el trabajo, y Las
herramientas de IA no pueden asumir tal responsabilidad”.
La política
editorial también aconseja a los investigadores que utilizan estas herramientas
que documenten este uso en las secciones Métodos o Agradecimientos de los
manuscritos.
Otras revistas (Science
y Taylor
& Francis) y organizaciones (WAME) están
desarrollando urgentemente políticas que prohíben la inclusión de estas
tecnologías no humanas como "autores". Van desde prohibir la
inclusión de texto generado por ChatGPT o similares en los originales, a exigir
total transparencia, responsabilidad y rendición de cuentas sobre cómo se
utilizan y se informan dichas herramientas en publicaciones académicas.
La Conferencia Internacional sobre
Aprendizaje Automático (ICML Fortieth International Conference
on Machine Learning) también ha anunciado una nueva política: “Los artículos
que incluyen texto generado a partir de un modelo de lenguaje a gran escala
(LLM) como ChatGPT están prohibidos a menos que el texto producido se presente
como parte del análisis experimental del artículo”.
Y así
sucesivamente.
Un ejemplo de
normas concretas nos lo presenta JAMA, sobre responsabilidades de autores,
materiales a publicar, etc. (Instructions
for Authors. JAMA. Updated January 30, 2023.)
En conclusión con todo lo anterior, será difícil ignorar el creciente número de estudiantes e investigadores que envían tareas escritas por ChatGPT o los programas similares que vengan.
En el caso de estudiantes, ¿podrá hacerlo Turnitin u otros
productos similares? Aquél ha admitido que "ya estamos viendo los
comienzos de la próxima ola de IA... cuando los estudiantes pueden presionar un
botón y la computadora escribe su trabajo" (Turnitin, 2020 ). Se adivina un
horizonte donde no es descartable que resistirse a los trabajos generadas por
ChatGPT y similares y detectar cuáles están escritas por máquina sea un
ejercicio inútil. Entonces, ¿cómo podemos delimitar el uso de estas nuevas
herramientas?
Ya hemos hablado de restringir la asignación en las ponderaciones
por puntajes en estos temas. Alternativamente, se podrían establecer tareas
escritas reflexivas y contextualizadas que la IA no podría generar. Pero
esto requiere mucho tiempo y esfuerzo por los profesores
En todo caso, los profesores
podrían y deberían explorar y penetrar con los estudiantes en la ética y los
límites de la IA generativa y hacerlo con cuestiones tales como:
·
¿Qué
calificación y qué efectos tiene en los conceptos morales y por qué interactuar
con un agente experto en palabras que no tiene moral intrínseca ni experiencia
del mundo?
·
¿Escribir
con ChatGPT equivale a plagio?
Pero más allá de esto hay una
cuestión clave. Si restringimos la evaluación a lo que es la lectura y la
revisión de proyectos o ensayos en el marco exclusivo de esa lectura, damos la
entrada a la impostura porque en ese marco, como dice la revista
Nature, es imposible distinguir lo que escribe un transformer de lo que escribe un humano. O, en todo caso, la resolución de ese problema nos remite
a una futura IA que discerniera que es un autor humano a través del estilo, inflexiones y giros propios y en otros rasgos personales, y en todo
caso abundaría en algo que la inteligencia humana le lleva años luz a la IA, como
sucede con la psicología cognitiva con respecto al conductismo y al aprendizaje
por refuerzo: el análisis de la experiencia, la atribución de sentido través de la expresión escrita y la
interacción que, de ella, se pueda producir, como lo son las que se producen en la revisión y supervisión.
Se hace pues hoy más
necesaria que nunca una visión de lo que ha de ser una evaluación centrada en
el aprendizaje, en los efectos que produce, en cuales son deseables y, sobre todo, en cuáles de sus manifestaciones presentan una demostración de que el fenómeno
de aprender (comprender, atribuir sentido, incorporar, ejecutar autónomamente y
transferir) se ha producido. Y hacerlo en el transcurso del proceso. En
definitiva, hoy es más urgente que nunca contar con una buena evaluación educativa
centrada en el aprendizaje y formativa.
Zapata-Ros, M. (2023). Los programas generativos “Transformer” AI, entre los que está ChatGPT, ¿una oportunidad para la evaluación formativa? Preprint DOI 10.13140/RG.2.2.18669.46565
Blanco-González, A. et al. Preimpresión en arXiv https://doi.org/10.48550/arXiv.2212.08104 (2022).
Gao, CA et al. Preimpresión
en bioRxiv https://doi.org/10.1101/2022.12.23.521610 (2022).
Kruse, O. (2006). The
origins of writing in the disciplines: Traditions of seminar writing and the
Humboldtian ideal of the research university. Written Communication, 23(3), 331–352
Newton, P. M.
(2018, August). How common is commercial contract cheating in higher education
and is it increasing? A systematic review. Frontiers in Education, 3(67), doi: https://doi.org/10.3389/feduc.2018.00067
O'Connor, S. & ChatGPT Educación en enfermería. Practica 66 , 103537 (2023).
Race, P.
(2018). Is the ‘time of the assessed essay’ over? University of Sussex blog article, November 14, 2018. https://blogs.sussex.ac.uk/business-school-teaching/2018/11/14/is-the-time-of-the-assessed-essay-over/
Stokel-Walker C. ChatGPT listed as author
on research papers: many scientists disapprove. Nature. 2023;613(7945):620-621. doi:10.1038/d41586-023-00107-z
Turnitin
(2020). How Teachers Can Prepare for AI-Based Writing. Turnitin blog article, May 21, 2020. https://www.turnitin.com/blog/how-teachers-can-prepare-for-ai-based-writing
Comentarios
Publicar un comentario