¿Los programas generativos “Transformer” AI y ChatGPT, una oportunidad para la evaluación formativa? (V): TFM, TFG, tesis doctorales y artículos científicos. La evaluación con informes, ensayos y proyectos.

Imagen generada con el texto “Students doing essays with ChatGPT, hopper style”, por Miguel × DALL·E. Human & AI

Los ensayos, trabajos o informes han formado parte de la evaluación educativa, y principalmente académica y universitaria, desde principios del siglo XIX, cuando los estudiantes de algunas universidades europeas debían escribir artículos académicos para su discusión en seminarios (Kruse, 2006 ).

Hoy los ensayos académicos continúan siendo un pilar de la evaluación en escuelas, colegios y universidades muy aceptables porque superan las limitaciones de los exámenes, restringidos a lo que un alumno sabe o es capaz de recordar en un momento determinado. Han triunfado y constituyen los conocidos TFM, TFG y trabajo final de cualquier curso o asignatura. Incluso una disertación de tesis doctoral no escapa a este formato. Son fáciles de establecer, permiten evaluar la profundidad de la comprensión e hipotéticamente demuestran la capacidad de los estudiantes sobre cómo expresar un argumento. En los últimos años, el alcance de los trabajos escritos se ha ampliado para incluir trabajos narrativos, argumentativos, reflexivos, expresivos, receptivos y analíticos.

Sin embargo no todo es bueno, la práctica generalizada de establecer tareas escritas como trabajo de curso ha sido criticada como laboriosa e injusta (Race, 2018). Pero sobre todo está sujeto a trampas, imposturas y fraudes en general. Prácticas que actualmente se han constituido en un lucrativo negocio con contratos de encargo a través de "fábricas de TFM, TFG y trabajos en general", que venden tareas de este tipo escritas por encargo, a tarifas de hasta 500 euros por escribir un ensayo de 20 páginas (ver anuncios y tarifas). Un estudio de Newton (2018) encontró que el 15,7% de los estudiantes encuestados admitió haber pagado a otra persona para que escribiera una tarea.

Ahora la cosa con ChatGPT da un salto cualitativo: Una consecuencia, no deseada ni perseguida como objetivo, de estos sistemas es que democratizan el fraude. Un estudiante puede generar un ensayo completo en segundos, aun costo de alrededor de 50 centavos de dólar.

Peor aún, si cabe, es que los aspirantes a investigadores científicos puedan recurrir a estos sistemas para generar artículos y enviarlos a congresos y revistas.

Desde el lanzamiento de ChatGPT, los investigadores han estado lidiando con los problemas éticos que rodean su uso, porque según Holly Else en Nature, “gran parte de su producción puede ser difícil de distinguir del texto escrito por humanos”.

Se pueden citar distintos casos y experimentos:

Uno es el de los investigadores Blanco-González, A. et al. (2022) y O'Connor, S. & ChatGPT (2023) han publicado un preprint y un editorial escritos por ChatGPT.

Otro es un grupo dirigido por Catherine Gao en la Universidad Northwestern en Chicago, que ha utilizado ChatGPT para generar resúmenes de trabajos de investigación artificiales para probar si los científicos pueden detectarlos. Son interesantes los planteamientos y resultados.

Los investigadores le pidieron a ChatGPT que escribiera 50 resúmenes de investigación médica basados en una selección publicada en JAMA , The New England Journal of Medicine , The BMJ , The Lancet y Nature Medicine . Luego los compararon con los resúmenes originales pasándolos por un detector de plagio y un detector de salida de IA, también le pidieron a un grupo de investigadores médicos que detectaran los resúmenes artificiales.

El resultado que dio sobre los resúmenes generados por ChatGPT el verificador de plagio sobre la originalidad fue del 100 %, lo que indica que no se detectó plagio. El detector de salida de IA detectó el 66 % de los resúmenes generados. Pero los revisores humanos no lo hicieron mucho mejor: identificaron correctamente sólo el 68 % de los resúmenes generados y el 86% de los resúmenes genuinos. Identificaron incorrectamente el 32 % de los resúmenes generados como reales y el 14 % de los resúmenes genuinos como generados. Todo ello muy elocuente.

Las conclusiones de los autores del preprint, Gao y sus colegas, son

“ChatGPT escribe resúmenes científicos creíbles”
“Quedan por determinarse los límites del uso ético y aceptable de grandes modelos lingüísticos para ayudar a la redacción científica”.

Otros trabajos sobre el tema los podemos encontrar en

AI bot ChatGPT writes smart essays — should professors worry?

The ChatGPT revolution of academic research has begun

En enero de 2023, Nature informó sobre dos preprints y dos artículos en los campos de la ciencia y la salud que incluyeron a ChatGPT como autor firmado. Cada uno de estos incluye una afiliación para ChatGPT, y uno de los artículos incluye una dirección de correo electrónico para el "autor" no humano. Según Nature, la inclusión de ChatGPT en ese artículo en la firma del autor fue un "error que pronto se corregirá" ⁽Stokel-Walker, 2023). Sin embargo, estos artículos y sus “autores” no humanos ya han sido indexados en PubMed y Google Scholar.

Experiencias como ésta han llevado a las instituciones, revistas y editoriales a tomar medidas. De entre las más importantes podemos destacar lo que sigue.

Nature ha definido una política para guiar el uso de modelos de transformadores de lenguaje a gran escala en la publicación científica: prohíbe nombrar herramientas como "autor acreditado en un artículo de investigación" porque "la atribución de autoría conlleva responsabilidad por el trabajo, y Las herramientas de IA no pueden asumir tal responsabilidad”.

La política editorial también aconseja a los investigadores que utilizan estas herramientas que documenten este uso en las secciones Métodos o Agradecimientos de los manuscritos.

Otras revistas (Science y Taylor & Francis) y organizaciones (WAME) están desarrollando urgentemente políticas que prohíben la inclusión de estas tecnologías no humanas como "autores". Van desde prohibir la inclusión de texto generado por ChatGPT o similares en los originales, a exigir total transparencia, responsabilidad y rendición de cuentas sobre cómo se utilizan y se informan dichas herramientas en publicaciones académicas.

La Conferencia Internacional sobre Aprendizaje Automático (ICML Fortieth International Conference on Machine Learning) también ha anunciado una nueva política: “Los artículos que incluyen texto generado a partir de un modelo de lenguaje a gran escala (LLM) como ChatGPT están prohibidos a menos que el texto producido se presente como parte del análisis experimental del artículo”.

Y así sucesivamente.

Un ejemplo de normas concretas nos lo presenta JAMA, sobre responsabilidades de autores, materiales a publicar, etc. (Instructions for Authors. JAMA. Updated January 30, 2023.)

En conclusión con todo lo anterior, será difícil ignorar el creciente número de estudiantes e investigadores que envían tareas escritas por ChatGPT o los programas similares que vengan.

En el caso de estudiantes, ¿podrá hacerlo Turnitin u otros productos similares? Aquél ha admitido que "ya estamos viendo los comienzos de la próxima ola de IA... cuando los estudiantes pueden presionar un botón y la computadora escribe su trabajo" (Turnitin, 2020 ). Se adivina un horizonte donde no es descartable que resistirse a los trabajos generadas por ChatGPT y similares y detectar cuáles están escritas por máquina sea un ejercicio inútil. Entonces, ¿cómo podemos delimitar el uso de estas nuevas herramientas?

Ya hemos hablado de restringir la asignación en las ponderaciones por puntajes en estos temas. Alternativamente, se podrían establecer tareas escritas reflexivas y contextualizadas que la IA no podría generar. Pero esto requiere mucho tiempo y esfuerzo por los profesores

En todo caso, los profesores podrían y deberían explorar y penetrar con los estudiantes en la ética y los límites de la IA generativa y hacerlo con cuestiones tales como:

· ¿Qué calificación y qué efectos tiene en los conceptos morales y por qué interactuar con un agente experto en palabras que no tiene moral intrínseca ni experiencia del mundo?

· ¿Escribir con ChatGPT equivale a plagio?

Pero más allá de esto hay una cuestión clave. Si restringimos la evaluación a lo que es la lectura y la revisión de proyectos o ensayos en el marco exclusivo de esa lectura, damos la entrada a la impostura porque en ese marco, como dice la revista Nature, es imposible distinguir lo que escribe un transformer de lo que escribe un humano. O, en todo caso, la resolución de ese problema nos remite a una futura IA que discerniera que es un autor humano a través del estilo, inflexiones y giros propios y en otros rasgos personales, y en todo caso abundaría en algo que la inteligencia humana le lleva años luz a la IA, como sucede con la psicología cognitiva con respecto al conductismo y al aprendizaje por refuerzo: el análisis de la experiencia, la atribución de sentido través de la expresión escrita y la interacción que, de ella, se pueda producir, como lo son las que se producen en la revisión y supervisión.

Se hace pues hoy más necesaria que nunca una visión de lo que ha de ser una evaluación centrada en el aprendizaje, en los efectos que produce, en cuales son deseables y, sobre todo, en cuáles de sus manifestaciones presentan una demostración de que el fenómeno de aprender (comprender, atribuir sentido, incorporar, ejecutar autónomamente y transferir) se ha producido. Y hacerlo en el transcurso del proceso. En definitiva, hoy es más urgente que nunca contar con una buena evaluación educativa centrada en el aprendizaje y formativa.

Cómo citar este trabajo:

Zapata-Ros, M. (2023). Los programas generativos “Transformer” AI, entre los que está ChatGPT, ¿una oportunidad para la evaluación formativa? Preprint DOI 10.13140/RG.2.2.18669.46565

Referencias. –

Blanco-González, A. et al. Preimpresión en arXiv https://doi.org/10.48550/arXiv.2212.08104 (2022).

Gao, CA et al. Preimpresión en bioRxiv https://doi.org/10.1101/2022.12.23.521610 (2022).

Kruse, O. (2006). The origins of writing in the disciplines: Traditions of seminar writing and the Humboldtian ideal of the research university. Written Communication, 23(3), 331–352

Newton, P. M. (2018, August). How common is commercial contract cheating in higher education and is it increasing? A systematic review. Frontiers in Education, 3(67), doi: https://doi.org/10.3389/feduc.2018.00067

O'Connor, S. & ChatGPT Educación en enfermería. Practica 66 , 103537 (2023).

Race, P. (2018). Is the ‘time of the assessed essay’ over? University of Sussex blog article, November 14, 2018. https://blogs.sussex.ac.uk/business-school-teaching/2018/11/14/is-the-time-of-the-assessed-essay-over/

Stokel-Walker C. ChatGPT listed as author on research papers: many scientists disapprove. Nature. 2023;613(7945):620-621. doi:10.1038/d41586-023-00107-z

Turnitin (2020). How Teachers Can Prepare for AI-Based Writing. Turnitin blog article, May 21, 2020. https://www.turnitin.com/blog/how-teachers-can-prepare-for-ai-based-writing

Rasgos de la nueva educación (VI): La trivialización de las teorías que explican el aprendizaje. El conectivismo.

Esta es la sexta entrada de una serie de diez . Constituyen en conjunto una entrevista solicitada por una revista especializada en la nueva educación. Pregunta 6. Sé de su posición crítica y argumentada sobre el conectivismo, y me parece que debe conocerse adecuadamente: ¿podría sintetizar esa crítica y el porqué de la misma a nuestros lectores? Respuesta.- Frecuentemente en el trabajo que hacemos los profesores de forma diaria, en las investigaciones, en la dirección de tesis, en cursos, asignaturas de másteres o de grado,… manejamos teorías. Es el material con el que se construye lo que hacemos y es la forma en que se organiza el conocimiento científico. En particular en mi área, trato con las teorías del aprendizaje como base teórica y justificación del diseño instruccional, que es lo que más utilizo. Afortunadamente este dominio científico ha sido validado recientemente por el MIT con el nombre de Ciencias del Aprendizaje...

INTELIGENCIA ARTIFICIAL, EDUCACIÓN Y APRENDIZAJE

Buscar este blog

¿Los programas generativos “Transformer” AI y ChatGPT, una oportunidad para la evaluación formativa? (V): TFM, TFG, tesis doctorales y artículos científicos. La evaluación con informes, ensayos y proyectos.

Comentarios

Publicar un comentario

Entradas populares de este blog

Los jesuitas y la educación (II): Ratio studiorum, la repetición y la memoria

La verdad nunca es viral

Rasgos de la nueva educación (VI): La trivialización de las teorías que explican el aprendizaje. El conectivismo.