Ir al contenido principal

¿Los programas generativos “Transformer” AI y ChatGPT, una oportunidad para la evaluación formativa? (V): TFM, TFG, tesis doctorales y artículos científicos. La evaluación con informes, ensayos y proyectos.

 

Imagen generada con el texto “Students doing essays with ChatGPT, hopper style”, por Miguel × DALL·E. Human & AI


 

Los ensayos, trabajos o informes han formado parte de la evaluación educativa, y principalmente académica y universitaria, desde principios del siglo XIX, cuando los estudiantes de algunas universidades europeas debían escribir artículos académicos para su discusión en seminarios (Kruse, 2006 ). 

Hoy los ensayos académicos continúan siendo un pilar de la evaluación en escuelas, colegios y universidades muy aceptables porque superan las limitaciones de los exámenes, restringidos a lo que un alumno sabe o es capaz de recordar en un momento determinado. Han triunfado y constituyen los conocidos TFM, TFG y trabajo final de cualquier curso o asignatura. Incluso una disertación de tesis doctoral no escapa a este formato. Son fáciles de establecer, permiten evaluar la profundidad de la comprensión e hipotéticamente demuestran la capacidad de los estudiantes sobre cómo expresar un argumento. En los últimos años, el alcance de los trabajos escritos se ha ampliado para incluir trabajos narrativos, argumentativos, reflexivos, expresivos, receptivos y analíticos.

Sin embargo no todo es bueno, la práctica generalizada de establecer tareas escritas como trabajo de curso ha sido criticada como laboriosa e injusta (Race, 2018). Pero sobre todo está sujeto a trampas, imposturas y fraudes en general. Prácticas que actualmente se han constituido en un lucrativo negocio con contratos de encargo a través de "fábricas de TFM, TFG y trabajos en general", que venden tareas de este tipo escritas por encargo, a tarifas de hasta 500 euros por escribir un ensayo de 20 páginas (ver anuncios y tarifas). Un estudio de Newton (2018) encontró que el 15,7% de los estudiantes encuestados admitió haber pagado a otra persona para que escribiera una tarea. 


Ahora la cosa con ChatGPT da un salto cualitativo: Una consecuencia, no deseada ni perseguida como objetivo, de estos sistemas es que democratizan el fraude. Un estudiante puede generar un ensayo completo en segundos, aun costo de alrededor de 50 centavos de dólar.


Peor aún, si cabe, es que los aspirantes a investigadores científicos puedan recurrir a estos sistemas para generar artículos y enviarlos a congresos y revistas.

 

Desde el lanzamiento de ChatGPT, los investigadores han estado lidiando con los problemas éticos que rodean su uso, porque según Holly Else en Nature, “gran parte de su producción puede ser difícil de distinguir del texto escrito por humanos”. 

Se pueden citar distintos casos y experimentos:

Uno es el de los investigadores Blanco-González, A. et al. (2022) y O'Connor, S. & ChatGPT (2023) han publicado un preprint y un editorial escritos por ChatGPT. 

Otro es un grupo dirigido por Catherine Gao en la Universidad Northwestern en Chicago, que ha utilizado ChatGPT para generar resúmenes de trabajos de investigación artificiales para probar si los científicos pueden detectarlos. Son interesantes los planteamientos y resultados.

Los investigadores le pidieron a ChatGPT que escribiera 50 resúmenes de investigación médica basados ​​en una selección publicada en JAMA , The New England Journal of Medicine , The BMJ , The Lancet y Nature Medicine . Luego los compararon con los resúmenes originales pasándolos  por un detector de plagio y un detector de salida de IA, también le pidieron a un grupo de investigadores médicos que detectaran los resúmenes artificiales.

El resultado que dio sobre los resúmenes generados por ChatGPT el verificador de plagio sobre la originalidad fue del 100 %, lo que indica que no se detectó plagio. El detector de salida de IA detectó el 66 % de los resúmenes generados. Pero los revisores humanos no lo hicieron mucho mejor: identificaron correctamente sólo el 68 % de los resúmenes generados y el 86% de los resúmenes genuinos. Identificaron incorrectamente el 32 % de los resúmenes generados como reales y el 14 % de los resúmenes genuinos como generados. Todo ello muy elocuente.

Las conclusiones de los autores del preprint, Gao y sus colegas, son 

  • “ChatGPT escribe resúmenes científicos creíbles”
  • “Quedan por determinarse los límites del uso ético y aceptable de grandes modelos lingüísticos para ayudar a la redacción científica”.

Otros trabajos sobre el tema los podemos encontrar en

AI bot ChatGPT writes smart essays — should professors worry?

The ChatGPT revolution of academic research has begun

En enero de 2023, Nature informó sobre dos preprints y dos artículos en los campos de la ciencia y la salud que incluyeron a ChatGPT como autor firmado. Cada uno de estos incluye una afiliación para ChatGPT, y uno de los artículos incluye una dirección de correo electrónico para el "autor" no humano. Según Nature, la inclusión de ChatGPT en ese artículo en la firma del autor fue un "error que pronto se corregirá" (Stokel-Walker, 2023). Sin embargo, estos artículos y sus “autores” no humanos ya han sido indexados en PubMed y Google Scholar.

Experiencias como ésta han llevado a las instituciones, revistas y editoriales a tomar medidas. De entre las más importantes podemos destacar lo que sigue.

Nature ha definido una política para guiar el uso de modelos de transformadores de lenguaje a gran escala en la publicación científica: prohíbe nombrar herramientas como "autor acreditado en un artículo de investigación" porque "la atribución de autoría conlleva responsabilidad por el trabajo, y Las herramientas de IA no pueden asumir tal responsabilidad”. 

La política editorial también aconseja a los investigadores que utilizan estas herramientas que documenten este uso en las secciones Métodos o Agradecimientos de los manuscritos. 

Otras revistas (Science y Taylor & Francis) y organizaciones (WAME) están desarrollando urgentemente políticas que prohíben la inclusión de estas tecnologías no humanas como "autores". Van desde prohibir la inclusión de texto generado por ChatGPT o similares en los originales, a exigir total transparencia, responsabilidad y rendición de cuentas sobre cómo se utilizan y se informan dichas herramientas en publicaciones académicas. 

La Conferencia Internacional sobre Aprendizaje Automático (ICML Fortieth International Conference on Machine Learning) también ha anunciado una nueva política: “Los artículos que incluyen texto generado a partir de un modelo de lenguaje a gran escala (LLM) como ChatGPT están prohibidos a menos que el texto producido se presente como parte del análisis experimental del artículo”. 

Y así sucesivamente.

Un ejemplo de normas concretas nos lo presenta JAMA, sobre responsabilidades de autores, materiales a publicar, etc. (Instructions for Authors. JAMA. Updated January 30, 2023.)

En conclusión con todo lo anterior, será difícil ignorar el creciente número de estudiantes e investigadores que envían tareas escritas por ChatGPT o los programas similares que vengan. 

En el caso de estudiantes, ¿podrá hacerlo Turnitin u otros productos similares? Aquél ha admitido que "ya estamos viendo los comienzos de la próxima ola de IA... cuando los estudiantes pueden presionar un botón y la computadora escribe su trabajo" (Turnitin, 2020 ). Se adivina un horizonte donde no es descartable que resistirse a los trabajos generadas por ChatGPT y similares y detectar cuáles están escritas por máquina sea un ejercicio inútil. Entonces, ¿cómo podemos delimitar el uso de estas nuevas herramientas?

Ya hemos hablado de restringir la asignación en las ponderaciones por puntajes en estos temas. Alternativamente, se podrían establecer tareas escritas reflexivas y contextualizadas que la IA no podría generar. Pero esto requiere mucho tiempo y esfuerzo por los profesores

En todo caso, los profesores podrían y deberían explorar y penetrar con los estudiantes en la ética y los límites de la IA generativa y hacerlo con cuestiones tales como:

·       ¿Qué calificación y qué efectos tiene en los conceptos morales y por qué interactuar con un agente experto en palabras que no tiene moral intrínseca ni experiencia del mundo? 

·       ¿Escribir con ChatGPT equivale a plagio?

 

Pero más allá de esto hay una cuestión clave. Si restringimos la evaluación a lo que es la lectura y la revisión de proyectos o ensayos en el marco exclusivo de esa lectura, damos la entrada a la impostura porque en ese marco, como dice la revista Nature, es imposible distinguir lo que escribe un transformer de lo que escribe un humano. O, en todo caso, la resolución de ese problema nos remite a una futura IA que discerniera que es un autor humano a través del estilo, inflexiones y giros propios y en otros rasgos personales, y en todo caso abundaría en algo que la inteligencia humana le lleva años luz a la IA, como sucede con la psicología cognitiva con respecto al conductismo y al aprendizaje por refuerzo: el análisis de la experiencia, la atribución de sentido  través de la expresión escrita y la interacción que, de ella, se pueda producir, como lo son las que se producen en la revisión y supervisión.


Se hace pues hoy más necesaria que nunca una visión de lo que ha de ser una evaluación centrada en el aprendizaje, en los efectos que produce, en cuales son deseables y, sobre todo, en cuáles de sus manifestaciones presentan una demostración de que el fenómeno de aprender (comprender, atribuir sentido, incorporar, ejecutar autónomamente y transferir) se ha producido. Y hacerlo en el transcurso del proceso. En definitiva, hoy es más urgente que nunca contar con una buena evaluación educativa centrada en el aprendizaje y formativa.

 

 Cómo citar este trabajo:

Zapata-Ros, M. (2023). Los programas generativos “Transformer” AI, entre los que está ChatGPT, ¿una oportunidad para la evaluación formativa? Preprint DOI 10.13140/RG.2.2.18669.46565

 

Referencias. –

 

Blanco-González, A. et al. Preimpresión en arXiv https://doi.org/10.48550/arXiv.2212.08104 (2022).

 

Gao, CA et al. Preimpresión en bioRxiv https://doi.org/10.1101/2022.12.23.521610 (2022).

 

Kruse, O. (2006). The origins of writing in the disciplines: Traditions of seminar writing and the Humboldtian ideal of the research university. Written Communication23(3), 331–352

 

Newton, P. M. (2018, August). How common is commercial contract cheating in higher education and is it increasing? A systematic review. Frontiers in Education3(67), doi: https://doi.org/10.3389/feduc.2018.00067


O'Connor, S. & ChatGPT Educación en enfermería. Practica 66 , 103537 (2023).

 

Race, P. (2018). Is the ‘time of the assessed essay’ over? University of Sussex blog article, November 14, 2018. https://blogs.sussex.ac.uk/business-school-teaching/2018/11/14/is-the-time-of-the-assessed-essay-over/

 

Stokel-Walker  C.  ChatGPT listed as author on research papers: many scientists disapprove.   Nature. 2023;613(7945):620-621. doi:10.1038/d41586-023-00107-z

 

Turnitin (2020). How Teachers Can Prepare for AI-Based Writing. Turnitin blog article, May 21, 2020. https://www.turnitin.com/blog/how-teachers-can-prepare-for-ai-based-writing

 



 


Comentarios

Entradas populares de este blog

La verdad nunca es viral

A finales del año pasado una fotografía se convirtió en viral en las redes. En ella se observaban a unos adolescentes de espaldas al cuadro de Rembrard “La Ronda” que, absortos en sus móviles, ignoraban aparentemente la obra. La sola composición de la imagen puesta en la red hizo el resto. ¿Cómo eludir, como ignorar un mensaje evidente por sí mismo? Mis profesores de Matemáticas del instituto siempre decían “lo que es evidente no necesita demostración”. La cuestión es ¿qué es evidente para cada uno? Y lo evidente era que los muchachos estaban absortos vaya usted a saber en qué perniciosas o al menos distractivas cosas: En el Whatsapp, en un videojuego, en Facebook,… dando la espalda a una obra maestra, a todo un símbolo de nuestra civilización. A continuación la ronda, esta vez viral y en las redes sociales, de comentarios de gurús y expertos, y de no pocos maestros, sociólogos y pedagogos, con las repetidas metáforas concluyentes, cual Casandras indignadas y/o desanimad

Aprendizaje inteligente

Éste post, como el anterior y   los siguientes, recoge un aspecto particular de lo tratado en el artículo La universidad inteligente (Zapata-Ros, 2018) de RED: Revista de Educación a Distancia . Nos vamos a remitir para introducir el concepto de aprendizaje inteligente a una especie de tautología o de cláusula recursiva. De esta forma vamos inicialmente a definir aprendizaje inteligente como aquél que se desarrolla en los entornos inteligentes de aprendizaje. Pero esta tautología es solo aparente. Supone un avance conceptual. Porque este último constructo proviene de dos anteriores: el de entornos de aprendizaje, algo que es suficientemente conocido ( Watson & Watson, 2007; Zapata-Ros, 2003 ) tanto en la vertiente de LMS, como en la de entornos inclusivos, y el de tecnología inteligente, la que utiliza recursos y affordances tecnológicas de detección y de recomendación. Aprendizaje inteligente es aquél aprendizaje que pueden desencadenar y producir los sistema

Los jesuitas y la educación (I)

1 La disrupción de los colegios jesuitas Estos días han aparecido  noticias como ésta en la prensa :   Los jesuitas eliminan las asignaturas, exámenes y horarios de sus colegios en Cataluña , donde se afirma Los colegios de jesuitas de Cataluña, en los que estudian más de 13.000 alumnos, han comenzado a implantar un nuevo modelo de enseñanza que ha eliminado asignaturas, exámenes y horarios y ha transformado las aulas en espacios de trabajo donde los niños adquieren los conocimientos haciendo proyectos conjuntos (…)  Los jesuitas (…) han diseñado un nuevo modelo pedagógico en el que han desaparecido las clases magistrales, los pupitres, los deberes y las aulas tradicionales, en un proyecto que ha comenzado en quinto de primaria y primero de ESO en tres de sus escuelas y que se irá ampliando al resto.  “Educar no es solo transmitir conocimientos El proyecto impulsa "las inteligencias múltiples y sacar todo el potencial" de los alumnos y que hagan las