Inteligencia Artificial y Educación ¿dónde estamos? (IIIa): Tipos y enunciados de capacidades de ChatGPT. Calificación de su utilidad.
Cuarta de una serie de entradas que comenzó con ésta.
Lo tercero que veremos, será lo que
constituye una de las cuestiones clave de este artículo: Veremos que, si bien
no son tantos, sí hay motivos para pensar que la presencia de la Inteligencia Artificial
Generativa (GenAI) va a propiciar importantes cambios en las prácticas, algunos
o muchos de los cuales posiblemente ya se estés produciendo, aunque el estudio
sobre experiencia en UK ya citado aún no ha dado tiempo para procesarlos y para
sistematizarlos, y mucho menos en otras latitudes.
Eso es, por el momento, lo único que
parece que, de forma esporádica y mediante casos y prácticas personales
aisladas, se ha justificado mínimamente. Al menos en el caso que hemos
encontrado reflejado por Korinek (2023) en su artículo Language models and cognitive automation for
economic research [MZ1] .
Tampoco es descartable que se estén
produciendo lo que serán anticipos de cambios de calado, en aspectos básicos,
ante los cuales es preciso dar respuestas. Pero eso lo trataremos después.
No sería un trabajo muy importante si no
fuera porque no hay muchos otros. Es el único empírico que he podido localizar.
Básicamente,
según el propio autor dice, en él "informa de su calificación subjetiva
sobre qué tan útiles encontró las capacidades LLM descritas al 1 de febrero de
2023". Se refiere a las prácticas que él mismo hizo y con las que elaboró
un estudio personal de 25 casos de uso de ChatGPT en 25 prácticas que él hizo y
su opinión sistematiza en categorías sobre ellas.
Ello,
no obstante, en la línea triunfalista y optimista que señalamos, permitió decir
en un medio, un blog de una
prestigiosa revista y en su perfil en
Twitter que, a partir de lo recogido en el trabajo “la investigación y la producción científica nunca volverán a
ser lo mismo”, se entiende que con el concurso del ChatGPT y los LLM.
El resumen lo refleja en una tabla de tres
columnas. Una con las categorías que establece en su taxonomía para las tareas
en las que utiliza ChatGPT--- hay que tener en cuenta que es un profesor e
investigador de economía que utiliza las matemáticas en sus clases e
investigaciones, en particular el análisis diferencial y las derivadas, así
como la analítica de datos---, otra columna para las propias tareas y la
tercera para una asignación de utilidad, utilizando una valoración numérica
entera entre 1 y 3. De menos a maor utilidad, fiabilidad o consistencia en el
uso para la tarea.
Puesto que aunque yo no he escrito un
articulo de este tipo ni he tomado notas de mis propias experiencias, sí las he
hecho en una cantidad incluso mayor (de ello ha quedado algo reflejado) si bien
no tan operativa como son las de codificación, y en lo que sigue:
A) he realizado una adaptación de su
tabla, ajustando y traduciendo los conceptos y términos de la taxonomía y de
las tareas y
B) he añadido una cuarta columna con mis
valoraciones. Asignando mis propios valores de utilidad.
Encuentro pues muy útil las calificaciones
sobre todo por su descripción que es la que sigue:
La calificación varía del 1 al 3, donde 1
describe capacidades que actualmente se consideran estrictamente experimentales,
que hacen precisa de forma imprescindible la observación y el discernimiento
humano, en los cuales si lo hace o lo obtenemos de ChatGPT pueden arrojar
resultados inconsistentes, que requieren una supervisión humana significativa e
imprescindible; 2 se atribuye a capacidades que, hechas por ChatGPT.
probablemente sean útiles y que ahorren tiempo, pero que son en alguna medida
inconsistentes o no seguras, por lo que aún requieren una supervisión humana cuidadosa;
y 3 refleja capacidades que ya son, con ChatGPT muy útiles y funcionan de la
manera esperada la mayor parte del tiempo. Incorporar estas últimas capacidades
a su flujo de tareas definitivamente tiene claro que le ahorrará tiempo y hará
más productivo el uso de la herramienta.
Categoría |
Tarea |
Utilidad Korinek |
Utilidad mía |
Ideación |
Lluvia de ideas |
3 |
2 |
Evaluación de ideas |
2 |
1 |
|
Proporcionar contraargumentos |
3 |
1 |
|
Escribir |
Sintetizar texto |
3 |
3 |
Editar texto |
3 |
3 |
|
Evaluar texto |
3 |
2 |
|
Generar títulos y titulares atractivos |
3 |
2 |
|
Generar tweets para promocionar un artículo |
3 |
3 |
|
Escribir la parte de investigación del artículo como
cuestión principal |
Resumen |
3 |
3 |
Revisión de la literatura |
1 |
1 |
|
Formatear citas y referencias |
3 |
3 |
|
Traducción del artículo |
3 |
3 |
|
Explicar conceptos previos |
2 |
1 |
|
Crear y escribir programas informáticos (programación) |
Escribir el programa |
2 |
- |
Explicar el programa |
2 |
- |
|
Traducir el programa a otro lenguaje |
3 |
- |
|
Depuración del programa |
2 |
- |
|
Análisis de los datos |
Extraer datos del texto |
3 |
3 |
Reformatear datos |
3 |
3 |
|
Clasificar y asignar valores a expresiones textuales |
2 |
1 |
|
Extraer opiniones y conclusiones
propias del texto. O categorizar, en un sistema de valores dado expresiones,
de un texto. |
2 |
1 |
|
Simular análisis humano subjetivo. Esto se basa en que la
observación de los datos de entrenamiento de los LLM crea una gran cantidad
de información sobre aspectos del proceder humano en la evaluación de datos
(Opinión de Korinek (February 10, 2023), Argyle et al. (2022) y de Horton
(2022) |
2 |
1 |
|
Matemáticas |
Configuración de modelos |
2 |
2 |
Derivación de ecuaciones (por los ejemplos que pone se
refiere tanto a derivación de funciones, como derivación de igualdades
(ecuaciones), como generación de ecuaciones diferenciales). |
1 |
1 |
|
Explicar modelos |
1 |
1 |
Tabla 1: Tipos y enunciados de
capacidades de ChatGPT. Calificación de su utilidad
Las columnas tercera y cuarta corresponden
a la calificación subjetiva de las capacidades de LLM hecha por Korinek el 1 de
febrero de 2023, y por la quien suscribe a fecha 5 de diciembre de 2023:
1 = los resultados son empíricos y humanos
por naturaleza; Los resultados de ChatGPT son inconsistentes y requieren una
supervisión humana significativa.
2 = Chat GPT presenta cierta utilidad,
pero requiere supervisión. Probablemente su uso le ahorrará tiempo
3 = claramente útil; incorporarlos en el
flujo de su trabajo le ahorrará tiempo.
- =
carezco de juicio y/o de práctica (mía)
Argyle,
L. P., Busby, E. C., Fulda, N., Gubler, J., Rytting, C., and Wingate, D.
Horton, J. J. (2022). Large language models as simulated economic
agents: What can
Korinek, A. (2023). Language
models and cognitive automation for economic research (No. w30957).
National Bureau of Economic Research.
Comentarios
Publicar un comentario