La herramienta iguala o supera a los humanos en una serie de pruebas que miden la capacidad de representar el estado mental de otros sujetos
#20May – Una de las habilidades que definen al ser humano es su capacidad para inferir lo que están pensando las personas con las que interactúa. Si alguien está sentado junto a una ventana cerrada y un amigo le dice “hace un poco de calor aquí”, automáticamente interpretará que se le está pidiendo que abra la ventana. Esa lectura entre líneas, la capacidad de figurarse qué piensan quienes nos rodean, se conoce como teoría de la mente y es una de las bases sobre las que se sustentan las relaciones sociales.
Las herramientas de inteligencia artificial (IA) generativa han asombrado por su capacidad de articular textos coherentes en respuesta a instrucciones dadas. Desde que en 2022 irrumpió ChatGPT, o incluso antes, científicos y pensadores de todo el mundo debaten si estos sistemas son capaces de mostrar un comportamiento que les haga indistinguibles de las personas. ¿Es viable una teoría de la mente artificial? Un equipo de científicos ha tratado de comprobar si los grandes modelos de lenguaje (LLM, por sus siglas inglesas) como ChatGPT son capaces de captar estos matices. El resultado de la investigación, que se publica hoy en la revista Nature Human Behaviour, es que estos modelos obtienen resultados iguales o mejores que las personas cuando se les plantea preguntas que implican ponerse en la mente del interlocutor.
“Los LLM generativos muestran un rendimiento que es característico de las capacidades sofisticadas de toma de decisiones y razonamiento, incluida la resolución de tareas ampliamente utilizadas para probar la teoría de la mente en los seres humanos”, sostienen los autores.
Los autores han usado en su estudio dos versiones de ChatGPT (la gratuita, 3.5, y la avanzada, 4) y el modelo de código abierto de Meta, Llama 2. Han sometido estas tres herramientas a una batería de experimentos que tratan de medir diferentes habilidades relacionadas con la teoría de la mente. Desde captar la ironía hasta interpretar peticiones indirectas (como en el caso de la ventana), detectar conversaciones en las que una de las partes dice algo inapropiado o responder a preguntas sobre situaciones en las que falta información y, por tanto, hay que especular. Paralelamente, expusieron a 1.907 individuos a las mismas pruebas y contrastaron los resultados.
El artículo concluye que ChatGPT-4 iguala o mejora la puntuación de los humanos en las pruebas relativas a la identificación de peticiones indirectas, falsas creencias y desorientación, pero tiene dificultades para detectar los llamados pasos en falso (interacciones en las que una de las partes dice algo que no debería por inapropiado). Curiosamente, este es el único terreno en el que Llama 2 supera a las personas, aunque su éxito es ilusorio. “Es probable que este rendimiento aparentemente perfecto de Llama sea el resultado de un sesgo y no de una verdadera comprensión del paso en falso”, explica por correo electrónico James W. A. Strachan, autor principal del estudio e investigador del departamento de Neurología del Hospital Universitario Hamburgo-Eppendorf, en Alemania.
“Estos resultados no solo demuestran que los LLM muestran un comportamiento coherente con los resultados de la inferencia mentalista en humanos, sino que también destacan la importancia de realizar pruebas sistemáticas para garantizar una comparación no superficial entre inteligencias humanas y artificiales”, razonan los autores.
Información cortesía de EL PAÍS
Jesús Gutiérrez Andúz https://www.instagram.com/jega_comunica/ https://www.instagram.com/infocifras/
Leave A Comment