Inteligencia Artificial
¿Puedes responder la adivinanza con la que tropiezan todas las IAs?
Se trata del conocido como Problema de Alicia en el País de las Maravillas.
A menudo anunciamos los enormes avances de la inteligencia artificial, destacando su fiabilidad y su infalibilidad, como si de un cerebro digital y superdotado se tratase. Pero en algunos aspectos no sería así. Al menos eso es lo que afirma un estudio científico que concluye que, incluso los modelos de lenguaje grande (LLM) más sofisticados, se quedan perplejos con frecuencia ante la misma pregunta lógica simple: el conocido como Problema de Alicia en el País de las Maravillas.
El documento, que aún no ha sido revisado por pares, analiza las respuestas de diferentes modelos a este problema. Su enunciado es sencillo: “Alice tiene [X] hermanos y también tiene [Y] hermanas. ¿Cuántas hermanas tiene el hermano de Alicia?” Los autores, liderados por Lucía Cipolina Kun, de la Universidad de Bristol, utilizaron algunas versiones diferentes del problema, por ejemplo, cambiando las figuras X e Y o alterando el lenguaje de las indicaciones para incluir algunas demandas más, pero el proceso de razonamiento básico requerido para resolver el problema siguió siendo el mismo en todo momento.
Aunque el problema requiere un poco de reflexión, no es exactamente un acertijo muy complejo. La respuesta correcta es si Alicia tiene, por ejemplo, 6 hermanas, los hermanos tienen 6 hermanas, más Alicia, en total 7.
Pero cuando los investigadores ejecutaron la pregunta en todos los principales modelos de lenguaje de IA, probaron los modelos GPT-3, GPT-4 y GPT-4o de OpenAI, los modelos Claude 3 Opus de Anthropic, Gemini de Google y Llama de Meta, así como Mextral de Mistral AI. , Dbrx de Mosaic y Command R+ de Cohere, descubrieron que los modelos se quedaban patidifusos, si es posible esto en una IA.
Solo un modelo, el nuevo GPT-4o, obtuvo una tasa de éxito que, según los estándares actuales, fue técnicamente satisfactoria. “El colapso es dramático, ya que los modelos también expresan un fuerte exceso de confianza en sus soluciones equivocadas, mientras que a menudo brindan explicaciones sin sentido similares a razonamientos similares a confabulaciones para justificar y respaldar la validez de sus respuestas claramente fallidas, haciéndolas parecer plausibles”, afirma el estudio.
Los autores mencionan numerosos ejemplos de estos errores. Por ejemplo, el modelo Llama 3 de Meta se enfrentó al siguiente dilema: Si Alicia tiene cuatro hermanos y también tiene una hermana. ¿Cuántas hermanas tiene el hermano de Alicia? La respuesta correcta es dos, pero Llama 3 evitó por completo la respuesta y afirmó: ¡Un clásico rompecabezas de pensamiento lateral! Vamos a desglosarlo: Alice tiene cuatro hermanos. Alice también tiene una hermana (ella misma). Entonces, cada uno de los hermanos de Alice tiene... (redoble de tambores) ... una hermana, ¡que es la propia Alice!”. Otros modelos de IA hablaban de cinco hermanas y confirmaban la respuesta diciendo que habían verificado dos veces el razonamiento y que no encontraba ningún error en la lógica.
Según el artículo, el nuevo modelo GPT-4o de OpenAI tuvo la mayor tasa de éxito, respondiendo correctamente al problema de Alicia correctamente un 65% de las veces. Y este fue el porcentaje más alto. Claude 3 Opus, tuvo una tasa de éxito del 43 %, Llama del 30% y Gemini Pro de Google registró una escasa tasa de éxito del 0,8%. Esto es muy importante si tenemos en cuenta que, de acuerdo con las medidas estandarizadas para medir la inteligencia y comprensión de una IA, GPT-4o, Claude 3 Opus, Llama 2-7b y Gemini Pro recibieron puntuaciones respectivas de 88%, 87%, 64% y 72%, muy lejos de las cifras que demuestra el estudio.
De modo que, si nosotros debemos evaluar cuan inteligente pensamos que es la IA, los científicos y responsables de su desarrollo, también deben hacerlo. Y ser más honestos respecto a los resultados.
✕
Accede a tu cuenta para comentar