
Tecnología
La BBC verifica las noticias en ChatGPT, Gemini, Copilot y Perplexity: la mitad, con 'problemas significativos'
La corporación de medios británica ha llevado a cabo un estudio sobre la fiabilidad con la que las IA procesan y presentan al usuario la información de actualidad

Google, OpenAI, Microsoft y compañía pueden decir misa, pero por muchas virguerías que hagan sus herramientas de inteligencia artificial, siguen tendiendo una tendencia a fabular -inventarse las cosas-, que las hace muy poco confiables en determinadas tareas. Una de ellas, la de buscar información sobre temas de actualidad; una capacidad que ha puesto a prueba la BBC en un estudio cuyos resultados no sorprenderán a quien acostumbre a contrastar la información que facilita un chatbot. Las IA se equivocan y mucho. Según el informe de la BBC, más de la mitad de las noticias facilitadas por IA y verificadas presentan 'problemas significativos', entre los que destacan las citas equivocadas, la información desactualizada y la editorialización; esto es, cuando el chatbot mete su 'opinión' en una información.
La BBC ha analizado 4 populares modelos de lenguaje -ChatGPT 4o, Microsoft Copilot Pro, Gemini gratuito y Perplexity Pro- preguntando por 100 noticias del último año e indicándoles aprovechar la BBC como fuente de información. El objetivo es comparar cómo 'traduce' la IA las noticias originales.
Un equipo de 45 periodistas de la corporación británica de medios revisó las 362 respuestas; en 38 ocasiones la IA se negó a responder. Se les solicitó identificar problemas -ya fueran 'significativos' o simplemente 'algunos'- en las respuestas en relación con la precisión, imparcialidad y editorialización, atribución, claridad, contexto y representación correcta del artículo original de la BBC.
La BBC concluyó que el 51 % de las respuestas presentaron 'problemas significativos' en al menos una de estas áreas. En general, Google Gemini obtuvo el peor desempeño, con problemas significativos identificados en más del 60% de las respuestas, mientras que Perplexity se destacó como el mejor, con poco más del 40% de respuestas afectadas. Copilot superó con holgura el 50% y ChatGPT el 40%.
La precisión resultó ser el mayor problema en los cuatro modelos, con problemas significativos en más del 30% de las respuestas y siendo la categoría de 'algunos problemas' aún más numerosa. Esto incluye una de cada cinco respuestas en las que la IA reproducía de forma incorrecta 'fechas, números y declaraciones fácticas' atribuidas erróneamente a fuentes de la BBC. Además, en el 13% de los casos en que un modelo citaba directamente un artículo de la BBC -ocho de 62-, el análisis concluyó que dichas citas estaban 'o bien alteradas respecto a la fuente original o no estaban presentes en el artículo citado.'
En algunos casos citados por la BBC, los modelos parecían carecer del contexto necesario para entender cuándo la información desactualizada en antiguas coberturas de la BBC había quedado obsoleta por hechos posteriores. Por ejemplo, ChatGPT se refierió a Ismail Haniyeh como parte del liderazgo de Hamas, a pesar de la ampliamente difundida noticia de su fallecimiento el pasado mes de julio.
Un caso de editorialización evidente fue una respuesta que describía un ataque con misiles iraní como 'una respuesta calculada a las acciones agresivas de Israel', a pesar de que ese enfoque no aparece en las fuentes citadas.
Algunas inexactitudes tenían más facilidad para pasar desapercibidas. Por ejemplo, la que afirmaba que un tope en los precios de la energía era 'aplicable en todo el Reino Unido', a pesar de que Irlanda del Norte estaba exenta. Otras fueron más llamativas, como la que aseguraba que el NHS 'aconseja a las personas no empezar a vapear', cuando en realidad recomienda vapear como una forma eficaz de dejar de fumar.
✕
Accede a tu cuenta para comentar