Inteligencia Artificial

ChatGPT genera información falsa para apoyar hipótesis científicas

Un equipo de expertos señala que esta IA creó una base de datos falsa pero lo suficientemente convincente para pasar análisis.

Inteligencia artificial aplicada en la medicina
La capacidad de inventar datos de la inteligencia artificial crea conflictos en la ciencia. FREEPIKFREEPIK

Una de las bases de los estudios científicos es que los resultados obtenidos puedan ser reproducidos por otros científicos. Otra es que la hipótesis se base en conocimientos científicos demostrados por estudios previos. Si estos pasos fallan, los resultados no serán fiables. El problema, ahora, llega de la mano de la inteligencia artificial, más precisamente desde la famosa (por diversos motivos) ChatGPT: sería capaz de crear información falsa para apoyar estudios científicos.

Un equipo de científicos, liderados por Andrea Taloni, ha utilizado la tecnología detrás del chatbot ChatGPT para crear un conjunto de datos de ensayos clínicos falsos para respaldar una afirmación científica no verificada. En un estudio publicado en JAMA Ophthalmology se utilizó GPT-4, la última versión del modelo de lenguaje, el equipo de Taloni utilizó datos generados por IA para comparar los resultados de dos procedimientos quirúrgicos. Los resultados indicaron (erróneamente) que un tratamiento era mejor que el otro.

“Nuestro objetivo era resaltar que, en unos minutos, se puede crear un conjunto de datos que no está respaldado por datos originales reales y que también es opuesto o en la dirección contraria a la evidencia disponible”, señalan los autores.

La capacidad de la IA para fabricar datos convincentes aumenta la preocupación entre los investigadores y editores de revistas científicas sobre la integridad de la investigación. "Una cosa era que la IA generativa pudiera usarse para generar textos que no serían detectables mediante software de plagio, pero la capacidad de crear conjuntos de datos falsos, pero realistas es el siguiente nivel de preocupación – explica Elisabeth Bik, microbióloga e investigadora independiente -. Hará que sea muy fácil para cualquier investigador o grupo de investigadores crear mediciones falsas en pacientes inexistentes, respuestas falsas a cuestionarios o generar un gran conjunto de datos sobre experimentos con animales".

Los autores describen los resultados como una "base de datos aparentemente auténtica". Pero cuando los examinaron especialistas, los datos no pasaron los controles de autenticidad y contenían signos reveladores de haber sido inventados.

Los datos generados por IA incluyeron a 160 participantes masculinos y 140 femeninos e indicaron que aquellos que se sometieron a una de las intervenciones sugeridas, obtuvieron mejores puntuaciones tanto en la visión como en la prueba de imágenes que aquellos que se sometieron a la segunda opción de tratamiento. El problema es que los ensayos clínicos genuinos muestran exactamente lo contrario de acuerdo con un estudio publicado en 2010.

Una vez publicado el estudio, la revista Nature pidió a Jack Wilkinson, bioestadístico de la Universidad de Manchester, Reino Unido, una evaluación del conjunto de datos falsos mediante un protocolo de detección diseñado para comprobar su autenticidad.

Esto reveló una discrepancia en muchos "participantes" entre el sexo designado y el sexo que normalmente se esperaría de su nombre. Además, no se encontró correlación entre las medidas preoperatorias y posoperatorias de la capacidad visual y la prueba de imágenes oculares. El equipo de Wilkinson también inspeccionó la distribución de números en algunas de las columnas del conjunto de datos para comprobar si había patrones no aleatorios. Los valores de las imágenes oculares pasaron esta prueba, pero algunos de los valores de edad de los participantes se agruparon de una manera que sería extremadamente inusual en un conjunto de datos genuino: hubo un número desproporcionado de participantes cuyos valores de edad terminaron en 7 u 8.

Los autores del estudio reconocen que su conjunto de datos tiene fallos que podrían detectarse con un examen minucioso. Sin embargo, señala el estudio, “si se mira muy rápidamente el conjunto de datos, es difícil reconocer el origen no humano de la fuente de datos”.

Bernd Pulverer, editor jefe de EMBO Reports, coincide en que esto es motivo de preocupación. "En realidad, la revisión por pares a menudo no llega a un reanálisis completo de los datos y es poco probable que detecte violaciones de integridad bien diseñadas utilizando la IA. Las publicaciones necesitarán actualizar los controles de calidad para identificar los datos generados por la IA”.

Sin embargo, para Wilkinson es una muy buena oportunidad. “De la misma manera que la IA podría ser parte del problema- concluye este experto-, podría haber soluciones basadas en IA para detectarlas. Es posible que podamos automatizar algunos de estos controles”.