Inteligencia artificial

OpenAI lanza una nueva IA multimodal que ya puedes usar gratis en ChatGPT: GPT-4o Mini

La compañía está desplegando el nuevo modelo de lenguaje que sustituye a GPT-3.5 en el chatbot

OpenAI lanza una nueva IA multimodal que ya puedes usar gratis en ChatGPT: GPT-4o Mini.
OpenAI lanza una nueva IA multimodal que ya puedes usar gratis en ChatGPT: GPT-4o Mini.Alfredo Biurrun / DALL-E.

OpenAI ha comenzado este jueves el despliegue global de un nuevo modelo de lenguaje que se podrá usar a través de ChatGPT y sustituye a GPT-3.5 en el chatbot, el único con el que contaba cuando fue lanzado en noviembre de 2022 y al que posteriormente se añadieron GPT-4 y GPT-4o. GPT-4o Mini, el nuevo modelo, es multimodal al igual que su hermano mayor y puede interpretar tanto texto como imágenes, además de generarlas usando DALL-E. Es un modelo más ligero y económico para los desarrolladores y para la propia OpenAI y tiene como uno de sus objetivos facilitar su acceso a esta tecnología para que puedan utilizarla en sus aplicaciones a través de la API.

GPT-4o Mini es el primer modelo de la compañía en usar una técnica llamada 'jerarquía de instrucciones' que hace que una IA priorice determinadas instrucciones sobre otras. Según OpenAI, esto dificulta que se puedan realizar ataques de inyección de prompts u otras técnicas que subviertan las directrices del sistema.

GPT-4o Mini es gratuito para los usuarios de la versión estándar de ChatGPT y hoy se está desplegando para estos y los suscriptores de ChatGPT Plus y Team, mientras que a los de ChatGPT Enterprise llegará la próxima semana. GPT-3.5 ya no será una opción para los usuarios de ChatGPT, pero aún estará disponible para los desarrolladores a través de la API.

OpenAI ha señalado que es un modelo destinado a tareas simples que pueden ejecutarse a un costo menor que con los anteriores, pero que ofrece unos resultados superiores a GPT-3.5. En la Prueba de Comprensión Multitarea Masiva del Lenguaje, MMLU por sus siglas en inglés, GPT-4o Mini logró una puntuación del 82 por ciento. En esta prueba, GPT-3.5 sacó un 70%, GPT-4o un 88,7% y, de acuerdo con Google, Gemini Ultra ha obtenido la puntuación más alta de la historia con un 90%. MMLU es un examen de referencia para evaluar las capacidades de una IA que consta de unas 16.000 preguntas de opción múltiple en 57 materias académicas, pero no es una prueba que reciba una verificación por parte de terceros.

OpenAI no es la primera compañía en lanzar una versión más pequeña de un modelo de lenguaje ya existente. Es una práctica común en la industria de IA por parte de empresas como Meta, Google y Anthropic. Estos modelos de lenguaje, también más económicos, suelen estar dirigidos a los usuarios de API , siglas en inglés de Interfaz de Programación de aplicaciones, que pagan un precio fijo por token de entrada y salida para usar los modelos en sus propias aplicaciones. En este caso, ofrecer GPT-4o Mini de forma gratuita como parte de ChatGPT también ahorrará dinero a OpenAI.

El jefe de producto de API de OpenAI, Olivier Godement, ha señalado a Bloomberg que 'en nuestra misión de habilitar la vanguardia, de construir las aplicaciones más poderosas y útiles, por supuesto queremos seguir haciendo los modelos de frontera, empujando los límites aquí. Pero también queremos tener los mejores modelos pequeños disponibles'.

Los modelos de lenguaje grandes, LLMs por sus siglas en inglés, más pequeños suelen tener menos parámetros que los más grandes. Esto significa que un LLM tiene una red neuronal más pequeña, lo que limita la capacidad de un modelo de IA para comprender el contexto. Los modelos más grandes son más potentes, pero menos parámetros también significa menos cálculos requeridos para ejecutar el modelo y es lo que permite que, por ejemplo, Gemini Nano y no Gemini Pro o Gemini Ultra pueda ejecutarse localmente en un Pixel 8.

El objetivo de OpenAI con GPT-4o Mini es ahorrar costes y proporcionar algo ligero y económico para que los desarrolladores creen aplicaciones y herramientas que no pueden permitirse con un modelo más grande y caro de usar como GPT-4. Su uso es un 60% más barato que el de GPT-3.5 Turbo, la última iteración de ese modelo, y soportará en el futuro interpretar y generar audio y vídeo.