
Tecnología
El nuevo generador de imágenes de ChatGPT resuelve uno de los mayores problemas de las IA texto a imagen
GPT-4o deja de depender de DALL-E 3 para la creación de imágenes e incorpora esta capacidad de forma nativa

OpenAI ha actualizado ChatGPT con un nuevo generador de imágenes con capacidades mejoradas sobre DALL-E 3 y nativo en el modelo de lenguaje GPT-4o, en lugar de ser otro LLM al que recurre para crearlas. Lo más llamativo es que soluciona, o al menos mejora notablemente, dos de las limitaciones habituales en las IA generativas: la correlación entre diferentes objetos y la representación de texto.
En el mercado abundan los modelos de texto a imagen capaces de crearlas, generalmente más equiparables a ilustraciones que a lo que entendemos por fotografías, con resultados notables. Sin embargo, todos ellos presentan dificultades al generar imágenes que incluyan texto, logotipos y otros elementos comunes en la vida cotidiana.
OpenAI afirma que la nueva generación de imágenes con GPT-4o soluciona estas limitaciones, ya que puede renderizar texto con precisión y seguir los prompts del usuario de manera más precisa gracias al aprovechamiento de su base de conocimientos y el contexto del chat. Además, este nuevo modelo permite modificar imágenes subidas por el usuario o crear nuevas utilizando una que cargue como inspiración inicial.

El otro aspecto en el que destaca la función Crear una imagen es en la correlación o vinculación entre múltiples elementos en una imagen. Según ha señalado la portavoz de OpenAI, Taya Christianson, a The Verge, la mayoría de modelos sufren cuando se les pide crear específicamente una serie de objetos en una imagen, liándose con colores y formas a partir de 5 u 8. GPT-4o ahora puede mantener la correlación de atributos con hasta 15 o 20 objetos, sin confundirse.

Este modelo de generación de imágenes GPT-4o ya se está implementando para todos los usuarios de ChatGPT Plus, Pro, Team y próximamente los de cuentas Free. En este último caso, el límite de uso será el mismo que con DALL-E, unas 3 imágenes al día, dependiendo también de la demanda.
Así, GPT-4o se convierte en el generador de imágenes predeterminado en ChatGPT, en lugar de DALL-E 3, permitiendo personalizar las imágenes especificando la relación de aspecto, los colores exactos mediante códigos hexadecimales o un fondo transparente. OpenAI también planea llevar este nuevo modelo a los usuarios de ChatGPT Enterprise y Edu en las próximas semanas.
El nuevo modelo también está disponible en Sora para la creación de imágenes y a través de la herramienta dedicada DALL-E GPT. Para los desarrolladores, la generación de imágenes mediante la API de GPT-4o se implementará en las próximas semanas.
Las limitaciones de ChatGPT creando imágenes
No es una limitación realmente, pero el tiempo de procesamiento, dado que crea imágenes más detalladas, puede alargarse hasta un minuto. Las limitaciones que sí ha identificado OpenAI y planea corregir en los próximos meses son:
- Puede recortar de forma excesiva imágenes largas, como carteles, especialmente en la parte inferior.
- La generación de imágenes puede inventar información, especialmente usando prompts de bajo contexto.
- Cuando se generan imágenes basadas en su base de conocimientos, puede tener dificultades para representar más de 10-20 conceptos distintos a la vez, como una tabla periódica completa.
- A veces presenta problemas al renderizar idiomas no latinos, mostrando caracteres incorrectos o inventados, especialmente en los casos de mayor complejidad.
- Las solicitudes para editar partes específicas de una imagen, como corregir errores tipográficos, no siempre son efectivas y pueden modificar otras áreas no deseadas o introducir nuevos errores.
- El modelo tiene dificultades para representar información detallada en tamaños muy pequeños.
Todas las imágenes generadas con este nuevo modelo incluirán metadatos C2PA y la herramienta interna de OpenAI podrá verificar si una imagen fue generada utilizando este modelo.
✕
Accede a tu cuenta para comentar