¡Acceso ilimitado 24/7 a todos nuestros libros y vídeos! Descubra la Biblioteca Online ENI. Pulse aquí
¡Acceso ilimitado 24/7 a todos nuestros libros y vídeos! Descubra la Biblioteca Online ENI. Pulse aquí
  1. Libros
  2. La inteligencia artificial explicada
  3. DALL
Extrait - La inteligencia artificial explicada De los conceptos básicos a las aplicaciones avanzadas de IA
Extractos del libro
La inteligencia artificial explicada De los conceptos básicos a las aplicaciones avanzadas de IA Volver a la página de compra del libro

DALL-E: aprovechar la creatividad de la IA

Introducción

La inteligencia artificial no se limita a las tareas cotidianas; también puede ser fuente de inspiración para estimular nuestra creatividad. Un ejemplo fascinante es el uso de DALL-E 3, un modelo de inteligencia artificial generativa desarrollado por OpenAI.

DALL-E es un modelo de IA basado en el aprendizaje automático y las redes neuronales. Es capaz de crear imágenes realistas a partir de descripciones de texto, siguiendo un proceso de dos pasos. En primer lugar, utiliza un codificador para traducir la descripción del texto en un vector latente. A continuación, utiliza un descodificador para generar una imagen correspondiente al vector latente.

Este modelo se entrena previamente con una gran cantidad de datos que contienen pares de imágenes y descripciones de texto. Gracias a este entrenamiento, DALL-E puede entender las relaciones entre imágenes y descripciones, lo que le permite generar imágenes realistas basadas en nuevas descripciones de texto.

La misión de DALL-E es sencilla: generar imágenes a partir de descripciones de texto. Esto significa que puede tomar una descripción de texto y transformarla en la imagen correspondiente. OpenAI ofrece DALL-E 3 con cuatro características principales:

  • Generar imágenes a partir de búsquedas de texto: sólo tiene que escribir una descripción de texto de lo que tiene en mente y DALL-E generará...

Introducción a DALL-E

DALL-E es muy práctico de utilizar: usted describe lo que desea en forma de texto y DALL-E le devuelve una imagen.

Así de sencillo y casi podríamos terminar el capítulo en este punto. Pero sigamos, puede parecerle sorprendente, pero vamos a poder pedirle a DALL-E casi cualquier cosa como, por ejemplo: "un elefante con un vestido rosa" o "un dinosaurio con sombrero"... ya lo verá, volveremos sobre esto más adelante.

A continuación, y éste es el verdadero valor añadido de este capítulo, aprenderá a jugar con los detalles de los atributos u otras perspectivas en la descripción textual. Estamos absolutamente convencidos de que DALL-E le satisfará. Ahora es el momento de ponerse creativo. Podrá generar un gran número de imágenes correspondientes a la descripción textual, entre las que, como extra, podrá elegir la que más le convenga. Para lograr esta hazaña, nuestra inteligencia artificial se basa en un modelo lingüístico preentrenado llamado "GPT-3". GPT-3 se utiliza aquí como codificador, utilizando el algoritmo contenido en las palabras para traducirlas a una representación vectorial. A continuación, utiliza un descodificador basado en una red generativa Antagonista (GAN, Generative Adversarial Network) para transformar esta representación...

Costes de DALL-E 3

Pasemos a los costes de utilizar nuestra IA generativa. Seguramente se estará haciendo la siguiente pregunta: ¿DALL-E 3 es gratis? La respuesta es no, bueno no del todo, porque la historia ha seguido su curso.

El uso de DALL-E 3 es totalmente gratuito a través de los servicios de Microsoft. Su uso se basa en un sistema de créditos, lo que significa que una cuenta activa de Microsoft dispone de 100 créditos básicos de DALL-E cuando se crea, y puede tardar más en generar nuevas imágenes una vez agotado este cupo. Sin embargo, sigue siendo posible comprar créditos gastando el bonus que concede Microsoft cuando utiliza el navegador Microsoft Bing.

Hasta julio de 2022, el uso de DALL-E era completamente gratuito. Sin embargo, en vista de la popularidad del servicio y de los enormes costes operativos asociados, DALL-E cambió a un modelo basado en créditos, con una oferta de 15 dólares por 115 créditos.

Para que se haga una idea, los 115 créditos corresponden aproximadamente a 750 imágenes generadas con una resolución de 1024*1024 o a 937 imágenes con una resolución de 256*256.

images/07RI36.png

Precios DALL-E 3

Descubra DALL-E

Vayamos al grano. ¿Recuerda a nuestro elefante con un vestido rosa? Bueno, le pedimos a DALL-E que nos generara esta imagen a partir de su mensaje:

images/cap7_pag8.png

Elefante rosa con DALL-E

Como recordatorio, el prompt es una instrucción o descripción de texto que usted proporciona al modelo DALL-E para que genere la imagen correspondiente. Puede ser una frase, un párrafo o incluso unas pocas palabras. La idea es describir en texto lo que quiere ver en la imagen, y DALL-E creará una ilustración basada en esta descripción.

Sigamos con un dinosaurio con sombrero:

images/cap7_pag10.png

Un dinosaurio de DALL-E

Es importante señalar que DALL-E nunca generará el mismo dibujo dos veces y que soporta bastante bien el idioma castellano. Sin embargo, para usos más avanzados que impliquen, por ejemplo, la adición de una gran cantidad de detalles, es aconsejable utilizar el inglés como elemento lingüístico básico.

Como puede ver, la IA ha sido capaz de generar estas imágenes en fracciones de segundo; DALL-E ofrece cuatro de ellas sistemáticamente, así que le toca a usted elegir.

Aprender a hablar con DALL-E

Imaginamos que a estas alturas ya le habrá salido la vena creativa. Aquí le llevamos a la siguiente fase, en la que el tema se vuelve especialmente divertido e interesante, es decir, cuando aprende a hablar al prompt.

El sitio web https://www.41prompts.com/ está repleto de ejemplos (DALL-E Prompts: Popular AI Art Prompts - DALL-E Wizard), cada uno tan espectacular como el siguiente y de palabras clave que le ayudarán a hacer fluir su creatividad. El sitio ofrece las siguientes posibilidades:

  • Búsqueda de imágenes generadas anteriormente por tus predecesores (Galería). 

images/07RI07.png

DALL-E Wizard

Teniendo en cuenta los ejemplos generados anteriormente, ya sea con elefantes rosas u otros dinosaurios, aquí tiene algunos ejemplos de cómo utilizar el prompt, que puede combinar como desee:

images/cap7_pag11.png

Utilización de la bioluminiscencia

images/cap7_pag13.png

Utilización de 3D

images/cap7_pag13_b.png

Black Background

images/cap7_pag14.png

Modern Minimalist

images/cap7_pag14_b.png

Cyberpunk

images/cap7_pag15.png

3D Hologram

Para obtener una lista completa de posibles comandos o prompts, le recomendamos que consulte la documentación oficial de DALL-E en el sitio web de OpenAI.

1. Eliminar y sustituir un elemento con DALL-E

Ah, Vietnam, ese magnífico país del Sudeste Asiático que ofrece una magnífica oportunidad para hablar de vacaciones. Hoi-An es una preciosa ciudad vietnamita, considerada la capital de los farolillos y Patrimonio de la Humanidad por la UNESCO.

Se hacen muchas fotos...

Cómo funciona DALL-E

DALL-E es un modelo de inteligencia artificial perteneciente a la familia GAN (Generative Adversarial Networks), especializado en la generación de imágenes a partir de descripciones textuales.

1. ¿Qué es un GAN?

Para entender cómo funciona DALL-E, nos gustaría echar un breve vistazo al concepto de "descodificador basado en una red generativa antagonista (GAN)", que se mencionó en el capítulo de Fundamentos de la Inteligencia Artificial. 

¿Qué es un GAN? Se trata de una clase de algoritmo en el que los datos no están etiquetados (clase de algoritmo no supervisado). Se utiliza para crear datos realistas y de alta calidad en una amplia gama de campos, como imágenes, texto y música.

Nuestro modelo GAN, o red generativa antagonista, es una técnica de inteligencia artificial que enfrenta a dos redes neuronales en un marco matemático basado en la teoría de juegos.

En esta configuración, la primera red neuronal se denomina "generador" y tiene la capacidad de crear una muestra (por ejemplo, una imagen).

La segunda red, denominada "discriminador", actúa como adversario o maestro, desempeñando el papel de juez. Su función principal es determinar si la muestra generada por el generador es auténtica o el resultado de la creación del generador. En otras palabras...

Acceso a DALL-E desde su programa Python

En capítulos anteriores hemos visto cómo crear, o incluso modificar, imágenes con DALL-E, con sólo unos clics del ratón.

Quizás ahora le gustaría ir más allá y, por qué no, crear su propia aplicación de IA generativa accediendo a las muchas funcionalidades que ofrece OpenAI con su recién creada aplicación en Python.

En primer lugar, debe saber que esto es totalmente posible gracias a las "APIs", es decir, los famosos conectores ofrecidos por OpenAI que permiten esta interacción. 

Asegúrese de que tiene el IDE PyCharm y Python 3.7 o posterior instalado en su máquina (ver el capítulo Su primer programa en Python, si aún no ha instalado Python).

1. Etapa 1: Obtener acceso al API

 Visite el sitio web de OpenAI en https://platform.openai.com.

 Inicie sesión con los datos de acceso que creó al principio del capítulo.

 Aparecerá un menú desplegable debajo de tu avatar, en la parte superior derecha de la pantalla, que le permitirá ver su APIKEY:

images/07RI025NEW.png

OpenAI platform

 Aparecerá una pantalla similar a la siguiente, en la que podrá generar su nueva y exclusiva clave de acceso:

images/07RI26.png

Pantalla API KEY

 Dele un nombre, en realidad no importa, siempre que lo conserve con cuidado (sólo evite los caracteres acentuados y otros caracteres...

Uso de DALL-E

 Simplemente copie este código en su IDE PyCharm.

No olvide sustituir sk-… por su clave secreta de API.

La sección "texto" se debe sustituir por el texto de su elección.

import openai  
openai.api_key = "sk-..." # Sustituya esto por su clave secreta  
  
import torch  
from dalle_pytorch import DiscreteVAE, DALLE  
  
# Carga del modelo pre-entrenado  
vae = DiscreteVAE()  
dalle = DALLE(vae)  
  
# Descripción textual de la imagen a generar  
texto = "Un bonito elefante rosa con calcetines a rayas."  
  
# Generación de la imagen  
imagen = dalle.generate_images(texto)  
  
# Visualización de la imagen generada  
image.show() 

 Compilar para obtener el resultado:

images/07RI025NEW-Elephant2.png

Compilación

Ahora puede utilizar este sencillo ejemplo de código Python para imaginar todo tipo de aplicaciones. De rienda suelta a su creatividad.

¿Cuáles son las prohibiciones de DALL-E 3?

Ahora que ya ha explorado el potencial de DALL-E, es igual de importante considerar las posibles trampas de esta tecnología. En una época en la que la información se difunde a la velocidad de la luz gracias a las redes sociales, la idea de generar imágenes cercanas a la realidad que contengan información falsa (fake news) o transmitan ideologías propagandísticas, puede ser preocupante.

Sin embargo, es importante señalar que OpenAI ha tomado medidas rigurosas para minimizar estos riesgos. La empresa se ha esforzado por establecer normas estrictas para evitar el sesgo y la toxicidad en las imágenes generadas por DALL-E 3. Con el tiempo, se han introducido numerosas mejoras para reflejar mejor la diversidad de la población en las imágenes, por ejemplo, evitando especificar el sexo o la etnia en las descripciones de texto.

Es esencial entender que el producto que ofrece OpenAI no permite, en modo alguno, la creación de contenidos ofensivos, violentos, que inciten al odio, discriminatorios, sexuales, explícitos, autodestructivos o abusivos.

OpenAI utiliza varios métodos para detectar e impedir la creación de contenidos que infrinjan estas prohibiciones, entre los que se incluyen los siguientes: 

  • Filtrado de solicitudes de texto: OpenAI utiliza una lista de palabras y frases prohibidas para filtrar las descripciones...

Competidores de DALL-E

La llegada de DALL-E 3 marcó un hito innegable en el campo de la inteligencia artificial creativa. Sin embargo, no está sola en este mundo en constante evolución. Muchos otros actores han entrado en la carrera por desarrollar modelos competidores y complementarios, aportando cada uno sus propias perspectivas e innovaciones. En esta sección, exploramos algunos de los competidores más prometedores de DALL-E 3, destacando sus características distintivas y su influencia en la popularización de la IA:

  • Midjourney: es otro generador de imágenes basado en IA que comparte muchas similitudes con DALL-E 3. Destaca en la creación de imágenes realistas y creativas a partir de descripciones de texto.

  • InstructGPT: es un generador de imágenes basado en IA especializado en crear imágenes siguiendo instrucciones paso a paso. Se puede utilizar para crear tutoriales, recetas o instrucciones de montaje.

  • Imagen: es un generador de imágenes desarrollado por Google AI, famoso por su capacidad para producir imágenes fotorrealistas, incluso a partir de descripciones de texto complejas.

  • NightCafe: es una plataforma que reúne varios generadores de imágenes basados en IA, entre ellos DALL-E 3. Esta plataforma permite a los usuarios elegir el generador que mejor se adapte a su tarea específica.

  • Artbreeder: está especializado en la creación de retratos...

Conclusión

Al explorar el mundo creativo de DALL-E 3, hicimos un viaje al corazón de la inteligencia artificial creativa. Descubrimos cómo esta innovadora tecnología puede transformar descripciones de texto en imágenes impresionantes, abriendo nuevas vías a la creatividad y la expresión artística. A través de este capítulo, pudimos comprender los fundamentos de su funcionamiento, su impacto potencial en diversos campos y los límites que puede encontrar.

La llegada de DALL-E 3 es sólo el principio de una apasionante era en la que la inteligencia artificial y la creatividad humana se unen para crear algo verdaderamente único. Artistas, diseñadores, educadores y entusiastas de todo el mundo pueden ahora aprovechar esta tecnología para dar vida a sus ideas y explorar nuevas formas de expresión.

Aunque DALL-E 3 ya ha demostrado su destreza en la generación de imágenes, es importante tener en cuenta que la IA no es una solución mágica que sustituya a la creatividad humana. Al contrario, puede ser una poderosa herramienta para inspirar, apoyar y amplificar nuestra propia imaginación. Como un pincel o un instrumento musical, DALL-E 3 puede ayudar a transformar conceptos en realidades visuales, preservando al mismo tiempo la esencia única de lo que los humanos pueden aportar.

Al pasar la última página de este capítulo...