Revisión de Dall-E: Obtenga más información sobre la popular herramienta de generación de imágenes de IA

Si se suscribe a un servicio desde un enlace en esta página, Reeves and Sons Limited puede ganar una comisión. Vea nuestro Declaración de Ética.

Dall-E es un programa de inteligencia artificial (AI) que genera imágenes basadas en indicaciones de texto. Esto significa que todo lo que necesita para producir imágenes de alta calidad a través de IA es proporcionar a Dall-E instrucciones claras en lenguaje natural.

En el momento de escribir este artículo, la herramienta basada en IA funciona en forma de Desde E 2, que es la última versión del programa. Dall-E 2 está disponible comercialmente a través de su desarrollador OpenAI, que ofrece el programa a través de su interfaz web, así como su interfaz de programación de aplicaciones (API).

Para aprender qué es Dall-E y cómo funciona, aquí hay una guía rápida de este programa de generación de imágenes de última generación.

Lista de verificación

  • Dall-E es una herramienta de generación de imágenes basada en IA que produce imágenes a través de instrucciones de texto.
  • Dall-E utiliza el aprendizaje profundo para asimilar las indicaciones de texto, así como las señales visuales, y convierte el material visual relacionado en imágenes coherentes.
  • Dall-E también ofrece un editor de imágenes para mejorar las imágenes existentes a través de capacidades de edición basadas en IA.
  • Dall-E está disponible como interfaz gráfica de usuario (GUI) y como API.
  • Usted conserva todos los derechos de propiedad de cualquier imagen que genere a través de Dall-E.

¿Cómo se generan imágenes de IA a través de texto?

dalle imagen de texto

Dall-E es una herramienta de generación de imágenes que funciona mediante IA para asimilar instrucciones de texto y convertirlas en imágenes originales. Para lograr esta hazaña, Dall-E utiliza el aprendizaje profundo para comprender un amplio conjunto de imágenes y referencias.

Cuando se le da un mensaje de texto, Dall-E usa su entrenamiento de esos conjuntos de datos para producir imágenes que coincidan con las instrucciones proporcionadas. Esto hace posible que cualquier persona use IA para la generación de imágenes, sin tener que usar una codificación extensa o instrucciones técnicas.

Esta funcionalidad es una de las muchas razones por las que Dall-E se ha vuelto tan popular desde su debut en 2020. En su última versión, Dall-E 2, el programa también ofrece capacidades adicionales. Estos incluyen la opción de editar imágenes existentes agregando nuevos elementos visuales o la capacidad de expandir el lienzo creando imágenes relacionadas para una imagen original.

Para usar Dall-E 2, puede dirigirse al sitio web de OpenAI y usar la herramienta a través de la GUI basada en la web. Incluso si nunca antes ha usado un programa de inteligencia artificial, la interfaz simple le facilita ingresar su mensaje de texto y obtener las imágenes deseadas a cambio.

La interfaz de edición que se presentó a fines de 2022 funciona con el mismo enfoque de simplicidad. Con una herramienta de borrado fácil de usar, puede eliminar las partes de su imagen que desea editar o mejorar con Dall-E. Desde allí, puede agregar indicaciones de texto para agregar nuevos elementos a su imagen.

También puede utilizar la herramienta "Marco de generación" para ampliar el lienzo y el tamaño de una imagen existente. Puede agregar este marco de generación hacia la parte superior, inferior o hacia cualquier lado. También puede ajustar el tamaño de este marco. Una vez que haya establecido el marco de generación y le haya dado un aviso a Dall-E, puede ver que su imagen se extiende al tamaño deseado mientras está en línea con el resto de sus imágenes, tema y estilo artístico.

rediseño de imagen de dalle

Esta breve introducción le permite comprender qué es Dall-E y cómo operarlo. Pero si tiene más preguntas sobre cómo exactamente la herramienta hace su magia, puede seguir adelante con la comprensión de la mecánica detrás de ella.

Dall-E utiliza varias técnicas basadas en IA para mejorar su destreza visual

Si bien Dall-E es increíblemente experto en identificar imágenes y replicar su estilo, la habilidad no surge de la nada. En cambio, la IA de Dall-E ha sido entrenada mediante el uso de una red neuronal que combina referencias visuales con supervisión del lenguaje natural.

Esta red neuronal emplea el aprendizaje profundo, que es un subconjunto de la IA que procesa grandes conjuntos de datos para aprender sobre el tema en cuestión. Con él, el aprendizaje profundo a través de redes neuronales también puede categorizar diferentes patrones e identificar la relación entre diferentes segmentos de datos.

La red neuronal que se utiliza para el entrenamiento de Dall-E se llama CLIP (Pre-entrenamiento Lenguaje-Imagen Contrastiva). CLIP utiliza una configuración de aprendizaje de disparo cero (ZSL), que le permite evaluar muestras visuales y referencias de texto incluso si no las ha encontrado antes. Esto es posible a través de los extensos conjuntos de datos en los que CLIP ha sido entrenado para hacer coincidir un conjunto de datos enformatión con el otro.

Para aprender estas referencias visuales y de texto, Dall-E ha sido entrenado en no menos de 12 mil millones de parámetros. Estos parámetros etiquetan diferentes imágenes con una referencia de texto y permiten que Dall-E comprenda qué se espera de ella cuando un usuario solicita que se genere una imagen específica. Además de permitir la generación de imágenes para conceptos sencillos, esta capacidad también brilla en conceptos abstractos, como dibujar personajes antropomórficos a partir de objetos inanimados.

Aquí es donde el modelo de IA de Dall-E se parece mucho a otro producto de su desarrollador OpenAI. Este partido viene en forma de Transformador Generativo Pre-entrenado 3 (GPT-3). Mientras que GPT-3 genera texto al predecir cuál debería ser la siguiente palabra en el texto que está generando, Dall-E produce imágenes al determinar cómo debe crear una imagen completa de acuerdo con los elementos que genera en una serie.

Una vez que comprenda qué es Dall-E, podrá ver cómo este enfoque funciona de maravilla para la generación de imágenes de alta calidad desde cero. Con él, también deja claro cómo el programa crea imágenes extendidas y edita imágenes existentes.

Mediante el uso de su impresionante selección de parámetros, red neuronal diseñada a propósito y GUI intuitiva, Dall-E facilita que todos se beneficien de la tecnología de IA generativa en rápida evolución para la producción de imágenes.

Revisión de Dall-E: ¿Cuánto cuesta Dall-E?

Losa está disponible a través de su desarrollador OpenAI, que ofrece créditos a cambio de un precio fijo. Cada crédito equivale a una sola solicitud de generación de imágenes.

Esto significa que utilizará un solo crédito para producir una imagen a partir de un mensaje de texto, editar una imagen existente para realizar modificaciones o ampliar el lienzo de una imagen existente. Cada solicitud de generación de imágenes también le proporciona cuatro variaciones. Pero si solicita más variaciones, cuesta un crédito por solicitud.

Al momento de escribir, Dall-E está disponible al precio de 115 créditos por $15. Los créditos que compras caducan en 12 meses. Puede utilizar estos créditos a través de la interfaz web o mediante la API de Dall-E.

En general, el plan de precios de Dall-E es más caro que el de sus competidores más cercanos, a mitad de camino y Difusión estable. En el momento de escribir este artículo, el precio de Midjourney comienza en $10 por 200 solicitudes de generación de imágenes. También ofrece un plan de $30 para solicitudes ilimitadas de generación de usuarios. Mientras que Stable Diffusion cobra $100 por 100 créditos de imagen.

Pero dado que la IA de Dall-E está más capacitada y ofrece herramientas de extensión de imágenes que Midjourney y Stable Diffusion no tienen, tiene motivos suficientes para fijar el precio de su producto en un nivel más alto. Además, Midjourney requiere que accedas al programa a través de Discord. Considerando que, Dall-E está disponible a través de su propia GUI web y API.

Después de aprender qué es Dall-E y qué tipo de tarifas ofrece, le será más fácil determinar si debe o no pagar por sus servicios. Mientras lo hace, puede suscribirse a la solución de todos modos y obtener 50 créditos gratis de inmediato. Posteriormente, puede obtener 15 créditos gratis cada mes. Sin embargo, estos créditos gratuitos caducan en un mes, a diferencia de la fecha de caducidad anual de los créditos pagados.

Pros y contras de Dall-E

Dall-E 2, que se presentó en abril de 2022, tiene más capacidades que su predecesor. Mediante el uso de imágenes y referencias de su red neuronal, el programa puede generar imágenes impresionantes que se ajustan a su solicitud la mayoría de las veces. Además, sus funciones intuitivas de GUI y API le facilitan la producción de imágenes sin tener que utilizar complicadas herramientas de edición de imágenes.

Dicho esto, Dall-E todavía está pasando por su fase de infancia en la que no puede esperar la perfección en cada una de sus imágenes generadas. Si bien el programa hace todo lo posible para llenar los espacios en blanco proverbiales o literales a través de las imágenes que genera, todavía tiene sus limitaciones debido a que solo es tan bueno como los datos en los que se está entrenando.

Por ejemplo, si le da a Dall-E un mensaje que no tiene precedentes en su red neuronal, generará la imagen más cercana posible a su mensaje que puede o no ajustarse a sus instrucciones en su lenguaje natural. Como ejemplo, piense en darle al programa la instrucción de generar "el lago de los cisnes en el escenario". Bien podría referirse al ballet popular oa un lago literal con cisnes colocados sobre un escenario.

Al generar imágenes fotorrealistas, también puede notar un problema continuo con la representación de caras, manos, pies y otros detalles anatómicos. A veces, la IA genera funciones que no están del todo presentes en términos de precisión visual o realismo. Pero este es un problema que existe en todos los ámbitos también para otras herramientas de IA.

¿Vale la pena Dall-E?

Si le gusta ser parte de la nueva tecnología, jugar con funciones divertidas y tolerar pequeños problemas funcionales en nombre del progreso, Dall-E podría valer su tiempo y dinero. Esto es especialmente cierto si comprende con qué trabaja Dall-E en términos de limitaciones y no se siente frustrado cuando tiene que enfrentar estos desafíos de primera mano.

Pero ahí es donde tienes una opción ventajosa en forma de créditos gratuitos de Dall-E. Para asegurarse de que está satisfecho con el programa antes de pagarlo, puede seguir adelante con el registro en la plataforma y probarlo a través de créditos gratuitos. Si está satisfecho con el rendimiento de Dall-E, puede suscribirse a los créditos de pago que ofrece a través de la plataforma de OpenAI.

Sergio Costa (Doctor)

Sergio enseña emprendimiento e innovación en varios niveles (BSc, MSc, MBA, PhD) principalmente en la Universidad de Bath, Imperial College London, Warwick Business School. Ha publicado investigaciones en el Journal of Business Venturing y en las principales conferencias de gestión (AOM, SMS, Babson, BAM).

Comentarios Comentarios 0

Deje un comentario

Su dirección de correo electrónico no será publicada. Las areas obligatorias están marcadas como requeridas *

Clasificación *

Este sitio usa Akismet para reducir el correo no deseado. Descubra cómo se procesan los datos de sus comentarios.