Dall-E Review: Saiba mais sobre a popular ferramenta de geração de imagem AI

Se você assinar um serviço de um link nesta página, a Reeves and Sons Limited pode ganhar uma comissão. Veja nosso Declaração de ética.

Dall-E é um programa de inteligência artificial (IA) que gera imagens com base em prompts de texto. Isso significa que tudo o que você precisa para produzir imagens de alta qualidade por meio de IA é fornecer ao Dall-E instruções claras em linguagem natural.

No momento da redação deste artigo, a ferramenta baseada em IA opera na forma de De E 2, que é a versão mais recente do programa. O Dall-E 2 está disponível comercialmente por meio de seu desenvolvedor OpenAI, que oferece o programa por meio de sua interface web, bem como sua interface de programação de aplicativos (API).

Para aprender o que é Dall-E e como ele funciona, aqui está um guia rápido para este programa de geração de imagens de última geração.

Pontos chave

  • O Dall-E é uma ferramenta de geração de imagens baseada em IA que produz imagens por meio de instruções de texto.
  • Dall-E usa aprendizado profundo para assimilar prompts de texto, bem como dicas visuais, e transforma o material visual relacionado em imagens coerentes.
  • O Dall-E também oferece um editor de imagens para aprimorar as imagens existentes por meio de recursos de edição baseados em IA.
  • O Dall-E está disponível como uma interface gráfica do usuário (GUI) e uma API.
  • Você mantém os direitos de propriedade completos de todas as imagens geradas por meio do Dall-E.

Como você gera imagens de IA por meio de texto?

dalle imagem de texto

O Dall-E é uma ferramenta de geração de imagens que funciona via IA para assimilar instruções de texto e transformá-las em imagens originais. Para conseguir essa façanha, Dall-E usa aprendizado profundo para entender um extenso conjunto de imagens e referências.

Quando recebe um prompt de texto, Dall-E usa seu treinamento desses conjuntos de dados para produzir imagens que correspondam às instruções fornecidas. Isso possibilita que qualquer pessoa use IA para geração de imagens, sem ter que usar codificação extensiva ou instruções técnicas.

Essa funcionalidade é uma das muitas razões pelas quais o Dall-E se tornou tão popular desde sua estreia em 2020. Em sua última iteração, Dall-E 2, o programa também oferece recursos adicionais. Isso inclui a opção de editar imagens existentes adicionando novos elementos visuais ou a capacidade de expandir a tela criando visuais relacionados para uma imagem original.

Para usar o Dall-E 2, você pode acessar o site da OpenAI e usar a ferramenta por meio da GUI baseada na web. Mesmo que você nunca tenha usado um programa de IA antes, a interface simples facilita a entrada do prompt de texto e a obtenção das imagens desejadas.

A interface de edição que foi revelada no final de 2022 funciona com a mesma abordagem de simplicidade. Com uma ferramenta de borracha fácil de usar, você pode remover as partes da imagem que deseja editar ou aprimorar com o Dall-E. A partir daí, você pode adicionar prompts de texto para adicionar novos elementos à sua imagem.

Você também pode usar a ferramenta “Generation Frame” para estender a tela e o tamanho de uma imagem existente. Você pode adicionar esse quadro de geração na parte superior, inferior ou em qualquer um dos lados. Você também pode ajustar o tamanho deste quadro. Depois de definir o quadro de geração e fornecer uma solicitação a Dall-E, você poderá ver sua imagem se estender até o tamanho desejado, mantendo-se alinhada com o restante de seus recursos visuais, tema e estilo de arte.

redesenho de imagem dalle

Esta rápida introdução permite que você entenda o que é o Dall-E e como operá-lo. Mas se você tiver mais dúvidas sobre como exatamente a ferramenta faz sua mágica, você pode prosseguir com a compreensão da mecânica por trás dela.

Dall-E usa várias técnicas baseadas em IA para aprimorar suas proezas visuais

Embora Dall-E seja incrivelmente hábil em identificar imagens e replicar seu estilo, a proficiência não nasceu do nada. Em vez disso, o Dall-E AI foi treinado usando uma rede neural que combina referências visuais com supervisão de linguagem natural.

Essa rede neural emprega aprendizado profundo, que é um subconjunto de IA que processa grandes conjuntos de dados para aprender sobre o assunto em questão. Com ele, o aprendizado profundo por meio de redes neurais também pode categorizar diferentes padrões e identificar a relação entre vários segmentos de dados.

A rede neural usada para o treinamento Dall-E é chamada CLIP (Pré-treinamento Linguagem-Imagem Contrastiva). O CLIP usa uma configuração de aprendizado zero-shot (ZSL), que permite avaliar amostras visuais e referências de texto, mesmo que não os tenha encontrado antes. Isso é possível por meio dos extensos conjuntos de dados nos quais o CLIP foi treinado para corresponder a um conjunto deformatião com o outro.

Para aprender essas referências visuais e de texto, Dall-E foi treinado em nada menos que 12 bilhões de parâmetros. Esses parâmetros rotulam imagens diferentes com uma referência de texto e permitem que Dall-E entenda o que se espera dela quando um usuário solicita que uma imagem específica seja gerada. Além de permitir a geração de imagens para conceitos diretos, esse recurso também brilha em conceitos abstratos, como desenhar personagens antropomórficos a partir de objetos inanimados.

É aqui que o modelo de IA do Dall-E se aproxima de outro produto de seu desenvolvedor OpenAI. Esta correspondência vem na forma de transformador pré-treinado generativo 3 (GPT-3). Enquanto o GPT-3 gera texto prevendo qual deve ser a próxima palavra no texto que está gerando, o Dall-E produz imagens determinando como deve criar uma imagem completa de acordo com os elementos que gera em uma série.

Depois de entender o que é Dall-E, você pode ver como essa abordagem faz maravilhas para a geração de imagens de alta qualidade a partir do zero. Com ele, também fica claro como o programa cria imagens estendidas e edita imagens existentes.

Ao usar sua impressionante seleção de parâmetros, rede neural projetada propositadamente e GUI intuitiva, o Dall-E torna mais fácil para todos se beneficiarem da tecnologia de IA generativa em rápida evolução para produção de imagens.

Revisão do Dall-E: Quanto custa o Dall-E?

Laje está disponível por meio de seu desenvolvedor OpenAI, que oferece créditos em troca de um preço definido. Cada crédito equivale a uma única solicitação de geração de imagem.

Isso significa que você usará um único crédito para produzir uma imagem a partir de um prompt de texto, editar uma imagem existente para fazer modificações ou estender a tela para uma imagem existente. Cada solicitação de geração de imagem também fornece quatro variações. Mas se você solicitar mais variações, custará um crédito por solicitação.

No momento da redação deste artigo, o Dall-E está disponível ao preço de 115 créditos por US$ 15. Os créditos que você compra expiram em 12 meses. Você pode usar esses créditos na interface da Web ou por meio da API Dall-E.

No geral, o plano de preços da Dall-E é mais caro do que seus concorrentes mais próximos, Meio da jornada e Difusão Estável. No momento da redação deste artigo, o preço do Midjourney começa em US$ 10 para 200 solicitações de geração de imagens. Ele também oferece um plano de $ 30 para solicitações ilimitadas de geração de usuários. Considerando que, Stable Diffusion cobra $ 100 por 100 créditos de imagem.

Mas, dado que a IA da Dall-E é mais treinada e oferece ferramentas de extensão de imagem que Midjourney e Stable Diffusion não possuem, ela tem motivos suficientes para precificar seu produto em um nível mais alto. Além disso, o Midjourney requer que você acesse o programa através do Discord. Visto que o Dall-E está disponível por meio de sua própria GUI da Web e também da API.

Depois de aprender o que é Dall-E e que tipo de taxas ele traz para a mesa, fica mais fácil para você determinar se deve ou não pagar por seus serviços. Enquanto faz isso, você pode se inscrever para a solução de qualquer maneira e obter 50 créditos grátis imediatamente. Depois, você pode obter 15 créditos gratuitos por mês. No entanto, esses créditos gratuitos expiram em um mês, ao contrário da data de vencimento de um ano dos créditos pagos.

Dall-E prós e contras

O Dall-E 2, lançado em abril de 2022, tem mais recursos do que seu antecessor. Usando as imagens e referências de sua rede neural, o programa pode gerar imagens impressionantes que se ajustam ao seu prompt com mais frequência do que não. Além disso, seus recursos intuitivos de GUI e API facilitam a produção de imagens sem a necessidade de usar ferramentas complicadas de edição de imagens.

Com isso dito, Dall-E ainda está passando por sua fase de infância, onde você não pode esperar perfeição em cada uma de suas imagens geradas. Embora o programa faça o possível para preencher os espaços em branco proverbiais ou literais por meio das imagens que gera, ele ainda tem suas limitações por ser tão bom quanto os dados nos quais está sendo treinado.

Por exemplo, se você der a Dall-E um prompt sem precedentes em sua rede neural, ele gerará a imagem mais próxima possível do seu prompt, que pode ou não se encaixar em suas instruções em sua linguagem natural. Por exemplo, pense em dar ao programa a instrução de gerar “lago dos cisnes no palco”. Poderia muito bem se referir ao balé popular ou a um lago literal com cisnes colocados em um palco.

Ao gerar imagens fotorrealistas, você também pode notar um problema contínuo com a representação de rostos, mãos, pés e outros detalhes anatômicos. Às vezes, a IA gera recursos que não existem em termos de precisão visual ou realismo. Mas esse é um problema que também existe em outras ferramentas de IA.

Dall-E vale a pena?

Se você gosta de fazer parte da nova tecnologia, brincar com recursos divertidos e tolerar pequenos problemas funcionais em nome do progresso, o Dall-E pode valer seu tempo e dinheiro. Isso é especialmente verdadeiro se você entender com o que Dall-E está trabalhando em termos de limitações e não se sentir frustrado quando tiver que enfrentar esses desafios em primeira mão.

Mas é aí que você tem uma opção favorável na forma de créditos gratuitos de Dall-E. Para ter certeza de que está satisfeito com o programa antes de pagar por ele, você pode se inscrever na plataforma e experimentá-la por meio de créditos gratuitos. Se você está satisfeito com o desempenho do Dall-E, pode se inscrever para os créditos pagos que ele oferece por meio da plataforma da OpenAI.

Sérgio Costa (PhD)

Sergio ensina empreendedorismo e inovação em vários níveis (BSc, MSc, MBA, PhD) principalmente na University of Bath, Imperial College London, Warwick Business School. Ele publicou pesquisas no Journal of Business Venturing e em importantes conferências de gerenciamento (AOM, SMS, Babson, BAM).

Comentários Respostas 0

Deixe um comentário

O seu endereço de e-mail não será publicado. Os campos obrigatórios são marcados com *

NOTA *

Este site usa o Akismet para reduzir o spam. Saiba como seus dados de comentário são processados.