Dall-E는 텍스트 프롬프트를 기반으로 이미지를 생성하는 인공 지능(AI) 프로그램입니다. 즉, AI를 통해 고품질 이미지를 생성하려면 자연어로 명확한 지침을 Dall-E에 제공하기만 하면 됩니다.
작성 당시 AI 기반 도구는 다음과 같은 형태로 작동합니다. 달-이 2, 프로그램의 최신 버전입니다. Dall-E 2는 웹 인터페이스와 API(응용 프로그래밍 인터페이스)를 통해 프로그램을 제공하는 개발자 OpenAI를 통해 상업적으로 사용할 수 있습니다.
Dall-E가 무엇이고 어떻게 작동하는지 알아보기 위해 이 최신 이미지 생성 프로그램에 대한 빠른 가이드를 제공합니다.
키 포인트
- DALL-E는 텍스트 명령을 통해 이미지를 생성하는 AI 기반 이미지 생성 도구입니다.
- Dall-E는 딥 러닝을 사용하여 텍스트 프롬프트와 시각적 단서를 동화하고 관련 시각적 자료를 일관된 이미지로 변환합니다.
- Dal-E는 또한 AI 기반 편집 기능을 통해 기존 이미지를 향상시키는 이미지 편집기를 제공합니다.
- Dall-E는 그래픽 사용자 인터페이스(GUI)와 API로 모두 사용할 수 있습니다.
- 귀하는 Dal-E를 통해 생성한 모든 이미지에 대한 완전한 소유권을 보유합니다.
텍스트를 통해 AI 이미지를 어떻게 생성합니까?
Dall-E는 AI를 통해 작동하여 텍스트 지침을 동화하고 원본 이미지로 변환하는 이미지 생성 도구입니다. 이 위업을 달성하기 위해 Dall-E는 딥 러닝을 사용하여 광범위한 이미지 및 참조 세트를 이해합니다.
텍스트 프롬프트가 주어지면 Dall-E는 제공된 지침과 일치하는 이미지를 생성하기 위해 해당 데이터 세트의 교육을 사용합니다. 이를 통해 광범위한 코딩이나 기술 지침을 사용하지 않고도 누구나 이미지 생성에 AI를 사용할 수 있습니다.
이 기능은 Dall-E가 2020년 데뷔 이후 인기를 얻은 많은 이유 중 하나입니다. 최신 버전인 Dall-E 2에서 이 프로그램은 추가 기능도 제공합니다. 여기에는 새로운 시각적 요소를 추가하여 기존 이미지를 편집하는 옵션 또는 원본 이미지에 대한 관련 시각적 요소를 생성하여 캔버스를 확장하는 기능이 포함됩니다.
Dall-E 2를 사용하려면 OpenAI 웹 사이트로 이동하여 웹 기반 GUI를 통해 도구를 사용할 수 있습니다. 이전에 AI 프로그램을 사용해 본 적이 없더라도 간단한 인터페이스를 통해 쉽게 텍스트 프롬프트를 입력하고 원하는 이미지를 얻을 수 있습니다.
2022년 후반에 공개된 편집 인터페이스는 단순성에 대한 동일한 접근 방식으로 작동합니다. 사용하기 쉬운 지우개 도구를 사용하면 Dall-E로 편집하거나 향상시키려는 이미지 부분을 제거할 수 있습니다. 여기에서 텍스트 프롬프트를 추가하여 이미지에 새 요소를 추가할 수 있습니다.
"Generation Frame" 도구를 사용하여 기존 이미지의 캔버스와 크기를 확장할 수도 있습니다. 이 생성 프레임을 위쪽, 아래쪽 또는 양쪽에 추가할 수 있습니다. 이 프레임의 크기를 조정할 수도 있습니다. 생성 프레임을 정하고 Dall-E에 프롬프트를 제공하면 이미지가 나머지 비주얼, 테마 및 아트 스타일과 일치하면서 원하는 크기로 확장되는 것을 볼 수 있습니다.
이 빠른 소개를 통해 Dall-E가 무엇이고 작동 방법을 이해할 수 있습니다. 그러나 도구가 마법을 정확히 어떻게 작동하는지에 대해 추가 질문이 있는 경우 도구 뒤에 있는 메커니즘을 이해하는 것으로 진행할 수 있습니다.
Dall-E는 다양한 AI 기반 기술을 사용하여 시각적 능력을 향상시킵니다.
Dall-E는 이미지를 식별하고 스타일을 복제하는 데 믿을 수 없을 정도로 능숙하지만 그 숙련도는 갑자기 탄생하지 않습니다. 대신 Dall-E AI는 시각적 참조와 자연어 감독을 결합한 신경망을 사용하여 훈련되었습니다.
이 신경망은 당면한 주제에 대해 학습하기 위해 대규모 데이터 세트를 처리하는 AI의 하위 집합인 딥 러닝을 사용합니다. 이를 통해 신경망을 통한 딥 러닝은 다양한 패턴을 분류하고 다양한 데이터 세그먼트 간의 관계를 식별할 수 있습니다.
Dall-E 훈련에 사용되는 신경망은 CLIP(대조 언어-이미지 사전 훈련). CLIP은 제로샷 러닝(ZSL) 설정을 사용하여 이전에 접하지 않았더라도 시각적 샘플과 텍스트 참조를 평가할 수 있습니다. 이는 CLIP이 한 정보 집합을 다른 정보와 일치시키기 위해 훈련된 광범위한 데이터 집합을 통해 가능합니다.
이러한 시각적 및 텍스트 참조를 배우기 위해 Dall-E는 12 억 매개 변수. 이러한 매개변수는 텍스트 참조로 서로 다른 이미지에 레이블을 지정하고 사용자가 특정 이미지 생성을 요청할 때 Dal-E가 예상되는 내용을 이해할 수 있도록 합니다. 간단한 개념에 대한 이미지 생성을 가능하게 하는 것 외에도 이 기능은 무생물에서 의인화된 캐릭터를 그리는 것과 같은 추상적인 개념에서도 빛을 발합니다.
이것은 Dal-E의 AI 모델이 개발자 OpenAI의 다른 제품과 밀접하게 일치하는 곳입니다. 이 매치는 GPT-3(Generative Pre-trained Transformer 3)의 형태로 제공됩니다. GPT-3가 생성하는 텍스트에서 다음 단어가 무엇인지 예측하여 텍스트를 생성하는 반면 Dall-E는 시리즈에서 생성하는 요소에 따라 완전한 이미지를 생성하는 방법을 결정하여 이미지를 생성합니다.
Dall-E가 무엇인지 이해하고 나면 처음부터 고품질 이미지를 생성하는 데 이 접근 방식이 어떻게 작동하는지 알 수 있습니다. 이를 통해 프로그램이 확장된 이미지를 생성하고 기존 이미지를 편집하는 방법도 명확해집니다.
인상적인 매개 변수 선택, 의도적으로 설계된 신경망 및 직관적인 GUI를 사용하여 Dall-E는 모든 사람이 이미지 제작을 위해 빠르게 진화하는 생성 AI 기술의 이점을 쉽게 누릴 수 있도록 합니다.
Dal-E 검토: Dal-E의 비용은 얼마입니까?
달-이 정해진 가격에 대한 대가로 크레딧을 제공하는 개발자 OpenAI를 통해 사용할 수 있습니다. 각 크레딧은 단일 이미지 생성 요청과 같습니다.
즉, 텍스트 프롬프트에서 이미지를 생성하거나 수정을 위해 기존 이미지를 편집하거나 기존 이미지의 캔버스를 확장하는 데 단일 크레딧을 사용하게 됩니다. 모든 이미지 생성 요청은 네 가지 변형도 제공합니다. 그러나 더 많은 변형을 요청하면 요청당 XNUMX크레딧이 청구됩니다.
작성 당시 Dal-E는 115크레딧 가격으로 15달러에 구입할 수 있습니다. 구매한 크레딧은 12개월 이내에 만료됩니다. 웹 인터페이스 또는 Dall-E API를 통해 이러한 크레딧을 사용할 수 있습니다.
전반적으로 Dall-E의 가격 책정 계획은 가장 가까운 경쟁사보다 비싸며, 중도 and 안정적인 확산. 작성 당시 Midjourney의 가격은 10개의 이미지 생성 요청에 대해 $200부터 시작합니다. 또한 무제한 사용자 생성 요청을 위한 $30 요금제를 제공합니다. 반면 Stable Diffusion은 100개의 이미지 크레딧에 $100를 청구합니다.
그러나 Dall-E의 AI가 더 광범위하게 훈련되고 Midjourney 및 Stable Diffusion에 없는 이미지 확장 도구를 제공한다는 점을 감안할 때 제품 가격을 더 높은 수준으로 책정할 충분한 이유가 있습니다. 게다가 Midjourney는 Discord를 통해 프로그램에 액세스해야 합니다. 반면 Dall-E는 자체 웹 GUI와 API를 통해 사용할 수 있습니다.
Dal-E가 무엇이며 어떤 종류의 수수료가 부과되는지 알게 되면 서비스 비용을 지불해야 하는지 여부를 결정하기가 더 쉬워집니다. 그렇게 하는 동안 어쨌든 솔루션에 가입하고 50 무료 크레딧을 즉시 받을 수 있습니다. 이후에는 매달 15개의 무료 크레딧을 받을 수 있습니다. 그러나 이러한 무료 크레딧은 유료 크레딧의 만료 날짜가 XNUMX년인 것과 달리 한 달 이내에 만료됩니다.
DALL-E 장단점
2년 2022월 공개된 달이XNUMX는 전작보다 더 많은 기능을 탑재했다. 프로그램은 신경망의 이미지와 참조를 사용하여 프롬프트에 맞는 인상적인 이미지를 생성할 수 있습니다. 또한 직관적인 GUI 및 API 기능을 통해 복잡한 이미지 편집 도구를 사용하지 않고도 이미지를 보다 쉽게 생성할 수 있습니다.
즉, Dall-E는 생성된 모든 이미지에서 완벽을 기대할 수 없는 초기 단계를 아직 거치고 있습니다. 프로그램은 생성하는 이미지를 통해 속담이나 문자 그대로의 공백을 채우기 위해 최선을 다하지만, 훈련되는 데이터만큼만 우수하기 때문에 여전히 한계가 있습니다.
예를 들어 신경망에서 전례가 없는 프롬프트를 Dall-E에 제공하면 프롬프트에 가장 가까운 이미지를 생성하여 자연어의 지침에 맞을 수도 있고 맞지 않을 수도 있습니다. 예를 들어 프로그램에 "무대 위의 백조의 호수"를 생성하라는 지시를 내리는 것을 생각해 보십시오. 그것은 대중적인 발레나 무대 위에 백조가 있는 문자 그대로의 호수를 가리킬 수 있습니다.
사실적인 이미지를 생성할 때 얼굴, 손, 발 및 기타 해부학적 세부 묘사와 관련된 지속적인 문제를 알 수 있습니다. 때때로 AI는 시각적 정확성이나 현실감 측면에서 그다지 존재하지 않는 기능을 생성합니다. 그러나 이것은 다른 AI 도구에도 전반적으로 존재하는 문제입니다.
DALL-E는 그만한 가치가 있습니까?
새로운 기술의 일부가 되는 것을 즐기고, 재미있는 기능을 가지고 놀고, 진보라는 이름으로 약간의 기능적 문제를 용인한다면 Dall-E는 시간과 비용을 들일 가치가 있을 수 있습니다. 특히 Dall-E가 무엇을 가지고 작업하는지 제한 사항을 이해하고 이러한 문제에 직접 직면해야 할 때 좌절감을 느끼지 않는 경우 특히 그렇습니다.
그러나 그것은 Dall-E의 무료 크레딧 형태로 유리한 옵션이 있는 곳입니다. 비용을 지불하기 전에 프로그램에 만족하는지 확인하려면 플랫폼에 가입하고 무료 크레딧을 통해 사용해 볼 수 있습니다. Dall-E의 성능에 만족한다면 OpenAI의 플랫폼을 통해 제공되는 유료 크레딧에 가입할 수 있습니다.
코멘트 0 응답