Dall-E áttekintés: Tudjon meg többet a népszerű mesterséges intelligencia képgeneráló eszközről

Ha előfizet egy szolgáltatásra az ezen az oldalon található hivatkozásról, a Reeves and Sons Limited jutalékot kereshet. Lásd a mi etikai nyilatkozat.

A Dall-E egy mesterséges intelligencia (AI) program, amely szöveges felszólítások alapján képeket generál. Ez azt jelenti, hogy az AI-n keresztüli kiváló minőségű képek készítéséhez mindössze annyit kell tennie, hogy a Dall-E-t világos, természetes nyelvű utasításokkal látja el.

A cikk írásakor az AI-alapú eszköz a következő formában működik Dall-E 2, amely a program legújabb verziója. A Dall-E 2 kereskedelmi forgalomban elérhető fejlesztőjén, az OpenAI-n keresztül, amely a programot webes felületén, valamint alkalmazásprogramozási felületén (API) keresztül kínálja.

Ha meg szeretné tudni, mi az a Dall-E, és hogyan működik, íme egy gyors útmutató a legkorszerűbb képgeneráló programhoz.

Főbb pontok

  • A Dall-E egy mesterséges intelligencia alapú képgeneráló eszköz, amely szöveges utasításokon keresztül állít elő képeket.
  • A Dall-E mély tanulást alkalmaz a szöveges felszólítások és a vizuális jelzések asszimilálására, és a kapcsolódó vizuális anyagokat koherens képekké alakítja.
  • A Dall-E egy képszerkesztőt is kínál a meglévő képek javításához az AI-alapú szerkesztési képességekkel.
  • A Dall-E grafikus felhasználói felületként (GUI) és API-ként is elérhető.
  • Ön fenntartja a Dall-E-n keresztül létrehozott képek teljes tulajdonjogát.

Hogyan lehet mesterséges intelligencia képeket generálni szövegen keresztül?

dalle szöveges kép

A Dall-E egy képgeneráló eszköz, amely mesterséges intelligencián keresztül működik a szöveges utasítások asszimilálására és eredeti képekké alakítására. Ennek a bravúrnak a megvalósítása érdekében a Dall-E mély tanulást használ a képek és hivatkozások kiterjedt halmazának megértéséhez.

Amikor szöveges üzenetet kap, a Dall-E az ezekből az adatkészletekből származó betanítását használja fel a megadott utasításoknak megfelelő képek előállítására. Ez lehetővé teszi, hogy bárki AI-t használjon képgeneráláshoz anélkül, hogy kiterjedt kódolást vagy műszaki utasításokat kellene használnia.

Ez a funkció az egyik oka annak, hogy a Dall-E 2020-as debütálása óta olyan népszerűvé vált. Legújabb iterációjában, a Dall-E 2-ben a program további lehetőségeket is kínál. Ide tartozik a meglévő képek szerkesztése új vizuális elemek hozzáadásával vagy a vászon kibővítése az eredeti képhez kapcsolódó látványelemek létrehozásával.

A Dall-E 2 használatához látogasson el az OpenAI webhelyére, és használja az eszközt a webalapú grafikus felületen keresztül. Még akkor is, ha még soha nem használt AI programot, az egyszerű kezelőfelület megkönnyíti a szöveges prompt beírását, és cserébe megkapja a kívánt képeket.

A 2022 végén bemutatott szerkesztőfelület az egyszerűséghez hasonlóan működik. Egy könnyen használható radír eszközzel eltávolíthatja a kép azon részeit, amelyeket szerkeszteni vagy javítani szeretne a Dall-E segítségével. Innentől szöveges promptokat adhat hozzá új elemek hozzáadásához a képhez.

Használhatja a „Keret létrehozása” eszközt is egy meglévő kép vászonának és méretének kiterjesztésére. Ezt a generációs keretet felveheti a tetejére, aljára vagy bármelyik oldalra. A keret méretét is módosíthatja. Miután rendezte a generációs keretet, és felszólította a Dall-E-t, láthatja, hogy a kép a kívánt méretre nyúlik, miközben összhangban van a többi látványvilággal, témával és művészeti stílussal.

dalle kép újratervezése

Ez a gyors bevezetés lehetővé teszi, hogy megértse, mi az a Dall-E, és hogyan kell működtetni. De ha további kérdései vannak azzal kapcsolatban, hogy az eszköz pontosan hogyan működik a varázslatában, továbbléphet a mögötte lévő mechanika megértésével.

A Dall-E különféle mesterséges intelligencia-alapú technikákat alkalmaz vizuális képességének javítására

Míg a Dall-E hihetetlenül ügyes a képek azonosításában és stílusuk megismétlésében, a jártasság nem a semmiből születik. Ehelyett a Dall-E AI-t egy neurális hálózat használatával képezték ki, amely kombinálja a vizuális referenciákat a természetes nyelvi felügyelettel.

Ez a neurális hálózat mély tanulást alkalmaz, amely az AI egy részhalmaza, amely nagy adathalmazokat dolgoz fel, hogy megismerje a szóban forgó témát. Ezzel a neurális hálózatokon keresztül végzett mély tanulás különböző mintákat is kategorizálhat, és azonosíthatja a különböző adatszegmensek közötti kapcsolatot.

A Dall-E képzéshez használt neurális hálózatot ún CLIP (kontrasztív nyelv-kép előképzés). A CLIP zero-shot learning (ZSL) beállítást használ, amely lehetővé teszi a vizuális minták és szöveges hivatkozások értékelését akkor is, ha korábban nem találkozott velük. Ez lehetséges azokon a kiterjedt adatkészleteken keresztül, amelyekre a CLIP-et betanították, hogy megfeleljen egy adathalmaznakformation a másikkal.

Annak érdekében, hogy megtanulja ezeket a vizuális és szöveges hivatkozásokat, a Dall-E nem kevesebbet képezett 12 milliárd paraméter. Ezek a paraméterek a különböző képeket szöveges hivatkozással jelölik meg, és lehetővé teszik a Dall-E számára, hogy megértse, mit várnak el tőle, amikor a felhasználó egy adott kép létrehozását kéri. Amellett, hogy lehetővé teszi a képalkotást az egyszerű fogalmak számára, ez a képesség olyan elvont fogalmakban is megmutatkozik, mint például antropomorf karakterek kirajzolása élettelen tárgyakból.

Ez az a hely, ahol a Dall-E mesterséges intelligencia modellje szorosan illeszkedik a fejlesztő OpenAI egy másik termékéhez. Ez a meccs a Generative Pre-trained Transformer 3 (GPT-3) formájában jelenik meg. Míg a GPT-3 úgy hoz létre szöveget, hogy megjósolja, mi legyen a következő szó az általa generált szövegben, addig a Dall-E képeket úgy állít elő, hogy meghatározza, hogyan hozzon létre egy teljes képet a sorozatban generált elemek alapján.

Ha megérti, mi az a Dall-E, láthatja, hogy ez a megközelítés hogyan tesz csodákat a semmiből kiváló minőségű képek előállításához. Ezzel azt is egyértelművé teszi, hogy a program hogyan hoz létre kiterjesztett képeket és szerkeszti a meglévő képeket.

Lenyűgöző paraméterválasztékának, a célirányosan megtervezett neurális hálózatnak és az intuitív grafikus felhasználói felületnek köszönhetően a Dall-E mindenki számára megkönnyíti a gyorsan fejlődő generatív AI-technológia előnyeit a képkészítéshez.

Dall-E áttekintés: Mennyibe kerül a Dall-E?

Lap az OpenAI fejlesztőjén keresztül érhető el, amely meghatározott árért cserébe krediteket kínál. Minden jóváírás egyetlen képgenerálási kérelemnek felel meg.

Ez azt jelenti, hogy egyetlen kreditet használ fel egy kép szöveges promptból történő előállításához, egy meglévő kép szerkesztéséhez módosítások elvégzéséhez, vagy egy meglévő kép vászonának kiterjesztéséhez. Minden képgenerálási kérés négy változatot is kínál. De ha több variációt kér, akkor kérésenként egy kreditbe kerül.

A cikk írásakor a Dall-E 115 kredit áron elérhető 15 dollárért. A megvásárolt kreditek 12 hónapon belül lejárnak. Ezeket a krediteket a webes felületen vagy a Dall-E API-n keresztül használhatja fel.

Összességében a Dall-E árazási terve drágább, mint legközelebbi versenytársaié, középút és a Stabil diffúzió. A cikk írásakor a Midjourney ára 10 dollártól kezdődik 200 képgenerálási kérés esetén. 30 dolláros csomagot is kínál korlátlan számú felhasználógenerálási kéréshez. Ezzel szemben a Stable Diffusion 100 dollárt számol fel 100 képkreditért.

De tekintettel arra, hogy a Dall-E mesterséges intelligenciája kiterjedtebben van kiképezve, és olyan képbővítő eszközöket kínál, amelyekkel a Midjourney és a Stable Diffusion nem rendelkezik, elegendő oka van arra, hogy termékét magasabb szinten árazza. Ezenkívül a Midjourney megköveteli, hogy a Discordon keresztül hozzáférjen a programhoz. Míg a Dall-E saját webes grafikus felületén, valamint API-n keresztül érhető el.

Miután megtanulta, mi az a Dall-E, és milyen díjakat hoz az asztalra, könnyebben eldöntheti, hogy fizetnie kell-e a szolgáltatásaiért. Amíg ezt megteszi, akkor is feliratkozhat a megoldásra, és azonnal 50 ingyenes kreditet kaphat. Ezt követően havonta 15 ingyenes kreditet kaphat. Ezek az ingyenes kreditek azonban egy hónapon belül lejárnak, szemben a befizetett kreditek éves lejárati dátumával.

Dall-E előnyei és hátrányai

A 2 áprilisában bemutatott Dall-E 2022 több képességgel rendelkezik, mint elődje. A neurális hálózatából származó képek és hivatkozások felhasználásával a program gyakrabban tud lenyűgöző képeket generálni, amelyek megfelelnek a kérésnek. Ezenkívül az intuitív grafikus felhasználói felület és az API funkciói megkönnyítik a képek készítését anélkül, hogy bonyolult képszerkesztő eszközöket kellene használnia.

Ezzel együtt a Dall-E még mindig gyerekcipőben jár, amikor nem számíthatunk tökéletesre minden egyes generált képnél. Noha a program mindent megtesz, hogy kitöltse a közmondásos vagy szó szerinti üres helyeket az általa generált képeken, ennek ellenére vannak korlátai, mivel csak annyira jók, mint az általa betanított adatok.

Például, ha olyan parancsot ad a Dall-E-nek, amelyre nincs precedens a neurális hálózatában, akkor az a lehető legközelebbi képet generálja a prompthoz, amely lehet, hogy illeszkedik az utasításokhoz a természetes nyelvükön, vagy nem. Példaként gondoljon arra, hogy utasítást ad a programnak, hogy generáljon „hattyúk tavat a színpadon”. Nagyon jól utalhat a népszerű balettre vagy egy szó szerinti tóra hattyúkkal a színpadon.

A fotorealisztikus képek generálásakor az arcok, kezek, lábak és egyéb anatómiai részletek ábrázolásával kapcsolatos folyamatos probléma is észrevehető. Néha az AI olyan funkciókat hoz létre, amelyek a vizuális pontosság vagy a valósághűség szempontjából nem teljesen megfelelőek. De ez egy olyan probléma, amely más AI-eszközöknél is fennáll.

Megéri a Dall-E?

Ha szereti az új technológia részese lenni, játszani a szórakoztató funkciókkal, és eltűrni az enyhe funkcionális problémákat a haladás jegyében, a Dall-E megéri az idejét és a pénzét. Ez különösen igaz, ha tisztában van azzal, hogy a Dall-E milyen korlátokkal dolgozik, és nem érzi magát csalódottnak, amikor első kézből kell szembenéznie ezekkel a kihívásokkal.

De itt van egy kedvező lehetőség a Dall-E ingyenes kreditjei formájában. Annak érdekében, hogy megbizonyosodjon arról, hogy elégedett a programmal, mielőtt kifizeti azt, továbbléphet a platformra való feliratkozással, és ingyenes kreditekkel próbálhatja ki. Ha elégedett a Dall-E teljesítményével, feliratkozhat a fizetett kreditekre, amelyeket az OpenAI platformján kínál.

Sergio Costa (PhD)

Sergio különféle szinteken (BSc, MSc, MBA, PhD) oktat vállalkozói ismereteket és innovációt elsősorban a University of Bath, Imperial College London, Warwick Business School-on. Kutatásokat publikált a Journal of Business Venturing folyóiratban és vezető menedzsment konferenciákon (AOM, SMS, Babson, BAM).

Hozzászólások 0 válaszok

Hagy egy Válaszol

E-mail címed nem kerül nyilvánosságra. Kötelező kitölteni *

Értékelés *

Ez az oldal Akismet-et használ a levélszemét csökkentése érdekében. Ismerje meg, hogyan dolgozik a megjegyzésed.