Najbolji AI generatori fotografija

Sa novim AI generatorima teksta-u-sliku koji se lansiraju tako brzo, teško je pratiti šta je dostupno i koji pruža najbolje rezultate. Mi smo tu da razjasnimo najbolje alate za stvaranje slika pomoću AI-a koji generišu visokokvalitetne slike na osnovu jednostavnih opisa ili ključnih reči

VESTACKA INTELIGENCIJA

Miodrag Lazic

3/23/20248 min read

a cat is laying on the floor in a room
a cat is laying on the floor in a room

Teško je poverovati da je prošlo samo godinu dana od kada je beta verzija DALL-E, OpenAI-ev generator slika na osnovu teksta, puštena na internet. Od tada je došlo do eksplozije AI-generisanih vizuelnih sadržaja, pri čemu ljudi stvaraju prosečno 34 miliona slika dnevno. To je više od 15 milijardi slika kreirano korišćenjem algoritama za tekst-u-sliku samo 2022. godine. Prema izveštaju Everypixel Journal-a, fotografima je trebalo 150 godina, od prvog fotografisanja 1826. godine do 1975. godine, da dostignu brojku od 15 milijardi slika.

Sa novim AI generatorima teksta-u-sliku koji se lansiraju tako brzo, teško je pratiti šta je dostupno i koji pruža najbolje rezultate. Mi smo tu da razjasnimo najbolje alate za stvaranje slika pomoću AI-a koji generišu visokokvalitetne slike na osnovu jednostavnih opisa ili ključnih reči, ili za kreiranje tačnih vizuelnih podsticaja na osnovu učitanih referentnih slika. Radi lakšeg upoređivanja, koristili smo isti upit da bih testirali sposobnost svakog modela da uhvati fotorealističnu, ali šaljivu sliku mog mačka kao subjekta. Da bih odredili najbolji opis upita, prvo smo učitali nekoliko referentnih slika mačka u Midjourney i, na osnovu njegovih predloženih opisa, doradili smo upite dodajući neke nadrealne elemente slike i stil fotografije: "elegantna kratkodlaka svetlo bež mačka nosi retro sunčane naočare na tropskom odmoru, visoko realistična, 35mm film".

DALL-E 2 vs DALL-E3

Jedan od prvih koji se pojavio u talasu AI generatora teksta-u-sliku, DALL-E 2 je postao osnovni izvor za stvaranje umetnosti na osnovu prirodnih jezičkih opisa. Ima četiri puta veću rezoluciju od svog prethodnika DALL-E 1, i dolazi sa nekoliko novih bezbednosnih mera koje sprečavaju korisnike da generišu nasilni ili eksplicitni sadržaj, kao i fotorealistične generacije lica stvarnih osoba, uključujući i javne ličnosti. Takođe omogućava kreatorima da isključe svoju umetnost iz OpenAI-jevih podataka za obuku, međutim, mukotrpan proces uklanjanja slika jednu po jednu izazvao je frustraciju kod mnogih umetnika zbog ovog novog razvoja. Ako platite za ChatGPT Plus, dobićete direktni pristup DALL-E 3 unutar interfejsa ChatGPT-a, što znači da ne morate trošiti vreme na kreiranje pravog podsticaja za sliku, već jednostavno možete zamoliti ChatGPT-a da to uradi za vas. Međutim, ova pogodnost dolazi uz cenu, sa premijum paketom koji košta 20 dolara mesečno.

Prednosti:

- Jednostavan korisnički interfejs, odličan za generisanje nadrealnih slika

Nedostaci:

- Nije najbolja opcija na listi za generisanje lica ili realističnih slika- Radi na freemium modelu koji može postati skup u ceni

MIDJOURNEY

Midjourney postaje jedna od najboljih opcija za generisanje realističnih slika, lica ili bilo čega što je potrebno. Za razliku od drugih modela na ovom spisku, Midjourney nema svoju posebnu platformu već funkcioniše kao bot unutar Discord-a. Korisnici imaju pristup ogromnoj zajednici drugih kreatora unutar Discord-a i, po podrazumevanom podešavanju, umetnost koju generišete će se pojaviti u jednom od mnogih javnih kanala sa kreacijama svih ostalih. Ako vam smeta pretraživanje prepunog toka umetnosti koja se neprestano generiše, možete kopirati Midjourney bota na privatni server. Trenutno, Midjourney radi na verziji 5.2 i uključuje režime veće varijacije, nove funkcije poput zumiranja van/izvan slike za proširenje okvira slike, i inpainting-a, koji omogućava korisnicima da vrše promene na određenim delovima slike bez potrebe za ponovnim generisanjem celog podsticaja.

Prednosti:

- Odličan kvalitet realističnih slika

- Opsežna dokumentacija na Midjourney-jevom veb sajtu

- Korisna Discord zajednica za početnike

Nedostaci:

- Besplatna verzija je ukinuta

- Generisanje slika unutar javnog Discord servera može postati haotično

ADOBE FIREFLY

Adobe Firefly izašao je iz beta faze u septembru i počeo je da se razlikuje od DALL-E i Midjourney-ja iz nekoliko razloga. Glavna razlika je što je Firefly-ev model obučen koristeći Adobe Stock slike i materijal iz javne domene sa isteklim autorskim pravima, što osigurava da su podaci za obuku dobijeni uz eksplicitnu dozvolu kreatora. Sada kada je dostupan komercijalno, Firefly je integrisan u različite Creative Cloud aplikacije, uključujući Photoshop, Illustrator i Adobe Express. Korisnici mogu iskoristiti Generative Fill funkciju u Photoshop-u da dodaju, uklone ili prošire sadržaj na slikama koristeći jednostavne tekstualne podsticaje. Takođe ima funkciju Tekst u Vektorsku Grafiku koja omogućava korisnicima da kreiraju editabilne vektorske grafike iz tekstualnih podsticaja, što bi moglo biti prekretnica za dizajnere, posebno kako se model nastavlja poboljšavati.

Prednosti:

- Korisnički interfejs je vrlo intuitivan

- Podržava generisanje teksta u vektorsku grafiku

Nedostaci:

- Ograničene opcije prilagođavanja, nedostatak kontrole

STABLE DIFFUSION

Stability AI razvio je Stable Diffusion, široko prihvaćeni generator teksta-u-sliku dostupan kao open-source alat. Od njegovog lansiranja, korisnici imaju slobodu da besplatno preuzmu i koriste Stable Diffusion, iako obično zahteva određeni nivo tehničke veštine ne samo za korišćenje korisničkog interfejsa već i za instaliranje potrebnog softvera (Python 3.8 ili noviji) i GitHub datoteka kako bi se pokrenuo lokalno na računaru. Od svih modela koji se pojavljuju na ovom spisku, Stable Diffusion korisnicima pruža najviše kontrole i fleksibilnosti nad slikama koje generišu, međutim, zahteva značajnu računarsku snagu. Preporučujemo razmatranje Nvidia modela sa minimalno 8 do 10 GB za optimalne performanse. Takođe, preporučeno je da vaš PC sistem ima kapacitet od 16 GB RAM-a je ključno kako bi se sprečili mogući problemi sa stabilnošću.

Prednosti:

- Besplatan

- Open source

Nedostaci:

- Strma kriva učenja, zbunjujući korisnički interfejs

DREAMSTUDIO

Za korisnike koji žele pristup Stable Diffusion-u bez potrebe za instalacijom softvera, poznavanjem programiranja ili visoko performantnom lokalnom GPU-u, Stability AI je takođe objavio jednostavan web interfejs kao plaćenu alternativu. Za razliku od nekih drugih modela na ovom spisku koji nude mesečnu pretplatu za neograničene generacije, DreamStudio model cenjenja je plaćanje po slici gde korisnici moraju da kupe kredite nakon prvih 25 besplatnih kredita. DreamStudio nudi sve funkcije koje biste očekivali od popularnijih generatora teksta-u-sliku, poput inpainting-a ili mogućnosti da učitate postojeće referentne slike, a takođe nudi nekoliko različitih stilskih predložaka i opciju rada u slojevima što poboljšava vaš kreativni radni tok.

Prednosti:

Jednostavan korisnički interfejs

Opcija rada u slojevima

Nedostaci:

Model cenjenja plaćanja po slici ne nudi mesečne neograničene generacije

RUNWAY ML

Runway ML nudi širok spektar AI alata, pored generisanja slika na osnovu teksta, uključujući i uređivanje video zapisa i obuku prilagođenih modela. Takođe poseduje funkciju Frame Interpolation, koja vam omogućava da pretvorite sekvencu slika u animirani video. Platformu možete pristupiti putem bilo kog desktop ili mobilnog uređaja u web pregledaču, mada najbolje funkcioniše kada se koristi sa Google Chrome-om. Da biste započeli, posetite app.runwayml.com bez potrebe za preuzimanjem bilo čega. Generisanje teksta u sliku košta pet kredita svaki put, a krediti se mogu dobiti kupovinom Standard ili Pro plana po ceni od $0.01 po kreditu, počevši od minimalne kupovine od $10. Međutim, pristup preuzimanju u višim rezolucijama zahteva Standard ili Pro nalog.

Prednosti:

- Odlična opcija za generisanje slika na osnovu teksta sa mogućnostima video uređivanja

- Pristupačno putem mobilne aplikacije ili desktop verzije

Nedostaci:

- Ograničen kapacitet skladišta i opcije izvoza sa besplatnom verzijom

CANVA

Canva-ov AI generator slika Magic Media je dobra opcija za korisnike koji već plaćaju mesečnu pretplatu za Canvu, ali smo uopšteno zaključili da je kvalitet Canva-inog generatora slika nadmašen od strane nekih drugih modela na ovom spisku, iako je pokretan od strane Stable Diffusion-a. Canva nudi Magic eraser i editor alat koji može ukloniti pozadine ili objekte i poboljšati slike putem skaliranja. Dodatno, pruža pristup DALL-E-u i Imagen-u od Google Cloud-a direktno unutar Canva radnog prostora. Korisnici mogu kreirati do 50 slika sa besplatnom pretplatom ili se odlučiti za Canva Pro, što omogućava 500 upotreba po korisniku mesečno.

Prednosti:

- Dobra opcija ako već koristite Canvu

Nedostaci:

- Manje kontrole/manje opcija prilagođavanja u poređenju sa drugim modelima na ovom spisku

BING IMAGE CREATOR

Microsoft je predstavio Bing Image Creator u martu 2023. godine, a koristi mogućnosti DALL-E 3, najnovijeg modela od OpenAI-a. Ranije, Microsoft je koristio raniju verziju DALL-E-a za svoj generator slika, ali sa integracijom DALL-E 3, došlo je do poboljšanja kvaliteta slika i preciznijeg tumačenja podsticaja. Takođe, ovo je jedini način da koristite DALL-E 3 besplatno, jer pristupanje putem Open AI-jevog interfejsa zahteva pretplatu na ChatGPT Plus. Bing Image Creator je dostupan preko Bing.com i ne zahteva nalog na OpenAI-u. Takođe ga možete pristupiti direktno putem Bing Chata u Microsoft Edge pregledaču, što korisnicima omogućava da kreiraju i usavršavaju slike razgovarajući sa čet botom umesto samo unosa osnovnog podsticaja.

Prednosti:

- Omogućava korisnicima rupu u zakonu da besplatno pristupe DALL-E 3

- Kompatibilan sa čet botom putem Bing Chata

Nedostaci:

- Zahteva Microsoft nalog

- Nije uvek sjajan u generisanju fotorealističnih slika

JASPER

Jasper je možda poznatiji po generisanju AI sadržaja i SEO generaciji, ali takođe ima pristojan generator teksta-u-sliku. Može kreirati visokorezolutne slike bez brendiranih vodenih žigova i ima jednostavan korisnički interfejs sa padajućim menijem za odabir umetničkih stilskih predložaka, raspoloženja ili medijuma. Glavni nedostatak Jasper-a je cena; generator slika je dostupan samo putem Pro plana koji iznosi 69 dolara mesečno.

PREDNOSTI:

- Jednostavan korisnički interfejs

- Nema brendiranih vodenih žigova koje je potrebno ukloniti

NEDOSTACI:

- Značajno skuplji u poređenju sa drugim modelima na ovom spisku

- Kvalitet slika zaista nije vredan cene

GOOGLE’S IMAGEN 2

Google je tiho predstavio Imagen 2, svoj AI generator slika prošle nedelje, proširujući pristup Google Cloud korisnicima koji koriste Vertex AI. Ažuriranja modela uključuju unapređeno renderovanje teksta, što će mnogi grafički dizajneri želeti da isprobaju, jer je tipografija bila posebno izazovan subjekt za AI da tačno renderuje. Imagen 2 takođe može proizvesti logo generacije visokog kvaliteta i podržava višejezične podsticaje, kao i eksperimentalnu uslugu digitalnog vodenog žiga, pokrenutu od strane Google DeepMind-ovog SynthID-a, koja omogućava korisnicima da generišu nevidljive vodene žigove i provere slike generisane od strane Imagen-a.

PREDNOSTI:

- Poboljšano renderovanje teksta za tipografsku upotrebu

NEDOSTACI:

- Još uvek nije dostupan široj javnosti

a cat wearing sunglasses and sunglasses with sunglasses on
a cat wearing sunglasses and sunglasses with sunglasses on
a cat wearing sunglasses and sunglasses on a beach
a cat wearing sunglasses and sunglasses on a beach
a cat wearing sunglasses and a bow tie
a cat wearing sunglasses and a bow tie
a cat wearing sunglasses and sunglasses with a cat in sunglasses
a cat wearing sunglasses and sunglasses with a cat in sunglasses
a cat wearing sunglasses and sunglasses with a cat in sunglasses
a cat wearing sunglasses and sunglasses with a cat in sunglasses
a cat wearing sunglasses and sunglasses with sunglasses on
a cat wearing sunglasses and sunglasses with sunglasses on