Billedredigeringsprompt i chatgpt for at style foto som studie ghibli-tegning

Forstå, hvordan ChatGPT opretter billeder i stil med Studio Ghibli

Avatar af Felipe Faustino
Efter en større opdatering til ChatGPT tillader funktionalitet nu generering af mere avancerede billeder. Se hvordan det virker

Midt i bombasten tendens af billederne i anime-stil har du måske undret dig over: hvordan virker ChatGPT laver billeder i stil med Studio Ghibli? Det kunne han ikke før? Nå ... det viser sig, at den nye generative billeddannelseskapacitet OpenAI Det er virkelig nyt og har alt at gøre med en stor ændring i, hvordan virksomhedens kunstige intelligens-model fungerer. Forstå, i denne tekst, hvordan ChatGPT formået at kopiere kunsten Studio Ghibli og de vigtigste forskelle i forhold til andre modeller.

Hvordan skaber ChatGPT billeder i Ghibli-stil?

At forstå, hvordan ChatGPT begyndte at være i stand til at generere billeder som dem, der blev skabt i tendens do Studio Ghibli, er det nødvendigt at kende de vigtigste ændringer medført af OpenAI i modellen GPT-4o, læs nedenfor.

Hvad er ændret i GPT-4o-modellen?

Person med computer, der bruger chatgpt til at generere billeder
Billede: Reproduktion/OpenAI

Generering af billeder i GPT-4o er baseret på arkitektur Transformer, som analyserer mønstre og forbinder tekstbeskrivelser med visuelle elementer. I modsætning til "diffusionsmodeller", som starter med et tilfældigt billede og gradvist forfiner det GPT-4o anvender en autoregressiv metode, der bygger billedet i sekventielle trin, hvilket forbedrer visuel sammenhæng og troskab til den ønskede stil.

Efterhånden som nøjagtigheden og gengivelsen af ​​tekst i billeder forbedres, og evnen til at forstå og følge detaljerede anvisninger forbedres, ChatGPT har øget sin kapacitet til at håndtere antallet af distinkte objekter i en enkelt scene (op til 20 sammenlignet med tidligere mellem 5 og 8 objekter) og kan opretholde de korrekte relationer mellem dem.

Sammenlignet med tidligere modeller som f.eks DALL-E3, som brugte rørledninger (sæt af trin eller processer) adskilt for forskellige typer medier, den GPT-4o anvender en samlet tilgang, der tillader hurtigere svar og billeder, der er mere i overensstemmelse med tekstkommandoer, hvilket eliminerer behovet for flere mellemliggende processer. Dette betyder, at modellen bedre kan fortolke nuancerne af prompter fra brugere, hvilket sikrer, at det visuelle output er mere tilpasset den oprindelige hensigt.

Al denne magt kommer med et kontroversielt problem: med en større efterspørgsel efter grafisk behandling på grund af eksplosionen af ​​mode på internettet, OpenAI nødvendig for at begrænse brugbarheden af ​​værktøjet i et par dage, især for gratis brugere af ChatGPT, fordi deres GPU'er "smeltede", ifølge virksomhedens administrerende direktør, Sam Altman. På trods af besværet er generationen af ​​avancerede billeder allerede blevet frigivet af virksomheden til brugere af den gratis plan, som annonceret af direktøren.

Hvordan aktiverer opdateringen billeder i Ghibli-stil?

To mænd og en hund, venstre, højre samme billede omdannet til anime-stil
Billede: Personligt arkiv/Bruno Martinez

Men hvad betyder alt dette for AI's evne til at fange æstetikken af Studio Ghibli? Det viser sig, at med den nye opdatering GPT-4o Det begynder bedre at forstå stilmønstre, fra massive eksempler på billeder, og lærer at replikere disse karakteristika baseret på kommandoer leveret af brugeren.

Selvom OpenAI ikke eksplicit angivet, om deres træningsdatasæt indeholdt specifikke kunstværker Studio GhibliSom Chihiros tur ou Drengen og Tranen – skrævende et hul, der adskiller reproduktionen af ​​studiestile fra nulevende kunstneres – modellens dygtighed til at replikere studieæstetikken tyder stærkt på, at han har været udsat for en lang række eksempler på filmene og relaterede stilarter.

Gennem denne udstilling er GPT-4o lære de vigtigste visuelle egenskaber, der definerer stilen af Studio Ghibli, herunder: følelsen af ​​håndtegnet animation, der ofte minder om traditionel papiranimation; baggrunde, der fremkalder en følelse af undren og ro; udtryksfulde karakterer typisk med store, følelsesladede øjne; en blød, naturlig farvepalet domineret af pastelfarver, bløde toner; detaljerede miljøer, der ofte blander fantasy-elementer med realisme

Derudover GPT-4o Det kan også behandle billeder som input, hvilket giver brugerne mulighed for at transformere eksisterende visuals eller bruge dem som grundlag for at generere nyt indhold. På denne måde, udover at de ikke behøver at sige alle detaljer om den kunstneriske stil, de ønsker at gengive, behøver brugerne heller ikke at beskrive sig selv eller det billede, de vil genskabe, blot indsætte et billede i chatten og bede AI om at gengive det med animationsstilen – som du kan se i vores artikel om Sådan laver du billeder i Ghibli-stil med ChatGPT, med hurtige tips.

Kan andre AI'er gengive Studio Ghiblis stil?

Opret nye billeder vha chatbots er ikke en nylig nyhed, men kapaciteten opnået ved at opdatere ChatGPT ved at analysere og gengive de detaljer, der foreslås af prompten, erstatter de AI OpenAI foran sine hovedkonkurrenter, som f.eks Gemini, gør Google, grokFordi XAi e CoPilotFordi microsoft, med hensyn til billedgenerering.

Se forskellen mellem det samme billede omdannet til en tegning med en streg inspireret af Studio Ghibli efter samme prompt:

Crie uma imagem, inspirada nessa foto, com base no estilo do Studio Ghibli
Foto af en mand i et naturligt miljø, iført en mørkeblå skjorte - forstå, hvordan chatgpt laver billeder i stil med studio ghibli
Forskellen mellem den endelige kvalitet er tydelig, især ved generering af bogstaver og symboler – Billede: Personal Archive/Felipe Faustino

Ud over bedre at fange detaljerne i det originale billede, er et af de største fremskridt inden for generativ billeddannelse GPT-4o Dette er tydeligt i evnen til at gengive logo og bogstaver på skjorten, hvilket er meget svært i andre modeller.

Mens grok formår på en måde at genskabe kendetegn ved stilen af Studio Ghibli, selvom det lider under billedets detaljer, den Gemini går helt imod kornet, hvilket resulterer i generisk kunst. Det er værd at huske, at Google investerer allerede i en opdatering af de generative billeder af Gemini, der muliggør oprettelse af komplekse billeder og fotoredigering – værktøjer, der kan testes gennem AI Studio. En CoPilotFordi microsoft, undlod at reagere på prompten.

Har du allerede testet værktøjet til at indtaste Studio Ghibli trend? Fortæl os i kommentarerne.

Se også

Tekst revideret af Alexandre Marques den 01/04/2025.

Kilder: The Times of India, Hindustan Times, Økonomiske tider


Opdag mere om Showmetech

Tilmeld dig for at modtage vores seneste nyheder via e-mail.

Relaterede indlæg