Sora (tekst-naar-video-model)

Sora
Ontwerper(s)	OpenAI
Ontwikkelaar(s)	OpenAI
Uitgebracht	15 februari 2024
Categorie	tekst-naar-video-model
Website	openai.com/sora
Portaal	Informatica

Sora is een tekst-naar-video-model van de in de VS gevestigde onderzoeksorganisatie voor kunstmatige intelligentie (AI), OpenAI. Het kan video's genereren op basis van beschrijvende aanwijzingen en bestaande video's vooruit of achteruit in de tijd uitbreiden.

Geschiedenis bewerken

Voor de release van Sora bestonden er verschillende andere, minder realistische modellen voor het genereren van tekst naar video, waaronder Make-A-Video van Meta, Gen-2 van Runway en Lumiere van Google. OpenAI, het bedrijf achter Sora, had in september 2023 DALL·E 3 uitgebracht, versie 3 van zijn tekst-naar-beeldmodellen met de naam DALL-E.

Het team dat Sora ontwikkelde vernoemde het naar het Japanse woord voor lucht om zijn "onbegrensde creatieve potentieel" aan te duiden.

Op 15 februari 2024 gaf OpenAI voor het eerst een voorproefje van Sora door meerdere clips vrij te geven van High-definition video's die het had gemaakt, waaronder een SUV die over een bergweg rijdt, een animatie van een 'kort donzig monster' naast een kaars, twee mensen die door Tokio lopen in de sneeuw, en nep-historische beelden van de goudkoorts in Californië. OpenAI verklaarde dat het video's van maximaal een minuut kon genereren. Het bedrijf deelde vervolgens een technisch rapport, waarin de methoden werden belicht die werden gebruikt om het model te trainen. Sam Altman, CEO van OpenAI, plaatste ook een reeks tweets waarmee hij reageerde op prompts van Twitter-gebruikers met door Sora gegenereerde video's van de prompts.

OpenAI heeft verklaard dat het van plan is Sora voor het publiek beschikbaar te maken, maar dat dit niet snel zal gebeuren; er is niet aangegeven wanneer. Het bedrijf bood beperkte toegang tot een klein ‘red team’, inclusief experts op het gebied van misleiding en vooroordelen, om vijandige tests op het model uit te voeren. Het bedrijf deelde Sora ook met een kleine groep creatieve professionals, waaronder videomakers en kunstenaars, om feedback te vragen over het nut ervan op creatief gebied.

Mogelijkheden en beperkingen bewerken

De technologie achter Sora is een aanpassing van de technologie achter DALL·E 3. Volgens OpenAI is Sora een diffusietransformator – een ruisonderdrukkend latent diffusiemodel met één transformer als ruisonderdrukking. Een video wordt gegenereerd in de latente ruimte door 3D-"patches" te verwijderen, en wordt vervolgens door een video-decompressor naar de standaardruimte getransformeerd. Herondertiteling wordt gebruikt om de trainingsgegevens uit te breiden, door een video-naar-tekstmodel te gebruiken om gedetailleerde ondertiteling voor video's te maken.

OpenAI heeft het model getraind met behulp van openbaar beschikbare video's en auteursrechtelijk beschermde video's waarvoor een licentie is verleend, maar heeft het aantal of de exacte bron van de video's niet onthuld. Bij de release erkende OpenAI enkele van Sora's tekortkomingen, waaronder het feit dat het moeite had om complexe natuurkunde te simuleren, oorzakelijkheid te begrijpen en links van rechts te onderscheiden. OpenAI verklaarde ook dat Sora, in overeenstemming met de bestaande veiligheidspraktijken van het bedrijf, tekstaanwijzingen voor seksuele, gewelddadige, haatdragende beelden of beelden van beroemdheden zal beperken, evenals inhoud met reeds bestaand intellectueel eigendom.

Tim Brooks, een onderzoeker bij Sora, verklaarde dat het model alleen op basis van zijn dataset ontdekte hoe 3D-afbeeldingen konden worden gemaakt, terwijl Bill Peebles, een andere Sora-onderzoeker, zei dat het model automatisch verschillende videostandpunten creëerde zonder dat dit werd gevraagd. Volgens OpenAI worden door Sora gegenereerde video's getagd met C2PA-metadata om aan te geven dat ze door AI zijn gegenereerd.

Ontvangst bewerken

Will Douglas Heaven van de MIT Technology Review noemde de demonstratievideo's "indrukwekkend", maar merkte op dat ze zijn uitgekozen en mogelijk niet representatief zijn voor Sora's typische output. De Amerikaanse academicus Oren Etzioni uitte zijn bezorgdheid over het vermogen van de technologie om online desinformatie te creëren voor politieke campagnes.

Voor Wired schreef Steven Levy op dezelfde manier dat het het potentieel had om "een treinramp met verkeerde informatie" te worden en meende dat de previewclips "indrukwekkend" maar "niet perfect" waren en dat het "een opkomend begrip van filmische grammatica liet zien" vanwege de ongevraagde schotwisselingen. Levy voegde eraan toe: "Het zal heel lang duren voordat tekst-naar-video het daadwerkelijke filmmaken bedreigt."

Lisa Lacy van CNET noemde de voorbeeldvideo's "opmerkelijk realistisch - behalve misschien wanneer een menselijk gezicht van dichtbij verschijnt of wanneer zeedieren zwemmen".

Bron

Dit artikel of een eerdere versie ervan is een (gedeeltelijke) vertaling van het artikel Sora (text-to-video model) op de Engelstalige Wikipedia, dat onder de licentie Creative Commons Naamsvermelding/Gelijk delen valt. Zie de bewerkingsgeschiedenis aldaar.