Uw one-stop uitleg over Deepfakes en om ze gemakkelijk te maken met Faceswap.
Kunstmatige intelligentie is niet meer zo ‘kunstmatig’. Deze tijd heeft het gevaarlijk dicht bij ons mensen gebracht.
Het kan suggereren, schrijven, kunst creëren en ziet er nu uit en praat als de levenden.
Dit is een van de meest recente ontwikkelingen op dit gebied waar we ons voordeel mee moeten doen. Maar dit is er ook één waar we voor moeten oppassen.
Wat zijn Deepfakes?
Het woord Deepfake is bedacht door deep learning en fake te combineren. In eenvoudige bewoordingen kunt u ook aannemen dat dit deskundig gemanipuleerde of diep vervalste media zijn.
Volgens Wikipedia staat dit ook bekend als synthetische media waarbij een bestaande afbeelding, audio of video wordt aangepast om iemand anders volledig voor te stellen.
Doorgaans zorgen deepfakes ervoor dat bekende persoonlijkheden iets lijken te zeggen wat ze anders niet zouden zeggen.
Afhankelijk van de vaardigheid van de maker kan het heel moeilijk zijn om te zien of het echt of nep is.
Hoe werken deepfakes?
Simpel gezegd wordt een deel van de originele video (bijvoorbeeld een gezicht) vervangen door een vervalsing die er net zo uitziet. In zo’n geval kan het ook een faceswap genoemd worden, zoals in deze ‘Obama’-video.
Het is echter niet beperkt tot video alleen, en we hebben ook deepfakes van afbeeldingen en audio (en wie weet, deepfake VR avatars in de nabije toekomst).

De werkmethode achter dergelijke trucs hangt voornamelijk af van de toepassing en het onderliggende algoritme.
Volgens dit onderzoeksartikel van Disney zijn er verschillende technieken, waaronder encoders-decoders, Generative Adversarial Networks (GAN’s), Geometry-based deepfakes, enz.
De volgende secties worden echter vooral beïnvloed door hoe het werkt met Facewap. Dit is een gratis en open-source Deepfake software die meerdere algoritmen toestaat om het verwachte resultaat te krijgen.
Er zijn drie belangrijke processen om deepfakes te genereren: extractie, training en conversie.
#1. Extractie
Dit gaat over het detecteren en uitknijpen van het onderwerp van interesse uit mediamonsters, het origineel en die voor de swap.
Op basis van de hardwaremogelijkheden kunnen er veel algoritmen gekozen worden voor efficiënte detectie.
Faceswap heeft bijvoorbeeld een paar verschillende opties voor extractie, uitlijning en maskering op basis van CPU- of GPU-efficiëntie.
Extractie identificeert eenvoudig het gezicht in de video als geheel. Uitlijning markeert cruciale kenmerken van een gezicht (ogen, neus, kin, enz.). En tot slot blokkeert maskeren andere elementen van de afbeelding behalve het interessegebied.
De totale tijd die nodig is voor de uitvoer is belangrijk bij het kiezen van een optie, omdat het kiezen van algoritmen die veel bronnen vereisen op middelmatige hardware kan resulteren in een mislukking of een aanzienlijk lange tijd om acceptabele resultaten weer te geven.
Naast de hardware hangt de keuze ook af van parameters zoals of de inputvideo last heeft van gezichtsobstakels zoals handbewegingen of een bril.
Een noodzakelijk element is uiteindelijk het opschonen (wordt later uitgelegd) van de uitvoer, aangezien de extracties een paar fout-positieven zullen hebben.
Uiteindelijk wordt de extractie herhaald voor de originele video en de nepvideo (gebruikt voor het verwisselen).
#2. Training
Dit is het hart van het maken van deepfakes.
Training gaat over het neurale netwerk, dat bestaat uit de encoder en decoder. Hier worden de algoritmen gevoed met de geëxtraheerde gegevens om een model te maken voor de latere conversie.
De encoder zet de invoer om in een vectorrepresentatie om het algoritme te trainen om de gezichten opnieuw te creëren uit vectoren, zoals gedaan wordt door de decoder.
Daarna evalueert het neurale netwerk zijn iteraties en vergelijkt deze met het origineel door een verliesscore toe te kennen. Deze verlieswaarde daalt na verloop van tijd terwijl het algoritme blijft itereren, en u stopt wanneer de previews acceptabel zijn.
Training is een tijdrovend proces en de uitvoer verbetert over het algemeen op basis van de uitgevoerde iteraties en de kwaliteit van de invoergegevens.
Faceawap stelt bijvoorbeeld een minimum van 500 afbeeldingen voor, zowel de originele als de verwisselde. Bovendien moeten de afbeeldingen onderling aanzienlijk verschillen en alle mogelijke hoeken in unieke belichting bestrijken voor de beste recreatie.
Afhankelijk van de lengte van de training, kunt u met sommige toepassingen (zoals Faceswap) de training halverwege stoppen of later voortzetten.
Het fotorealisme van de uitvoer hangt ook af van de efficiëntie van het algoritme en de invoer. En men wordt opnieuw beperkt door de hardwaremogelijkheden.
#3. Conversie
Dit is het laatste hoofdstuk in de creatie van een deepfake. De conversiealgoritmen hebben de bronvideo, het getrainde model en het bronuitlijningsbestand nodig.
Vervolgens kunt u enkele opties wijzigen met betrekking tot kleurcorrectie, maskertype, gewenst uitvoerformaat, enz.
Na het configureren van deze opties hoeft u alleen nog maar te wachten op de uiteindelijke render.
Zoals gezegd werkt Faceswap met veel algoritmen, en men kan er mee spelen om een acceptabele faceswap te krijgen.
Is dat alles?
Nee!
Dit was gewoon face swapping, een subset van deepfake technologie. Face swapping vervangt, net als de letterlijke betekenis, slechts een deel van het gezicht om een flauw idee te geven van wat deepfakes zouden kunnen doen.
Voor een geloofwaardige swap moet u misschien ook de audio nabootsen (beter bekend als stem klonen) en de hele lichaamsbouw, inclusief alles wat in het frame past, zoals dit:
Dus, wat speelt hier?
Wat er gebeurd zou kunnen zijn, is dat de auteur van de deepfake de video zelf heeft opgenomen (zoals aangegeven in de laatste paar seconden), de dialoog lipsynchroniseerde met de synthetische stem van Morgan Freeman en zijn hoofd verving.

Het gaat dus niet alleen om de faceswap, maar om het hele frame, inclusief de audio.
U kunt op YouTube heel veel deepfakes vinden, tot het punt waarop het eng wordt om te weten wat te vertrouwen. En om te beginnen hebt u alleen een krachtige computer met een efficiënte grafische kaart nodig.
Perfectie is echter moeilijk te bereiken, en dat geldt vooral voor deepfakes.
Om een overtuigende deepfake te maken die het publiek kan misleiden of verbazen, is vaardigheid en een paar dagen tot weken verwerking nodig voor een minuut of twee van een video.
Interessant genoeg is dat hoe goed deze algoritmen op dit moment zijn. Maar wat de toekomst in petto heeft, inclusief hoe effectief deze toepassingen kunnen zijn op goedkopere hardware, is iets dat hele regeringen nerveus heeft gemaakt.
We zullen echter niet ingaan op de gevolgen voor de toekomst. Laten we in plaats daarvan voor de lol eens kijken hoe u het zelf kunt doen.
(Basis) Deepfake-video’s maken
In deze lijst met deepfake apps voor het maken van memes kunt u veel toepassingen bekijken.
Eén daarvan is Faceswap, die wij zullen gebruiken.
Er zijn een paar dingen waar we voor moeten zorgen voordat we verder gaan. Ten eerste moeten we een video van goede kwaliteit hebben van het doelwit met verschillende emoties. Vervolgens hebben we een bronvideo nodig om naar het doel te verwisselen.
Sluit daarnaast alle toepassingen die veel grafische kaarten gebruiken, zoals browsers of games, voordat u verder gaat met Faceswap. Dit geldt vooral als u minder dan 2 gig VRAM (video RAM) hebt.
Stap 1: Gezichten uitpakken
De eerste stap in dit proces is het extraheren van de gezichten uit de video. Hiervoor moeten we de doelvideo selecteren in de Input Dir en een Output Dir opgeven voor de extracties.

Daarnaast zijn er een paar opties, waaronder detector, aligner, masker, etc.; de uitleg voor elk van deze opties staat in de Faceawap FAQ’s, en het zou zonde zijn om de informatie hier te herhalen.

Het is over het algemeen goed om de documentatie door te nemen voor een beter begrip en een fatsoenlijke uitvoer. Er zijn echter nuttige teksten binnen Faceswap die u kunt vinden door met de muis over de specifieke optie te gaan.

Simpel gezegd, er is geen universele manier, en men moet beginnen met de beste algoritmen en succesvol naar beneden werken om een overtuigende deepfake te maken.
Voor de context heb ik Mtcnn (detector), Fan (aligner) en Bisenet-Fp (masker) gebruikt, terwijl ik alle andere opties ongewijzigd heb gelaten.
Oorspronkelijk probeerde ik het met S3Fd (beste detector) en een paar andere maskers gecombineerd. Mijn 2Gb Nvidia GeForce GTX 750Ti kon de belasting echter niet aan en het proces mislukte herhaaldelijk.
Uiteindelijk heb ik mijn verwachtingen en de instellingen afgezwakt om het te doorstaan.
Naast het selecteren van de juiste detector, maskers, enz., zijn er nog een paar opties in Instellingen > Instellingen configureren waarmee u individuele instellingen verder kunt aanpassen om de hardware te helpen.

Eenvoudig gezegd, selecteer de laagst mogelijke Batch-Size, Input Size en Output Size, en vink LowMem, enz. aan. Deze opties zijn niet overal beschikbaar en zijn gebaseerd op een specifieke sectie. Bovendien helpen de helpteksten bij het selecteren van de beste opties.
Hoewel dit hulpmiddel uitstekend werk levert bij het extraheren van gezichten, kunnen de uitvoerframes veel meer bevatten dan nodig is om het model te trainen (waarover later meer). Het zal bijvoorbeeld alle gezichten bevatten (als de video er meer dan één heeft) en sommige onjuiste detecties die het doelgezicht helemaal niet hebben.
Dit leidt tot het opschonen van de datasets. U kunt de uitvoermap controleren en zelf verwijderen of de Faceswap-sortering gebruiken om hulp te krijgen.

Door het bovengenoemde hulpmiddel te gebruiken, worden verschillende gezichten op volgorde gerangschikt, waarna u de benodigde gezichten in één map kunt samenvoegen en de rest kunt verwijderen.
Ter herinnering: u moet de extractie ook herhalen voor de video van de bron.
Stap 2: Het model trainen
Dit is het langste proces bij het maken van een deepfake. Hier verwijst Input A naar het doelgezicht en Input B naar het brongezicht. Daarnaast is de Model Dir de plaats waar de trainingsbestanden worden opgeslagen.

Hier is de belangrijkste optie Trainer. Er zijn er genoeg met individuele schaalopties, maar wat voor mijn hardware werkte is Dfl-H128 en Lightweight trainers met de laagste configuratie-instellingen.
De volgende optie is de batchgrootte. Een hogere batchgrootte verkort de totale trainingstijd, maar verbruikt meer VRAM. Iteraties hebben geen vast effect op de uitvoer, en u moet een waarde instellen die hoog genoeg is en de training stoppen zodra de previews acceptabel zijn.
Er zijn nog een paar andere instellingen, waaronder het maken van een timelapse met vooraf ingestelde intervallen; ik heb het model echter met het absolute minimum getraind.
Stap 3: Overstappen op het origineel
Dit is de laatste stap in het maken van een deepfake.
Dit neemt over het algemeen niet zoveel tijd in beslag, en u kunt met veel opties spelen om snel de gewenste uitvoer te krijgen.

Zoals aangegeven in de bovenstaande afbeelding, zijn dit een paar opties die u moet kiezen om de conversie te starten.
De meeste opties zijn al besproken, zoals de Input en Output directory, Model directory, enz. Een cruciaal punt is de Uitlijning, die verwijst naar het uitlijningsbestand (.fsa) van de doelvideo. Dit bestand wordt tijdens het extraheren aangemaakt in de Invoermap.
Het veld Uitlijningen kan leeg gelaten worden als dat specifieke bestand niet verplaatst is. Anders kunt u het bestand selecteren en doorgaan naar andere opties. Vergeet echter niet om het uitlijningsbestand op te schonen als u de extracties eerder hebt opgeschoond.
Hiervoor bevindt dit minitool zich in Extra > Uitlijningen.
Begin met het selecteren van Remove-Faces in de sectie Job, selecteer het originele uitlijningsbestand en de opgeschoonde target faces map, en klik rechtsonder op Alignments.

Dit creëert een aangepast uitlijningsbestand, dat overeenkomt met de geoptimaliseerde gezichtenmap. Denk eraan dat we dit nodig hebben voor de doelvideo, waarin we willen swappen.
Nog een paar configuraties zijn de kleuraanpassing en het maskertype. Kleuraanpassing dicteert de maskervermenging, en u kunt er een paar proberen, het voorbeeld bekijken en de optimale optie selecteren.
Het maskertype is belangrijker. Ook dit hangt af van uw verwachtingen en de beschikbare hardware. Meestal moet u ook rekening houden met de eigenschappen van de video-invoer. Vgg-Clear werkt bijvoorbeeld goed met frontale gezichten zonder obstructies, terwijl Vgg-Obstructed het ook kan doen met obstructies, zoals handgebaren, brillen, enz.
Vervolgens presenteert de Writer een aantal keuzes op basis van de uitvoer die u wilt. Selecteer bijvoorbeeld Ffmpeg voor een videoweergave.
In het algemeen is de sleutel tot een succesvolle deepfake het bekijken van een paar uitvoerresultaten en het optimaliseren op basis van de beschikbare tijd en de mogelijkheden van de hardware.
Toepassingen van Deepfake
Er zijn goede, slechte en gevaarlijke toepassingen van deepfakes.
De goede bestaan uit het herscheppen van geschiedenislessen door degenen die er echt waren voor een grotere betrokkenheid.
Daarnaast worden ze gebruikt door online leerplatforms om video’s uit teksten te genereren.
Maar een van de grootste begunstigden zal de filmindustrie zijn. Hier zal het gemakkelijk zijn om de hoofdrolspeler voor te stellen die stunts uitvoert, zelfs als het de stuntpersoon is die zijn leven riskeert. Bovendien wordt het maken van meertalige films gemakkelijker dan ooit.
Helaas zijn er veel slechte. De grootste deepfake toepassing tot nu toe, namelijk 96% (volgens dit Deeptrace-rapport), is in de porno-industrie om gezichten van beroemdheden op pornoacteurs te zetten.
Daarnaast worden deepfakes ook ingezet tegen ‘standaard’ vrouwen zonder beroemdheid. Meestal hebben dergelijke slachtoffers foto’s of video’s van hoge kwaliteit op hun sociale-mediaprofielen die gebruikt worden voor deepfakescams.
Een andere enge toepassing is vishing, ook wel voice phishing genoemd. In één zo’n geval maakte de CEO van een in het Verenigd Koninkrijk gevestigd bedrijf $243.000 over in opdracht van de ‘CEO’ van het Duitse moederbedrijf, om er later achter te komen dat het eigenlijk een deepfake telefoongesprek was.
Maar wat nog gevaarlijker is, is deepfake die oorlogen uitlokt of om overgave vraagt. Een van de meest recente pogingen was dat de Oekraïense president, Volodymyr Zelenskyy, zijn troepen en volk vertelde zich over te geven in de aanhoudende oorlog. De waarheid werd dit keer echter weggegeven door de slechte video.
Conclusie: er zijn veel deepfake toepassingen, en het is nog maar net begonnen.
Dit brengt ons bij de miljoen dollar vraag…
Is deepfake legaal?
Dit hangt grotendeels af van de lokale overheid. Hoewel, goed gedefinieerde wetten, inclusief wat is toegestaan en wat niet, moeten nog gezien worden.
Wat wel duidelijk is, is dat het afhangt van waar u de deepfakes voor gebruikt – de bedoeling. Het kan bijna geen kwaad als u iemand wilt vermaken of onderwijzen zonder het doelwit van de swapping van streek te maken.
Aan de andere kant zouden kwaadaardige toepassingen strafbaar moeten zijn, ongeacht de jurisdictie. Een ander grijs gebied is inbreuk op het auteursrecht, waar goed over nagedacht moet worden.
Maar nogmaals, u moet bij uw lokale overheidsinstanties navragen of deepfake toepassingen legaal zijn.
Blijf opletten!
Deepfkaes maakt gebruik van kunstmatige intelligentie om iedereen dingen te laten zeggen.
Vertrouw niets van wat u op het internet ziet, is het eerste advies dat we moeten opvolgen. Er is heel veel verkeerde informatie, en de doeltreffendheid ervan neemt alleen maar toe.
En omdat het alleen maar gemakkelijker wordt om ze te maken, is het tijd dat we leren hoe we deepfakes kunnen herkennen.
-
Hitesh werkt als senior schrijver bij Geekflare en houdt zich bezig met cyberbeveiliging, productiviteit, games en marketing. Daarnaast heeft hij een master in transporttechniek. Zijn vrije tijd bestaat meestal uit spelen met zijn zoon, lezen of liggen... meer lezen