Deepfakes: Fälschungen der nächsten Generation

Falsche Tatsachen schaffen, die Realität verbiegen, „alternative Fakten“ erzeugen: Im Internet sind Fakes nichts Neues. Egal ob es um manipulierte Bilder, angebliche Neuigkeiten oder erfundene Informationen geht, das World Wide Web ist voll davon – und so wird es immer schwieriger, zwischen Realität und Fiktion zu unterscheiden. Nun haben Fälschungen ein neues Level erreicht: Deepfakes.

Deepfakes sind zuerst im Dezember 2017 auf Reddit aufgetaucht. Ein Nutzer hatte es geschafft, die Gesichter von Prominenten in Pornofilmen unterzubringen – und das erschreckend glaubhaft. Für kurze Zeit erlebte das Erstellen von angeblichen Promi-Pornos einen wahren Boom. Inzwischen sind solche gefälschten Videos sowohl auf Reddit als auch auf anderen Plattformen wie Twitter oder Discord verboten, doch das kann die Verbreitung von Deepfakes kaum noch einschränken. Was macht Deepfakes so besonders?

Deepfakes – was ist das?

In der Regel werden sogenannte Fakes mit sehr viel Arbeit und Fachwissen erstellt. Das muss nicht einmal einen zwielichtigen Hintergrund haben. Auch in Hollywood-Filmen ist es nicht ungewöhnlich, Gesichter auszutauschen. Dafür setzt man aber normalerweise auf Experten in den Bereichen Schnitttechnik und CGI. Deepfakes erstellt aber der Computer selbst, ohne detaillierte Anpassungen durch Menschenhand.

Man nennt sie „Deepfakes“, weil sie auf dem sogenannten Deep Learning basieren, einer Form des Machine Learning. Für den Austausch von Gesichtern oder Gegenständen sind bei Deepfakes Algorithmen notwendig. Damit Deep Learning funktioniert, werden die Algorithmen mit sehr, sehr vielen Bild- oder Videodaten gefüttert. Je mehr Material man von einer Person hat, umso besser sollte das Ergebnis werden.

Tipp

Besonders gut eignen sich auch Videos als Trainingsmaterial. So kommt man schnell auf tausende Einzelframes aus vielen verschiedenen Blickrichtungen. Videos zeigen die Gesichter auch in natürlicheren Positionen, als es normale Fotos tun, die oftmals nur ein lächelndes Gesicht von vorn zeigen.

Bereits 300 Bilder mit dem Gesicht der auserkorenen Person (bestenfalls aus allen möglichen Perspektiven) sollten allerdings als Trainingsdaten reichen, um ein annehmbares Ergebnis zu erhalten. Im Deepfakes-Code steckt ein neuronales Netz, ein sogenannter Autoencoder: Das Netz wird darauf trainiert, Daten zu komprimieren, um sie dann wieder zu dekomprimieren. Der Autoencoder versucht bei der Dekomprimierung ein Ergebnis zu erreichen, das möglichst nah am Original ist. Um dies zu schaffen, lernt das Netz beim Komprimierungsvorgang entscheidende Daten von unwichtigen zu unterscheiden.

Füttert man den Algorithmus mit Bildern von Hunden, lernt das künstliche neuronale Netz, nur den Hund zu fokussieren und Hintergründe (Noise) zu ignorieren. Aus den Daten kann der Autoencoder schließlich selbst einen Hund erstellen. Auf diese Weise funktioniert auch der Tausch von Gesichtern bei Deepfakes: Das neuronale Netz lernt, wie das Gesicht der Person aussieht, und kann dieses dann selbstständig erzeugen – auch wenn das Gesicht in Bewegung ist und sich z. B. der Mund bewegt.

Um Gesichter effektiv auszutauschen, müssen zwei Köpfe erkannt werden: das Gesicht, das im Originalmaterial auftaucht, und jenes, mit dem man den Tausch durchführen möchte. Dafür setzt man einen Eingang (den Encoder) und zwei Ausgänge (die Decoder) an. Der Encoder analysiert jegliches Material, während die beiden Decoder jeweils einen unterschiedlichen Output generieren: Gesicht A oder Gesicht B.

Im Endeffekt funktioniert es dann so, dass der Algorithmus nicht Gesicht A in das Video einfügt, sondern Gesicht B, das dort eigentlich gar nicht hingehört. Dies offenbart auch den Unterschied zu den bereits bekannten Fakes, die sich nur auf Bilder reduzieren: Dort schneidet man das Gesicht aus einem Bild aus, retuschiert oder passt es vielleicht an und fügt es in ein anderes Bild ein. Bei Deepfakes wird aber nicht Bildmaterial in ein anderes Bild hineinkopiert, sondern neues Material erstellt. Nur so kann auch die Mimik passend zu der des Originalgesichts ausfallen.

Dies erklärt auch die Fehler, die bei Deepfakes auftreten: Besonders bei untypischen Bewegungen geraten die neuronalen Netze an ihre Grenzen. Wenn es nicht genügend Material aus der entsprechenden Perspektive gibt, wirkt der Frame verschwommen. Der Algorithmus versucht, aus dem wenigen Ausgangsmaterial ein Bild zu generieren, muss aber scheitern und kann nur auf Details verzichten.

Die Geschichte der Deepfakes: Von Reddit in die Welt

Ihren Ursprung haben die Deepfakes auf Reddit. Die Website ist dafür bekannt, in den Unterforen (den sogenannten Subreddits) auch kuriosen Themen eine Heimat zu bieten. Der Redditor (so werden Nutzer im Kosmos von Reddit genannt) mit dem Namen „deepfakes“ hat im Dezember 2017 ein solches Subreddit erstellt und dort pornografische Videos mit Prominenten veröffentlicht. Dafür hat der anonyme Nutzer den beschriebenen Algorithmus gebaut, der wiederum auf anderen Technologien beruht, etwa den Open-Source-Bibliotheken Keras und Googles TensorFlow.

Binnen kürzester Zeit zählte das Subreddit 15.000 Anhänger. Inzwischen hat Reddit dem Forum einen Riegel vorgeschoben und genau wie andere Unternehmen (u. a. die Plattform für pornografische Videos Pornhub) das Verbreiten von Fake-Pornos verboten. Doch das kann den Siegeszug der Deepfakes kaum noch aufhalten: Der Code, den deepfakes entwickelt hat, ist Open Source und steht somit jedermann zur Verfügung. Auf GitHub lassen sich gleich mehrere Repositories finden, in denen Entwickler an den Algorithmen arbeiten. So ist auch eine Deepfakes-App entstanden, genannt FakeApp.

Mit dem Programm können alle Menschen, die ein wenig Computerfachkenntnis besitzen, Face-Swaps durchführen. Um Deepfakes per App zu erstellen, ist ansonsten nur eine möglichst leistungsstarke Grafikkarte von Nvidia nötig. Das Programm nutzt für die Berechnungen den Grafikprozessor (GPU). Abseits der FakeApp können Deepfakes auch mit der CPU eines Computers erstellt werden, dies dauert aber für gewöhnlich sehr viel länger.

Die Netzgemeinde hat inzwischen weitere Verwendungszwecke abseits von Pornos für den Face-Swap auf Basis von Machine Learning gefunden: Wie man es vom Internet kennt, wird die Technik zu einem sehr großen Teil dazu benutzt, lustigen Unsinn zu kreieren. Besonders beliebt ist es beispielsweise, Schauspieler in Filme zu bringen, in denen sie nie mitgespielt haben. So haben Nutzer in einem kurzen Clip aus der Verfilmung des „Herrn der Ringe“ jeden Schauspieler durch Nicholas Cage ersetzt oder Sharon Stone in ihrer berüchtigten Szene aus „Basic Instinct“ mit Steve Buscemi ausgetauscht.

Auswirkungen auf die Gesellschaft

Solche Späße sind eher harmlos. Doch die neuen einfachen Möglichkeiten der Videomanipulation stellen die Gesellschaft gleich vor mehrere Herausforderungen: Zum einen geht es um eine Frage der Legalität. Die prominenten Frauen, die nun in Pornovideos auftauchen, haben zu keinem Zeitpunkt ihre Zustimmung dazu gegeben. Abgesehen davon, dass dies moralisch mehr als fragwürdig ist, greifen solche Deepfakes u. U. massiv das Persönlichkeitsrecht an. Die Videos können mitunter rufschädigend sein.

Fakt

Derzeit entstehen Deepfakes vor allem mit den Antlitzen von Prominenten. Das liegt u. a. daran, dass von Berühmtheiten sehr viel Bildmaterial im World Wide Web zu finden ist. Doch auch normale Menschen stellen mehr und mehr Bilder von sich ins Internet und riskieren so, Opfer von Deepfakes zu werden.

Vom individuellen Schaden abgesehen, können Deepfakes auch gesellschaftliche Veränderungen heraufbeschwören. In den letzten Jahren kam bereits das Problem der sogenannten Fake-News auf. Es wird zunehmend schwieriger, echte Tatsachen von falschen Behauptungen zu unterscheiden. Bisher galten Videobeweise als sicheres Indiz für die Richtigkeit einer Aussage – durch Deepfakes ist auch dies nicht mehr gegeben. Mit relativ wenig Aufwand kann man nun täuschend echte Manipulationen anfertigen – und das eben nicht nur zum Zweck der Unterhaltung.

Fälschungen sind und waren schon immer wichtige Propagandamittel. Mit Deepfakes ist es möglich, Politik empfindlich zu beeinflussen. Während ein Video, bei dem das Gesicht von Angela Merkel durch das von Donald Trump ersetzt wird, noch unwichtiger Quatsch ist, könnten Politiker auch in Situationen gebracht werden, in denen sie niemals waren. Da man durch Machine Learning sogar die Stimme eines Menschen relativ glaubwürdig nachstellen kann, werden Deepfakes in Zukunft immer echter wirken. Es ist davon auszugehen, dass solche Fälschungen zwangsläufig Wahlkämpfe und internationale Beziehungen beeinflussen werden.

Für unsere Gesellschaft bedeutet dies, dass wir den Medien, insbesondere den Internetmedien, weitaus weniger vertrauen dürfen. Schon jetzt eignen sich Menschen einen gesunden Zweifel an, wenn es um angebliche Neuigkeiten geht. Doch immer noch glauben zu viele Menschen Behauptungen, die in sozialen Medien verbreitet werden, aber jeglicher Faktenbasis entbehren. In Zukunft wird man nicht einmal mehr dem glauben können, was man mit eigenen Augen gesehen hat.

Doch die Entwicklungen rund um Deepfakes sind nicht nur destruktiv oder albern. Deep Learning kann die Kreation von visuellen Effekten revolutionieren. Derzeit ist es noch vergleichsweise aufwendig, die Gesichter von Schauspielern auf die Körper von anderen Personen zu montieren. Man hat z. B. für den „Star Wars“-Film „Rogue One“ mit visuellen Effekten eine junge Prinzessin Leia kreiert, obwohl die Schauspielerin Carrie Fisher zum Zeitpunkt, als der Film erschien, bereits 60 Jahre alt war. Ein Internetnutzer hat mithilfe von Deepfakes ein ähnliches Ergebnis erzielt – laut Eigenaussage innerhalb einer halben Stunde und mit einem gewöhnlichen PC. Deepfakes haben also die Wirkkraft, visuelle Effekte in Unterhaltungsmedien nachhaltig schneller und günstiger zu machen.

Man spekuliert auch, dass Deepfakes und die Einfachheit, die mit den neuartigen Fälschungen einhergeht, dazu führen könnte, Zuschauern eine Wahl zu geben: Wer in der Zukunft einen Film schaut, hat vielleicht die Wahl, welcher Star den Hauptcharakter spielen soll. Ein Klick vor Beginn des Films sollte genügen. Ähnliches ist für die Werbebranche denkbar. Demnächst stehen Prominente nicht mehr selbst für Wurstwaren, Designerkleider oder Spirituosen vor der Kamera, sondern verkaufen nur eine Lizenz für ihr Gesicht. Zudem hätten Nutzer die Möglichkeit, das begehrte T-Shirt im Onlineshop auf den Schultern des Lieblingsstars zu sehen.

Fazit

Machine Learning bietet weitreichende Chancen für die Zukunft unserer Gesellschaft. Schon jetzt arbeitet z.B. Google beim Kategorisieren von Bildern oder auch beim Entwickeln von selbststeuernden Autos mit künstlichen neuronalen Netzen und Deep Learning. Deepfakes zeigen nun eine der möglichen Schattenseiten der Technologie. Denn natürlich können die Entwicklungen auch destruktiv eingesetzt werden. Es ist an der Gesellschaft, Lösungen für solche Probleme zu finden und die wahren Chancen von Machine Learning und auch den Deepfakes zu nutzen.