Projekte

Deepfakes

Im Rahmen einer Projektarbeit wurden die Tools und die Technologie rund um Deepfake-Videos, also dem Ersetzen einer Person durch eine Andere innerhalb einer Filmaufnahme bzw. eines Live-Videos, analysiert und angewendet.

Werbevideo für das Deepfake-Modell Heinz 2.0

Motivation

Ein Rapbattle zwischen Donald Trump und Joe Biden, widersprüchliche Weihnachtsgrüße der Queen oder Donald Trump, der Belgien rät aus dem Pariser Klimaabkommen auszutreten – alles Situationen, die für uns nur schwer vorstellbar sind. Warum sollten berühmte Persönlichkeiten, wie Politiker oder Hollywood-Stars, solche Aussagen überhaupt treffen und das mögliche Ende ihre Karriere heraufbeschwören? Die Antwort darauf lässt sich ganz einfach sagen: gar nicht. Es handelt sich um gefälschte Medieninhalte, sogenannte DeepFakes. In einer Welt voller Fake News ist es für viele Menschen allerdings zum Alltag geworden, kritische Nachrichten anzuzweifeln und diese zu hinterfragen. Aber was macht es mit uns, auf einmal eine Person in unserem direkten Umfeld in solch einer Situation zu finden? Auf genau diesen Effekt zielen wir mit unserem Projekt ab. Mit Heinz 2.0 kann jede beliebige Person, mit Hilfe von Deepfakes, zu dem in den Ruhestand eingetretenen Professor Heinz Brünig werden.

Bildschirm mit Webcam, Website Heinz 2.0 ist sichtbar, daneben eine große LampeQuelle: © TH Nürnberg
Aufbau während der Projektpräsentation

DeepFaceLive

DeepFaceLive ist eine Erweiterung von DeepFaceLab. Die Arbeit mit Deepfacelab war unser Hauptfokus aus der ersten Projekthälfte, denn diese Software macht die Erstellung von hochwertigen Deepfake-Videos möglich.  DFLive hingegen ermöglicht einen Gesichter Tausch (auch FaceSwap genannt), welcher Live vor einer Webcam stattfindet, also in Echtzeit. Normalerweise werden Deepfake-Videos mit dem Ziel trainiert ein bestimmtes Gesicht mit einem weiteren bestimmten Gesicht zu tauschen. Die daraus entstehenden Deepfake-Modelle sind aufeinander abgestimmt und eine Wiederverwendung für andere Gesichter ist nicht möglich. Dieser Vorgang muss dann auch noch für jedes weitere Deepfake Video oder Modell wiederholt werden. Wie können wir also dieses Konzept abändern, um Modelle zu erstellen welche für mehrere Gesichter anwendbar sind? Wie kann man also die trainierten Modelle für den Live-Betrieb und für weitere Deepfake-Videos wieder verwenden?

Der große Unterschied bei DeepFaceLive besteht darin, dass sogenannte RTM Modelle (Ready-To-Merge Modelle) zum Einsatz kommen. Im Zuge der Projektarbeit Heinz 2.0 wurde auf die Erstellung eines solchen Modells eingegangen um den in Ruhestand gehenden Professor Heinz Brünig für das Hochschulleben zu erhalten.

Mehrere Gesichter denen mithilfe eines Deepfakes die Gesichtszüge gegen die von Heinz Brünig ausgetauscht wurden.Quelle: © TH Nürnberg
Mehrere Beispiele von Heinz 2.0 als Deepfake

„Kidnapp’d“

Das sprachgesteuerte Escape-Room-Game

In einer Projektarbeit des Studiengangs Media Engineering wurde in Anlehnung an alte klassische Textadventures ein Escape Room konzipiert und realisiert, der völlig auf visuelle Elemente verzichtet und ausschließlich durch ein CUI (Converstional User Interface) mit Sprache gesteuert wird. Dazu wurde für Amazon „Alexa“ ein Skill implementiert.

Was ist ein Escape Room?

Der Escape Room ist eine neue Erscheinung, die sich mittlerweile einer großen Beliebtheit erfreut. Die Spieler werden dabei in einem Raum eingesperrt und müssen aus diesem entkommen, indem Rätsel gelöst werden. Escape Rooms sprechen jede Altersgruppe an. Eine der wichtigsten Fähigkeiten, um in so einem Raum zu bestehen, ist Teamfähigkeit. Viele Aufgaben müssen im Team gemeistert werden.

Die Escape Rooms sind je nach Setting verschieden eingerichtet. Ob königliches Schlosszimmer oder heruntergekommene Bruchbude – es ist alles möglich.

Rätsel können verschieden ausgelegt sein. Zum einen können Rätsel Nacheinander angeordnet sein so dass die Lösung eines Rätsels zu einem anderen führt. Die parallele Rätselbearbeitung ist ebenfalls möglich. So können zum Beispiel die Ergebnisse vieler einzelner Rätsel die Zahlenkombination eines Schlosses ergeben. Auch die Interaktion mit Gegenständen ist fester Bestandteil von Escape Rooms, wie das Drücken von Knöpfen, Verschieben von Möbeln, Öffnen von Schubladen oder Schränken etc

Story

Die Story handelt von einem namenlosen Protagonisten, der gekidnappt wurde und in einer unbekannten Umgebung aufwacht. Das ganze Setting soll dazu anregen, den Spieler auf der einen Seite neugierig auf die Umgebung zu machen und anderseits animieren die Situation des Protagonisten zu verbessen und aus den Räumen zu entkommen.

Der Alexa Skill

Die Alexa Developer Console ist das webbasierte Tool von Amazon, um Alexa Skills zu entwickeln. Über das Tool wird der End-Point eingetragen, das Interaction Model sowie die jeweilige Invocation eingetragen.

Amazon bietet 2 Möglichkeiten einen Skill zu betreiben.

1. Amazon Lambdafunktionen gehostet über den Amazon Web Service (AWS)

Amazon als einer der größten Anbieter von Cloudservices bietet die Möglichkeit seinen Skill komplett über die webbasierte Anwendung Aws-Services zu realisieren. Das bedeutet das die Skilllogik als Lambdafunktion bei Amazon hinterlegt ist und diese auch mit der Alexa Developer Console kommuniziert.

2. Hosting eines eigenen Servers

Wir haben uns dafür entschieden, dass wir den Amazon Web Service nicht nutzten wollen, sondern den Skill auf unserem eigenen Server zu hosten. Der Amazon Alexa Services kommuniziert über HTTPS mit unserem Server. Diese Kommunikation funktioniert über die Post Methode in der JSON Dateien geschickt werden.

Quelle: © TH Nürnberg

Damit die Alexa Developer Console den Applicationserver findet, wird in der Alexa Developer Console die URL zum Server abgelegt.

Intents

Intents sind ein wichtiger Bestandteil des Amazon-Kommunikation-Models. Dieses Kommunikation-Model gibt den Aufbau der zu erwartenden Befehle an. Intents nehmen in diesem Model den Platz der Befehle ein, die dann in dem entsprechenden Code verarbeitet werden und eine Reaktion des jeweiligen provozieren.