Video Grundlagen

Wenn wir verstehen wollen, wie Video gespeichert und angezeigt / abgespielt wird, müssen wir eine Zeitreise machen und uns wirklich veraltete Technik anschauen: Bildröhren in der Fernsehtechnik. Ohne jetzt eine Physikstunde abzuhalten kann man sagen, dass eine TV-Röhre ein großes Glasgebilde ist, in dessen Inneren sich ein Vakuum befindet. Darin befindet sich eine Kathode die Elektronen freisetzt, wenn man sie erhitzt (deshalb dauert es eine Weile, bis nach deim Einschalten des Fernsehers ein Bild kommt; die Kathode muss erst aufgeheizt werden um Elektronen freizusetzen). Dann gibt es noch ein starkes elektromagnetisches Feld, das die Elektronen in Richtung der Mattscheibe beschleunigt. Das selbe elektromagnetische Feld wird auch dazu benutzt, den Elektronenstrahl (sehr viele Elektronen = Strahl) zu positionieren. Die Mattscheibe, also die Vorderseite der Bildröhre, ist phosphorbeschichtet, und wenn Elektronen darauf treffen, wird auf der anderen Seite Licht freigesetzt (das ist dann die Seite, auf der man sitzt).
Unten dargestellt ist ein Schema einer Kathodenstrahlröhre / Bildröhre (kurz CRT = Cathode Ray Tube).



Am Anfang waren die Fernseher nur schwarz/weiß, da reichte ein Elektronenstrahl aus. Um ein Bild anzuzeigen, muss der Strahl den ganzen Schirm abtasten. Die Abtastrate wird auch als (Bild-)Wiederholrate oder Frequenz bezeichnet und in Hertz (Hz) gemessen. Sie wurde nach den Gegebenheiten des Stromnetzes gewählt, weshalb man in Nordamerika und Teilen Japans 60 Hz verwendet, und in Europa, dem mittleren Osten und Teilen Asiens verwendet man 50 Hz. Daraus entstanden zwei konkurrierende TV-Systeme:

NTSC: National Television Standard Committee. (Spitzname: Never The Same Color (Nie die gleiche Farbe) weil zwei eigentlich identische NTSC-Bilder nie gleich aussehen). Das NTSC-System hat 525 Bildzeilen von denen man ungefähr 487 auf dem Bildschirm sieht. Die Bildwiederholrate liegt wie gesagt bei 60 Hz - interlaced (im Deutschen wird Interlacing als "Zeilensprungverfahren" oder "Zwischenzeilenabtastung" bezeichnet, ich werde aber im Folgenden, wenn auch näher auf dieses Thema eingegangen wird, immer das englische Wort verwenden - Anmerkung des Übersetzers).

PAL: Phase Alternating Line. Das PAL-System hat 625 Bildzeilen von denen man ungefähr 575 auf dem Bildschirm sieht. Die Bildwiederholrate ist 50 Hz interlaced.

Nun, als man Fernsehgeräte auf den Markt bringen wollte, wäre eine Technik, die 525 oder 625 Linien 60 bzw. 50 mal pro Sekunde darstellen kann, viel zu teuer gewesen, und deshalb nicht geeignet für den Massenmarkt. Die Wiederholrate herabzusetzen hätte aufwändige Schaltkreise erfordert, weshalb auch das keine realisierbare Möglichkeit war. Dazu kommt, dass das menschliche Auge sowieso eine niedrigere Grenze hat, ab der es hintereinanderfolgende Einzelbilder als sich flüssige Bewegung wahrnimmt. Aber die Fernseh-Ingenieure hatten eine Idee: Wie wäre es, wenn man einfach jede zweite Zeile des Bildes während eines Bilddurchlaufs schreiben würde, und die anderen Zeilen während des nächsten Durchgangs? Auf diese Weise braucht man nur 25 bzw. 30 Bilder pro Sekunde darzustellen, was auch weniger Bandbreite beim Ausstrahlen des Programms durch den Sender bedeutet, und somit mehr TV-Stationen in einem Frequenzband Platz haben. Und das menschliche Auge akzeptiert es trotzdem als flüssige Bewegung. Diese Idee der Halbbilddarstellung (anderes Wort für Zwischenzeilenabtastung) wurde als Interlacing bekannt. Man spricht nun von zwei Feldern (Fields - im Folgenden werde ich auch hier das englische Wort verwenden - Anm. d. Übersetzers), in die ein Bild unterteilt ist. Grafisch betrachtet ist ein Field praktisch ein Bild, in dem jede zweite Zeile schwarz (oder weiß, was einem lieber ist) ist. Hier ist ein Bild zur Verdeutlichung:

Während des ersten Durchgangs wird das obere Field (upper field) auf den Schirm geschrieben. Wie man hier sieht, wird die erste Zeile geschrieben, dann bewegt sich der Strahl zurück nach links und schreibt die dritte Zeile, etc.

Wie man hier links sehen kann hat das Bild einen Kammeffekt - es sieht aus als ob man es durch einen Kamm betrachten würde. Wenn über Interlacing-Artefakte gesprochen wird, fallen oft die Worte Kammartefakte / Kammeffekte.

 

Wenn nun die ungeraden Zeilen geschrieben wurden, wird der Strahl nach links oben zurückgesetzt und beginnt die geraden Zeilen zu schreiben. Da es eine Weile dauert, bevor das Phosphor aufhört, Licht abzustrahlen ("nachleuchten"), und da das menschliche Auge bzw. Gehirn zu langsam ist, die einzelnen Fields zu sehen, sehen wir die Kombination beider Fields - mit anderen Worten das Originalbild.

Als das Fernsehen bunt wurde, blieb die Interlacing-Technik die gleiche, aber eine weiterentwickelte Kathodenstrahlröhre wurde benötigt. Anstatt nur eine Elektronenstrahl freizusetzen, werden nun drei Strahlen freigesetzt, einer ist rot, einer grün und einer blau (RGB). Wenn man Punkte verschiedener Farben nahe genug nebeneinander platziert, sieht das menschliche Auge nicht mehr die einzelnen Punkte, sondern einen einzigen Punkt mit der Farbe, die aus den drei Grundfarben entsteht. Unten das Schema einer Farbbildröhre.

Fernseher benutzen ein Additives Farbsystem um alle möglichen Farben anzeigen zu können. Mehr Informationen zu additivem Farbmischen gibt's im RGB World Color Info Article (Englisch).

In der NTSC-Welt bedeutete der Umstieg auf Farbe noch eine Änderung: Die Wiederholrate musste leicht herabgesetzt werden, von 60 auf 59,97 Hz (was 29,97 Bilder pro Sekunde bedeutet) um die Farben unterbringen zu können. Das ist der Grund, weshalb wir heutzutage bei NTSC mit diesen seltsamen Bildraten zu tun haben.

Bevor wir uns nun damit auseinandersetzen, wie Hollywood-Filme aufgenommen werden, lasst uns einen Blick auf unsere PC-Monitore werfen. Gewöhnliche CRT-Bildschirme beim PC sind grundverschieden von CRT-Bildschirmen bei Fernsehern. Als der PC gerade auf den Markt kam, war es bereits möglich, ein ganzes Bild pro Durchgang zu schreiben - was man auch Progressive Scanning (Vollbilddarstellung) nennt. Frühe Modelle unterstützten auch Interlaced-Modi, aber der höhere Kontrast und helle Hintergründe verursachten Kopfschmerzen im Interlaced-Modus, weshalb man davon schnell abkam. Heutzutage wird auf allen PC-CRT-Bildschirmen das Bild wie folgt ausgegeben:

In der letzten Zeit gibt es vermehrt auch Fernseher, die den Progressive Scanning-Modus unterstützen. Diese Modelle sind aber selten und benötigen andere Signale als die normalen Fernsehgeräte. Somit kann man nicht ohne weiteres gewöhnliche Videorecorder, DVD-Player oder Kameras an diese Geräte anschließen. LCD und Plasma-Bildschirme können nur Progressive schreiben - wenn man sie mit Bildern im Interlacing-Modus füttert, sind ein paar technische Tricks von Nöten um ein akzeptables Bild zu erhalten. Diese Techniken werden unter dem Wort "Deinterlacing" zusammengefasst.

Eine letzte Anmerkung zur Fernsehtechnik, bevor wir fortfahren: Wie sich manche vielleicht erinnern, waren die Mattscheiben älterer Bildschirme alles andere als flach, vielmehr stark gewölbt. Der Grund an Folgendem: Je weiter man von der Mitte der Bildröhre, also dem Ursprung der Strahlen, entfernt ist, desto komplizierter wird es, ein geometrisch unverzerrtes Bild darzustellen. Sogar heute noch sieht man nicht die gesamte Röhre, die letzten paar Zentimeter sind hinter dem Gehäuse versteckt. Das ist der Grund weshalb beide TV-Formate mehr Zeilen haben als man tatsächlich sehen kann. Diese Zeilen werden aber trotzdem verwendet! Die Sender übertragen darüber Texte oder auch Störsignale für den Videorecorder (genannt Macrovision-Kopierschutz), etc.

Bevor wir uns dem Deinterlacing widmen, gibt es ein paar Dinge, die über das Drehen von Filmen bekannt sein sollten.

Die meisten Filme für das Kino werden auf Filmmaterial aufgenommen, was dem Material aus der Fotografie ähnelt. In einer Sekunde werden 24 Bilder aufgenommen. Theoretisch könnte man also einen Film mit einer Fotokamera drehen... man müsste eben jede 1 oder 1,5 Sekunden den Film wechseln (und außerdem sind die meisten Fotokameras nicht schnell genug, um 24 Bilder/s aufnehmen zu können ;) ). Wenn wir diese Filme im Kino sehen, sehen wir eben diese 24 Bilder (auch Frames genannt) pro Sekunde. Aber wenn wir diese Filme auf VHS oder DVD kaufen, und sie auf unseren Fernsehern anschauen, gibt es ein Problem. PAL-Systeme benötigen 25 Bilder pro Sekunde, und jedes Bild muss in zwei Fields geteilt werden. Aber da 25 nicht so viel höher als 24 ist, macht man es in den PAL-Ländern meistens so, dass man das Original mit 24 fps ("frames per second", geläufige Abkürzung für "Bilder pro Sekunde" - Anm. d. Übersetzers) einfach schneller abspielt um auf 25 fps zu kommen, undzwar wird der Film um 1/24 (gut 4%) beschleunigt. Das bedeutet, dass die Stimmen und die Musik sich höher anhören, und dass der Film etwas kürzer dauert - aber so lange man es nicht nebeneinander vergleicht, wird das kaum jemand bemerken (bei zwei Stunden Film "gewinnt" man dabei etwa 5 Minuten Zeit).

Kommen wir zu NTSC. Hier brauchen wir 29,97 fps. Einfach schneller abspielen ist hier nicht drin, da das so gut wie jeder merken würde. Also wird es so gemacht: Nachdem die Frames in Fields zerteilt wurden, werden bestimmte Fields wiederholt um die höhere Framerate einzuhalten. Grundsätzlich werden vier Frames in zehn Fields zerteilt - wie unten zu sehen:

Wie man auf dem Bild sehen kann resultiert aus der höheren Framerate von NTSC nicht etwa eine flüssigere Bewegung - eher das Gegenteil. NTSC ist ein bisschen ruckeliger, da einige Fields zwei mal (das erste Field von Frame 2, und das zweite Field von Frame 4) angezeigt werden.

Auf dem Fernseher stört uns das nicht weiter, da wir durch die schlechte Qualität nicht merken, dass irgend etwas nicht ganz passt. Aber das ändert sich, wenn es in den Progressive Bereich geht.

Um etwas im Progressive-Modus darzustellen, muss das Anzeigegerät das interlaced-Bild irgendwie zurück in ein progressive-Bild verwandeln. Die einfachste Möglichkeit ist dabei die Fields zusammenzufügen.

 

Von den zehn Fields setzt man die ersten zwei zusammen um Frame 1 zu rekonstruieren, dann das dritte und vierte um Frame 2 zu rekonstruieren. Aber wenn man nun das fünfte und sechste Field zusammenfügt, bekommt man weder Frame 2 noch Frame 3. Das ist nicht so schlimm, wenn zwischen Frame 2 und 3 kein Unterschied ist, aber wenn sich die Kamera bewegt, sieht man Kamm-Linien im Bild. Und es kann sogar noch schlimmer werden: Man stelle sich vor, es ist ein Schnitt genau zwischen den zwei Frames, und Frame 3 zeigt etwas komplett anderes als Frame 2. Wenn man ein Field einer Szene mit einem Field einer anderen Szene kombiniert, ist das katastrophal. Also, einfach die Fields miteinander kombinieren um Frames zu erhalten führt dazu, dass wir zwei von fünf Frames erhalten, die mit hoher Wahrscheinlichkeit durcheinander sind, und zusätzlich haben wir dann noch die Framerate von 29,97 fps anstatt der originalen 24 fps. Nun, wenn man aber weiß wie der Interlacing-Prozess funktioniert, kann man ihn doch einfach rückgängig machen, indem man die doppelten Fields rauswirft. Dieser Prozess wird IVTC - InVerse TeleCine genannt (der Interlacing-Prozess heißt Telecine). Es gibt zwei gute Artikel die Telecine und IVTC genauer beschreiben: Video and Audio Synching Problems (Englisch) von Robshot. Hier geht es um die Erstellung von Interlaced-Material (nach der Telecine-Methode). Dann ist da noch Force Film, IVTC, and Deinterlacing - what is DVD2AVI trying to tell you and what can you do about it (Englisch) von hakko504, manono und jiggimi. Außerdem gibt's noch meinen eigenen Decomb-Guide, Decomb ist das wahrscheinlich am weitesten verbreitetste IVTC-Werkzeug.

Nun, da wir IVTC durchgenommen haben, lasst uns einen genaueren Blick auf Deinterlacing werfen. Ich werde das Problem noch einmal aufzeigen:

Zuerst haben wir zwei Fields aus einer interlaced-Video-Szene:

Wie man sehen kann - keine Interlacing-Artefakte sichtbar. Nun das entsprechende Frame:

Mal von den starken JPEG-Artefakten abgesehen sieht man Kamm-Artefakte. Am deutlichsten auf den Kleidern des Mannes.

Und hier ein noch schlimmeres Beispiel, bei dem wir ein Field von einer Szene, und ein zweites Field von einer anderen Szene haben:

Als Frame sieht es dann so aus:

Wie man sehen kann, ist das Ergebnis kaum zu gebrauchen. Was auch interessant ist, ist die Dateigröße dieser Bilder. Das hier links dargestellte ist mehr als drei mal so groß wie die anderen, und es sieht dabei am schlechtesten aus.

Das erklärt auch, warum Interlaced-Material im Progressive-Modus zu speichern nicht gut ist. Linien brauchen viel Speicherplatz.

VCD und die meisten MPEG-4-Codecs (außer XviD) unterstützen nur Progressive-Material. Dadurch ist das Speichern von so etwas wie links dargestellt mit solch einer Kompressionstechnik nicht sehr effizient, und wir sollten uns lieber nach besseren Möglichkeiten umsehen, wie man Interlaced-Material in Progressive-Material umwandelt, als einfach zwei Fields zu einem Frame zusammenzufassen.

MPEG-2 und MPEG-4 Advanced Simple Profile haben einen speziellen Interlaced-Modus. In diesem Modus werden alle Linien von einem Field zusammen genommen (und die Lücken entfernt) und dann komprimiert, was viele Bits spart, die ansonsten für das Speichern der Fehlenden Linien draufgehen würden.

Eine letzte Anmerkung zu diesen Screenshots: Da diese von einer Interlaced-DVD-Quelle genommen wurden, und im Interlaced-Modus gespeichert wurden, mussten die Screenshots der Fields in der Höhe verzerrt werden, um der originalen Größe zu entsprechen (da man im Interlaced-Modus ja nur die wirklich benötigten Linien speichert, und die schwarzen wegwirft). In Wirklichkeit wären die Bilder der Fields nur halb so hoch wie die Bilder der Frames.

 

Jetzt, wo uns das Problem klar vor Augen ist, werden wir uns mögliche Lösungen ansehen. Wie dargestellt, ist es nicht immer möglich, die zwei ersten Fields zu nehmen, und zu einem Frame zusammenzufügen. Vor allem dann, wenn man es mit Material zu tun hat, das bearbeitet wurde, als es schon interlaced war (das ist auch Problem Nummer 1 wenn man IVTC anwenden will, speziell Anime-Material wird nach dem Telecine-Vorgang geschnitten, was zu beinahe unlösbaren IVTC-Problemen führt).

Ein einfacher und schneller Weg, diesem Interlacing-Problem aus dem Weg zu gehen, wäre das Field-basierte Material zu nehmen, die Fields in der Höhe zu zerren (wie oben mit den Screenshots geschehen) und jedes zweite Field wegzuwerfen. Diese Methode wird z.B. angewendet, wenn man "Separate Fields" in GordianKnot auswählt. Aber da ein Field nur die halbe vertikale Auflösung eines Frames hat, verzichten wir bei dieser Methode auf die Hälfte der möglichen vertikalen Auflösung.

Lasst uns einen Blick auf verschiedene Deinterlacing-Techniken werfen:

Weave (Weben): Man nimmt zwei aufeinanderfolgende Fields und macht daraus ein Frame. Das halbiert die Framerate aber löst nicht die oben angesprochenen Probleme, der Frame, der zwei Fields von verschiedenen Szenen enthält, bleibt gleich schlecht.

Blending (Überblenden): Hier haben wir zwei aufeinanderfolgende Fields, zerren sie auf Frame-Größe, und setzen sie dann übereinander. Solange sich nichts bewegt sieht das perfekt aus - aber sobald sich etwas bewegt, sieht das Ergebnis unnatürlich und unscharf aus, und es können "geisterhafte" Spuren/Schlieren entstehen.

Bob: Bei der Bob-Technik zerrt man jedes Field auf Frame-Größe und zeigt es zweimal an. Da das erste und das zweite Field nicht an der exakt gleichen Position stehen (zur Erinnerung: Field 1 fängt in Linie 1 an, Field 2 in Linie 2) "bobbt" (daher Bob) das Bild etwas hoch und runter, was wie ein Schimmern in ruhigen Szenen aussieht.

Es gibt noch ein paar Methoden, wie Area based deinterlacing, Motion blur und Adaptive deinterlacing. Jede dieser Methoden hat seine Vor- und Nachteile. 100fps.com (Englisch) hat einen schönen Vergleich aller Methoden mit guten Beispielen, die gut die Effekte jedes Filters zeigen, und es gibt dort eine schöne Vergleichsmatrix. Die Seite zeigt auch den Weg wie man richtiges 50 fps Progressive-Material aus Interlaced-Quellen erstellt. Für alle, denen diese Seite zu umfangreich ist (obwohl ich bezweifle, dass das bei Doom9-Lesern je der Fall sein könnte...) gibt es noch Gunnar Thalin's area based deinterlacer (Englisch) und DeinterlacePALInterpolation, was auf Thalins Filter basiert. Das sind ziemlich gute Lösungen wenn man 25 fps Material erstellen will. Und dann gibt's noch Decombs field deinterlace, was sich als ziemlich effektiv herausgestellt hat.

Aber vor dem Deinterlace-Vorgang sollte man versuchen, die Field-Reihenfolge zu vertauschen. DVD2AVI hat dafür eine Funktion (Video - Field Operations - Swap Field order) und AviSynth ebenfalls (SwapFields). Sehr oft löst das Interlacing-Probleme, speziell wenn der Hauptfilm interlaced zu sein scheint.

Schlusswort: Dieser Text ist auf keinen Fall eine komplette technische Beschreibung, und er wurde nach meinen Erinnerungen an Physik und Videokompressions-Vorlesungen aus der Schule und der Uni geschrieben. Ich hoffe, mein Gedächtnis hat mir nicht zu übel mitgespielt.

 

This document was last updated on November 24, 2003


Last edited on: 2004-01-06 | by: fileman | Content by Doom9.net - The definitive DVD backup resource