text

Künstliches Sehen

14.07.08

in: Bruhn, Hemken (Hg.):Modernisierung des Sehens. transcript, Bielefeld 2008. S.323-330
Sehen als Handeln

Automaten sehen ohne Bilder.1 Nur am Anfang ihres Sehens steht eine bildhafte Information, die im Verlauf des Prozesses in Merkmale, Objekte, Entscheidungen oder Handlungen überführt wird. In Abwandlung von Austin könnte man sagen: Sehen heißt etwas zu tun.2 Aus diesem Sachverhalt leiten sich einige Konsequenzen ab. Die wichtigste: es greift zu kurz, künstliches Sehen nur als eine Art von angewandter Bildanalyse verstehen zu wollen. Statt dessen sollte stets die Umwelt des sehenden Automaten in Betracht gezogen werden, in der der Prozess, den wir sein Sehen nennen, sich bewähren muss.

Sehen als Vorgang und Tätigkeit ist von einer Asymmetrie gekennzeichnet, die sich um das Auge herum abspielt. Während sich klar bestimmen lässt, was als Licht wahrgenommen wird, bleiben die Resultate des Sehens unbestimmt und vielfältig. In einem physikalischen Sinn kann man die beim Sehen aufgenommene Information einfach beschreiben. Sie umfasst ziemlich genau jene Lücke im elektromagnetischen Spektrum, in der die Wellen die Luftschichten der Erde passieren, ohne nennenswert zu streuen. Anders gesagt: sichtbares Licht verbreitet sich deshalb geradlinig, weil unsere Augen genau auf die nicht-streuenden Frequenzen geeicht ist. Daraus ergibt sich im Vergleich zum Gehör als zweitem Fernsinn ein Vorrang des Visuellen, was den Bezug zu Gegenständen im Raum betrifft.

Mit dem Eintreffen von Licht im Auge beginnt, was wir Sehen nennen. Am Ende, wenn also gesagt werden kann, man hat gesehen, stehen sehr verschiedene mögliche Ergebnisse. So etwa die Erinnerung an etwas Gesehenes oder der Eindruck, etwas erkannt zu haben, oder eine Handlung, die auf das Gesehene reagiert. Die Ergebnisse des Sehens müssen mit der Formulierung von Begriffen nichts zu tun haben, ja sie beziehen sich nicht einmal notwendigerweise auf ein wie auch immer erkanntes oder benanntes Objekt. Es gibt nicht einen bestimmten verallgemeinerbaren Endpunkt des Sehens, den man als ein Ergebnis festhalten könnte.

Künstliches imitiert nicht Menschliches

Künstliche Wahrnehmung wird gern als ein Imitat menschlicher Sinne betrachtet. Unter diesen Umständen müsste künstliches Sehen seinen wesentlichen Zweck darin finden, die Operationen menschlichen Sehens nachzuahmen. De facto besteht allerdings ein geradewegs umgekehrtes Verhältnis. Denn die Wissenschaften neigen dazu, Wahrnehmung, Denken oder andere körperliche Funktionen in den Metaphern zu beschreiben, die ihr die Techniken der Beobachtung nahe legen, also den Menschen als Maschine, das Auge als Kamera, das Hirn als Computer. Unsere Begrifflichkeiten vom Menschen sind von Maschinenanalogien und Maschinenmethoden geprägt. Künstliches Sehen als maschinelle Entsprechung menschlichen Sehens begreifen zu wollen, führt daher in einen Zirkelschluss. Denn wir verstehen Sehen selbst nicht anders als im Licht der Maschinen. So gesehen wäre künstliches als maschinelles Sehen eine Automaten-Operation, die sich selbst imitiert.

Statt einer universellen Maschine, die wie Menschen sieht, verfügen wir über eine Vielzahl von Maschinen, die auf unterschiedlichste Weise visuelle Daten verarbeiten und in Handlungen überführen. Sie sehen stets anders und Anderes als Augen, partiell mehr oder im Ganzen weniger als Menschen.

Die markanten Unterschiede beginnen bereits beim Input. Maschinenaugen müssen sich nicht auf jenen Ausschnitt des elektromagnetischen Spektrums beschränken, den das menschliche Auge wahrnimmt. Sie können sowohl den angrenzenden Bereich im Infrarot als auch das ebenfalls ‘unsichtbare’ Ultraviolett erfassen. Diese punktuellen Ãœberlegenheiten der Maschinen erstrecken sich auch auf Datenbanken und damit das visuelle Erinnerungsvermögen, allerdings auch hier nur partiell. Zwar können Maschinen beliebige Bilder speichern. Beim Adressieren der Bildarchive sind sie allerdings auf formale Operatoren angewiesen, die an komplexen Suchaufgaben noch immer scheitern und vermutlich noch lange scheitern werden. So ‘photographisch’ auch das Gedächtnis der Maschinen ist, die Bilder darin bleiben unauffindbar.

Die Umwelt des Sehens

Sehen ist kein isolierter Prozess. Es ist eingebettet in eine Welt von Dingen und Handlungen, Zwecken und Möglichkeiten. Die Umgebung alltäglicher menschlicher Handlungen macht dabei nur einen Teil der physikalisch erschlossenen Welt aus. Die Handlungsräume von Maschinen sind keineswegs auf die Handlungsräume des Menschen beschränkt. So lässt sich etwa die Welt der kleinsten Objekte der Nanophysik von vorne herein nur mit Hilfe von Maschinen und deren Wahrnehmung erreichen.

Welt wird durch Wahrnehmung und Handlungen konstituiert. In diesem Sinn erschließt auch Sehen Welt. So wie der Mensch sich in einer bestimmten Welt verhält, stellen auch Maschinen ihre je eigene Welt her. Sie operieren in dieser Welt und das künstliche Sehen stellt einen Teil ihrer Operationen dar. Es ist eingebettet in Aufgaben und Handlungen.

Man kann das Verhalten innerhalb dieser Art von Umwelt in den Begriffen Uexkülls als ein Zusammenspiel von Merk- und Wirkorgan beschreiben. Er erklärt am Beispiel einer Zecke, die nur wenige Impulse wahrnimmt und darauf nur ganz reduziert reagieren kann. “Die ganze reiche, die Zecke umgebende Welt schnurrt zusammen und verwandelt sich in eine ärmliches Gebilde, das zur Hauptsache noch aus 3 Merkmalen und 3 Wirkmalen besteht – ihre Umwelt.“3 Gleich wie die Zecke erzeugt auch die sehende Maschine eine reduzierte Umwelt, auf der ihr Sehen optimiert ist. Oder, um es anders zu sagen: in jenen Umwelten, in denen Maschinen etwas bemerken und etwas bewirken können, werden sie heimisch.

Im Gegensatz zur Zecke findet die Maschine ihren Platz nicht in einem Prozess evolutionärer Anpassung. Statt dessen regiert das Prinzip der wissenschaftlichen und ökonomischen Machbarkeit. Was machbar ist und Geld abwirft, wird umgesetzt. Daher gibt es durchaus eine Teleologie des maschinellen Sehens. Aber ihr Impuls liegt nicht in ihren Zwecken, sondern im Anpassen des technisch Möglichen an die Ausschnitte von Welt, die politisch gewollte oder ökonomisch lukrative Umwelten darstellen..

Sehen ohne Objekte

Sehen meint in diesem Sinn etwas anderes als Erkennen. Denn Erkennen überprägt Wahrnehmung mit einer Ersetzung und einem Medienwechsel. Man erkennt etwas Sichtbares als etwas, das Sagbar ist, also einen Namen oder einen Begriff mit sich führt.

In der Regel sucht man die Verbindung zwischen der Welt und einem Bild, indem man Dinge oder Objekte konstruiert. Weit davon entfernt, der Kern oder gar der eigentliche Inhalt des Bildes zu sein, erfüllt das Objekt seine Aufgabe, indem es zwei Seiten besitzt. Es stellt ein Scharnier dar, an dem sich Körper und Raum einerseits als Sichtbares, andererseits im Begriff oder Namen zeigt. Im Objekt begegnen sich Sehen und Sagen. Exemplarisch postuliert die Phänomenologie Husserls diesen Zusammenhang. „’Ich sehe’ sagt jeweils: Ich sehe etwas.“4 Damit erscheint es geradezu als der ebenso natürliche wie unvermeidliche Weg, den künstliches Sehen zu gehen hat, soll es je in einer Welt agieren können. Aber das gilt nur eingeschränkt.

Die Verknüpfung zwischen Denken und Sehen führt auf die Ursprünge der Erkenntnistheorie zurück, was sich nicht zuletzt darin zeigt, dass der griechische Begriff „Theoria“ soviel „Anschauen“ oder „Zuschauen“ heißt. Es war Husserls Anliegen, gegen eine sich abzeichnende Technisierung und Mathematisierung der Wissenschaft und die damit einhergehenden „Entleerung ihres Sinnes“5 noch einmal im menschlichen Bewusstsein den Grund jeder Erkenntnis zu finden. Die Bewegung hin zu einer Naturwissenschaft, die ihre Begriffe parallel zu ihren Apparaten entwickelt6, war freilich zu keinem Zeitpunkt aufzuhalten.

Man könnte auch hier von einem Vordringen des Künstlichen in der Erkenntnis sprechen. Die Maschine tritt zwischen die Wahrnehmung und den zu beobachtenden Gegenstand, sei es in Form eines Messgeräts, eines Geigerzählers oder einer Form von Visualisierung.7 Künstlichkeit kennzeichnet diese Vorgänge sehr wohl, aber es handelt sich eher um Transformationen technischer Informationen in den Bereich des Sichtbaren als um Sehen. Sehen findet im engeren Sinn erst dann wirklich als Künstliches statt, wenn kein menschliches Auge mehr beteiligt ist, sondern Maschinen den Weg von der bildhaften Information zum Handeln ganz selbst durchschreiten. Die Konstruktion von Objekten ist dazu nur bedingt nötig.

Marr und die Idee vom universellen digitalen Sehen

Die erste große Theorie, die Sehen als maschinellen Prozess umfassend zu beschreiben versucht8, gleicht in vieler Hinsicht der Phänomenologie. Und zwar nicht etwa deshalb, weil sie sich auf Husserls Methode berufen würde, sondern weil beide ein bildlichen Ausgangspunkt einen kameraartigen neutralen Blick annehmen und weil beide als Ergebnis der Bildanalyse das Ding im Raum fordern.9 Start und Ziel der Aufgabe gleichen sich und beider gleiche Frage lautet: wie kommt man vom Bild zum Ding?

Tatsächlich wäre die Aufgabe des künstlichen Sehens gelöst, könnte man dafür eine allgemeine Lösung angeben. Doch gerade an der Allgemeinheit der Aufgabe scheitert die Lösung.

Auf zwei Weisen lässt sich gegen diesen Weg argumentieren, philosophisch und pragmatisch. Beide Argumente seien kurz skizziert. Das erste setzt beim Objekt an, das zweite beim Ergebnis. Beide führen im wesentlichen zur selben Folgerung.

Merkmal statt Ding

Das Objekt nimmt beim künstlichen Sehen die Stelle eines Scharniers ein. Es steht an der Schwelle zur Sichtbarkeit, denn es existiert als Ding im Raum. Auf der anderen Seite trägt es einen Begriff und wird dadurch Teil einer lexikalischen Ordnung identifizierter Gegenstände. Die Kritik richtet sich nun nicht gegen den Erkenntnisweg hin zum Objekt als solchen. Schon eher stellt sich die Frage, ob künstliches Sehens zwangsläufig auf ein Objekt hinführen muss. Das hängt nicht zuletzt von der Welt ab, in der die sehende Maschine agiert. Wenn beispielsweise mit Hilfe einer Gesichtserkennung ein Mensch erkannt werden soll, so muss das automatische Sehen zu einem Namen führen, von dort aus weiter zu einer Datenbank mit Einträgen, um dort im Zweifelsfall eine Handlung auszulösen, etwa dem Träger des Namens den Zugang zu verwehren oder zu erlauben. Wenn das künstliche Sehen einen Automaten bedient, der eine Serie von Waren kontrolliert, wird er über den Status der Objekte dagegen nicht vollständig Bescheid wissen müssen. Oder anders gesagt: was für jenen Automaten ein vollständiges Objekt darstellt, wenn es nur die Merkmale „in Ordnung“ oder“defekt“ trägt, erscheint später beim Gebrauch als ein wesentlich komplexerer Gegenstand. Für das aktuelle Handeln der sehenden Maschine genügen die entscheidenden distinktiven Merkmale. Sie muss nicht wissen, um welches Objekt es sich handelt. Der Objektbezug des Sehen ist also nicht Ziel an sich, sondern in Abhängigkeit von einer Umwelt bestimmt. Es genügt, wenn das Sehen ein namenloses Cluster von Merkmalen identifiziert.

Dieses Argument lässt sich einen Schritt weiter fortführen. Es mag durchaus sein, dass Maschinen in einer Welt agieren, die an Merkmalen und Handlungsmöglichkeiten reicher ist, als die menschlich wahrnehmbare. Die dort konstruierten Objekten werden dementsprechend an Merkmalen reicher sein als die uns geläufigen, vielleicht sogar in eine Taxonomie fallen, der gegenüber Konstruktion des menschlichen Alltags als defizitär definierte Partialobjekte erscheinen, ähnlich wie das Opfer einer Zecke gegenüber dem Träger eines Namens mit allen staatsbürgerlichen Rechten, von denen die Zecke nichts weiß und nichts wissen muss.

Die Erkenntnis des Objekts muss also keineswegs das Ziel künstlichen Sehens sein. Sondern umgekehrt treten Objekte in dem Prozess des Sehens dort auf, wo Schnittstellen zwischen Automat und Welt oder Mensch sie einfordern. Sie sind sekundär.

Partielles Sehen

Marr sah sein Projekt des künstlichen Sehens als einen Schritt auf dem Weg zu einer allgemeinen Theorie des Sehens. Erreicht wäre dieses Ziel genau dann, wenn die gesamte uns geläufige Welt als Menge von Objekten und Ereignissen erkannt werden könnte. Der seltsame Wettstreit, der Menschen in Konkurrenz zu Maschinen von Anfang begleitet hat, lebt hier einmal mehr auf. Tatsächlich stellt sich immer deutlicher heraus, dass die Fortschritte des künstlichen Sehens keineswegs auf diese Allgemeinheit hinauslaufen. Wir begegnen also nicht einem Prozess, der nach einer linearen Entwicklung einst im menschlichen Sehen kulminieren wird. Statt dessen entstehen viele verschiedene Einsatzgebiete maschinellen Sehens, die manche Teile des menschlichen Sichtfeldes und seiner Möglichkeiten abdeckt, einige Teile nicht berührt und an wieder anderen Stellen menschliches Sehvermögen übertrifft. An Stelle eines homogenen dem menschlichen nachgebildeten Vorgangs haben wir es mit eine Vielfalt von Prozessen zu tun, die zur menschlichen Wahrnehmung quer stehen. Ihre Tauglichkeit erweist nicht in der Welt als einheitlichem Ganzem, sondern nur in den verschiedenen Teilwelten und Umwelten, in denen die sehende Maschine ihre, wenn man so will, ökologische Nische findet.

Expansionslinien künstlichen Sehens

Künstliches Sehen bildet nicht menschliches Sehen nach, sondern wird als Konfiguration programmierbarer Prozesse in eng eingegrenzten Umwelten stattfinden. Es erfasst Merkmalsbündel, die nicht die Erfahrung des Menschen, sondern maschinenspezifische Umwelten konstruiert und in ihnen agiert.

Ob sich ein Sehautomat in einer Teil-Welt durchsetzen kann, hängt davon ab, wie visuell vielfältig und komplex die Welt ist und wie reich an Ereignissen und Handlungsmöglichkeiten und Ereignissen. Ein gutes Beispiel für eine Welt, die vergleichsweise früh von Sehautomaten bevölkert wurde, ist das Spielfeld des Fußballs.10 Fußball ist exemplarisches Feld reduzierter visueller Komplexität und reduzierter Handlungsvielfalt. Das Spielfeld ist grün. Die Spieler sind mit verschiedenfarbigen Trikots markiert. Es gibt eine klare visuelle Grenze zwischen der Spielwelt und der Welt außerhalb des Spiels. Zugleich sind die Handlungsmöglichkeiten durch die Spielregeln begrenzt. Innerhalb einer derart reduzierten Umwelt liefert künstliches Sehen eine große Menge an Informationen, die sich in Beobachtungen und Handlungen umsetzen lassen.

Andere Felder des künstlichen Sehens erfordern dagegen wesentlich mehr Aufwand, bevor dort Automaten das Steuer übernehmen können, man denke etwa an innerstädtische Kampfgebiete oder auch nur eine Autofahrt. In beiden Fällen treten zur visuellen Reichhaltigkeit eine Vielfalt möglicher Ereignisse, wobei jede Entscheidung und Handlung unter Zeitdruck steht und Fehler tödlich verlaufen können.

Maschinenbilder

Dass künstliches Sehen kein rein passiver Prozess bleibt, zeichnet sich längst ab. (s.Abb.) Wenn Sehen bedeutet, in einer Welt zu handeln, dann wird diese Welt vom sehenden Handeln der Maschinen auch berührt und verändert. So kann es durchaus vorkommen, dass der Einsatz von Sehmaschinen es zwingend verlangt, die alltägliche Welt zu einer dem Maschinenauge passenden Umwelt umzugestalten. Zeichen, Gesichter oder ganze Städte werden können deren partiellen Funktionen entsprechend verändert werden. Ein alltägliches Beispiel für diesen Effekt liefern die neuen Vorgaben zu Herstellung eines Passfotos.11 Das Gesicht soll für seine rechnerische Erfassung als Maske optimiert werden. Lächeln mit angewinkeltem Kopf ist daher künftig untersagt. Der Sehautomat verlangt, das wir ihn ernst und frontal anblicken. Die Maschine passt sich nicht ihrer Umwelt an, sondern umgekehrt. Der Mensch wird genötigt, ein bestimmtes Bild von sich zu machen, um in die Umwelt einer sehenden Maschine zu passen.

________________

John L. Austin: Zur Theorie der Sprechakte (How to do things with words), Stuttgart 1979

James Elkins (ed.): Visual Practices across the University. München 2007

Giorgio Agamben: Das Offene. Der Mensch und das Tier. Frankfurt am Main 2003

Edmund Husserl: Ding und Raum. Vorlesungen 1907. Hamburg 1991.

Edmund Husserl: Die Krisis der europäischen Wissenschaften und die traszendentale Phänomenologie. Hamburg 1982 (1936).

David Marr: Vision. A Computational Investigation into the Representation and Procesing of Visual Information, 1982

Roland Mayer: Bildbesprechung. Lichtbildbelehrungen. Bilder im Grenzbereich Die e-Pass-Fotomustertafeln der Bundesdruckerei. In: Bildwelten des Wissens. Bd 4.2. Bilder ohne Betrachter. Berlin 2006. S. 64-68

Hans-Jörg Rheinberger: Epistemologie des Konkreten. Studien zur Geschichte der modernen Biologie. Frankfurt/Main 2006

Jakob von Uexküll: Streifzüge durch die Umwelten von Tieren und Menschen / Bedeutungslehre. Hamburg 1956

Paul Virilio: Die Sehmaschine, Berlin 1989

______________________

Bild: Montage des Autors, quellen:

Bundesdruckerei -Passbild-Schablone bundesdruckerei.de/de/support/download/Passbild-Schablone.pdf

Bio-Face, vom Bundesministerium des Inneren beim Fraunhofer-Institut für Graphische Datenverarbeitung in Auftrag gegebener Testbericht zur Evalution von Gesichtserkennungs-Software (BIOFACE)

igd.fhg.de/igd-a8/de/projects/biometrie/bioface/BioFaceIIBericht.pdf

________________________

1Vgl. Paul Virilio: Die Sehmaschine. Berlin 1989, der von „Sehen ohne Blick“ spricht (S.135f.)

2vgl. Austins Definition performativer Sprechakte: John L. Austin: Zur Theorie der Sprechakte (How to do things with words), Stuttgart 1979, S.35

3Jakob von Uexküll: Streifzüge durch die Umwelten von Tieren und Menschen / Bedeutungslehre. Hamburg 1956, S.29. Vgl auch die Darstellung von Uexkülls Konzept bei Giorgio Agamben: Das Offene. Der Mensch und das Tier. Frankfurt am Main 2003, S.51f.

4Edmund Husserl: Ding und Raum. Vorlesungen 1907. Hamburg 1991. S.9

5Edmund Husserl: Die Krisis der europäischen Wissenschaften und die traszendentale Phänomenologie. Hamburg 1982 (1936). S. 47

6Vgl. Hans-Jörg Rheinberger: Epistemologie des Konkreten. Studienzu Geschichte der modrnen Biologie. Frankfurt/Main bes. Abschnitt III. Apparate und Begriffe, S.219ff….

7Vgl. hier die umfassende Übersicht : James Elkins (ed.): Visual Practices across the University. München 2007

8David Marr: Vision. A computational Investigation into the Human Representation and Processing of Visual Information. San Francisco 1982

9Ebd. S.37

10Vgl. dazu die Arbeit von Harun Farocki „Deep Play“ auf der Documenta 2007

11Vgl. Roland Mayer: Bildbesprechung. Lichtbildbelehrungen. Bilder im Grenzbereich Die e-Pass-Fotomustertafeln der Bundesdruckerei. In: Bildwelten des Wissens. Bd 4.2. Bilder ohne Betrachter. Berlin 2006. S. 64-68