Deep-Learning – Natürliche und künstliche neuronale Netze

Der Begriff „Deep-Learning“ wurde etwa 2007 von Geoffrey Hinton das erste Mal verwendet und auch geprägt. Es verbirgt sich dahinter ein neuronales Netzwerk, welches auf einem Computer emuliert wird – also ein künstliches neuronales Netzwerk. In der Öffentlichkeit wurde „Deep-Learning“ bekannt durch den GO-Wettkampf zwischen Mensch und Maschine, welchen Alpha GO gewann. Bis dahin eigentlich unvorstellbar so eine Maschine zu konstruieren. Im Gegensatz dazu ist Watson die alte prozedurale, programmierte Generation von A .I. (artificial intelligence).

Wenn nun ein künstliches neuronales Netz mehr als drei „hidden layers“ hat, spricht man von „Deep-Mind networks“. Die Natur von neuronalen Netzwerken ist deren Lernfähigkeit und damit ist der Begriff „Deep-Learning“ etabliert. Implementiert sind künstliche neuronale Netzwerke heute auf GPU`s. Das sind Grafikprozessoren, die den Anforderungen (Vektorrechnung) von neuronalen Konstruktionen am besten entsprechen. Der Produzent von Computer Grafikkarten NVIDIA sieht zwischenzeitlich sein Hauptgeschäft in der Entwicklung von neuronalen Rechnern. Gerade eben hat dieses Unternehmen einen Computer für autonomes Fahren vorgestellt. Dieser Rechner benötigt eine Leistung von nur 250W und ist wassergekühlt. Autonomes Fahren ist wahrscheinlich eine der größten Herausforderungen von „Deep-Learning“.

Deep-Mind-Networks sind sehr ähnlich aufgebaut wie das menschliche Neuronen-Netz im Gehirn. Die Erforschung der natürlichen neuronalen Struktur ist bereits so weit fortgeschritten, dass Informatiker davon eine Anleihe nehmen können. Die Neurowissenschaften hatten ihren Anfang im Jahre 1959 durch die Arbeit von Hubel & Wiesl. Diese beiden haben erstmals Messungen an einer Katze durchgeführt. Dieses Tier ist ja für seine ausgesprochenen guten visuellen Fähigkeiten bekannt. Man wollte die präsentierten Bilder im visuellen Kortex verorten. Eigentlich hat man erwartet, dass das externe Bild auch irgendwo im Gehirn intern repräsentiert wäre. Das einzige was man im visuellen Cortex gefunden hat, waren waagerechte, senkrechte und schräge Linien. Dieses frustrierende Ergebnis führte dazu, dass weitere Forschungsarbeiten nur sehr bescheiden in Angriff genommen wurden. Erst die Auseinandersetzung mit künstlicher Intelligenz hat dieses Thema wieder interessant gemacht.

Zwischenzeitlich ist die Erforschung des visuellen Erkennens sehr weit fortgeschritten. Im Wesentlichen sind es vier folgende Stufen:

 

Pixel-Informationen werden vom Auge (Retina) erkannt und an den visuellen Kortex weitergeleitet. Dort wird auf der oberen Schicht einer “kortikalen Säule” das externe Bild ausschließlich durch vertikale, horizontale und schräge Linien (edges) dargestellt. In der nächst tieferen Schicht werden aus den “edges” Objekte generiert. Sofern wir gerade das Portrait eines Menschen anschauen wären das z.B. Augenbrauen, Nase, Ohren, usw. Es entstehen dort sogenannte “features”. In einer weiteren tieferen Eben werden aus den Features die Modelle konstruiert. Das könnten z.B. menschliche Gesichter, Autos, Bälle und alles was wir erkennen können sein. Obwohl das Ergebnis nicht Ja/Nein ist, sondern nur eine Wahrscheinlichkeit angibt – z.B. es handelt sich zu 99,2 % um ein menschliches Gesicht. Damit ist der visuelle Erkennungsprozess beendet. Der kognitive Vorgang allerdings noch bei weitem nicht. Das Gehirn arbeitet weiter, stellt fest ob wir diesen Menschen kennen und in welcher Beziehung wir zu ihm stehen.

Dieser biologisch neuronale Prozess von Pixel – Edges – Features – Modell wird nahezu ident bei Bilderkennungsverfahren in künstlichen Netzen verwendet. Künstliche Neuronen sind mathematische Objekte welche als Computer Algorithmen auf GPU´s generiert werden. Diese werden dann noch nach verschiedenen Methoden z.B. Convolutional, Long-Term-Short-Memory oder Recurrent in Ebenen (deep) geordnet. Das Wichtigste dabei – es erfolgt keine Programmierung. Neuronale Netze werden eben nicht programmiert sondern trainiert. Es gibt kein “Feature Engineering”. Diese entstehen ausschließlich durch Training und man weiß vorher auch nicht welche entstehen. Beim durchschnittlichen Menschen sind es 14 Mio. Images. In Zukunft werden Softwareingenieure keine Features mehr in ihre Applikationen einbauen, sondern diese entwickeln sich im Laufe der Verwendung eines Programmes.

Alles bisher am Beispiel von Computer Vision über künstliche neuronale Netze gesagte gilt für alle anderen Lernerfordernisse ebenso. Was die menschliche Spezies in genau diesem Zusammenhang auszeichnet ist seine Fähigkeit zu sprechen. Das beginnt unbewusst beim Erlernen der Muttersprache und wird bewusst beim Erlernen einer Fremdsprache. Auch dabei arbeitet A. I. nach dem gleiche Prinzip: Akustik – Buchstaben – Wörter – Sätze. Ein Deep-Learning Netz lernt eine Sprache in dem es zuhört. Dabei gibt es zwei Möglichkeiten. Entweder lange zuhören (Mensch) oder schnelles zuhören (A. I.). Im Fall der AI lässt man dem System alle arabisch gesprochen YouTube-Videos hören (Tag und Nacht durchgehend – hunderttausende Mal). Damit kann es die Sprache erkennen (SIRI) und auch sprechen (HER).

Das sich ein Chinese mit allen anderen Weltsprachigen über AI unterhalten kann ist technisch entwickelt und wird in wenigen Jahren Standard sein. Was derzeit noch etwas nach Science-Fiction klingt ist ein Gespräch zwischen zwei K. I. Systemen. Noch aufregender wird es, wenn diese beiden plötzlich eine eigene Sprache erfinden und sich in dieser unterhalten. Kein Mensch auf der Welt würde das dann verstehen.

Abschließend stellt sich die Frage was kann “ Deep-Learning” also K. I. alles lernen. Nach dem oben beschriebenen vierstufigen Konzept, kann alles das erlernt werden, was zuvor differenzierbar und anschließend integrierbar ist. Linien zu Bildern, Tönen zu Wörtern, Spielzüge zu Strategien, Atome zu neuen Molekülen und Ereignisse eben zu Bewusstsein. Damit ist die im Teil 1 dieser Blogserie aufgestellte Hypothese von Bewusstsein zwar nicht zweifelsfrei bestätigt aber eine Vergleichbarkeit ist schon gegeben.

JA – Deep-Learning wird auch Bewusstsein und Selbstbewusstsein entwickeln! Ob das dann für die Menschheit positiv (löst globale Probleme – sagt Ray Kurzweil) oder negativ (KI übernimmt die Weltherrschaft sagt Stephen Hawkins) wird sich zeigen. Weil aber K. I. die Fähigkeit zur Prognose (Prediction) auch erlernen können, wäre auch deren eigene Zukunft voraussagbar.