Was ist eigentlich diese künstliche Intelligenz? Teil 1/3

Wer in Agenturen arbeitet, schaut sich hin und wieder den Gartner Hype Cycle an. 2018 hat Gartner wieder fünf Megatrends identifiziert. Nummer eins: Künstliche Intelligenz (KI).

Spätestens jetzt muss man sich damit beschäftigen. Aber was genau ist denn diese künstliche Intelligenz und wird sie uns irgendwann dominieren?

Gesagt, getan. Mein selbst gestecktes Ziel für die nächsten Wochen war:

„Ich verstehe, was es mit dieser KI so auf sich hat. Warum sollte man sich aus dem Agenturkontext heraus damit intensiv beschäftigen?“

Grundlagen

Grundlegendes Wissen zu künstlicher Intelligenz (KI) ist relativ schnell ergoogelt. Dabei fällt immer wieder auf, dass die Einordnung, was KI ist, im Vorfeld unbedingt notwendig zu sein scheint. Hierbei gibt es sehr viele unterschiedliche Interpretationen. Daher vorab eine kurze Begriffseinordnung von meiner Seite.

Meist wird von Künstlicher Intelligenz (KI) oder Artificial Intelligence (AI) gesprochen. KI ist ein Oberbegriff für verschiedenen Technologien und man kann nicht die eine KI identifizieren. Zur Einordnung holen wir ein wenig weiter aus.

Bereits in den 1950er Jahren wurde an Neuronalen Netzwerken geforscht. Stark vereinfacht sind das Strukturen, die Neuronen eines Gehirns nachempfinden. Platt gesagt sind es Dinge, die Informationen von anderen Neuronen oder von außen aufnehmen können.

Es kam Begeisterung für „Maschinen“ und Algorithmen auf, die selbst „denken“. Das kann durch ein Netzwerk von Entscheidungen erfolgen, die dem der vernetzten Neuronen im Gehirn gleichen. Klingt genau so komplex, wie es letztendlich ist. Die Rechenleistung der damaligen CPUs war noch nicht so weit um das effizient zu ermöglichen.

Später, ab den 1980er Jahren, gewinnt maschinelles Lernen (Machine Learning oder auch ML) mehr an Bedeutung. Darunter verstehen wir Systeme, die auf Basis vorhandener Datenbestände und Algorithmen, Muster und Gesetzmäßigkeiten zu erkennen versuchen. Zu diesen Mustern werden Lösungen entwickelt.

Heute reden wir überwiegend von Deep Learning (DL). Deep Learning ist ein Teilbereich des Machine Learnings und nutzt neuronale Netze.

Das sind die zugrunde liegenden Technologien für eine künstliche Intelligenz. Dazu kommen noch einfach entscheidungsbasierte Algorithmen:

Wenn dies, tue das!

Beispielsweise hat der 1966 von Jospeh Weizenbaum entwickelte „Chatbot“ Eliza anhand eines Thesaurus nach Schlagworten in einem Satz gesucht. Dementsprechend hat der Bot geantwortet, meist mit weiteren Fragen, die sich auf die Schlagworte bezogen. Auch das gilt als KI. Und wir wissen: Die heutigen Chatbots sind meist nicht wirklich besser…

Sprechen Menschen heute von KI, meinen sie in den meisten Fällen Deep Learning (DL) oder Deep Neural Networks (DNN).

Machine Learning: Einfache Mathematik und Statistik

Hat man sich während eines Studiums gefragt, warum man sich durch die langweiligen Mathematik- und Statistikvorlesungen quälen muss, gibt Machine Learning heute die Antwort. Grundlegend basiert ML auf statistischen Betrachtungen und relativ einfacher Mathematik. Zwei wichtige mathematische Grundlagen dafür sind die Korrelation und Regression.

Bei der Korrelation handelt es sich um die Abhängigkeit zweier Variablen.

Bspw. das Alter von heranwachsenden und dem IQ. Je älter das Kind wird, desto größer ist ein IQ. Korrelationen beschreiben Zusammenhänge bei bereits existierenden Fällen.

Regressionen haben das Ziel anhand von Zusammenhängen den Wert einer Variablen in Abhängigkeit von den anderen Variablen statistisch bestmöglich zu schätzen. Eine bekannte Regression ist die lineare Regression.

Y = Const + aX1 + bX2 + cX3 + ... + zXn

Durch die Gewichtung a ... z und dem Definieren einer Kontanten kann sich der Lösung Y genähert werden. Die Eingangsvariablen der zu findenden Lösung sind Xi. Die Konstante entspricht dem Ergebnis Y, wenn alle Eingangsvariablen Xi = 0 sind.

Letztendlich entscheidet eine sog. Aktivierungsfunktion darüber, ob ein Schwellenwert erreicht wurde und das Neuron seine Information weitergibt oder nicht. Bekannte Aktivierungsfunktionen sind Sigmoid und ReLu (Rectified Linear Unit).

Wie man erkennen kann, sind die Rechenoperationen relativ einfach und für Computer sehr schnell durchzuführen.

Beispiel: Predictive Maintenance

Um einfaches Machine Learning zu erläutern, schauen wir uns vorab ein Beispiel an. Verfügen wir über einen Datensatz mit bekannten Eingangsvariablen und definierten Lösungen, können wir ein sogenanntes Modell trainieren. Und nichts anderes ist Machine Learning in der einfachsten Form.

Das folgende (fiktive) Beispiel soll ein Modell für Predictive Maintenance trainieren. Dazu soll anhand von Sensorwerten eine Vorhersage erfolgen, ob eine Maschine gewartet werden sollte oder alles im grünen Bereich liegt.

Eine weitere Annahme ist, wir haben einen Datensatz von bereits 100.000 echten Fällen, mit einem tatsächlichem Ergebnis im Zusammenhang mit den Sensorwerten.

Sensor 1	Sensor 2	Sensor 3	alles ok?
0.75	1.68	0.001	1
3.8	0.001	7.0	0

Die drei Sensoren sind unsere Eingangswerte X1, X2, X3. Das tatsächliche Eintreten ist unsere zu erwartende Lösung Y. Die Konstante Const ist der Wert den Y annehmen soll, wenn alle Sensoren 0 melden. Mittels einer Aktivierungsfunktion entscheiden wir, ob eine Wartungsmeldung kommen soll, oder nicht.

Von den 100.000 Datensätzen stellen wir 25.000 zurück. Diese benötigen wir später zum Validieren der gelernten Parameter. Mit den restlichen 75.000 Daten trainieren wir unser Modell.

Das Modell ist ein Algorithmus, der die Korrelation zwischen den Eingangswerten anhand der Gewichtungen ermittelt. Einfacher gesagt: Die Gewichtungen werden immer wieder angepasst und verändert. Für jeden Datensatz wird geprüft, ob das berechnete Ergebnis dem gewünschten Ergebnis entspricht. Spätestens jetzt wird klar, dass Machine Learning, wie auch Deep Learning, Unmengen von Daten benötigen. Die hypothetischen 100.000 Datensätze sind schon die untere Grenze. Ausnahmsweise gilt hier mal: Viel hilft viel!

Wenn das Modell mit den 75.000 Datensätzen trainiert wurde, verwenden wir die restlichen 25.000 Datensätze zum Validieren des Modells.

Wichtig ist, dass das Modell auch nach dem Trainieren weiterhin nur eine Wahrscheinlichkeit des Ausfalls vorhersagen kann. Es wird immer wieder Ausreißer geben. Perfekt sind die Maschinen (noch) nicht. Durch die Verwendung von sehr großen Trainingsdaten kommen sie jedoch sehr nah dran.

Eine relativ große Gefahr besteht darin, dass man ein Modell trainiert, das einfach zu gut zu dem Trainingsdatensatz passt. Das bezeichnet man als Overfitting. Es gibt Strategien um das zu vermeiden:

Mehr verschiedene Daten
Immer ein gutes, variierendes Testset zurückhalten

Es ist wichtig, dass das trainierte Modell nicht die Eigenheiten von den Trainingsdaten lernt. Hierbei sind Rauschen in Bilder oder andere Lichtverhältnisse beispielhaft zu nennen. Will man auf Bildern eine bestimmte Struktur erkennen, sollte man darauf achten, dass das Modell nicht nur mit Bildern bei völligem Sonnenschein trainiert werden. Wenn nun Echt-Daten bei bewölktem Himmel aufgenommen wurden, wird das trainierte Modell hier ggf. falsche Ergebnisse liefern.

Wie lernen Maschinen?

Die im Abschnitt zuvor gezeigte Trainingsmethode des Predictive Maintenance, nennt man Supervised Learning, auf deutsch überwachtes Lernen. Insgesamt unterscheidet man in drei Klassifizierungen für das Trainieren von Modellen:

Supervised Learning
Unsupervised Learning
Reinforcement Learning

Neben der Vorhersage von Ereignissen mittels Regression wird supervised Learning auch zur Klassifizierung von Daten herangezogen. Prominente Beispiele sind in der Bilderkennung zu finden (Ist das ein Hund oder eine Katze?) .

Das unsupervised Learning ist gut geeignet, wenn unbekannte, logisch gegliederte Daten zum Trainieren zur Verfügung stehen. Beispielsweise können Algorithmen Kundendaten segmentieren und Clustern. Je nach Algorithmus wird die Anzahl der Cluster selbst ermittelt oder vorgegeben. Nach dem Clustern muss wieder der Mensch ran, denn die Algorithmen geben keine Erklärung über die Segmentierung. Unsupervised Learning eignet sich auch zur Dimensionsreduktion einer existierenden Datenmenge. Damit können Komponenten oder Features herausgefunden werden, in denen sich die Daten unterscheiden.

Beim Reinforcement Learning gibt es keine definierten Ergebnisse in den Trainingswerten. Der Algorithmus muss entscheiden, wie er auf die Aufgabe reagiert. War die Entscheidung gut, gibt es eine „Belohnung“. Wenn nicht? Naja, diese Entscheidung wird niemals wieder getroffen…

Eine gute Analogie ist das Trainieren eines Hundes. Macht der Hund artig Sitz, bekommt er ein Leckerli. Andernfalls wird er getadelt. Nur kann das ein Computer um ein Vielfaches schneller. So kann beispielsweise ein Computer relativ schnell lernen ein Computerspiel zu behrrschen. Oder das Brettspiel GO besser beherrschen, als der derzeit beste menschliche Spieler. Alles nur (ganz oberflächlich betrachtet), weil das Programm anhand der Regeln zig Millionen Partien gegen sich selbst gespielt hat und nur die erfolgreichen Züge weiterverwendet.

Im zweiten Teil schauen wir uns Deep Learning und die Einsatzzwecke genauer an.

Beitragsbild: Photo by Franck V. on Unsplash

2 Kommentare

Was ist eigentlich diese künstliche Intelligenz? Teil 2/3 – sandtner.net

[…] Der erste Teil des Artikels ist hier zu finden. […]

31. Juli 2019 Antworten
Was ist eigentlich diese künstliche Intelligenz? Teil 3/3 – sandtner.net

[…] Teil 1 der Serie findest du hier. […]

31. Juli 2019 Antworten