WTF, AI! Mit Deep Learning Audiospuren splitten

Seit ca. 1996 spiele ich aktive E-Bass. Ich habe in Coverbands angefangen und mir mühsam die Bassspuren herausgehört und somit die Songs gelernt. Manchmal war es leichter, manchmal schwerer und öfters war meine Interpretation auch falsch. Was habe ich mir gewünscht, die Spur völlig isoliert hören zu können. Seiten mit vollständig notierten Songs in Tab-Notation gab es noch nicht.

Heute haben wir es leichter. Nicht nur, dass es Tabs von allen erdenklichen Songs gibt, es gibt auch nützliche Tools, die ich mir sehnlichste gewünscht hatte, damals.

Deezer hat so ein Tool bzw. ein trainiertes neuronales Netz jüngst zur Verfügung gestellt. Damit können Songs in verschiedene Tracks gesplittet werden. Der Gesang, Drums oder auch Bass können isoliert werden. Das funktioniert ziemlich gut, egal, mit welchen Stücken ich es getestet habe. Natürlich sind die isolierten Spuren nicht lupenrein, dennoch ist es sehr beeindruckend und zeigt, was mit Deep Learning realisierbar ist. Schön ist auch die Tatsache, dass Deezer dieses Tool als Open Source veröffentlicht hat und zum experimentieren einlädt.

Photo by Samuel Ramos on Unsplash

Daten, Daten, Daten – Gesichter für die KI

Wer ein neuronales Netz trainieren möchte, benötigt sehr viele Daten. Das ist allgemein bekannt. Doch woher kommen die Daten? Sind es Netze, die das Verhalten einer Produktionsmaschine lernen sollen, ist es noch relativ einfach. Die Sensoren liefern Daten und der Mensch kann sie klassifizieren. Damit kann man lernen. Es existieren Unmengen von offenen Datenbanken mit Trainingsdaten für nahezu alle Arten von neuronalen Netzen. Kaggle hat einiges an Sets, damit man sein Algorithmus anlernen und validieren kann. Viele Unternehmen bieten unter dem Begriff Open Data einige Daten, wie beispielsweise die Bahn es tut.

Die Frage ist, woher diese Daten alle Stammen. Bei den Daten der Unternehmen ist es noch relativ einfach zu sagen. Trainingssets für Bilderkennung sind da schon schwerer nachvollziehbar.

Eine bekannte Datenbank für Gesichtserkennung ist MegaFace. Darin enthalten sind Millionen von Trainingsdaten und Testsets. Ein Traum – vor allem für die, die Algorithmen verbessern, neuronale Netze trainieren oder validieren möchten.

Nur, woher stammen diese Bilder?

Weiterlesen “Daten, Daten, Daten – Gesichter für die KI”

Die KI und die optische Illusion

Bilderkennung und die Interpretation des gesehenen ist derzeit eine der meistgenutzten Errungenschaften der modernen KI, oder besser gesagt: Deep Learning.

Die neuronalen Netzwerke werden in der Regel auf eine Art von Muster trainiert. Beispielsweise ein Hund. Zeige ich dem Netz ein Katzenfoto, wird es sehr wahrscheinlich sehr weit daneben liegen. Ein trainiertes Netz kann meist nur eine Aufgabe erledigen – diese aber ziemlich gut. Die Fähigkeit schnell umzuschalten und andere Dinge zu interpretieren, haben wir Menschen den Algorithmen derzeit weit voraus. Klar, es gibt Dienste, wie die Cognitive Services von Microsoft, die bereits viel mehr erkennen und interpretieren. Dennoch kann unser Gehirn besser abstrahieren, vor allem wenn es sich um optische Täuschungen, bzw. Illusionen handelt.

Google Cloud Vision ist in der Lage, die Erkennung der bekannten Illusion einer Ente und eines Hasen korrekt zu klassifizieren und eben so wankelmütig zu sein, wie unser Hirn. Das ist schon beeindruckend, zumal das Bild nicht jeweils als einzelnes erkannt wird, sondern die Rotation der Illusion korrekt zugeordnet wird. Mag relativ primitiv klingen, ist für eine KI dennoch eine ziemlich große Leistung. Wieder ein Schritt näher an der Superintelligenz.

Photo by Scott Webb on Unsplash