Welches Merkmal macht eine Beobachtung zu einer Anomalie?

Finden Sie den Ausreißer

21/5/2020
|
Michael Welsch
&

Zuerst die schlechten Nachrichten. Es gibt weder eine Definition noch eine anerkannte Berechnungsmethode zur Identifizierung einer Anomalie in einem Datensatz. Weder die Informationstheorie noch die Statistik verfügen hierfür über eine wissenschaftliche Theorie. In der Metrologie bzw. Experimentalphysik gibt es den Messfehler, der auftritt, wenn ein Ereignis von außen die Beobachtung beeinflusst, obwohl die Beobachtung eigentlich systematisch von der Außenwelt isoliert werden müsste. Hierbei geht man davon aus, dass die Reproduzierbarkeit nicht durch einen unbekannten und nicht isolierten Einfluss von außen gewährleistet wurde. Dies könnte beispielsweise ein Fehler in der Elektronik zur Datenaufzeichnung selbst sein. Bei Verdacht wird der Versuchsaufbau überprüft, die Messreihe wiederholt und die Anomalie verschwindet dabei.

Eine Anomalie ist ein Hinweis darauf, dass ein unbekannter und missverstandener Einfluss auf einen vorliegt Beobachtungsreihe vorliegt oder dass eine Beobachtung stattgefunden hat, die im Zusammenhang mit den vorherigen Beobachtungen nicht zu erwarten war. Die Anomalie liegt außerhalb der Möglichkeit der internen Variation der Beobachtungen. Daher wird der Begriff Ausreißer auch als Synonym für eine Anomalie verwendet, als ob sie sich einfach aus der zugrunde liegenden Struktur gelöst hätte und frei wäre.

Auch wenn es keine wissenschaftliche Definition gibt, versteht man unter einer Anomalie meist eine selten auftretende, deutlich abweichende Beobachtung im Verhältnis zum Rest der Statistik – als könnte das Prinzip der Statistik für einen Moment außer Kraft gesetzt werden indem der vermeintliche Datensatz aus der Statistik entfernt, eindeutig gemacht und mit der Statistik verglichen wird, aus der er tatsächlich stammt.

Die folgenden drei Abbildungen zeigen Beispiele verschiedener Messreihen mit rot eingefärbten und deutlich sichtbaren Anomalien.

Abbildung 1: Vermessung von Zellen in der Biologie

Abbildung 2: Temperaturkurve einer Maschine

Abbildung 3: Elektrokardiogramm (EKG)

Eine Anomalie ist ein Warnsignal in der menschlichen Sinneswahrnehmung. Der Mensch hat eine intuitive Vorstellung davon, ob eine Beobachtung zu einem Muster passt oder nicht. Jede Beobachtung wird mit etwas Vertrautem abgeglichen. Wenn dies nicht möglich ist, werden alle Sinne geschärft. Es besteht Grund zu der Annahme, dass eine Gefahr droht. Zum Beispiel nimmt eine Person den plötzlichen Temperatursprung in Abbildung 2 sowie die kleinen konstanten Schwankungen im EKG in Abbildung 3 unwillkürlich als anormale Beobachtung wahr.

Mit anderen Worten: Müssen Sie bei der Entwicklung eines Algorithmus zur Erkennung einer Anomalie das intuitive menschliche Verständnis so genau wie möglich nachbilden?

Zunächst einmal kann der Mensch dies nicht für einzelne Werte tun, weil er die Welt nicht in eindimensionalen Daten erfassen kann. Menschen können dies für komplexe Daten wie visuelle, akustische oder haptische Reize tun.

Und auch das ist eine verblüffende Erkenntnis. Anomalien sind in komplexen Daten leichter zu erkennen als in stark vereinfachten Daten.

Menschen unterscheiden intuitiv zwischen extremen Beobachtungen und Ausreißern. Bei einfachen Daten liegen die Anomalien jedoch auf der gleichen Achse wie die extremen Beobachtungen. In multidimensionalen Daten kann ein Extremereignis als eine Beobachtung in der Verlängerung eines Pfades betrachtet werden, während eine Anomalie auf keinem bekannten Pfad oder zwischen bekannten Pfaden liegt.Dementsprechend wird ein Verfahren benötigt, das berechnet, ob eine Beobachtung auf einem Pfad oder, allgemeiner ausgedrückt, auf einer Mannigfaltigkeit liegt oder nicht. Hier kommt das Feature Encoding ins Spiel, das zunächst die Pfade in mehrdimensionalen Daten berechnet. Pfade können auch als eine Freiheitslinie der Variation in den Daten verstanden werden, die gegenseitigen Beschränkungen unterworfen sind.Im METRIC-Rahmen stellen wir zwei sofort einsetzbare Algorithmen zur Verfügung, die zunächst die Pfade oder Mannigfaltigkeiten hinter den Daten bestimmen und dann prüfen, welche Beobachtungen anomal sind und nicht nur extrem weit von ihnen entfernt.

(1) Inverse Diffusionsabbildung:

In einem pseudo-euklidischen Raum kann man einen Diffusionsprozess modellieren, bei dem sich Werte in den verschiedenen Dimensionen gegenseitig modellieren und dieser Prozess dazu führt, dass sich ein Pfad mit jedem Iterationsschritt zu einem verrauschten Pfad auffächert. Wenn man diesen Diffusionsprozess mathematisch umkehrt, zwingt man den verrauschten Datenraum dazu, in einzelne Pfade zu kollabieren, die schließlich - wenn man es übertreibt - in einzelne Punkte kollabieren. Egal, wie weit man es treibt, man kann überprüfen, welche Beobachtungen am weitesten von den berechneten Pfaden und Punkten entfernt sind. Darüber hinaus zeigt ein Diffusionsprozess eine bestimmte statistische Verteilung der Diffusionspfade und auch der invertierten Pfade, so dass diese Verteilung für die weitere Interpretation verwendet werden kann, indem man den Abstand der ursprünglichen verrauschten Datenpunkte zum entrauschten Pfad misst und alles, was außerhalb der erwarteten Statistik liegt, als Anomalie markiert. Die folgenden drei Abbildungen veranschaulichen diesen Prozess (die roten Punkte stellen Anomalien dar)

(2) Kohonen-Ausreißer-Clustering:  

Eine weitere Alternative ist die Annäherung an einen mehrdimensionalen Datensatz durch einen lokalen euklidischen Graphen, z. B. ein 2D-Stadtblockgitter. In diesem Fall werden die optimierten Knoten des Kohärenznetzes geclustert, und die Daten werden daraufhin überprüft, zu welchem Cluster sie gehören. Befindet sich nun ein Datensatz außerhalb des Rasters, wird die Statistik der Abstände innerhalb des jeweiligen Clusters bzw. die Dichte ermittelt und durch Triangulation potentielle Ausreißer identifiziert, die statistisch nicht in eine definierte Dichte passen.

Kohonen Outlier Clustering geht dann wie folgt vor:

Abbildung 4 zeigt die Erkennung von Anomalien anhand täglicher Kurven für Taxidermiedaten aus NYC mit recherchierten Ereignissen.

Abbildung 4: Taxidaten aus NYC

Bei der einen Methode werden die Daten für einen Verteiler optimiert, bei der anderen wird ein Verteiler für die Daten optimiert. Die Ergebnisse sind sehr ähnlich. Für beide Methoden (Reverse Diffusion Mapping und Kohonen Outlier Clustering) kann eine Rangfolge der am weitesten vom nächstbesten Pfad entfernten Datenpunkte berechnet werden.Die folgenden Abbildungen zeigen die Anwendung der Algorithmen auf Bilddaten. Die Anomalien wurden automatisch bestimmt, ohne dass ein Mensch dem Algorithmus beibringen musste, was eine Anomalie ist.

Abbildung 5: Profile aus der Kunststoffproduktion
Abbildung 6: Textilproben © Paul Bergmann, Michael Fauser, David Sattlegger, Carsten Steger. MVTec AD - A Comprehensive Real-World Dataset for Unsupervised Anomaly Detection; in: IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Juni 2019
Abbildung 7: Bilder vom Fließband einer Donut-Produktion

Die Antwort auf die anfängliche Frage, ob die Erkennung von Anomalien ein spezielles Training benötigt, um der menschlichen Wahrnehmung von Anomalien zu entsprechen, lautet nein. Die Methoden sind objektiv und rein informationstheoretisch motiviert.  Der Mensch hat einfach ein intuitiv erstaunlich gutes Gespür für Anomalien.

Folgt uns auf
We do not only optimize production processes, but also our website! For this, we use tools such as cookies for analysis and marketing purposes. You can change your cookie settings at any time. Information and Settings