Neuronales Netz
Ein von biologischen Gehirnen inspiriertes Rechenmodell, das aus vernetzten künstlichen Neuronen besteht und Muster in Daten erkennen kann.
Eine neuronale Netzwerk-Architektur, die speziell für die Verarbeitung von Bildern und räumlichen Daten entwickelt wurde und lokale Muster durch Filter erkennt.
Convolutional Neural Networks (CNNs) sind die Architektur, die 2012 die Computer-Vision-Revolution ausgelöst hat. AlexNet gewann den ImageNet-Wettbewerb mit einem CNN und schlug alle klassischen Ansätze um mehr als 10 Prozentpunkte. CNNs nutzen Faltungsoperationen, um lokale Muster in Bildern hierarchisch zu erkennen: frühe Schichten erkennen Kanten und Texturen, tiefere Schichten kombinieren diese zu Objekten. Heute werden CNNs zunehmend durch Vision Transformers ergänzt oder ersetzt – aber für Edge-Deployment bleiben sie Standard.
Ein Convolutional Neural Network (CNN) ist eine neuronale Netzarchitektur, die speziell für die Verarbeitung von Bilddaten entwickelt wurde. CNNs nutzen Faltungsoperationen (Convolutions), um lokale Muster in Bildern zu erkennen – Kanten, Texturen, Formen – und kombinieren diese hierarchisch zu komplexeren Merkmalen. Der Durchbruch kam 2012 mit AlexNet, das den ImageNet-Wettbewerb mit einem CNN gewann, das deutlich besser war als alle klassischen Ansätze.
Ein CNN ist ein neuronales Netz, das besonders gut darin ist, Muster in Bildern zu erkennen. Statt jedes Pixel einzeln zu betrachten, nutzt es kleine Filter, die über das Bild gleiten und lokale Muster erkennen.
Die Schichten eines CNN:
| Schicht | Funktion | Beispiel |
|---|---|---|
| Convolutional | Erkennt lokale Muster | Kanten, Ecken, Texturen |
| Pooling | Reduziert die Auflösung | Max-Pooling: nimmt den größten Wert |
| Fully Connected | Klassifikation am Ende | ”Das ist eine Katze” |
Hierarchisches Lernen:
Ein Filter (z.B. 3×3) gleitet über das Eingabebild und berechnet an jeder Position das Skalarprodukt. Ergebnis: eine Feature Map, die zeigt, wo das erkannte Muster vorkommt.
Wichtige Parameter:
- Kernel Size: Größe des Filters (3×3, 5×5, 7×7)
- Stride: Schrittweite des Filters
- Padding: Rand um die Eingabe (same/valid)
- Channels: Anzahl der Filter pro Schicht
Vortrainierte CNNs (auf ImageNet) als Feature-Extraktor nutzen:
Ein CNN funktioniert wie ein Detektiv mit einer Lupe: Es scannt ein Bild Stück für Stück, erkennt erst kleine Details (Kanten), dann Formen und schließlich ganze Objekte – jede Schicht sieht das Bild auf einer höheren Abstraktionsebene.
Erkennt lokale Muster durch lernbare Filter (Kernel), die über die Eingabe gleiten
Hierarchisches Feature Learning: Kanten → Texturen → Objekte → Szenen
Revolutionierte Computer Vision und ist Grundlage für Bilderkennung und -generierung
Bilderkennung
Klassifikation von Bildern in Kategorien (Katze, Hund, Auto)
Objekterkennung
Lokalisierung und Identifikation von Objekten in Bildern (YOLO, Faster R-CNN)
Medizinische Bildanalyse
Erkennung von Tumoren in CT-Scans und Röntgenbildern
Gesichtserkennung
Identifikation und Verifikation von Personen anhand von Gesichtsbildern
CNNs sind weiterhin relevant, besonders für Echtzeit-Anwendungen auf Edge-Geräten (Smartphones, Kameras). Vision Transformer (ViT) übertreffen CNNs bei großen Datensätzen, aber CNNs sind effizienter bei begrenzten Ressourcen.
Ein kleiner Zahlenblock (z.B. 3×3), der über das Bild gleitet und lokale Muster erkennt. Verschiedene Filter erkennen verschiedene Muster: Kanten, Ecken, Texturen. Die Filterwerte werden beim Training gelernt.
Ja, 1D-CNNs können für Textklassifikation genutzt werden. Sie erkennen lokale Muster in Wortsequenzen. Für die meisten NLP-Aufgaben sind Transformer aber überlegen.