CNN (Convolutional Neural Network) einfach erklärt

ERKLÄRUNG

Einfach erklärt

Convolutional Neural Networks (CNNs) sind die Architektur, die 2012 die Computer-Vision-Revolution ausgelöst hat. AlexNet gewann den ImageNet-Wettbewerb mit einem CNN und schlug alle klassischen Ansätze um mehr als 10 Prozentpunkte. CNNs nutzen Faltungsoperationen, um lokale Muster in Bildern hierarchisch zu erkennen: frühe Schichten erkennen Kanten und Texturen, tiefere Schichten kombinieren diese zu Objekten. Heute werden CNNs zunehmend durch Vision Transformers ergänzt oder ersetzt – aber für Edge-Deployment bleiben sie Standard.

Ein Convolutional Neural Network (CNN) ist eine neuronale Netzarchitektur, die speziell für die Verarbeitung von Bilddaten entwickelt wurde. CNNs nutzen Faltungsoperationen (Convolutions), um lokale Muster in Bildern zu erkennen – Kanten, Texturen, Formen – und kombinieren diese hierarchisch zu komplexeren Merkmalen. Der Durchbruch kam 2012 mit AlexNet, das den ImageNet-Wettbewerb mit einem CNN gewann, das deutlich besser war als alle klassischen Ansätze.

Ein CNN ist ein neuronales Netz, das besonders gut darin ist, Muster in Bildern zu erkennen. Statt jedes Pixel einzeln zu betrachten, nutzt es kleine Filter, die über das Bild gleiten und lokale Muster erkennen.

Die Schichten eines CNN:

Schicht	Funktion	Beispiel
Convolutional	Erkennt lokale Muster	Kanten, Ecken, Texturen
Pooling	Reduziert die Auflösung	Max-Pooling: nimmt den größten Wert
Fully Connected	Klassifikation am Ende	”Das ist eine Katze”

Hierarchisches Lernen:

Schicht 1: Kanten und Linien
Schicht 2: Ecken und einfache Formen
Schicht 3: Texturen und Muster
Schicht 4+: Objektteile und ganze Objekte

Technischer Deep Dive

Convolution-Operation

Ein Filter (z.B. 3×3) gleitet über das Eingabebild und berechnet an jeder Position das Skalarprodukt. Ergebnis: eine Feature Map, die zeigt, wo das erkannte Muster vorkommt.

Wichtige Parameter:

Kernel Size: Größe des Filters (3×3, 5×5, 7×7)

Stride: Schrittweite des Filters

Padding: Rand um die Eingabe (same/valid)

Channels: Anzahl der Filter pro Schicht

Bekannte CNN-Architekturen

LeNet (1998): Handschrifterkennung, Pionier der CNNs
AlexNet (2012): ImageNet-Durchbruch, Start der Deep-Learning-Revolution
VGG (2014): Tiefere Netze mit kleinen 3×3-Filtern
ResNet (2015): Residual Connections für 100+ Schichten
EfficientNet (2019): Optimale Skalierung von Breite, Tiefe und Auflösung

Transfer Learning mit CNNs

Vortrainierte CNNs (auf ImageNet) als Feature-Extraktor nutzen:

Vortrainiertes Modell laden (z.B. ResNet-50)
Letzte Schicht(en) durch eigene ersetzen
Nur neue Schichten trainieren oder gesamtes Netz fine-tunen
Funktioniert auch mit wenigen hundert Bildern

ANALOGIE

Ein CNN funktioniert wie ein Detektiv mit einer Lupe: Es scannt ein Bild Stück für Stück, erkennt erst kleine Details (Kanten), dann Formen und schließlich ganze Objekte – jede Schicht sieht das Bild auf einer höheren Abstraktionsebene.

WICHTIGSTE PUNKTE

Erkennt lokale Muster durch lernbare Filter (Kernel), die über die Eingabe gleiten

Hierarchisches Feature Learning: Kanten → Texturen → Objekte → Szenen

Revolutionierte Computer Vision und ist Grundlage für Bilderkennung und -generierung

ANWENDUNGSFÄLLE

Bilderkennung

Klassifikation von Bildern in Kategorien (Katze, Hund, Auto)

Objekterkennung

Lokalisierung und Identifikation von Objekten in Bildern (YOLO, Faster R-CNN)

Medizinische Bildanalyse

Erkennung von Tumoren in CT-Scans und Röntgenbildern

Gesichtserkennung

Identifikation und Verifikation von Personen anhand von Gesichtsbildern

HÄUFIGE FRAGEN

Werden CNNs noch gebraucht oder hat der Transformer sie ersetzt?

CNNs sind weiterhin relevant, besonders für Echtzeit-Anwendungen auf Edge-Geräten (Smartphones, Kameras). Vision Transformer (ViT) übertreffen CNNs bei großen Datensätzen, aber CNNs sind effizienter bei begrenzten Ressourcen.

Was ist ein Convolutional Filter?

Ein kleiner Zahlenblock (z.B. 3×3), der über das Bild gleitet und lokale Muster erkennt. Verschiedene Filter erkennen verschiedene Muster: Kanten, Ecken, Texturen. Die Filterwerte werden beim Training gelernt.

Kann man CNNs auch für Text nutzen?

Ja, 1D-CNNs können für Textklassifikation genutzt werden. Sie erkennen lokale Muster in Wortsequenzen. Für die meisten NLP-Aufgaben sind Transformer aber überlegen.

TOOLS & RESSOURCEN

torchvision

PyTorchs Bibliothek mit vortrainierten CNN-Modellen und Bild-Utilities

Ultralytics YOLOv8

State-of-the-Art Objekterkennung basierend auf CNN-Architektur

OpenCV

Computer-Vision-Bibliothek, oft in Kombination mit CNNs genutzt

VERWANDTE BEGRIFFE

Grundlagen

Neuronales Netz

Ein von biologischen Gehirnen inspiriertes Rechenmodell, das aus vernetzten künstlichen Neuronen besteht und Muster in Daten erkennen kann.

Grundlagen

Ein Teilbereich des Machine Learning, der tiefe künstliche neuronale Netze mit vielen Schichten nutzt, um komplexe Muster in großen Datenmengen zu erkennen.

Architektur Grundlagen

RNN (Recurrent Neural Network)

Eine neuronale Netzwerk-Architektur mit internem Gedächtnis, die sequenzielle Daten wie Text oder Zeitreihen verarbeiten kann – weitgehend durch Transformer ersetzt.

Architektur LLM

Transformer

Eine revolutionäre neuronale Netzwerk-Architektur, die auf dem Attention-Mechanismus basiert und die Grundlage für moderne Sprachmodelle wie GPT und BERT bildet.

Grundlagen

Supervised Learning

Eine Machine-Learning-Methode, bei der ein Modell aus gelabelten Beispieldaten lernt – also aus Eingaben mit bekannter korrekter Ausgabe.