<EbeneX/>
Architektur Grundlagen · Updated 3. März 2026

CNN (Convolutional Neural Network)

Definition

Eine neuronale Netzwerk-Architektur, die speziell für die Verarbeitung von Bildern und räumlichen Daten entwickelt wurde und lokale Muster durch Filter erkennt.

Fortgeschritten 2 Min. Lesezeit EN: Convolutional Neural Network

Einfach erklärt

Convolutional Neural Networks (CNNs) sind die Architektur, die 2012 die Computer-Vision-Revolution ausgelöst hat. AlexNet gewann den ImageNet-Wettbewerb mit einem CNN und schlug alle klassischen Ansätze um mehr als 10 Prozentpunkte. CNNs nutzen Faltungsoperationen, um lokale Muster in Bildern hierarchisch zu erkennen: frühe Schichten erkennen Kanten und Texturen, tiefere Schichten kombinieren diese zu Objekten. Heute werden CNNs zunehmend durch Vision Transformers ergänzt oder ersetzt – aber für Edge-Deployment bleiben sie Standard.

Ein Convolutional Neural Network (CNN) ist eine neuronale Netzarchitektur, die speziell für die Verarbeitung von Bilddaten entwickelt wurde. CNNs nutzen Faltungsoperationen (Convolutions), um lokale Muster in Bildern zu erkennen – Kanten, Texturen, Formen – und kombinieren diese hierarchisch zu komplexeren Merkmalen. Der Durchbruch kam 2012 mit AlexNet, das den ImageNet-Wettbewerb mit einem CNN gewann, das deutlich besser war als alle klassischen Ansätze.

Ein CNN ist ein neuronales Netz, das besonders gut darin ist, Muster in Bildern zu erkennen. Statt jedes Pixel einzeln zu betrachten, nutzt es kleine Filter, die über das Bild gleiten und lokale Muster erkennen.

Die Schichten eines CNN:

SchichtFunktionBeispiel
ConvolutionalErkennt lokale MusterKanten, Ecken, Texturen
PoolingReduziert die AuflösungMax-Pooling: nimmt den größten Wert
Fully ConnectedKlassifikation am Ende”Das ist eine Katze”

Hierarchisches Lernen:

  • Schicht 1: Kanten und Linien
  • Schicht 2: Ecken und einfache Formen
  • Schicht 3: Texturen und Muster
  • Schicht 4+: Objektteile und ganze Objekte

Technischer Deep Dive

Convolution-Operation

Ein Filter (z.B. 3×3) gleitet über das Eingabebild und berechnet an jeder Position das Skalarprodukt. Ergebnis: eine Feature Map, die zeigt, wo das erkannte Muster vorkommt.

Wichtige Parameter:

  • Kernel Size: Größe des Filters (3×3, 5×5, 7×7)
  • Stride: Schrittweite des Filters
  • Padding: Rand um die Eingabe (same/valid)
  • Channels: Anzahl der Filter pro Schicht

Bekannte CNN-Architekturen

  • LeNet (1998): Handschrifterkennung, Pionier der CNNs
  • AlexNet (2012): ImageNet-Durchbruch, Start der Deep-Learning-Revolution
  • VGG (2014): Tiefere Netze mit kleinen 3×3-Filtern
  • ResNet (2015): Residual Connections für 100+ Schichten
  • EfficientNet (2019): Optimale Skalierung von Breite, Tiefe und Auflösung

Transfer Learning mit CNNs

Vortrainierte CNNs (auf ImageNet) als Feature-Extraktor nutzen:

  1. Vortrainiertes Modell laden (z.B. ResNet-50)
  2. Letzte Schicht(en) durch eigene ersetzen
  3. Nur neue Schichten trainieren oder gesamtes Netz fine-tunen
  4. Funktioniert auch mit wenigen hundert Bildern

Ein CNN funktioniert wie ein Detektiv mit einer Lupe: Es scannt ein Bild Stück für Stück, erkennt erst kleine Details (Kanten), dann Formen und schließlich ganze Objekte – jede Schicht sieht das Bild auf einer höheren Abstraktionsebene.

Erkennt lokale Muster durch lernbare Filter (Kernel), die über die Eingabe gleiten

Hierarchisches Feature Learning: Kanten → Texturen → Objekte → Szenen

Revolutionierte Computer Vision und ist Grundlage für Bilderkennung und -generierung

Bilderkennung

Klassifikation von Bildern in Kategorien (Katze, Hund, Auto)

Objekterkennung

Lokalisierung und Identifikation von Objekten in Bildern (YOLO, Faster R-CNN)

Medizinische Bildanalyse

Erkennung von Tumoren in CT-Scans und Röntgenbildern

Gesichtserkennung

Identifikation und Verifikation von Personen anhand von Gesichtsbildern

Werden CNNs noch gebraucht oder hat der Transformer sie ersetzt?

CNNs sind weiterhin relevant, besonders für Echtzeit-Anwendungen auf Edge-Geräten (Smartphones, Kameras). Vision Transformer (ViT) übertreffen CNNs bei großen Datensätzen, aber CNNs sind effizienter bei begrenzten Ressourcen.

Was ist ein Convolutional Filter?

Ein kleiner Zahlenblock (z.B. 3×3), der über das Bild gleitet und lokale Muster erkennt. Verschiedene Filter erkennen verschiedene Muster: Kanten, Ecken, Texturen. Die Filterwerte werden beim Training gelernt.

Kann man CNNs auch für Text nutzen?

Ja, 1D-CNNs können für Textklassifikation genutzt werden. Sie erkennen lokale Muster in Wortsequenzen. Für die meisten NLP-Aufgaben sind Transformer aber überlegen.

Dein persönliches Share-Bild für Instagram – 1080×1080px, bereit zum Posten.