<EbeneX/>
Grundlagen Daten · Updated 18. Februar 2026

Word2Vec / GloVe

Definition

Pionier-Verfahren, die Wörter als Vektoren darstellen – Word2Vec (Google, 2013) und GloVe (Stanford, 2014) legten den Grundstein für moderne Embeddings.

Fortgeschritten 2 Min. Lesezeit EN: Word2Vec / GloVe

Einfach erklärt

Word2Vec war eine Revolution: Zum ersten Mal konnten Computer die Bedeutung von Wörtern als Zahlen darstellen – und mit diesen Zahlen rechnen.

Die Grundidee:

Jedes Wort bekommt einen Vektor (eine Liste von Zahlen). Wörter mit ähnlicher Bedeutung haben ähnliche Vektoren. Das ermöglicht etwas Erstaunliches:

Das berühmte Beispiel:

vec("König") - vec("Mann") + vec("Frau") ≈ vec("Königin")
vec("Paris") - vec("Frankreich") + vec("Deutschland") ≈ vec("Berlin")

Der Computer “versteht” nicht wirklich – aber er hat gelernt, dass König zu Mann steht wie Königin zu Frau.

Warum ist das heute noch relevant?

Word2Vec ist der Großvater moderner Embeddings. Die Konzepte (Vektorräume, Ähnlichkeit, Analogien) sind die Grundlage für alles, was danach kam – von BERT bis GPT.

Limitierung: Word2Vec gibt jedem Wort nur einen Vektor. “Bank” (Sitzbank) und “Bank” (Geldinstitut) haben denselben Vektor. Moderne Modelle wie BERT lösen das mit kontextabhängigen Embeddings.

Technischer Deep Dive

Word2Vec (Google, 2013)

Zwei Architekturen:

  • CBOW (Continuous Bag of Words): Vorhersage des Zielworts aus dem Kontext
  • Skip-gram: Vorhersage des Kontexts aus dem Zielwort
Skip-gram Beispiel:
Satz: "Die Katze sitzt auf der Matte"
Input: "sitzt" → Vorhersage: ["Katze", "auf"]

GloVe (Stanford, 2014)

  • Nutzt globale Kookkurrenz-Matrix (wie oft erscheinen Wörter zusammen?)
  • Kombiniert lokalen Kontext (wie Word2Vec) mit globaler Statistik
  • Oft leicht bessere Ergebnisse als Word2Vec

Limitierungen

  • Statische Vektoren: Ein Vektor pro Wort, unabhängig vom Kontext
  • Out-of-Vocabulary: Unbekannte Wörter haben keinen Vektor
  • Keine Satzebene: Nur Wort-Embeddings, keine Satz-Embeddings

Evolution

Word2Vec/GloVe (2013-14) → ELMo (2018) → BERT (2018) → GPT (2018+)
Statisch              → Kontextuell  → Bidirektional → Generativ

Word2Vec gibt jedem Wort eine GPS-Koordinate in einem Bedeutungsraum. Ähnliche Wörter haben ähnliche Koordinaten – und man kann mit Koordinaten rechnen: Paris - Frankreich + Deutschland ≈ Berlin.

Word2Vec: Lernt Wort-Vektoren aus dem Kontext (CBOW oder Skip-gram)

GloVe: Nutzt globale Wort-Kookkurrenz-Statistiken für Vektoren

Historisch wichtig, heute durch kontextuelle Embeddings (BERT, GPT) weitgehend abgelöst

Wort-Analogien

König - Mann + Frau = Königin – Vektorarithmetik auf Bedeutung

Ähnlichkeitssuche

Ähnliche Wörter finden über Cosine Similarity der Vektoren

Feature Input

Word2Vec-Vektoren als Eingabe für nachgelagerte ML-Modelle

Warum nutzt man heute nicht mehr Word2Vec?

Word2Vec erzeugt einen festen Vektor pro Wort. 'Bank' hat immer denselben Vektor, egal ob Sitzbank oder Geldinstitut. Moderne Modelle (BERT, GPT) erzeugen kontextabhängige Embeddings – 'Bank' bekommt je nach Satz einen anderen Vektor.

Ist Word2Vec trotzdem noch relevant?

Ja, zum Verständnis. Die Konzepte (Vektorräume, Ähnlichkeit, Analogien) sind die Grundlage für alles was danach kam. Und für einfache Aufgaben ist Word2Vec immer noch schnell und effektiv.

Wie wird Word2Vec trainiert?

Word2Vec wird durch das Training auf großen Textkorpora trainiert, wobei es die Beziehungen zwischen Wörtern lernt, indem es deren Kontexte analysiert. Es gibt zwei Hauptansätze: Continuous Bag of Words (CBOW) und Skip-Gram, die unterschiedliche Methoden zur Vorhersage von Wörtern verwenden.

Was sind die Vorteile von GloVe im Vergleich zu Word2Vec?

GloVe (Global Vectors for Word Representation) nutzt globale Statistiken des Korpus, um Wortvektoren zu erstellen, während Word2Vec lokale Kontexte betrachtet. Dies kann GloVe helfen, besser die semantischen Beziehungen zwischen Wörtern zu erfassen, insbesondere in großen Datensätzen.

Dein persönliches Share-Bild für Instagram – 1080×1080px, bereit zum Posten.