Was ist Word2Vec? Vektoren für Wörter erklärt | KI-Glossar

ERKLÄRUNG

Einfach erklärt

Word2Vec war eine Revolution: Zum ersten Mal konnten Computer die Bedeutung von Wörtern als Zahlen darstellen – und mit diesen Zahlen rechnen.

Die Grundidee:

Jedes Wort bekommt einen Vektor (eine Liste von Zahlen). Wörter mit ähnlicher Bedeutung haben ähnliche Vektoren. Das ermöglicht etwas Erstaunliches:

Das berühmte Beispiel:

vec("König") - vec("Mann") + vec("Frau") ≈ vec("Königin")
vec("Paris") - vec("Frankreich") + vec("Deutschland") ≈ vec("Berlin")

Der Computer “versteht” nicht wirklich – aber er hat gelernt, dass König zu Mann steht wie Königin zu Frau.

Warum ist das heute noch relevant?

Word2Vec ist der Großvater moderner Embeddings. Die Konzepte (Vektorräume, Ähnlichkeit, Analogien) sind die Grundlage für alles, was danach kam – von BERT bis GPT.

Limitierung: Word2Vec gibt jedem Wort nur einen Vektor. “Bank” (Sitzbank) und “Bank” (Geldinstitut) haben denselben Vektor. Moderne Modelle wie BERT lösen das mit kontextabhängigen Embeddings.

Technischer Deep Dive

Word2Vec (Google, 2013)

Zwei Architekturen:

CBOW (Continuous Bag of Words): Vorhersage des Zielworts aus dem Kontext
Skip-gram: Vorhersage des Kontexts aus dem Zielwort

Skip-gram Beispiel:
Satz: "Die Katze sitzt auf der Matte"
Input: "sitzt" → Vorhersage: ["Katze", "auf"]

GloVe (Stanford, 2014)

Nutzt globale Kookkurrenz-Matrix (wie oft erscheinen Wörter zusammen?)
Kombiniert lokalen Kontext (wie Word2Vec) mit globaler Statistik
Oft leicht bessere Ergebnisse als Word2Vec

Limitierungen

Statische Vektoren: Ein Vektor pro Wort, unabhängig vom Kontext
Out-of-Vocabulary: Unbekannte Wörter haben keinen Vektor
Keine Satzebene: Nur Wort-Embeddings, keine Satz-Embeddings

Evolution

Word2Vec/GloVe (2013-14) → ELMo (2018) → BERT (2018) → GPT (2018+)
Statisch              → Kontextuell  → Bidirektional → Generativ

ANALOGIE

Word2Vec gibt jedem Wort eine GPS-Koordinate in einem Bedeutungsraum. Ähnliche Wörter haben ähnliche Koordinaten – und man kann mit Koordinaten rechnen: Paris - Frankreich + Deutschland ≈ Berlin.

WICHTIGSTE PUNKTE

Word2Vec: Lernt Wort-Vektoren aus dem Kontext (CBOW oder Skip-gram)

GloVe: Nutzt globale Wort-Kookkurrenz-Statistiken für Vektoren

Historisch wichtig, heute durch kontextuelle Embeddings (BERT, GPT) weitgehend abgelöst

ANWENDUNGSFÄLLE

Wort-Analogien

König - Mann + Frau = Königin – Vektorarithmetik auf Bedeutung

Ähnlichkeitssuche

Ähnliche Wörter finden über Cosine Similarity der Vektoren

Feature Input

Word2Vec-Vektoren als Eingabe für nachgelagerte ML-Modelle

HÄUFIGE FRAGEN

Warum nutzt man heute nicht mehr Word2Vec?

Word2Vec erzeugt einen festen Vektor pro Wort. 'Bank' hat immer denselben Vektor, egal ob Sitzbank oder Geldinstitut. Moderne Modelle (BERT, GPT) erzeugen kontextabhängige Embeddings – 'Bank' bekommt je nach Satz einen anderen Vektor.

Ist Word2Vec trotzdem noch relevant?

Ja, zum Verständnis. Die Konzepte (Vektorräume, Ähnlichkeit, Analogien) sind die Grundlage für alles was danach kam. Und für einfache Aufgaben ist Word2Vec immer noch schnell und effektiv.

Wie wird Word2Vec trainiert?

Word2Vec wird durch das Training auf großen Textkorpora trainiert, wobei es die Beziehungen zwischen Wörtern lernt, indem es deren Kontexte analysiert. Es gibt zwei Hauptansätze: Continuous Bag of Words (CBOW) und Skip-Gram, die unterschiedliche Methoden zur Vorhersage von Wörtern verwenden.

Was sind die Vorteile von GloVe im Vergleich zu Word2Vec?

GloVe (Global Vectors for Word Representation) nutzt globale Statistiken des Korpus, um Wortvektoren zu erstellen, während Word2Vec lokale Kontexte betrachtet. Dies kann GloVe helfen, besser die semantischen Beziehungen zwischen Wörtern zu erfassen, insbesondere in großen Datensätzen.

TOOLS & RESSOURCEN

Gensim

Python-Bibliothek für Word2Vec, GloVe und andere Embedding-Modelle

GloVe Pre-trained

Vortrainierte GloVe-Vektoren von Stanford zum Download

VERWANDTE BEGRIFFE

Daten LLM

Embeddings

Numerische Vektordarstellungen von Text, Bildern oder anderen Daten, die semantische Bedeutung in einem hochdimensionalen Raum abbilden.

Daten Grundlagen

Embedding Space

Der hochdimensionale mathematische Raum, in dem Embeddings leben – semantisch ähnliche Konzepte liegen nahe beieinander, verschiedene weit auseinander.

Daten Grundlagen

Cosine Similarity

Ein Ähnlichkeitsmaß, das den Winkel zwischen zwei Vektoren misst – der Standard für den Vergleich von Embeddings in der semantischen Suche und RAG-Systemen.

Daten Praxis

Semantische Suche

Eine Suchmethode, die die Bedeutung einer Anfrage versteht statt nur nach exakten Keywords zu suchen – ermöglicht durch Embeddings und Vektordatenbanken.

LLM Grundlagen

Tokenisierung

Der Prozess, bei dem Text in kleinere Einheiten (Tokens) zerlegt wird, bevor ein Sprachmodell ihn verarbeiten kann – der erste und entscheidende Schritt jeder NLP-Pipeline.

Word2Vec / GloVe