Embeddings
Numerische Vektordarstellungen von Text, Bildern oder anderen Daten, die semantische Bedeutung in einem hochdimensionalen Raum abbilden.
Pionier-Verfahren, die Wörter als Vektoren darstellen – Word2Vec (Google, 2013) und GloVe (Stanford, 2014) legten den Grundstein für moderne Embeddings.
Word2Vec war eine Revolution: Zum ersten Mal konnten Computer die Bedeutung von Wörtern als Zahlen darstellen – und mit diesen Zahlen rechnen.
Die Grundidee:
Jedes Wort bekommt einen Vektor (eine Liste von Zahlen). Wörter mit ähnlicher Bedeutung haben ähnliche Vektoren. Das ermöglicht etwas Erstaunliches:
Das berühmte Beispiel:
vec("König") - vec("Mann") + vec("Frau") ≈ vec("Königin")
vec("Paris") - vec("Frankreich") + vec("Deutschland") ≈ vec("Berlin")
Der Computer “versteht” nicht wirklich – aber er hat gelernt, dass König zu Mann steht wie Königin zu Frau.
Warum ist das heute noch relevant?
Word2Vec ist der Großvater moderner Embeddings. Die Konzepte (Vektorräume, Ähnlichkeit, Analogien) sind die Grundlage für alles, was danach kam – von BERT bis GPT.
Limitierung: Word2Vec gibt jedem Wort nur einen Vektor. “Bank” (Sitzbank) und “Bank” (Geldinstitut) haben denselben Vektor. Moderne Modelle wie BERT lösen das mit kontextabhängigen Embeddings.
Zwei Architekturen:
Skip-gram Beispiel:
Satz: "Die Katze sitzt auf der Matte"
Input: "sitzt" → Vorhersage: ["Katze", "auf"]
Word2Vec/GloVe (2013-14) → ELMo (2018) → BERT (2018) → GPT (2018+)
Statisch → Kontextuell → Bidirektional → Generativ Word2Vec gibt jedem Wort eine GPS-Koordinate in einem Bedeutungsraum. Ähnliche Wörter haben ähnliche Koordinaten – und man kann mit Koordinaten rechnen: Paris - Frankreich + Deutschland ≈ Berlin.
Word2Vec: Lernt Wort-Vektoren aus dem Kontext (CBOW oder Skip-gram)
GloVe: Nutzt globale Wort-Kookkurrenz-Statistiken für Vektoren
Historisch wichtig, heute durch kontextuelle Embeddings (BERT, GPT) weitgehend abgelöst
Wort-Analogien
König - Mann + Frau = Königin – Vektorarithmetik auf Bedeutung
Ähnlichkeitssuche
Ähnliche Wörter finden über Cosine Similarity der Vektoren
Feature Input
Word2Vec-Vektoren als Eingabe für nachgelagerte ML-Modelle
Word2Vec erzeugt einen festen Vektor pro Wort. 'Bank' hat immer denselben Vektor, egal ob Sitzbank oder Geldinstitut. Moderne Modelle (BERT, GPT) erzeugen kontextabhängige Embeddings – 'Bank' bekommt je nach Satz einen anderen Vektor.
Ja, zum Verständnis. Die Konzepte (Vektorräume, Ähnlichkeit, Analogien) sind die Grundlage für alles was danach kam. Und für einfache Aufgaben ist Word2Vec immer noch schnell und effektiv.
Word2Vec wird durch das Training auf großen Textkorpora trainiert, wobei es die Beziehungen zwischen Wörtern lernt, indem es deren Kontexte analysiert. Es gibt zwei Hauptansätze: Continuous Bag of Words (CBOW) und Skip-Gram, die unterschiedliche Methoden zur Vorhersage von Wörtern verwenden.
GloVe (Global Vectors for Word Representation) nutzt globale Statistiken des Korpus, um Wortvektoren zu erstellen, während Word2Vec lokale Kontexte betrachtet. Dies kann GloVe helfen, besser die semantischen Beziehungen zwischen Wörtern zu erfassen, insbesondere in großen Datensätzen.