RNN (Recurrent Neural Network)
Eine neuronale Netzwerk-Architektur mit internem Gedächtnis, die sequenzielle Daten wie Text oder Zeitreihen verarbeiten kann – weitgehend durch Transformer ersetzt.
Eine erweiterte RNN-Architektur mit speziellen Gate-Mechanismen, die Langzeitabhängigkeiten in Sequenzen besser erfassen kann als einfache RNNs.
LSTM (Long Short-Term Memory) war von ca. 2015 bis 2018 der Standard für Sprachverarbeitung, maschinelle Übersetzung und Zeitreihenanalyse. Es löste das fundamentale Problem klassischer RNNs – das Vergessen früher Informationen in langen Sequenzen – durch spezielle Gate-Mechanismen. Mit der Einführung von Transformers wurden LSTMs für die meisten NLP-Aufgaben abgelöst, da Transformers Sequenzen parallel verarbeiten und besser skalieren. Für Zeitreihen und ressourcenbeschränkte Geräte werden LSTMs aber weiterhin eingesetzt.
LSTM (Long Short-Term Memory) ist eine Architektur für rekurrente neuronale Netze, die 1997 entwickelt wurde, um das “Vanishing Gradient Problem” klassischer RNNs zu lösen. Klassische RNNs vergessen frühe Informationen in langen Sequenzen, weil die Gradienten beim Backpropagation durch die Zeit immer kleiner werden. LSTMs lösen das durch spezielle Gate-Mechanismen, die gezielt entscheiden, was erinnert und was vergessen wird.
LSTM ist eine verbesserte Version des RNN, die das Problem des “Vergessens” bei langen Sequenzen löst. Durch spezielle Mechanismen (Gates) kann ein LSTM gezielt entscheiden, welche Informationen es sich merkt und welche es vergisst.
Die drei Gates:
| Gate | Funktion | Analogie |
|---|---|---|
| Forget Gate | Entscheidet, was vergessen wird | Radiergummi |
| Input Gate | Entscheidet, was neu gespeichert wird | Stift |
| Output Gate | Entscheidet, was ausgegeben wird | Lesebrille |
Jedes Gate ist eine Sigmoid-Funktion (Ausgabe 0-1), die als “Ventil” für den Informationsfluss dient:
f_t = σ(W_f · [h_(t-1), x_t] + b_f)i_t = σ(W_i · [h_(t-1), x_t] + b_i)C_t = f_t ⊙ C_(t-1) + i_t ⊙ tanh(W_C · [h_(t-1), x_t] + b_C)o_t = σ(W_o · [h_(t-1), x_t] + b_o)h_t = o_t ⊙ tanh(C_t)Der Cell State C_t ist der “Highway”, über den Informationen über viele Zeitschritte fließen können, ohne durch Vanishing Gradients verloren zu gehen.
GRU kombiniert Forget und Input Gate zu einem Update Gate und verschmilzt Cell State und Hidden State. Weniger Parameter, ähnliche Performance.
LSTM-Netzwerke finden in vielen Anwendungen Verwendung, insbesondere in Bereichen, die auf sequenzielle Daten angewiesen sind. Einige gängige Beispiele sind:
Die LSTM-Architektur wurde 1997 von Sepp Hochreiter und Jürgen Schmidhuber eingeführt, um die Probleme traditioneller RNNs zu lösen. Seitdem hat sich LSTM zu einem Standardwerkzeug in der maschinellen Lern- und KI-Community entwickelt. Die Entwicklung von LSTMs hat den Weg für Fortschritte in vielen Bereichen der KI geebnet, insbesondere in der Verarbeitung natürlicher Sprache und der Zeitreihenanalyse.
Ein LSTM ist wie ein Notizbuch mit Radiergummi: Es kann sich gezielt Dinge merken (aufschreiben), unwichtige Informationen vergessen (radieren) und entscheiden, welche Notizen für die aktuelle Aufgabe relevant sind.
Löst das Vanishing Gradient Problem von einfachen RNNs durch Gate-Mechanismen
Drei Gates steuern den Informationsfluss: Forget, Input und Output Gate
War vor Transformern der Standard für NLP-Aufgaben und Zeitreihen
Zeitreihenprognose
Vorhersage von Energieverbrauch, Aktienkursen oder Wetterdaten
Anomalieerkennung
Erkennung ungewöhnlicher Muster in sequenziellen Sensordaten
Handschrifterkennung
Erkennung von handgeschriebenem Text als Sequenz von Strichen
GRU (Gated Recurrent Unit) ist eine vereinfachte Version von LSTM mit nur zwei Gates statt drei. GRU ist schneller zu trainieren und hat weniger Parameter, liefert aber oft ähnliche Ergebnisse.
Für die meisten Aufgaben sind Transformer besser. LSTM kann bei sehr langen Zeitreihen mit begrenzten Ressourcen oder bei Streaming-Daten noch Vorteile haben.
LSTMs verwenden spezielle Gate-Mechanismen, die es ihnen ermöglichen, Informationen über längere Zeiträume zu speichern und zu verarbeiten. Im Gegensatz dazu haben traditionelle RNNs Schwierigkeiten, Langzeitabhängigkeiten zu lernen, was zu Problemen wie dem Vanishing Gradient Problem führt.
LSTMs sind besonders nützlich in Bereichen wie Sprachverarbeitung, Zeitreihenanalyse und Musikgenerierung, wo die Reihenfolge und der Kontext von Daten entscheidend sind. Sie können auch in der Übersetzung und bei der Vorhersage von Sequenzen eingesetzt werden.