„Aktivierungsfunktionen sind das Herz jedes neuronalen Netzes: sie entscheiden, ob rohe lineare Kombinationen von Eingaben bloß Rechenformalismen bleiben oder zu flexiblen, hierarchischen Repräsentationen werden. Ohne Nichtlinearität bliebe ein tiefes Netz nur eine einzige lineare Abbildung; mit der richtigen Aktivierung erwacht es zu Modellierungsstärke. Die Wahl — Sigmoid, Tanh, ReLU, GELU, Swish oder spezialisierte Gate-Funktionen — ist ein Kompromiss zwischen Differenzierbarkeit, Sättigung, Sparsität, Rechenkosten und stabilem Gradientenfluss. Gute Aktivierungen dämpfen Rauschen, ermöglichen effiziente Optimierung und kodieren nützliche Induktionsannahmen für die Aufgabe. Sie sind kein bloßes Detail, sondern ein grundlegendes Designprinzip: kleine Änderungen können Lernkurven, Generalisierung und Robustheit nachhaltig verändern. Die Kunst besteht darin, die nichtlineare Signatur so zu wählen, dass sie die Struktur der Daten und die Ziele des Modells am besten widerspiegelt.“
