Batchnorm

$\def\ho{\overline h}$

Normalisierung der Inputs eines Layers mit Mittelwert und Varianz.

Forward

Sei $h^{t-1}_{ij}$ der Input des $i$-ten Knotens und $j$-ten Samples des Batches. Sei $\epsilon$ ein kleiner Wert
für die numerische Stabilität.

  • $\mu^t_i={1\over m}\sum_{j=1}^m h^{t-1}_{ij}$ Mittelwert pro Knoten.
  • ${\sigma^t_i}^2={1\over m}\sum_{j=1}^m (h^{t-1}_{ij}-\mu^t_i)^2$ Varianz pro Knoten
  • $\ho^t_{ij}={h^{t-1}_{ij}-\mu^t_i\over \sqrt{{\sigma^t_i}^2+\epsilon}}$
  • $h^t_{ij}=\gamma_i\ho^t_{ij}+\beta_i$

Ableitungen