Files

A-Guide-To-Contributing-To-Wiki
Admin
Basics
- Information-Theory
- Linear-Algebra
- Probability-Theory
- Adam.md
- Autoencoder.md
- Automatic differentiation.md
- Backpropagation.md
- Batch norm.md
- Bias-Variance Tradeoff.md
- Design matrix.md
- Distribution Modeling with NNs.md
- Dropout.md
- Embedding.md
- Empirical risk minimization.md
- GNN.md
- Gradient Descent.md
- Gradient.md
- Home.md
- Matrix calculus.md
- Maximum likelihood estimation.md
- Momentum.md
- Neural Network.md
- Ordinary least squares.md
- PCA.md
- Perceptron.md
- RNN.md
- ReLU.md
- Regularization.md
- Ridge regression.md
- Supervised learning.md
- Weight initialization.md
- basics.bib
CV
Edu
NLP
RL
.gitignore
.redirects.gollum
Home.md
Research code.md
Resources.md
Table of Contents.md
_Sidebar.md
_Template.md
mathjax.config.js

Weight initialization.md

Updated Weight initialization.md (markdown)

Oct 26, 2022

b495cf6 · Oct 26, 2022

Weight initialization. When you instantiate a [[neural network]], you have to consider what the initial weight values are.

Example. Xavier initialization uses a normal distribution with mean 0 and variance $\frac{1}{d}$ where $d$ is the number of incoming connections.

Example. He/Kaiming initialization is used for [[ReLU]] and uses a normal distribution with mean 0 and variance $\frac{2}{d}$ .