Author: Boris Hanin and Mark Sellke
Year: 2017
arXiv preprint
@article{hanin2017approximating,
title={Approximating continuous functions by relu nets of minimal width},
author={Hanin, Boris and Sellke, Mark},
journal={arXiv preprint arXiv:1710.11278},
year={2017}
}
/Users/xieyutong/Documents/Research/PaperReading/Notes/approximating-continuous-function-by-relu-nets-of-minimal-width.md
这篇文章考虑的是
整篇文章是关于
证明思路:分成上界和下界两个部分。
上界部分:可以构造一个网络,宽度为
下界部分:构造一个函数,使得任何一个宽度为
上界部分的证明中,作者先证明如下的函数可以等价于一个 ReLU 网络($\ell$ 是线性变换)
$$
g=\sigma_{L-1}\left(\ell_{L}, \sigma_{L-2}\left(\ell_{L-1}, \ldots, \sigma_{2}\left(\ell_{3}, \sigma_{1}\left(\ell_{1}, \ell_{2}\right)\right) \cdots\right)\right.
$$
等价的 ReLU 网络具有比较特别的结构:
$$
A_{j}(x, y)=\left{\begin{array}{ll}
\left(x, y-\ell_{j}(x)\right), & \text { if } \sigma_{j-1}=\max \
\left(x,-y+\ell_{j}(x)\right), & \text { if } \sigma_{j-1}=\min
\end{array}\right.
\
A_{j}^{-1}(x, y)=\left{\begin{array}{ll}
\left(x, y+\ell_{j}(x)\right), & \text { if } \sigma_{j-1}=\max \
\left(x,-y+\ell_{j}(x)\right), & \text { if } \sigma_{j-1}=\min
\end{array}\right.\
H_{j}:=A_{j}^{-1} \circ \operatorname{ReLU} \circ A_{j}\
$$
网络结构可以表示为:
$$
\mathrm{ReLU} \circ H_{L} \circ \cdots \circ H_{1}, H_1 = A_1 = (x, l_1(x))
$$
然后证明
下界部分的证明中,作者先给出宽度为