NMT 模型通常會有上千萬個 parameters
,而能使用的 GPU 數量卻有限制,所以只好從模型大小下手了
較小的模型不但能降低 computational complexity
,而且能透過增加 batch size
來更好的運用 GPU parallelism
另外模型的檔案需要非常大的硬碟空間來存取,例如一個有效的方式是 neural architecture search
- 利用 systematic neural architecture search 來找到
computationally efficient Transformer hyper-parameters
- 將運算中的 32-bit 浮點數調整為 8 或 16 bits
- 使用
vector quantization
- 什麼是 neural architecture search ?
很多將模型修剪縮小的方法在 30 年前就有了,也被證實過網路中的權重有大多數是多餘的:
其中一個研究是 remove umimportant network connections
,這些 connections 可以用以下方法選擇:
- second-derivative of the training error with respect to the weight
- threshold criterion on its magnitude
其他改良 model size 的方法還有:
- 移除重複性較大且權重較小的
- 在訓練時合併相似度較大的
- 利用
low rank matrics
來近似Predicting parameters in deep learning
最後一個方法是 knowledge distillation
,利用一個較大的網路 (teacher) 來產生 soft training labels
給予另一個較小的網路 (student),而 student network
是通過最小化 teacher 的 cross-entropy
這個方法已經被使用在多種 sequence modelling task
什麼是 knowledge distillation ?