Deep Learningの手法
◎【学習途中】勾配消失問題の解消・・・活性化関数
1.tanh関数
2.ReLu関数
-Leaky ReLU・・・x<0でわずかな傾き
-Parametric ReLU・・・x<0の傾きを学習で最適化
-Randomized ReLU・・・x<0の傾きをランダムの試す
◎【学習途中】鞍点問題の解消・・・学習率の最適化
1.勾配降下法
2.勾配降下法の問題点と改善
-[問題点1]「見せかけの最適解」であるかどうかを見抜くことが出来ない
-[改善]学習率の値の大きさを動的に変化させる
-[問題点2]3次元以上の鞍点(プラトー)
-[改善]モーメンタム、Adagrad、Adadelta、RMSprop、Adam
*注)鞍点とは・・・ある次元では極小、別の次元では極大
◎【学習途中】オーバーフィッティングの解消
・ドロップアウト・・・ランダムにノード(ニューロン出力=0)を削除
・ドロップコネクト・・・ランダムにエッジ(重み=0)を削除
-乱数の与え方難しい
・early stooping・・・オーバーフィッティング直前に学習打ち切り
・汎化性能:ドロップコネクト > ドロップアウト
◎【学習初期】データの処理
・入力データへのアプローチ:白色化>標準化>正規化
-正規化:特徴量を0~1の範囲に変換
一番原点に近い点を原点に移に
-標準化:特徴量を標準正規分布に変換
-白色化:
【欠点1】入力データが正規化されても、層の伝搬につれ分布が徐々に崩れる。
【欠点2】データに偏りが発生すると勾配消失問題が発生
・重みの初期値へのアプローチ:重みの初期値を工夫
-シグモイド関数:Xavierの初期値
-ReLu関数:Heの初期値
・中間層のデータへのアプローチ:バッチ正規化(batch normalization)
-20層以上はバッチ正規化を使わないと収束しない
◎その他
・勾配消失問題とは
- バックプロパゲーションにおいて誤差は逆向きに伝搬
- 数式上は活性化関数の微分項を含む
- ニューラルネットワークの活性化関数のシグモイド関数の微分項は最大値0.25
- 隠れ層を遡るごとに微分項が掛け合わされ伝搬する誤差は小さくなる
参考文献