首頁  技術文章  梯度消失問題

梯度消失問題

發布時間:2025-03-05 11:50:56 瀏覽量:24 作者:Paul

正文


梯度消失問題


假設輸入層784個(ge) ,輸出參數10個(ge) ,每一個(ge) 隱藏層包含30個(ge) 元素。


1. 當隱藏層為(wei) 一層,正確率為(wei) 96.48%

2. 當隱藏層為(wei) 二層,正確率為(wei) 96.90%

3. 當隱藏層為(wei) 三層,正確率為(wei) 96.57%

4. 當隱藏倉(cang) 為(wei) 四層,正確率為(wei) 96.53%


增加隱藏層,並沒有提高正確率,反而有時會(hui) 減小。


做一個(ge) 簡單的假設,輸入層隻有一個(ge) 參數,包含四個(ge) 隱藏層,輸出也隻有一個(ge) 。



x表示輸入參量,表示權重(是一個(ge) 向量),b1表示偏置,。每個(ge) 隱藏層輸出為(wei) ,即每個(ge) 隱藏層的輸出結果,使用a描述,通常用z小二乘的方式描述評價(jia) 函數C,梯度下降的方法不斷修改其中的參數和參數b,令評價(jia) 函數C趨向於(yu) Min,此時神經網絡描述的函數既是想輸入函數擬合的過程。


如果此時去求解評價(jia) 函數C對於(yu) 偏置b1的導數,用到導數的鏈式法則。



一般的導數如圖所示


如上圖所示,通常的導數,Max值為(wei) 0.25。

如果乘以後模值小於(yu) 1,那麽(me) 原靠近輸入的層的梯度越小,這就是導致梯度消失的原因

當然也有可能是乘以[MISSING IMAGE: ,  ]後大於(yu) 1的情況存在,那麽(me) 越靠近輸入層的梯度越來越大,這就是導致梯度爆炸的原因。

當隱藏層數量過多的時候,可能會(hui) 導致梯度消失或者梯度爆炸,zui終令神經網絡變得不穩定。

多一個神經元或者多一層隱藏成,都可能會改變極值的位置

假設需要輸入函數,在區間之間輸入和輸出如圖所示



此時假設設計一個(ge) 神經網絡,

輸入神經元為(wei) 1個(ge) ,輸入數據為(wei) 其橫坐標;

輸出神經元為(wei) 1個(ge) ,輸出數據來自於(yu) 縱坐標;

學習(xi) 率;正則化表達式

隱藏層有2個(ge) ,每層為(wei) 2個(ge) 神經元

大致結果如下圖所示



通過梯度下降的方法,計算每一層的權重和偏置



不同初始值會(hui) 收斂在不同的極值,雖然已經將初始值的位置靠近與(yu) 真實情況,雖然收斂但是仍舊收斂在附近的位置。



上述紅點表示原始數據,藍色是擬合參數後的結果,因為(wei) 擬合穩定後隻是收斂在附近的位置,所以無法正確的計算正確的結果。

不同迭代次數下,不同隱藏層輸出的穩定性

每一層輸出的穩定性定義(yi) :將每一層迭代前的結果,和迭代後的結果相減,取2範數作為(wei) 穩定性的z終評價(jia) 。以迭代次數作為(wei) 橫坐標,每一層的穩定性指標作為(wei) 縱坐標,每一層形成一根曲線。仍舊是以上述的結構作為(wei) 基礎,觀察第1層隱藏層、第2層隱藏層,輸出層的結果。取特定位置x=-0.7,隱藏層1和隱藏層2,以及輸出層的結果如下圖所示


他們(men) 的差分結果可以表示其梯度變換



這個(ge) 恰好對應於(yu) 當初的公式,不同的輸出層的學習(xi) 率是不同的,而且大致保持這一定的關(guan) 係。正是這種關(guan) 係,有可能導致梯度消失或者梯度爆炸的緣故。


更多詳情請聯係昊量光電/歡迎直接聯係昊量光電

關(guan) 於(yu) 昊量光電:

上海昊量光電設備有限国产黄色在线观看是光電国产欧美在线專(zhuan) 業(ye) 代理商,国产欧美在线包括各類激光器、光電調製器、光學測量設備、光學元件等,涉及国产成人在线观看免费网站涵蓋了材料加工、光通訊、生物醫療、科學研究、國防、量子光學、生物顯微、物聯傳(chuan) 感、激光製造等;可為(wei) 客戶提供完整的設備安裝,培訓,硬件開發,軟件開發,係統集成等服務。

您可以通過我們(men) 昊量光電的官方網站www.weilancj.com了解更多的国产欧美在线信息,或直接來電谘詢4006-888-532。