Articles

ニューラルネットワークにおける活性化機能:概要

ニューラルネットワークは、ニューロンからなる人間の脳と同様のアーキテクチャ ここで、積入力(X1、X2)と重み(W1、W2)はバイアス(b)で合計され、最終的に活性化関数(f)によって作用されて出力(y)が得られます。

活性化機能は、ニューロンが活性化されるかどうかを決定し、次の層に転送されるニューラルネットワーク これは単に、ネットワークへのニューロンの入力が予測の過程で関連しているかどうかを決定することを意味します。 このため、ネットワークを収束させることができるニューロンに対する閾値または変換とも呼ばれる。

活性化関数は、出力を0から1または-1から1の間で正規化するのに役立ちます。 それは、それらの微分可能な特性のために逆伝播の過程で役立つ。 逆伝播中に,損失関数が更新され,活性化関数は勾配降下曲線が局所最小値を達成するのを助ける。

この記事では、ニューラルネットワークに存在するさまざまなタイプの活性化関数について説明します。

Linear

Linearは最も基本的な活性化関数であり、入力に比例することを意味します。 方程式Y=azは、直線の方程式に似ています。 -Infから+infまでのアクティブ化の範囲を指定します。 このタイプの関数は、単純な回帰問題、おそらく住宅価格予測に最も適しています。

デメリット–線形関数の導関数は定数(a)なので、入力との関係はありません。 したがって、勾配関数と損失関数を整流するための逆伝播には役に立たないので、理想的な選択ではありません。

ReLU

整流線形単位は、深い学習モデルの隠れ層で最も使用される活性化関数です。 式は非常に単純で、入力が正の値の場合はその値が返され、そうでない場合は0が返されます。 したがって、導関数も単純であり、正の値の場合は1、それ以外の場合は0です(関数は0になり、定数として扱われるため、導関数は0になります)。 したがって、消失勾配問題を解決します。 指定できる範囲は0~無限大です。Div>

デメリット–デリバティブが0であり、重みが更新されていない場合に死ぬReLUの問題 非表示レイヤー以外の場所では使用できません。

ELU

指数線形単位は、死ぬReLUの問題を克服します。 負の値を除いてReLUと非常によく似ています。 この関数は、値が正の場合は同じ値を返し、それ以外の場合はalpha(exp(x)–1)になります。alphaは正の定数です。 導関数は正の値の場合は1で、負の値の場合はアルファとexp(x)の積です。 指定できる範囲は0~無限大です。 それはゼロ中心です。

デメリット–ELUはゆっくりと滑らかになる性質を持っているため、活性化機能を大幅に爆破するこ これは、指数関数が存在するため、ReLUよりも計算コストがかかります。

LeakyReLU

LeakyReLUはReLUのわずかなバリエーションです。 正の値の場合、それはReLUと同じであり、同じ入力を返し、他の値の場合、入力付きの定数0.01が提供されます。 これは、死にかけているReLu問題を解決するために行われます。 導関数は正の場合は1、それ以外の場合は0.01です。

デメリット–直線性のため、分類などの複雑な問題では使用できません。

PReLU

パラメータ化された整流線形単位は、再びReLUとLeakyReLUの変化であり、負の値はalpha*入力として計算されます。 ここではPReLUでアルファが0.01である漏れやすいReLUとは異なり、アルファ値は異なる値を配置することによって逆伝播によって学習され、したがって最

デメリット–これは線形関数でもあるため、すべての種類の問題には適していません

Sigmoid

Sigmoidは非線形活性化関数です。 ロジスティック関数とも呼ばれます。 それは連続的で単調です。 出力は0~1の範囲で正規化されます。 それは微分可能であり、滑らかな勾配曲線を与える。 シグモイドは、主にバイナリ分類の出力層の前に使用されます。

デメリット–消失勾配問題であり、ゼロ中心ではないため、最適化が困難になります。 多くの場合、学習が遅くなります。

Tanh

双曲線正接活性化関数の値の範囲は-1から1であり、導関数の値は0から1の間にあります。 それはゼロ中心です。 Sigmoidよりも優れた性能を発揮します。 これらは、隠れ層のバイナリ分類で使用されます。

デメリット–消失勾配問題

Softmax

Softmax活性化関数は、入力の確率を出力として返します。 確率は、ターゲットクラスを見つけるために使用されます。 最終的な出力は、最も高い確率を持つものになります。 これらのすべての確率の合計は1に等しくなければなりません。 これは主に分類問題で使用され、好ましくはマルチクラス分類で使用されます。 div>

デメリット–softmaxは線形分離可能なデータでは機能しません

swish

swishはrelu関数の一種です。 入力と他のパラメータを必要としない自己処理関数です。 式y=x*sigmoid(x)。 主にLSTMsで使用されます。 ゼロセントリックと死んだ活性化の問題を解決します。 一般化と最適化に役立つ滑らかさを持っています。

デメリット–高い計算能力とニューラルネットワークが40以上の層を持っている場合にのみ使用されます。

Softplus

0の導関数を見つけることは数学的には不可能です。

0の導関数を見つけることは数学的には不可能です。

ほとんどの活性化機能は、この問題のためにいくつかの時点で失敗しました。 それはsoftplusの活発化機能によって克服されます。 式y=ln(1+exp(x))。 これはReLUに似ています。 自然の中で滑らか。 範囲は0から無限大です。

デメリット–その滑らかさと無限の性質のためにsoftplusははるかに大きな程度に活性化を爆破するp>

あなたはどう思いますか?

私たちのニュースレターを購読

あなたの電子メールを共有することにより、最新のアップデートや関連するオファーを取得します。

私たちの電報グループに参加します。 魅力的なオンラインコミュニティの一部になります。 ここに参加します。