Articles

Aktivační Funkce v Neuronové Sítě: Přehled

Neuronové sítě mají podobnou architekturu jako lidský mozek se skládá z neuronů. Zde produktu vstupů(X1, X2) a váhy(W1, W2) jsou sečteny s bias(b) a konečně jednal podle aktivační funkce(f) výstup(y).

aktivace funkce je nejdůležitějším faktorem v neuronové síti, která se rozhodla též neuron, bude aktivován, nebo ne, a přenáší na další vrstvy. To jednoduše znamená, že rozhodne, zda je vstup neuronu do sítě relevantní nebo ne v procesu predikce. Z tohoto důvodu se také označuje jako prahová hodnota nebo transformace neuronů, které mohou konvergovat síť.

aktivační funkce pomáhají normalizovat výstup mezi 0 až 1 nebo -1 až 1. Pomáhá v procesu backpropagace kvůli jejich diferencovatelným vlastnostem. Během backpropagace se funkce ztráty aktualizuje a aktivační funkce pomáhá křivkám sestupu gradientu dosáhnout jejich lokálních minim.

v tomto článku budu diskutovat o různých typech aktivačních funkcí přítomných v neuronové síti.

Lineární

Lineární je nejzákladnější aktivační funkce, která znamená úměrnou vstupu. Rovnice Y = az, která je podobná rovnici přímky. Poskytuje řadu aktivací od-inf do + inf. Tento typ funkce je nejvhodnější pro jednoduché regresní problémy, možná předpověď ceny bydlení.

Nevýhody – derivace lineární funkce je konstantní(a), tak tam není žádný vztah s vstup. Proto by neměla být ideální volbou, protože by to nebylo užitečné při backpropagaci pro nápravu gradientních a ztrátových funkcí.

rel

Rektifikovaná Lineární jednotka je nejpoužívanější aktivační funkcí ve skrytých vrstvách modelu hlubokého učení. Vzorec je velmi jednoduchý, pokud je vstup kladnou hodnotou, pak je tato hodnota vrácena jinak 0. Derivace je tedy také jednoduchá, 1 pro kladné hodnoty a 0 jinak(protože funkce bude 0 a bude považována za konstantní, takže derivace bude 0). Řeší tak problém mizejícího gradientu. Rozsah je 0 až nekonečno.

Nevýhody – Umírající ReLU problém, nebo mrtvý aktivaci dochází, když je derivace 0 a závaží nejsou aktualizovány. Nelze použít nikde jinde než skryté vrstvy.

ELU

exponenciální Lineární jednotka překonává problém umírajícího ReLU. Docela podobné ReLU s výjimkou záporných hodnot. Tato funkce vrací stejnou hodnotu, pokud je hodnota kladná, jinak má za následek alfa (exp (x – – 1), Kde alfa je kladná konstanta. Derivát je 1 pro kladné hodnoty a produkt alfa a exp (x) pro záporné hodnoty. Rozsah je 0 až nekonečno. Je to nula centric.

Nevýhody – ELU má tu vlastnost, že se stanou hladké pomalu, a tak se může vyhodit aktivace funkce výrazně. Je výpočetní nákladnější než ReLU, kvůli exponenciální funkci přítomné.

LeakyReLU

LeakyReLU je malá variace ReLU. Pro kladné hodnoty je to stejné jako ReLU, vrací stejný vstup a pro ostatní hodnoty je k dispozici konstanta 0,01 se vstupem. To se provádí za účelem vyřešení problému umírajícího ReLu. Derivace je 1 pro kladné a 0,01 jinak.

Demerit-vzhledem k linearitě jej nelze použít ve složitých problémech, jako je klasifikace.

PReLU

Parametrizované Opraveny Lineární Jednotka je opět variace ReLU a LeakyReLU s negativní hodnoty vypočtené jako alfa*vstupní. Na rozdíl od Děravé ReLU, kde alfa je 0.01 tady v PReLU alfa hodnota se naučil prostřednictvím backpropagation umístěním různých hodnot, a tak bude poskytovat nejlepší učení.

Nevýhody – To je také lineární funkce, takže není vhodné pro všechny druhy problémů,

Esovité

Sigmoidea je non-lineární aktivační funkce. Také známý jako logistická funkce. Je kontinuální a monotónní. Výstup je normalizován v rozmezí 0 až 1. Je diferencovatelný a poskytuje hladkou gradientní křivku. Sigmoid se většinou používá před výstupní vrstvou v binární klasifikaci.

Nevýhody – Vanishing gradient problem a ne žádné centric, což je optimalizace stále těžší. Často je učení pomalejší.

Tanh

hodnota funkce Hyperbolické tangenty se pohybuje v rozmezí od -1 do 1 a derivační hodnoty leží mezi 0 až 1. Je to nula centric. Funguje lépe než sigmoid. Používají se v binární klasifikaci pro skryté vrstvy.

Nevýhody – Vanishing gradient problém

Softmax

Softmax aktivační funkce vrací pravděpodobnost vstupy, jako výstup. Pravděpodobnosti budou použity ke zjištění cílové třídy. Konečný výstup bude ten s nejvyšší pravděpodobností. Součet všech těchto pravděpodobností se musí rovnat 1. To se většinou používá v klasifikačních problémech, nejlépe v klasifikaci více tříd.

Nevýhody – Softmax nebude fungovat pro lineárně separabilní data,

Svištění

Swish je druh funkce ReLU. Jedná se o Samostatně nastrouhanou funkci, vyžaduje pouze vstup a žádný jiný parametr. Vzorec y = x * sigmoid (x). Většinou se používá v Lstm. Zero centric a řeší problém mrtvé aktivace. Má hladkost, která pomáhá při zobecňování a optimalizaci.

Nevýhody – Vysoký výpočetní výkon a používá pouze tehdy, když se neuronová síť má více než 40 vrstev.

Softplus

nalezení derivace 0 není matematicky možné. Většina aktivačních funkcí v určitém okamžiku selhala kvůli tomuto problému. Je překonána aktivační funkcí softplus. Vzorec y = ln (1 + exp (x)). Je to podobné jako u ReLU. Hladší V přírodě. Pohybuje se od 0 do nekonečna.

Nevýhody – Vzhledem k jeho hladkost a unboundedness přírody softplus můžete vyhodit do povětří aktivací v mnohem větší míře.

co si myslíte?

přihlaste se k odběru našeho zpravodaje

Získejte nejnovější aktualizace a relevantní nabídky sdílením svého e-mailu.

Připojte se k naší telegramové skupině. Staňte se součástí poutavé online komunity. Připojte Se Zde.