Articles

Aktiveringsfunktioner i neurala nätverk: En översikt

neurala nätverk har en liknande arkitektur som den mänskliga hjärnan som består av neuroner. Här summeras produktingångarna(X1, X2) och vikterna(W1, W2) med bias(b) och slutligen påverkas av en aktiveringsfunktion(f) för att ge utgången(y).

aktiveringsfunktionen är den viktigaste faktorn i ett neuralt nätverk som bestämde huruvida en neuron ska aktiveras eller inte och överföras till nästa lager. Detta betyder helt enkelt att det kommer att avgöra om neuronens ingång till nätverket är relevant eller inte i förutsägelseprocessen. Av denna anledning kallas det också tröskel eller transformation för neuronerna som kan konvergera nätverket.

Aktiveringsfunktioner hjälper till att normalisera utmatningen mellan 0 till 1 eller -1 till 1. Det hjälper i processen för backpropagation på grund av deras differentierbara egendom. Under backpropagation uppdateras förlustfunktionen och aktiveringsfunktionen hjälper gradient nedstigningskurvorna att uppnå sina lokala minima.

i den här artikeln kommer jag att diskutera de olika typerna av aktiveringsfunktioner som finns i ett neuralt nätverk.

linjär

linjär är den mest grundläggande aktiveringsfunktionen, vilket innebär proportionell mot ingången. Ekvation Y = az, som liknar ekvationen för en rak linje. Ger en rad aktiveringar från-inf till + inf. Denna typ av funktion är bäst lämpad för enkla regressionsproblem, kanske bostadsprisprognos.

demeriter – derivatet av den linjära funktionen är konstanten(A), så det finns inget samband med ingången. Således borde det inte vara ett idealiskt val eftersom det inte skulle vara till hjälp vid backpropagation för att korrigera gradient-och förlustfunktionerna.

Relu

rektifierad linjär enhet är den mest använda aktiveringsfunktionen i dolda lager av en djup inlärningsmodell. Formeln är ganska enkel, om ingången är ett positivt värde, returneras det värdet annars 0. Således är derivatet också enkelt, 1 för positiva värden och 0 annars(eftersom funktionen kommer att vara 0 då och behandlas som konstant så derivat kommer att vara 0). Således löser det försvinnande gradientproblemet. Intervallet är 0 till oändlighet.

demeriter – döende Relu-problem eller död aktivering uppstår när derivatet är 0 och vikter uppdateras inte. Kan inte användas någon annanstans än dolda lager.

ELU

exponentiell linjär enhet övervinner problemet med att dö ReLU. Ganska lik ReLU förutom de negativa värdena. Denna funktion returnerar samma värde om värdet är positivt annars resulterar det i alfa(exp (x) – 1), där alfa är en positiv konstant. Derivatet är 1 för positiva värden och produkt av alfa och exp(x) för negativa värden. Intervallet är 0 till oändlighet. Det är noll centrerad.

Demerits – ELU har egenskapen att bli smidig långsamt och kan därmed spränga aktiveringsfunktionen kraftigt. Det är beräknings dyrt än ReLU, på grund av den exponentiella funktionen närvarande.

LeakyReLU

LeakyReLU är en liten variation av ReLU. För positiva värden är det samma som ReLU, returnerar samma ingång, och för andra värden tillhandahålls en konstant 0,01 med ingång. Detta görs för att lösa det döende Relu-problemet. Derivatet är 1 för positivt och 0,01 annars.

Demerit – på grund av linjäritet kan den inte användas i komplexa problem som klassificering.

PReLU

parametriserad rektifierad linjär enhet är återigen en variation av ReLU och LeakyReLU med negativa värden beräknade som alfa* – ingång. Till skillnad från läckande ReLU där alfa är 0,01 här i PReLU alfavärde kommer att läras genom backpropagation genom att placera olika värden och kommer därmed att ge den bästa inlärningskurvan.

Demerits – Detta är också en linjär funktion så inte lämplig för alla typer av problem

Sigmoid

Sigmoid är en icke-linjär aktiveringsfunktion. Även känd som logistisk funktion. Det är kontinuerligt och monotont. Utgången normaliseras i intervallet 0 till 1. Det är differentierbart och ger en jämn gradientkurva. Sigmoid används mest före utgångsskiktet i binär klassificering.

Demerits – Vanishing gradient problem och inte noll centrerad, vilket gör optimering blir svårare. Ofta gör lärandet långsammare.

Tanh

hyperbolisk tangentaktiveringsfunktion varierar från -1 till 1 och derivatvärden ligger mellan 0 och 1. Det är noll centrerad. Presterar bättre än sigmoid. De används i binär klassificering för dolda lager.

Demerits – Vanishing gradient problem

Softmax

Softmax aktiveringsfunktion returnerar sannolikheter för ingångarna som utgång. Sannolikheterna kommer att användas för att ta reda på målklassen. Slutlig utgång kommer att vara den med högsta sannolikhet. Summan av alla dessa sannolikheter måste vara lika med 1. Detta används mest i klassificeringsproblem, helst i flerklassklassificering.

demerits – softmax fungerar inte för linjärt separerbara data

Swish

Swish är en typ av Relu-funktion. Det är en själv riven funktion enda det bara kräver ingången och ingen annan parameter. Formel y = x * sigmoid (x). Används mest i LSTMs. Noll centrerad och löser det döda aktiveringsproblemet. Har jämnhet som hjälper till med generalisering och optimering.

demeriter – hög beräkningskraft och används endast när det neurala nätverket har mer än 40 lager.

Softplus

att hitta derivatet av 0 är inte matematiskt möjligt. De flesta aktiveringsfunktioner har misslyckats någon gång på grund av detta problem. Det övervinns av softplus aktiveringsfunktion. Formel y = ln(1 + exp (x)). Det liknar ReLU. Mjukare i naturen. Varierar från 0 till oändlighet.

Demerits – på grund av dess jämnhet och obundet natur softplus kan spränga aktiveringar i mycket större utsträckning.

Vad tycker du?

prenumerera på vårt nyhetsbrev

få de senaste uppdateringarna och relevanta erbjudanden genom att dela din e-post.

gå med i vår telegramgrupp. Bli en del av en engagerande community. Gå Med Här.