Articles

Fonctions d’activation dans les réseaux de neurones: Aperçu

Les réseaux de neurones ont une architecture similaire à celle du cerveau humain constitué de neurones. Ici, les entrées de produit (X1, X2) et les poids (W1, W2) sont additionnés avec le biais (b) et finalement actionnés par une fonction d’activation (f) pour donner la sortie (y).

La fonction d’activation est le facteur le plus important dans un réseau de neurones qui décide si un neurone sera activé ou non et transféré à la couche suivante. Cela signifie simplement qu’il décidera si l’entrée du neurone dans le réseau est pertinente ou non dans le processus de prédiction. Pour cette raison, on parle également de seuil ou de transformation pour les neurones qui peuvent faire converger le réseau.

Les fonctions d’activation aident à normaliser la sortie entre 0 et 1 ou -1 à 1. Il aide dans le processus de rétropropagation en raison de leur propriété différentiable. Pendant la rétropropagation, la fonction de perte est mise à jour et la fonction d’activation aide les courbes de descente de gradient à atteindre leurs minima locaux.

Dans cet article, je vais discuter des différents types de fonctions d’activation présentes dans un réseau neuronal.

Linear

Linear est la fonction d’activation la plus basique, ce qui implique proportionnelle à l’entrée. Équation Y = az, qui est similaire à l’équation d’une droite. Donne une gamme d’activations de -inf à +inf. Ce type de fonction est le mieux adapté pour les problèmes de régression simples, peut-être la prévision des prix du logement.

Démérites – La dérivée de la fonction linéaire est la constante (a) donc il n’y a pas de relation avec l’entrée. Ce ne devrait donc pas être un choix idéal car il ne serait pas utile dans la rétropropagation pour rectifier les fonctions de gradient et de perte.

ReLU

L’unité linéaire rectifiée est la fonction d’activation la plus utilisée dans les couches cachées d’un modèle d’apprentissage profond. La formule est assez simple, si l’entrée est une valeur positive, alors cette valeur est renvoyée sinon 0. Ainsi la dérivée est aussi simple, 1 pour les valeurs positives et 0 sinon (puisque la fonction sera alors 0 et traitée comme constante donc la dérivée sera 0). Ainsi, il résout le problème du gradient de disparition. La plage est de 0 à l’infini.

Démérites – Un problème de ReLU mourant ou une activation morte se produit lorsque la dérivée est 0 et que les poids ne sont pas mis à jour. Ne peut être utilisé nulle part ailleurs que les calques cachés.

ELU

L’unité linéaire exponentielle surmonte le problème de la mort de ReLU. Assez similaire à ReLU à l’exception des valeurs négatives. Cette fonction renvoie la même valeur si la valeur est positive sinon, il en résulte alpha(exp(x)-1), où alpha est une constante positive. La dérivée est 1 pour les valeurs positives et le produit de alpha et exp(x) pour les valeurs négatives. La plage est de 0 à l’infini. Il est centré sur zéro.

Demerits–ELU a la propriété de devenir lisse lentement et peut donc faire exploser considérablement la fonction d’activation. Il est plus coûteux en calcul que ReLU, en raison de la fonction exponentielle présente.

LeakyReLU

LeakyReLU est une légère variation de ReLU. Pour les valeurs positives, il est identique à ReLU, renvoie la même entrée, et pour les autres valeurs, une constante 0,01 avec entrée est fournie. Ceci est fait pour résoudre le problème de ReLu mourant. La dérivée est 1 pour positif et 0,01 sinon.

Démérite – En raison de la linéarité, il ne peut pas être utilisé dans des problèmes complexes tels que la classification.

PReLU

L’unité linéaire rectifiée paramétrée est à nouveau une variation de ReLU et LeakyReLU avec des valeurs négatives calculées en entrée alpha*. Contrairement à Relu qui fuit où l’alpha est de 0,01 ici dans PReLU, la valeur alpha sera apprise par rétropropagation en plaçant différentes valeurs et fournira ainsi la meilleure courbe d’apprentissage.

Démérites – C’est aussi une fonction linéaire donc pas appropriée pour toutes sortes de problèmes

Sigmoïde

Sigmoïde est une fonction d’activation non linéaire. Également connu sous le nom de fonction logistique. C’est continu et monotone. La sortie est normalisée dans la plage 0 à 1. Il est différentiable et donne une courbe de gradient lisse. Le sigmoïde est principalement utilisé avant la couche de sortie dans la classification binaire.

Démérite – Problème de gradient de disparition et non centré sur zéro, ce qui rend l’optimisation plus difficile. Rend souvent l’apprentissage plus lent.

Tanh

La valeur de la fonction d’activation tangente hyperbolique varie de -1 à 1, et les valeurs dérivées se situent entre 0 et 1. Il est centré sur zéro. Fonctionne mieux que sigmoïde. Ils sont utilisés en classification binaire pour les couches cachées.

Problème de gradient de disparition des démérites

Softmax

La fonction d’activation Softmax renvoie les probabilités des entrées en sortie. Les probabilités seront utilisées pour trouver la classe cible. La sortie finale sera celle avec la probabilité la plus élevée. La somme de toutes ces probabilités doit être égale à 1. Ceci est principalement utilisé dans les problèmes de classification, de préférence dans la classification multiclasse.

Démérites – Softmax ne fonctionnera pas pour des données linéairement séparables

Swish

Swish est une sorte de fonction ReLU. C’est une fonction auto-râpée unique, elle ne nécessite que l’entrée et aucun autre paramètre. Formule y = x * sigmoïde (x). Principalement utilisé dans les LSTMs. Zéro centré et résout le problème d’activation morte. A une douceur qui aide à la généralisation et à l’optimisation.

Démérite – Puissance de calcul élevée et uniquement utilisée lorsque le réseau de neurones comporte plus de 40 couches.

Softplus

Trouver la dérivée de 0 n’est pas mathématiquement possible. La plupart des fonctions d’activation ont échoué à un moment donné en raison de ce problème. Il est surmonté par la fonction d’activation softplus. Formule y = ln(1 + exp(x)). Il est similaire à ReLU. Plus lisse dans la nature. Varie de 0 à l’infini.

Démérites – En raison de sa douceur et de sa nature non liée, softplus peut faire exploser les activations dans une bien plus grande mesure.

Qu’En Pensez-Vous ?

Abonnez-vous à notre Newsletter

Recevez les dernières mises à jour et offres pertinentes en partageant votre email.

Rejoignez Notre Groupe Telegram. Faites partie d’une communauté en ligne engageante. Rejoignez-Nous Ici.