Funciones de Perdida en Redes Neuronales

La función de pérdida, también denominada función objetivo, nos dice, durante el proceso de entrenamiento de la red, lo lejos que está en un momento dado, lo que la red nos ofrece como salida y el resultado que nosotros consideramos que es el correcto o deseado.

Una red neuronal se entrena con el algoritmo de optimización, por ejemplo, el stochastic gradient descent o descenso de gradiente estocástico. Una parte de este algoritmo consiste en estimar continuamente el estado del error del modelo y para esto, se necesita la loss function.

Esta loss function además deestudiar la pérdida del modelo, ayudar a actualizar el valor de los pesos que reduzcan el valor de pérdida de esta función hasta la siguiente evaluación.

Es importante tanto escoger la loss function adecuada como también configurar correctamente el output layer. Durante el paso de entrenamiento de la red neuronal, esta aprende a predecir un input a un output perteneciente al dataset de entrenamiento que suele estar etiquetado.

En el momento del backpropagation es cuándo se ajustan los parámetros del modelo, con el objetivo de ir reduciendo la cost function o también loss function, que, por definición, es el error de predicción

Los resultados  son losses o pérdidas, siempre el objetivo es reducir esos valores. La definición de esta función es uno de los pilares para que una red neuronal o estructura de DL tenga un buen rendimiento, ya que es un punto clave para la correcta representación matemática de este modelo.

  • Hay infinitas funciones de pérdida y es uno de los campos de investigación más activos actualmente dentro del sector del DL.

 

  • Cada caso de estudio va a tener su propia función de pérdida óptima y es subjetiva a múltiples variantes como, por ejemplo, al dataset, a la arquitectura entre otros.

 

La loss function también va a depender mucho de qué objetivo se tenga con la red neuronales regresión o clasificación, esto va a marcar una diferencia a la hora de decidir con qué función se va a quedar.

Para las funciones de regresión se tienen las siguientes formulas:

1.- La función mean squared error, MSE loss, es la primera función que se debe tener en cuenta en un problema de regresión. Se calcula con la media del cuadrado de las diferencias entre el valor predicted y el esperado. Se observa en la ecuación MSE, el hecho de elevar al cuadrado hace que la diferencia sea imposible, que el valor resultante sea negativo y el valor óptimo es el cero, cuando la distancia entre la predicción y el valor esperado es nula. El hecho de elevarlo al cuadrado, también, hace que las malas predicciones se castiguen más cuándo más grandes resulten, es decir, se castiga más al modelo por hacer errores mayores.

2.- La siguiente función es la mean squared logarithmic error loss, MSLE,  la diferencia entre esta función y la anterior es que, en este caso, se aplica un logaritmo, tanto a la predicción como al valor esperado. Se puede ver en la siguiente ecuación MSLE, el uso del logaritmo hace que el efecto de castigo que tenía la función MSE para las predicciones muy distantes del valor sabido, sea menor y se relaje.

3.- La función de mean absolute error, MAE loss, otra variación de la MSE, esta función sabe operar con outliers, i.e. muestras lejos del valor medio. En la ecuación MAE se puede ver que se calcula como la media de los valores absolutos entre la diferencia del valor predicted y el valor esperado.

En modelos de clasificación, se verán funciones focalizadas

La Loss function, Basado en la teoría de la información. Dada una variable discreta X, se define la entropía H(x), o entropía de Shannon, cómo el logaritmo de la inversa de la probabilidad.

La entropía mide la incertidumbre relacionada con los posibles resultados de un proceso aleatorio o random. Cuanto mayor sea la entropía, mayor es la sorpresa para el observador.

Suponiendo que se tiene dos distribuciónes de probabilidad, P y Q, definidas sobre misma variable random X. Se tiene la siguiente definición para la cross entropy binaria: Si no se encuentra en una situación de multiclase, la ecuación que se deberá usar para la cross entropy se puede ver en la siguiente ecuación.

La función cross entropy es la primera función que se debe testear para problemas de clasificación. A partir de la función de cross entropy han salido otras funciones de pérdida para tratar, con datasets no balanceados, donde la frecuencia de una clase es mucho mayor que las otras.

Otra variación de la función binary cross entropy es la focal los, FL. Esta función trabaja muy bien cuando el desequilibrio del dataset de entrenamiento es muy alto, ya que le da un peso a la contribución de muestras bien predecidas y permite que se aprendan bien las muestras que son positivas, pero no detectadas. Su representación matemática se puede ver en la siguiente ecuación.

 

 

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *