7.4: Funciones de Pérdida

Last updated
Save as PDF

Page ID: 92940

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

Consideramos que estamos trabajando con aprendizaje supervisado, en el que se dispone de datos de referencia de entrada y salida, y nuestro objetivo es entrenar una red para que aprenda a realizar el mapeo entre ambos conjuntos. Las funciones de pérdida, funciones de coste, o funciones de eror, determinan cómo cuantificamos las diferencias entre las salidas de la red neuronal (estimaciones de los valores) que denominaremos (p), y las medidas de referencia (y). El entrenamiento de la red consistirá en la minimización de esta función, que denominaremos \(L[\phi]\).

Existen muchas posibles formas de definir esta función de pérdida, pero es importante seleccionar la más apropiada para cada problema, en función del tipo de datos, el problema que estemos afrontando (clasificación, regresión...) así como el tipo de error estadístico que puedan tener nuestras medidas. Una adecuada selección de la función de pérdida es fundamental para obtener una correcta solución.

Un listado completo de las funciones de pérdida se puede consultar en referencias como "Loss Functions". Algunas de las funciones de pérdida más comunes son:

1) Mean Squared Error: Es la forma más tradicional de calcular la desviación. Se calcula como:

\(MSE=\sum_{i}|\textbf{y}_{i}-\textbf{p}_{i}|^2\)

2) Mean Average Error: Es parecida al MSE, pero tiene la ventaja de que las desviaciones más grandes entre el valor que arroja la red neuronal y el valor esperado contribuyen menos, al no estar elevado al cuadrado.

\(MAE=\sum_{i}|\textbf{y}_{i}-\textbf{p}_{i}|\)

3) Binary Cross Entropy (BCE): Entropía binaria cruzada, especialmente útil en redes que se usan para clasificación binaria (en casos de clasificación multiclase, se denomina entropía cruzada multiclase). Recordemos que para este tipo de problemas se usaba la función sigmoide como función de activación, generalmente.

\( BCE=\sum_{i}-(1-y_{i})log[1-sig(f(x_{i},\phi))]-y_{i}log[sig(f(x_{i},\phi))]\)