Método del Gradiente.
La mayoría de los algoritmos de aprendizaje profundo implican la optimización de algún tipo. La optimización se refiere a la tarea de minimizar o maximizar alguna función f (x) alterando x. Usualmente formulamos la mayoría de los problemas de optimización en términos de minimizar f (x). La maximización se puede lograr mediante un algoritmo de minimización minimizando -f (x). La derivada es útil para minimizar una función porque nos dice cómo cambiar x para hacer una pequeña mejora en y. Por ejemplo, nosotros sabemos que f (x - ε sign(f ‘ (x))) es menor que f (x) para un ε suficientemente pequeño. Podemos por lo tanto reducir f (x) moviendo x en pequeños pasos con el signo opuesto de la derivada. Esta es la técnica llamada gradiente descendente. (Cauchy, 1847). Cuando f '(x) = 0, la derivada no proporciona información sobre en qué dirección moverse. Los puntos donde f '(x) = 0 se conocen como puntos críticos o puntos estacionarios. Un mínimo local es un punto...