Extendiendo el Método del Gradiente.
Cuando trabajamos con funcines cuyas entradas y salidas son vectores, necesitamos encontrar todas sus derivadas parciales para estudiar su comportamiento. La matriz que contiene todas las derivadas parciales de una función es conocida como la matriz Jacobiana, la cual esta definida como:
La segunda derivada puede ser entendida como una medida de la curvatura, así, cuando tenemos que la segunda derivada es positiva decimos que la función tiene curvaruta positiva. Si la segunda derivada es negativa, la curvatura sera negativa, y si es cero, entonces no tenemos curvatura.
La matriz que contiene las segundas derivadas se conoce como matriz Hessiana, la cual esta definida como:
La matriz Hessiana es una matriz simétrica, lo que significa que Hij = Hji. La Hessiana es el gradiente del jacobiano y puede ser descompuesta en valores propios reales y una base ortogonal de verctores propios. La segunda derivada en una dirección específica representada por un vector unitario d esta dada por dTHd. Cuando d es un vector propio de H, la segunda derivada en la dirección de d es un vector propio de H. Ahora, la segunda derivada en la dirección de d esta dada por su autovalor correspondiente y para las otras direcciones, la segunda derivada direccional es un promedio ponderado entre todos los valores propios de H con pesos entre 0 y 1. Le valor propio máximo determina la segunda derivada máxima, y el mínimo la segunda derivada mínima.
La segunda derivada direccional nos dice qué tan bueno será un paso de descenso de gradiente. Podemos hacer una aproximación de la serie Taylor de segundo orden a la función f(x) alrededor del punto actual x0:
Donde g es el gradiente y H es el Hessiano en x0. Si tenemos en cuenta una taza de aprendizaje de ε, el siguiente punto es x0 - εg, y así tenemos:
Donde el primer termino es el valor original, el segundo es la mejora esperada por la pendiente y el tercero es la correción por curvatura que hace la segunda derivada. Cuando gTHg es cero o negativa, la aproximación de la serie Taylor predice que aumentar ε para siempre disminuirá f para siempre. En la práctica, es poco probable que la serie de Taylor siga siendo precisa para valores grandes de ε, por lo que uno debe recurrir a elecciones más heurísticas de ε en este caso. Cuando gTHg es positiva se puede aproximar un paso optimo como:
Cuando g se alinea con el vector propio λmax, entonces el tamaño del paso óptimo será 1/λmax, así, los valores propios del Hessiano determinan la escala de la taza de arpendizaje.
La segunda derivada puede ser usada para encontrar donde un punto crítico es un máximo, un mínimo o un punto de silla. Si la segunda derivada es positiva, entonces tenemos un mínimo. Si es negativa tenemos un máximo, y si es igual a cero el criterio es inconcluso, ya es ese punto puede ser un punto de silla o estar en una región plana. Esto es conocido como el test de la segunda derivada
Para una función multidimensional los valores propios de la matriz Hessiana generalizan el test de la segunda derivada. En un punto critico, donde , si todos los valores propios son positivos, el Hessiano se define como positivo y tendremos un mínimo, ademas la derivadas direccionales serán positivas en todas las direcciones. Si el Hessiano es negativo tendremos entonces un máximo y vemos que las derivadas direccionales son negativas en todas las direcciones. Por otro lado, si tenemos al menos un valor propio negativo y al menos otro positivo tendremos un punto de silla, ya que habrá un mínimo en una sección transversal y un máximo en otra sección transversal como pasa en el centro de una silla de montar.
La segunda derivada puede ser usada para encontrar donde un punto crítico es un máximo, un mínimo o un punto de silla. Si la segunda derivada es positiva, entonces tenemos un mínimo. Si es negativa tenemos un máximo, y si es igual a cero el criterio es inconcluso, ya es ese punto puede ser un punto de silla o estar en una región plana. Esto es conocido como el test de la segunda derivada
Para una función multidimensional los valores propios de la matriz Hessiana generalizan el test de la segunda derivada. En un punto critico, donde , si todos los valores propios son positivos, el Hessiano se define como positivo y tendremos un mínimo, ademas la derivadas direccionales serán positivas en todas las direcciones. Si el Hessiano es negativo tendremos entonces un máximo y vemos que las derivadas direccionales son negativas en todas las direcciones. Por otro lado, si tenemos al menos un valor propio negativo y al menos otro positivo tendremos un punto de silla, ya que habrá un mínimo en una sección transversal y un máximo en otra sección transversal como pasa en el centro de una silla de montar.
El criterio es inconcluso cuando todos los valores propios tiene el mismo signo pero al menos hay uno con valor cero.
Por ultimo, mencionare un concepto importante. La condición del Hessiano, la cual mide cuanto varían las segundas derivadas, así, si tenemos un numero de condición igual a 5, significa que la dirección de mayor curvatura es 5 veces mas curva que la dirección de menor curvatura.
Por ultimo, mencionare un concepto importante. La condición del Hessiano, la cual mide cuanto varían las segundas derivadas, así, si tenemos un numero de condición igual a 5, significa que la dirección de mayor curvatura es 5 veces mas curva que la dirección de menor curvatura.


Comentarios
Publicar un comentario