Metodos de kernel en machine learning by MC Luis Ricardo Peña Llamas

Métodos de Kernel en
Machine Learning
MC Luis Ricardo Peña Llamas

Linealmente separables
› Dado un conjunto de datos 𝒙𝑖, 𝑦𝑖 𝑖=1
𝑁
donde 𝒙𝑖 ∈ ℝ 𝑑, 𝑦𝑖 ∈
{−1, +1}
› Decimos que son linealmente separables si existe un
hiperplano de decisión 𝑓(𝒙) definido de la siguiente
manera
𝑓 𝒙 = 𝒘 𝑇
𝒙 + 𝑤0
2
Bias
Vector de pesos
• Normalmente se utiliza una notación extendida
𝒙′ = [1, 𝒙] y 𝒘′ = [𝑤0, 𝒘]

¿Cómo se ve en cuando 𝑑 = 1?
3

¿Cómo se ve cuando 𝑑 = 2?
4

¿Cómo se ve en 3 dimensiones?
5

En general
› En general un hiperplano parte en 2 al espacio (llamados
semiespacios abiertos) de la siguiente manera:
– Si 𝒘 𝑇 𝒙 > 0 pertenece al semiespacio 1
– Si 𝒘 𝑇
𝒙 < 0 pertenece al semiespacio 2
› ¿Qué pasa cuando 𝒘 𝑇 𝒙 = 0?
– Todos los puntos 𝒙 que cumplen con esta propiedad pertenecen
al hiperplano.
6

Dos clases no linealmente
separables

Clases no linealmente separables
8

¿Clases correctamente clasificadas?
9
Zona de
error

¿Clases correctamente clasificadas?
10
Zona de
error

Entonces, ¿No se puede utilizar un clasificador
lineal para clasificar dichas tareas?
› Si se puede utilizar un clasificador lineal para dicha tarea
› Es necesario no pensar en términos del espacio de
entrada ℝ 𝑑, si no utilizar una función 𝜑: ℝ 𝑑 → 𝒦
– En general 𝜑: 𝒳 → 𝒦, donde 𝒳 es el espacio de entrada y 𝒦 es el
espacio de características.
11

Clasificación no lineal
› En lugar de utilizar el conjunto de datos 𝒙𝑖, 𝑦𝑖 𝑖=1
𝑁
utilizaremos 𝜑(𝒙𝑖), 𝑦𝑖 𝑖=1
𝑁
, donde la función 𝜑 es diferente
de la identidad.
› Ahora, nuestra función hipótesis es la siguiente:
𝑓 𝒙 = 𝒘 𝑇
𝜑(𝒙) + 𝑤0
› Donde posiblemente la clasificación o regresión sea más
fácil
12

Ahora son linealmente separables en 3
dimensiones
13
Hiperplano
Hiperplano

Otra perspectiva
14
Otra clase

Breve historia de los
métodos de Kernel

Historia de los Kernels
› 1962 Parzen publica un articulo en el cual utiliza la
representación de puntos por medio del producto interno
entre ellos
– Extraction and Detection Problems and Reproducing Kernel
Hilbert Spaces
› 1964 Vapnik y Chervonenkis publican el algoritmo que se
utiliza en los SVM
› 1974 Nace el campo de “statistical Learning theory” con
Vapnik
› 1979 Comienza el desarrollo de SVM
› 1992 Boser, Guyon y Vapnik publican los SVM con Kernels
› 1995 Cortes y Vapnik publican los SVM con margenes
suaves.
16

Vladimir Vapnik
› Matemático Ruso
› Actualmente es profesor en Columbia
University (New York)
17

Alexey Chervonenkis
› Matemático ruso
› Falleció en el año 2014 en Rusia
18

Bernhard Boser
19
› Nació en Suiza
› Actualmente es profesor de Berkeley
› Es esposo de Isabelle Guyon

Isabelle Guyon
› Nació en Francia
› Actualmente es profesora Paris-Saclay
University,
– ChaLearn dedicada a organizar retos en
Machine Learning
› Esposa de Bernhard Boser
20

Corina Cortes
› Nació en Dinamarca
› Actualmente es investigadora
en Google Research
21

Producto interno

Producto interno
› El producto interno, definido en un espacio vectorial, es la
forma de multiplicar dos vectores y el resultado sea un
escalar.
› Sean 𝑢, 𝑣 y 𝑤 vectores y 𝛼 un escalar, entonces
1. 𝑢 + 𝑣, 𝑤 = 𝑢, 𝑤 + 〈𝑣, 𝑤〉
2. 𝛼𝑣, 𝑤 = 𝛼〈𝑣, 𝑤〉
3. 𝑣, 𝑤 = 〈𝑤, 𝑣〉
4. 𝑣, 𝑣 ≥ 0
1. 𝑣, 𝑣 = 0 ⟺ 𝑣 = 0
23

Ejemplos
› En un espacio euclidiano ℝ 𝑑
𝒙, 𝒚 = 𝒙 𝑇
𝒚
Otra forma de obtener el producto punto
𝒙 𝒚 cos 𝜃
Donde 𝜃 es el ángulo entre los vectores 𝒙, 𝒚
› En el espacio de las funciones reales, donde el dominio es
el intervalo [𝑎, 𝑏]
𝑓, 𝑔 =
𝑎
𝑏
𝑓 ⋅ 𝑔 𝑑𝑥
24

Producto interno como proyección
› Cuando hacemos la operación 𝒙 𝑇 𝒚 en realidad estamos
tomando la proyección de 𝒚 en 𝒙.
𝑦1 = 𝒚 𝑻
𝒙
𝒙
25
Vector unitario

Kernel

Definición de Kernel
› Suponga que tiene una función 𝜑: 𝒳 → 𝒦, entonces una
función kernel 𝜅: 𝒳 × 𝒳 → ℝ
𝜅 𝒙𝑖, 𝒙𝑗 = 〈𝝋 𝒙𝑖 , 𝝋 𝒙𝑗 〉
– Para todo 𝒙𝑖, 𝒙𝑗 ∈ 𝒳
27
Producto interno

Ejemplo
› Sea 𝒳 = ℝ2, es decir 𝒙 = [𝑥1, 𝑥2] y 𝒦 = ℝ3 y 𝜑 definida
como
𝝋 𝒙 𝑇 = [𝑥1
2
, 2𝑥1 𝑥2, 𝑥2
2
]
› Entonces cuando multiplicamos dos funciones con
producto interno
𝝋 𝒙 , 𝝋 𝒚 = 𝑥1
2
, 2𝑥1 𝑥2, 𝑥2
2
𝑦1
2
2𝑦1 𝑦2
𝑥2
2
28

El truco del Kernel (Kernel Trick)
› Normalmente calcular 𝝋 𝒙 , 𝝋 𝒚 requiere de calcular 𝝋 𝒙 y
después 𝝋 𝒚 y por ultimo hacer el producto interno.
– El calculo de 𝝋 puede tardar bastante y como solo nos interesa la salida
y no los pasos intermedios.
› La idea es utilizar Kernels en lugar de utilizar 𝜑, es decir, en
lugar de utilizar
𝝋 𝒙 𝑇 = [𝑥1
2
, 2𝑥1 𝑥2, 𝑥2
2
]
› Utilizaremos el kernel 𝜅 𝒙, 𝒚 = 𝒙 𝑇
𝒚 2
, que obtenemos el
mismo resultado pero con menos cálculos, ya que:
𝝋 𝒙 , 𝝋 𝒚 = 𝑥1
2
𝑦1
2
+ 2𝑥1 𝑥2 𝑦1 𝑦2 + 𝑥2
2
𝑦2
2
= 𝒙 𝑇
𝒚 2
= 𝜅(𝒙, 𝒚)
29

¿Por qué es una ventaja?
› En este caso en particular por el simple hecho de calcular
2, el cual es un número irracional, por lo tanto tiene un
número infinito de decimales
› Pero si calculamos el producto interno y el resultado lo
elevamos al cuadrado, es más rápido de calcular.
30

Teorema de Mercer

Función Kernel valida
› Una función kernel valida es básicamente:
– Una función simétrica 𝑓 𝒙, 𝒚 = 𝑓(𝒚, 𝒙)
– Una función positiva semidefinida:
𝑖=1
𝑚
𝑗
𝑚
𝑐𝑖 𝑐𝑗 𝑓(𝒙𝑖, 𝒙𝑗) ≥ 0
– Para 𝒙1, 𝒙2, … , 𝒙 𝑚 ∈ 𝑎, 𝑏 y cualesquiera 𝑐1, 𝑐2, … , 𝑐 𝑚 ∈ ℝ (si lo
viéramos en una dimensión
32

Teorema de Mercer
› Una función simétrica 𝜅: 𝒳 × 𝒳 es positiva semidefinida si
𝒳 𝒳
𝜅 𝑥, 𝑦 𝑓 𝑥 𝑓 𝑦 𝑑𝑥 𝑑𝑦 ≥ 0
› Para todo 𝑓 ∈ 𝐿2(𝒳)
› Además sus eigenvalores y eigenfunciones convergen al
kernel, es decir
𝜅 𝑥, 𝑦 =
𝑖
∞
𝜆𝑖 𝜓𝑖 𝒙 𝜓𝑖(𝒚)
– Donde 𝜆𝑖 es un eigenvalor y 𝜓𝑖 es la eigenfunción asociada
– Para todo 𝒙, 𝒚 ∈ 𝒳
33

Ejemplo de funciones
kernel

¿Cuántas funciones existen?
› En realidad no conocemos el limite de las funciones, por lo
que son muchísimas funciones, por eso solo se dan
algunos Kernels validos
35

Algunos ejemplos de kernels
Nombre del kernel Función
Lineal 𝑥 𝑇 𝑦 + 𝐶
Polinomial 𝑥 𝑇 𝑦 + 𝐶 𝑝
Gaussiano 𝑒−𝛾 𝑥−𝑦 2
Circular 0 𝑠𝑖 𝑥 − 𝑦 > 𝜎
2
𝜋
arccos −
𝑥 − 𝑦
𝜎
−
𝑥 − 𝑦
𝜎
1 − −
𝑥 − 𝑦
𝜎
2
𝑠𝑖 𝑛𝑜
Mahalanobis 𝑒− 𝑥−𝑦 𝛴(𝑥−𝑦)
, Σ = 𝑑𝑖𝑎𝑔 𝜎1
−1
, … , 𝜎 𝑑
−1
, 𝜎𝑖 ∈ ℝ+
36

Support Vector Machines
(SVM)

¿Cuál hiperplano utilizar?
39

Idea central de SVM
40
Vectoresdesoporte
Vectoresdesoporte

Supongamos que tenemos un vector 𝒘
perpendicular al hiperplano optimo
41

¿Cómo clasificar un nuevo vector?
42
𝑪

¿Cómo clasificar un nuevo elemento?
43
𝑤 𝑇 𝑥 ≥ C

44
𝑤 𝑇 𝑥 ≥ C

› Si queremos conocer a clase pertenece ese nuevo vector,
lo haremos con la siguiente regla de decisión:
𝑓 𝒙 = +1 𝑠𝑖 𝒘 𝑇 𝒙 + 𝑏 ≥ 0
−1 𝑠𝑖 𝒘 𝑇 𝒙 + 𝑏 < 0
› Si 𝑦𝑖 ∈ {−1, +1} (dependiendo a que clase que clase
pertenece
𝑦𝑖 𝑤 𝑇 𝒙𝑖 + 𝑏 ≥ 1
– Para todo 𝒙𝑖
𝑦𝑖 𝑤 𝑇
𝒙𝑖 + 𝑏 − 1 ≥ 0
45

Utilizando las muestras de soporte
𝑦𝑖 𝑤 𝑇 𝒙𝑖 + 𝑏 − 1 = 0
– Para todo 𝒙𝑖 que sea vector de soporte
46

Maximizando la anchura del margen
47

Maximizando la anchura de la calle
› 𝒙+ ⟹ 𝑦+ = +1
› 𝒙− ⟹ 𝑦− = −1
› Tenemos el vector (𝒙+ − 𝒙−), ahora encontramos la
anchura multiplicando por un vector unitario
𝒙+ − 𝒙−
𝑇
𝒘
𝒘
=
1
𝒘
(𝒙+
𝑇 𝒘 − 𝒙−
𝑇 𝒘)
=
2
𝒘
› Objetivo:
max
1
𝒘
= min
1
2
𝑤 2
48

Modelo de optimización
min
1
2
𝑤 2
Sujeto a: 𝑦𝑖 𝒘 𝑇 𝒙𝑖 + 𝑏 − 1 ≥ 0, 𝑖 = 1,2, … , 𝑁
49

Langraniano
ℒ =
1
2
𝒘 −
𝑖=1
𝑁
𝛼𝑖 𝑦𝑖 𝒘 𝑇 𝒙𝑖 + 𝑏 − 1
› Por lo tanto 𝑤 optimo esta dado por:
𝑤 =
𝑖=1
𝑁
𝛼𝑖 𝑦𝑖 𝒙𝑖
50

Quiere decir que
𝒘 𝑇
𝒙 =
𝑖=1
𝑁
𝛼𝑖 𝑦𝑖 𝒙𝑖
𝑇
𝒙 =
𝑖=1
𝑁
𝛼𝑖 𝑦𝑖〈𝒙𝑖, 𝒙〉
𝒘 𝑇 𝒙 =
𝑖=1
𝑁
𝛼𝑖 𝑦𝑖 𝜅(𝒙𝑖, 𝒙)
51
Truco kernel

Nueva regla de decisión
𝑓 𝒙 =
+1 𝑠𝑖
𝑖=1
𝑁
𝛼𝑖 𝑦𝑖 𝜅(𝒙𝑖, 𝒙) + 𝑏 ≥ 0
−1 𝑠𝑖
𝑖=1
𝑁
𝛼𝑖 𝑦𝑖 𝜅(𝒙𝑖, 𝒙) + 𝑏 < 0
52

¿Cuál Kernel es mejor para mis datos?
› Actualmente es un problema abierto y no sabemos con
certeza si exista respuesta a esta pregunta.
› Normalmente, tomamos varios Kernels y hacemos cross-
validation para seleccionar el mejor de ellos.
53

No solo los SVM utilizan Kernels
› Hay un teorema (Representer theorem) Probado por
Schölkopf (en el 2001) con el cual cualquier problema que
tenga una función de costo y una de castigo:
min
𝑓∈ℋ
{
𝑖
𝑁
ℒ 𝑓 𝒙𝑖 , 𝑦𝑖 + 𝜆Ω 𝑓 2 }
› Se puede representar como
𝑓 𝒙 =
𝑖=1
𝑁
𝛼𝑖 𝜅(𝒙𝑖, 𝒙) , 𝛼𝑖 ∈ ℝ
54

Gracias
55
¿Dudas? ¿Preguntas?

Metodos de kernel en machine learning by MC Luis Ricardo Peña Llamas

Más contenido relacionado

La actualidad más candente (20)

Similar a Metodos de kernel en machine learning by MC Luis Ricardo Peña Llamas (20)

Más de DataLab Community (11)

Último (20)

Metodos de kernel en machine learning by MC Luis Ricardo Peña Llamas