SlideShare una empresa de Scribd logo
Métodos de Kernel en
Machine Learning
MC Luis Ricardo Peña Llamas
Linealmente separables
› Dado un conjunto de datos 𝒙𝑖, 𝑦𝑖 𝑖=1
𝑁
donde 𝒙𝑖 ∈ ℝ 𝑑, 𝑦𝑖 ∈
{−1, +1}
› Decimos que son linealmente separables si existe un
hiperplano de decisión 𝑓(𝒙) definido de la siguiente
manera
𝑓 𝒙 = 𝒘 𝑇
𝒙 + 𝑤0
2
Bias
Vector de pesos
• Normalmente se utiliza una notación extendida
𝒙′ = [1, 𝒙] y 𝒘′ = [𝑤0, 𝒘]
¿Cómo se ve en cuando 𝑑 = 1?
3
¿Cómo se ve cuando 𝑑 = 2?
4
¿Cómo se ve en 3 dimensiones?
5
En general
› En general un hiperplano parte en 2 al espacio (llamados
semiespacios abiertos) de la siguiente manera:
– Si 𝒘 𝑇 𝒙 > 0 pertenece al semiespacio 1
– Si 𝒘 𝑇
𝒙 < 0 pertenece al semiespacio 2
› ¿Qué pasa cuando 𝒘 𝑇 𝒙 = 0?
– Todos los puntos 𝒙 que cumplen con esta propiedad pertenecen
al hiperplano.
6
Dos clases no linealmente
separables
MC Luis Ricardo Peña Llamas
Clases no linealmente separables
8
¿Clases correctamente clasificadas?
9
Zona de
error
¿Clases correctamente clasificadas?
10
Zona de
error
Entonces, ¿No se puede utilizar un clasificador
lineal para clasificar dichas tareas?
› Si se puede utilizar un clasificador lineal para dicha tarea
› Es necesario no pensar en términos del espacio de
entrada ℝ 𝑑, si no utilizar una función 𝜑: ℝ 𝑑 → 𝒦
– En general 𝜑: 𝒳 → 𝒦, donde 𝒳 es el espacio de entrada y 𝒦 es el
espacio de características.
11
Clasificación no lineal
› En lugar de utilizar el conjunto de datos 𝒙𝑖, 𝑦𝑖 𝑖=1
𝑁
utilizaremos 𝜑(𝒙𝑖), 𝑦𝑖 𝑖=1
𝑁
, donde la función 𝜑 es diferente
de la identidad.
› Ahora, nuestra función hipótesis es la siguiente:
𝑓 𝒙 = 𝒘 𝑇
𝜑(𝒙) + 𝑤0
› Donde posiblemente la clasificación o regresión sea más
fácil
12
Ahora son linealmente separables en 3
dimensiones
13
Hiperplano
Hiperplano
Otra perspectiva
14
Otra clase
Breve historia de los
métodos de Kernel
MC Luis Ricardo Peña Llamas
Historia de los Kernels
› 1962 Parzen publica un articulo en el cual utiliza la
representación de puntos por medio del producto interno
entre ellos
– Extraction and Detection Problems and Reproducing Kernel
Hilbert Spaces
› 1964 Vapnik y Chervonenkis publican el algoritmo que se
utiliza en los SVM
› 1974 Nace el campo de “statistical Learning theory” con
Vapnik
› 1979 Comienza el desarrollo de SVM
› 1992 Boser, Guyon y Vapnik publican los SVM con Kernels
› 1995 Cortes y Vapnik publican los SVM con margenes
suaves.
16
Vladimir Vapnik
› Matemático Ruso
› Actualmente es profesor en Columbia
University (New York)
17
Alexey Chervonenkis
› Matemático ruso
› Falleció en el año 2014 en Rusia
18
Bernhard Boser
19
› Nació en Suiza
› Actualmente es profesor de Berkeley
› Es esposo de Isabelle Guyon
Isabelle Guyon
› Nació en Francia
› Actualmente es profesora Paris-Saclay
University,
– ChaLearn dedicada a organizar retos en
Machine Learning
› Esposa de Bernhard Boser
20
Corina Cortes
› Nació en Dinamarca
› Actualmente es investigadora
en Google Research
21
Producto interno
MC Luis Ricardo Peña Llamas
Producto interno
› El producto interno, definido en un espacio vectorial, es la
forma de multiplicar dos vectores y el resultado sea un
escalar.
› Sean 𝑢, 𝑣 y 𝑤 vectores y 𝛼 un escalar, entonces
1. 𝑢 + 𝑣, 𝑤 = 𝑢, 𝑤 + 〈𝑣, 𝑤〉
2. 𝛼𝑣, 𝑤 = 𝛼〈𝑣, 𝑤〉
3. 𝑣, 𝑤 = 〈𝑤, 𝑣〉
4. 𝑣, 𝑣 ≥ 0
1. 𝑣, 𝑣 = 0 ⟺ 𝑣 = 0
23
Ejemplos
› En un espacio euclidiano ℝ 𝑑
𝒙, 𝒚 = 𝒙 𝑇
𝒚
Otra forma de obtener el producto punto
𝒙 𝒚 cos 𝜃
Donde 𝜃 es el ángulo entre los vectores 𝒙, 𝒚
› En el espacio de las funciones reales, donde el dominio es
el intervalo [𝑎, 𝑏]
𝑓, 𝑔 =
𝑎
𝑏
𝑓 ⋅ 𝑔 𝑑𝑥
24
Producto interno como proyección
› Cuando hacemos la operación 𝒙 𝑇 𝒚 en realidad estamos
tomando la proyección de 𝒚 en 𝒙.
𝑦1 = 𝒚 𝑻
𝒙
𝒙
25
Vector unitario
Kernel
MC Luis Ricardo Peña Llamas
Definición de Kernel
› Suponga que tiene una función 𝜑: 𝒳 → 𝒦, entonces una
función kernel 𝜅: 𝒳 × 𝒳 → ℝ
𝜅 𝒙𝑖, 𝒙𝑗 = 〈𝝋 𝒙𝑖 , 𝝋 𝒙𝑗 〉
– Para todo 𝒙𝑖, 𝒙𝑗 ∈ 𝒳
27
Producto interno
Ejemplo
› Sea 𝒳 = ℝ2, es decir 𝒙 = [𝑥1, 𝑥2] y 𝒦 = ℝ3 y 𝜑 definida
como
𝝋 𝒙 𝑇 = [𝑥1
2
, 2𝑥1 𝑥2, 𝑥2
2
]
› Entonces cuando multiplicamos dos funciones con
producto interno
𝝋 𝒙 , 𝝋 𝒚 = 𝑥1
2
, 2𝑥1 𝑥2, 𝑥2
2
𝑦1
2
2𝑦1 𝑦2
𝑥2
2
28
El truco del Kernel (Kernel Trick)
› Normalmente calcular 𝝋 𝒙 , 𝝋 𝒚 requiere de calcular 𝝋 𝒙 y
después 𝝋 𝒚 y por ultimo hacer el producto interno.
– El calculo de 𝝋 puede tardar bastante y como solo nos interesa la salida
y no los pasos intermedios.
› La idea es utilizar Kernels en lugar de utilizar 𝜑, es decir, en
lugar de utilizar
𝝋 𝒙 𝑇 = [𝑥1
2
, 2𝑥1 𝑥2, 𝑥2
2
]
› Utilizaremos el kernel 𝜅 𝒙, 𝒚 = 𝒙 𝑇
𝒚 2
, que obtenemos el
mismo resultado pero con menos cálculos, ya que:
𝝋 𝒙 , 𝝋 𝒚 = 𝑥1
2
𝑦1
2
+ 2𝑥1 𝑥2 𝑦1 𝑦2 + 𝑥2
2
𝑦2
2
= 𝒙 𝑇
𝒚 2
= 𝜅(𝒙, 𝒚)
29
¿Por qué es una ventaja?
› En este caso en particular por el simple hecho de calcular
2, el cual es un número irracional, por lo tanto tiene un
número infinito de decimales
› Pero si calculamos el producto interno y el resultado lo
elevamos al cuadrado, es más rápido de calcular.
30
Teorema de Mercer
MC Luis Ricardo Peña Llamas
Función Kernel valida
› Una función kernel valida es básicamente:
– Una función simétrica 𝑓 𝒙, 𝒚 = 𝑓(𝒚, 𝒙)
– Una función positiva semidefinida:
𝑖=1
𝑚
𝑗
𝑚
𝑐𝑖 𝑐𝑗 𝑓(𝒙𝑖, 𝒙𝑗) ≥ 0
– Para 𝒙1, 𝒙2, … , 𝒙 𝑚 ∈ 𝑎, 𝑏 y cualesquiera 𝑐1, 𝑐2, … , 𝑐 𝑚 ∈ ℝ (si lo
viéramos en una dimensión
32
Teorema de Mercer
› Una función simétrica 𝜅: 𝒳 × 𝒳 es positiva semidefinida si
𝒳 𝒳
𝜅 𝑥, 𝑦 𝑓 𝑥 𝑓 𝑦 𝑑𝑥 𝑑𝑦 ≥ 0
› Para todo 𝑓 ∈ 𝐿2(𝒳)
› Además sus eigenvalores y eigenfunciones convergen al
kernel, es decir
𝜅 𝑥, 𝑦 =
𝑖
∞
𝜆𝑖 𝜓𝑖 𝒙 𝜓𝑖(𝒚)
– Donde 𝜆𝑖 es un eigenvalor y 𝜓𝑖 es la eigenfunción asociada
– Para todo 𝒙, 𝒚 ∈ 𝒳
33
Ejemplo de funciones
kernel
MC Luis Ricardo Peña Llamas
¿Cuántas funciones existen?
› En realidad no conocemos el limite de las funciones, por lo
que son muchísimas funciones, por eso solo se dan
algunos Kernels validos
35
Algunos ejemplos de kernels
Nombre del kernel Función
Lineal 𝑥 𝑇 𝑦 + 𝐶
Polinomial 𝑥 𝑇 𝑦 + 𝐶 𝑝
Gaussiano 𝑒−𝛾 𝑥−𝑦 2
Circular 0 𝑠𝑖 𝑥 − 𝑦 > 𝜎
2
𝜋
arccos −
𝑥 − 𝑦
𝜎
−
𝑥 − 𝑦
𝜎
1 − −
𝑥 − 𝑦
𝜎
2
𝑠𝑖 𝑛𝑜
Mahalanobis 𝑒− 𝑥−𝑦 𝛴(𝑥−𝑦)
, Σ = 𝑑𝑖𝑎𝑔 𝜎1
−1
, … , 𝜎 𝑑
−1
, 𝜎𝑖 ∈ ℝ+
36
Support Vector Machines
(SVM)
MC Luis Ricardo Peña Llamas
38
¿Cuál hiperplano utilizar?
39
Idea central de SVM
40
Vectoresdesoporte
Vectoresdesoporte
Supongamos que tenemos un vector 𝒘
perpendicular al hiperplano optimo
41
¿Cómo clasificar un nuevo vector?
42
𝑪
¿Cómo clasificar un nuevo elemento?
43
𝑤 𝑇 𝑥 ≥ C
¿Cómo clasificar un nuevo elemento?
44
𝑤 𝑇 𝑥 ≥ C
¿Cómo clasificar un nuevo elemento?
› Si queremos conocer a clase pertenece ese nuevo vector,
lo haremos con la siguiente regla de decisión:
𝑓 𝒙 = +1 𝑠𝑖 𝒘 𝑇 𝒙 + 𝑏 ≥ 0
−1 𝑠𝑖 𝒘 𝑇 𝒙 + 𝑏 < 0
› Si 𝑦𝑖 ∈ {−1, +1} (dependiendo a que clase que clase
pertenece
𝑦𝑖 𝑤 𝑇 𝒙𝑖 + 𝑏 ≥ 1
– Para todo 𝒙𝑖
𝑦𝑖 𝑤 𝑇
𝒙𝑖 + 𝑏 − 1 ≥ 0
45
Utilizando las muestras de soporte
𝑦𝑖 𝑤 𝑇 𝒙𝑖 + 𝑏 − 1 = 0
– Para todo 𝒙𝑖 que sea vector de soporte
46
Maximizando la anchura del margen
47
Maximizando la anchura de la calle
› 𝒙+ ⟹ 𝑦+ = +1
› 𝒙− ⟹ 𝑦− = −1
› Tenemos el vector (𝒙+ − 𝒙−), ahora encontramos la
anchura multiplicando por un vector unitario
𝒙+ − 𝒙−
𝑇
𝒘
𝒘
=
1
𝒘
(𝒙+
𝑇 𝒘 − 𝒙−
𝑇 𝒘)
=
2
𝒘
› Objetivo:
max
1
𝒘
= min
1
2
𝑤 2
48
Modelo de optimización
min
1
2
𝑤 2
Sujeto a: 𝑦𝑖 𝒘 𝑇 𝒙𝑖 + 𝑏 − 1 ≥ 0, 𝑖 = 1,2, … , 𝑁
49
Langraniano
ℒ =
1
2
𝒘 −
𝑖=1
𝑁
𝛼𝑖 𝑦𝑖 𝒘 𝑇 𝒙𝑖 + 𝑏 − 1
› Por lo tanto 𝑤 optimo esta dado por:
𝑤 =
𝑖=1
𝑁
𝛼𝑖 𝑦𝑖 𝒙𝑖
50
Quiere decir que
𝒘 𝑇
𝒙 =
𝑖=1
𝑁
𝛼𝑖 𝑦𝑖 𝒙𝑖
𝑇
𝒙 =
𝑖=1
𝑁
𝛼𝑖 𝑦𝑖〈𝒙𝑖, 𝒙〉
𝒘 𝑇 𝒙 =
𝑖=1
𝑁
𝛼𝑖 𝑦𝑖 𝜅(𝒙𝑖, 𝒙)
51
Truco kernel
Nueva regla de decisión
𝑓 𝒙 =
+1 𝑠𝑖
𝑖=1
𝑁
𝛼𝑖 𝑦𝑖 𝜅(𝒙𝑖, 𝒙) + 𝑏 ≥ 0
−1 𝑠𝑖
𝑖=1
𝑁
𝛼𝑖 𝑦𝑖 𝜅(𝒙𝑖, 𝒙) + 𝑏 < 0
52
¿Cuál Kernel es mejor para mis datos?
› Actualmente es un problema abierto y no sabemos con
certeza si exista respuesta a esta pregunta.
› Normalmente, tomamos varios Kernels y hacemos cross-
validation para seleccionar el mejor de ellos.
53
No solo los SVM utilizan Kernels
› Hay un teorema (Representer theorem) Probado por
Schölkopf (en el 2001) con el cual cualquier problema que
tenga una función de costo y una de castigo:
min
𝑓∈ℋ
{
𝑖
𝑁
ℒ 𝑓 𝒙𝑖 , 𝑦𝑖 + 𝜆Ω 𝑓 2 }
› Se puede representar como
𝑓 𝒙 =
𝑖=1
𝑁
𝛼𝑖 𝜅(𝒙𝑖, 𝒙) , 𝛼𝑖 ∈ ℝ
54
Gracias
55
¿Dudas? ¿Preguntas?

Más contenido relacionado

PDF
Unidad iv guia de ejercicios yac
PPT
Bombas Y Sistemas De Bombeo
PPTX
cuenca del sureste(macuspana)
PDF
perforación direccional kirvihernandez power point
PDF
balance energetico en calderas
PDF
ATI GROUP Bombas para industria pesquera
PPSX
Simpson 1/3
PDF
solucionario Investigación de operaciones Hamdy a. Taha
Unidad iv guia de ejercicios yac
Bombas Y Sistemas De Bombeo
cuenca del sureste(macuspana)
perforación direccional kirvihernandez power point
balance energetico en calderas
ATI GROUP Bombas para industria pesquera
Simpson 1/3
solucionario Investigación de operaciones Hamdy a. Taha

La actualidad más candente (20)

PDF
Perdidas de calor a traves de tuberias
PDF
ejercicios-resueltos-integrales-dobles-y-triples-2011
PPTX
Ecuaciones diferenciales parciales
 
PDF
Apuntes maquinas hidraulicas
PDF
Fundamentos de la ingenieria de reservorio ejercicios adicionales
PDF
Ajuste de datos e interpolacion
DOCX
ventajas y desventajas de los metodos secante,biseccion, newton-raphson
PPTX
Batería y estaciones de flujo
PDF
Analisis de productividad formulas
PDF
curso de plc
PDF
Salinidad en el crudo contenido de agua por destilacion-bs&w
PDF
Lineamientos generales simulación de reservorios
PPTX
Inyección de co2
PPTX
Factor volumétrico del petróleo
PPTX
Turbomáquinas generalidades
PDF
Filtro prensa hpht
DOCX
Ley de stoke
PDF
Taller yacimientos 2
PPTX
Unidad 3 Ecuación General de la Energía (Repaso para sistemas e instalaciones...
PPTX
Inyección de vapor (steam flooding)
Perdidas de calor a traves de tuberias
ejercicios-resueltos-integrales-dobles-y-triples-2011
Ecuaciones diferenciales parciales
 
Apuntes maquinas hidraulicas
Fundamentos de la ingenieria de reservorio ejercicios adicionales
Ajuste de datos e interpolacion
ventajas y desventajas de los metodos secante,biseccion, newton-raphson
Batería y estaciones de flujo
Analisis de productividad formulas
curso de plc
Salinidad en el crudo contenido de agua por destilacion-bs&w
Lineamientos generales simulación de reservorios
Inyección de co2
Factor volumétrico del petróleo
Turbomáquinas generalidades
Filtro prensa hpht
Ley de stoke
Taller yacimientos 2
Unidad 3 Ecuación General de la Energía (Repaso para sistemas e instalaciones...
Inyección de vapor (steam flooding)
Publicidad

Similar a Metodos de kernel en machine learning by MC Luis Ricardo Peña Llamas (20)

PDF
RKHS, teoría y aplicaciones con machine learning
PDF
Aprendizaje de Maquina y Aplicaciones
PDF
Aprendizaje Estadístico con Funciones Kernel
PDF
Métodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De Crédito
PDF
PDF
Archivo con demostraciones de espacios vectoriales
PDF
Algebra lineal para estudiantes de Ingeniería y Ciencias.pdf
PDF
algebra lineal
PDF
5. ML ES.pdfv gsfnfbxfbxcbszxb vxcbazbzfdbsabb
PDF
Algebra lineal para estudiantes de Ingenieria y Ciencias.pdf
PDF
Máquinas de vectores de soporte
PDF
Libro algebra-lineal
PDF
Manual abreviado de_analisis_multivarian
PPT
Conjuntos Difusos.ppt
PPTX
Redes neuronales artificiales
PDF
PPT
Espacios vectoriales diapositivas
PPTX
1.3.1 Conceptos de Algebra Lineal y su uso en ML.pptx
PDF
Algebra_lineal (2) HECTOR MARTINEZ.pdf
RKHS, teoría y aplicaciones con machine learning
Aprendizaje de Maquina y Aplicaciones
Aprendizaje Estadístico con Funciones Kernel
Métodos Predictivos: Aplicación a la Detección de Fraudes en Tarjetas De Crédito
Archivo con demostraciones de espacios vectoriales
Algebra lineal para estudiantes de Ingeniería y Ciencias.pdf
algebra lineal
5. ML ES.pdfv gsfnfbxfbxcbszxb vxcbazbzfdbsabb
Algebra lineal para estudiantes de Ingenieria y Ciencias.pdf
Máquinas de vectores de soporte
Libro algebra-lineal
Manual abreviado de_analisis_multivarian
Conjuntos Difusos.ppt
Redes neuronales artificiales
Espacios vectoriales diapositivas
1.3.1 Conceptos de Algebra Lineal y su uso en ML.pptx
Algebra_lineal (2) HECTOR MARTINEZ.pdf
Publicidad

Más de DataLab Community (11)

PPTX
Meetup Julio Algoritmos Genéticos
PPTX
Meetup Junio Data Analysis with python 2018
PDF
Meetup Junio Apache Spark Fundamentals
PDF
Procesar e interpretar señales biológicas para hacer predicción de movimiento...
PDF
Curse of dimensionality by MC Ivan Alejando Garcia
PDF
Tensor models and other dreams by PhD Andres Mendez-Vazquez
PDF
Quiénes somos - DataLab Community
PDF
Profesiones de la ciencia de datos
PDF
El arte de la Ciencia de Datos
PPTX
Presentación de DataLab Community
PPTX
De qué hablamos cuando hablamos de Data Science
Meetup Julio Algoritmos Genéticos
Meetup Junio Data Analysis with python 2018
Meetup Junio Apache Spark Fundamentals
Procesar e interpretar señales biológicas para hacer predicción de movimiento...
Curse of dimensionality by MC Ivan Alejando Garcia
Tensor models and other dreams by PhD Andres Mendez-Vazquez
Quiénes somos - DataLab Community
Profesiones de la ciencia de datos
El arte de la Ciencia de Datos
Presentación de DataLab Community
De qué hablamos cuando hablamos de Data Science

Último (20)

PPTX
Ciencia moderna. origen y características.
PDF
UD5_Enfermedades_pleurales_mediastino.pdf
PDF
BIODIVERSIDAD y tipos de especies de plantas y animales.pdf
PPTX
SESIÓN 2 ALIMENTACION Y NUTRICION SALUDABLE JULY.pptx
PDF
Presentación sobre DENGUE.pdf (enfermedad tropical)
PDF
El método experimental Panorama de la experimentación
PDF
ATLAS DEL SITEMA NERVIOSO para el cu.pdf
PDF
BIOTECNOLOGÍA y tecnicas de ingenieria.pdf
PPTX
Aborto exposicion.pptxdsaaaaaaaaaaaaaaaaaaaaaaaaaa
PPTX
Revision anatomica del sistema nervioso central
PPTX
PRESENTACION PARENTALkkkkkk NICOLAS.pptx
PDF
-3-IMPORTANCIA DE LAS PROTEINAS 02 ABRIL 2020 .pdf
PPTX
Aplicacion_de_modelo_tpack_bienestar biopsicosocial.pptx
PPTX
Genes supresores de tumores nivel básico.pptx
PPTX
sangrado uterino anormal, urgencia ginecologica
PPTX
4. Otitis media aguda y secretora - 2024.pptx
PPTX
MICOSIS SUPERFICIALES Y PROFUNDAS, CONCEPTOS BASICOS
PPTX
Neoplasias benignas y malignas del estómago.pptx
PPTX
Caracteristicas fisicoquimicas del Agua.pptx
PDF
Esófago de barret y cancer esofagico Nutrición
Ciencia moderna. origen y características.
UD5_Enfermedades_pleurales_mediastino.pdf
BIODIVERSIDAD y tipos de especies de plantas y animales.pdf
SESIÓN 2 ALIMENTACION Y NUTRICION SALUDABLE JULY.pptx
Presentación sobre DENGUE.pdf (enfermedad tropical)
El método experimental Panorama de la experimentación
ATLAS DEL SITEMA NERVIOSO para el cu.pdf
BIOTECNOLOGÍA y tecnicas de ingenieria.pdf
Aborto exposicion.pptxdsaaaaaaaaaaaaaaaaaaaaaaaaaa
Revision anatomica del sistema nervioso central
PRESENTACION PARENTALkkkkkk NICOLAS.pptx
-3-IMPORTANCIA DE LAS PROTEINAS 02 ABRIL 2020 .pdf
Aplicacion_de_modelo_tpack_bienestar biopsicosocial.pptx
Genes supresores de tumores nivel básico.pptx
sangrado uterino anormal, urgencia ginecologica
4. Otitis media aguda y secretora - 2024.pptx
MICOSIS SUPERFICIALES Y PROFUNDAS, CONCEPTOS BASICOS
Neoplasias benignas y malignas del estómago.pptx
Caracteristicas fisicoquimicas del Agua.pptx
Esófago de barret y cancer esofagico Nutrición

Metodos de kernel en machine learning by MC Luis Ricardo Peña Llamas

  • 1. Métodos de Kernel en Machine Learning MC Luis Ricardo Peña Llamas
  • 2. Linealmente separables › Dado un conjunto de datos 𝒙𝑖, 𝑦𝑖 𝑖=1 𝑁 donde 𝒙𝑖 ∈ ℝ 𝑑, 𝑦𝑖 ∈ {−1, +1} › Decimos que son linealmente separables si existe un hiperplano de decisión 𝑓(𝒙) definido de la siguiente manera 𝑓 𝒙 = 𝒘 𝑇 𝒙 + 𝑤0 2 Bias Vector de pesos • Normalmente se utiliza una notación extendida 𝒙′ = [1, 𝒙] y 𝒘′ = [𝑤0, 𝒘]
  • 3. ¿Cómo se ve en cuando 𝑑 = 1? 3
  • 4. ¿Cómo se ve cuando 𝑑 = 2? 4
  • 5. ¿Cómo se ve en 3 dimensiones? 5
  • 6. En general › En general un hiperplano parte en 2 al espacio (llamados semiespacios abiertos) de la siguiente manera: – Si 𝒘 𝑇 𝒙 > 0 pertenece al semiespacio 1 – Si 𝒘 𝑇 𝒙 < 0 pertenece al semiespacio 2 › ¿Qué pasa cuando 𝒘 𝑇 𝒙 = 0? – Todos los puntos 𝒙 que cumplen con esta propiedad pertenecen al hiperplano. 6
  • 7. Dos clases no linealmente separables MC Luis Ricardo Peña Llamas
  • 8. Clases no linealmente separables 8
  • 11. Entonces, ¿No se puede utilizar un clasificador lineal para clasificar dichas tareas? › Si se puede utilizar un clasificador lineal para dicha tarea › Es necesario no pensar en términos del espacio de entrada ℝ 𝑑, si no utilizar una función 𝜑: ℝ 𝑑 → 𝒦 – En general 𝜑: 𝒳 → 𝒦, donde 𝒳 es el espacio de entrada y 𝒦 es el espacio de características. 11
  • 12. Clasificación no lineal › En lugar de utilizar el conjunto de datos 𝒙𝑖, 𝑦𝑖 𝑖=1 𝑁 utilizaremos 𝜑(𝒙𝑖), 𝑦𝑖 𝑖=1 𝑁 , donde la función 𝜑 es diferente de la identidad. › Ahora, nuestra función hipótesis es la siguiente: 𝑓 𝒙 = 𝒘 𝑇 𝜑(𝒙) + 𝑤0 › Donde posiblemente la clasificación o regresión sea más fácil 12
  • 13. Ahora son linealmente separables en 3 dimensiones 13 Hiperplano Hiperplano
  • 15. Breve historia de los métodos de Kernel MC Luis Ricardo Peña Llamas
  • 16. Historia de los Kernels › 1962 Parzen publica un articulo en el cual utiliza la representación de puntos por medio del producto interno entre ellos – Extraction and Detection Problems and Reproducing Kernel Hilbert Spaces › 1964 Vapnik y Chervonenkis publican el algoritmo que se utiliza en los SVM › 1974 Nace el campo de “statistical Learning theory” con Vapnik › 1979 Comienza el desarrollo de SVM › 1992 Boser, Guyon y Vapnik publican los SVM con Kernels › 1995 Cortes y Vapnik publican los SVM con margenes suaves. 16
  • 17. Vladimir Vapnik › Matemático Ruso › Actualmente es profesor en Columbia University (New York) 17
  • 18. Alexey Chervonenkis › Matemático ruso › Falleció en el año 2014 en Rusia 18
  • 19. Bernhard Boser 19 › Nació en Suiza › Actualmente es profesor de Berkeley › Es esposo de Isabelle Guyon
  • 20. Isabelle Guyon › Nació en Francia › Actualmente es profesora Paris-Saclay University, – ChaLearn dedicada a organizar retos en Machine Learning › Esposa de Bernhard Boser 20
  • 21. Corina Cortes › Nació en Dinamarca › Actualmente es investigadora en Google Research 21
  • 22. Producto interno MC Luis Ricardo Peña Llamas
  • 23. Producto interno › El producto interno, definido en un espacio vectorial, es la forma de multiplicar dos vectores y el resultado sea un escalar. › Sean 𝑢, 𝑣 y 𝑤 vectores y 𝛼 un escalar, entonces 1. 𝑢 + 𝑣, 𝑤 = 𝑢, 𝑤 + 〈𝑣, 𝑤〉 2. 𝛼𝑣, 𝑤 = 𝛼〈𝑣, 𝑤〉 3. 𝑣, 𝑤 = 〈𝑤, 𝑣〉 4. 𝑣, 𝑣 ≥ 0 1. 𝑣, 𝑣 = 0 ⟺ 𝑣 = 0 23
  • 24. Ejemplos › En un espacio euclidiano ℝ 𝑑 𝒙, 𝒚 = 𝒙 𝑇 𝒚 Otra forma de obtener el producto punto 𝒙 𝒚 cos 𝜃 Donde 𝜃 es el ángulo entre los vectores 𝒙, 𝒚 › En el espacio de las funciones reales, donde el dominio es el intervalo [𝑎, 𝑏] 𝑓, 𝑔 = 𝑎 𝑏 𝑓 ⋅ 𝑔 𝑑𝑥 24
  • 25. Producto interno como proyección › Cuando hacemos la operación 𝒙 𝑇 𝒚 en realidad estamos tomando la proyección de 𝒚 en 𝒙. 𝑦1 = 𝒚 𝑻 𝒙 𝒙 25 Vector unitario
  • 26. Kernel MC Luis Ricardo Peña Llamas
  • 27. Definición de Kernel › Suponga que tiene una función 𝜑: 𝒳 → 𝒦, entonces una función kernel 𝜅: 𝒳 × 𝒳 → ℝ 𝜅 𝒙𝑖, 𝒙𝑗 = 〈𝝋 𝒙𝑖 , 𝝋 𝒙𝑗 〉 – Para todo 𝒙𝑖, 𝒙𝑗 ∈ 𝒳 27 Producto interno
  • 28. Ejemplo › Sea 𝒳 = ℝ2, es decir 𝒙 = [𝑥1, 𝑥2] y 𝒦 = ℝ3 y 𝜑 definida como 𝝋 𝒙 𝑇 = [𝑥1 2 , 2𝑥1 𝑥2, 𝑥2 2 ] › Entonces cuando multiplicamos dos funciones con producto interno 𝝋 𝒙 , 𝝋 𝒚 = 𝑥1 2 , 2𝑥1 𝑥2, 𝑥2 2 𝑦1 2 2𝑦1 𝑦2 𝑥2 2 28
  • 29. El truco del Kernel (Kernel Trick) › Normalmente calcular 𝝋 𝒙 , 𝝋 𝒚 requiere de calcular 𝝋 𝒙 y después 𝝋 𝒚 y por ultimo hacer el producto interno. – El calculo de 𝝋 puede tardar bastante y como solo nos interesa la salida y no los pasos intermedios. › La idea es utilizar Kernels en lugar de utilizar 𝜑, es decir, en lugar de utilizar 𝝋 𝒙 𝑇 = [𝑥1 2 , 2𝑥1 𝑥2, 𝑥2 2 ] › Utilizaremos el kernel 𝜅 𝒙, 𝒚 = 𝒙 𝑇 𝒚 2 , que obtenemos el mismo resultado pero con menos cálculos, ya que: 𝝋 𝒙 , 𝝋 𝒚 = 𝑥1 2 𝑦1 2 + 2𝑥1 𝑥2 𝑦1 𝑦2 + 𝑥2 2 𝑦2 2 = 𝒙 𝑇 𝒚 2 = 𝜅(𝒙, 𝒚) 29
  • 30. ¿Por qué es una ventaja? › En este caso en particular por el simple hecho de calcular 2, el cual es un número irracional, por lo tanto tiene un número infinito de decimales › Pero si calculamos el producto interno y el resultado lo elevamos al cuadrado, es más rápido de calcular. 30
  • 31. Teorema de Mercer MC Luis Ricardo Peña Llamas
  • 32. Función Kernel valida › Una función kernel valida es básicamente: – Una función simétrica 𝑓 𝒙, 𝒚 = 𝑓(𝒚, 𝒙) – Una función positiva semidefinida: 𝑖=1 𝑚 𝑗 𝑚 𝑐𝑖 𝑐𝑗 𝑓(𝒙𝑖, 𝒙𝑗) ≥ 0 – Para 𝒙1, 𝒙2, … , 𝒙 𝑚 ∈ 𝑎, 𝑏 y cualesquiera 𝑐1, 𝑐2, … , 𝑐 𝑚 ∈ ℝ (si lo viéramos en una dimensión 32
  • 33. Teorema de Mercer › Una función simétrica 𝜅: 𝒳 × 𝒳 es positiva semidefinida si 𝒳 𝒳 𝜅 𝑥, 𝑦 𝑓 𝑥 𝑓 𝑦 𝑑𝑥 𝑑𝑦 ≥ 0 › Para todo 𝑓 ∈ 𝐿2(𝒳) › Además sus eigenvalores y eigenfunciones convergen al kernel, es decir 𝜅 𝑥, 𝑦 = 𝑖 ∞ 𝜆𝑖 𝜓𝑖 𝒙 𝜓𝑖(𝒚) – Donde 𝜆𝑖 es un eigenvalor y 𝜓𝑖 es la eigenfunción asociada – Para todo 𝒙, 𝒚 ∈ 𝒳 33
  • 34. Ejemplo de funciones kernel MC Luis Ricardo Peña Llamas
  • 35. ¿Cuántas funciones existen? › En realidad no conocemos el limite de las funciones, por lo que son muchísimas funciones, por eso solo se dan algunos Kernels validos 35
  • 36. Algunos ejemplos de kernels Nombre del kernel Función Lineal 𝑥 𝑇 𝑦 + 𝐶 Polinomial 𝑥 𝑇 𝑦 + 𝐶 𝑝 Gaussiano 𝑒−𝛾 𝑥−𝑦 2 Circular 0 𝑠𝑖 𝑥 − 𝑦 > 𝜎 2 𝜋 arccos − 𝑥 − 𝑦 𝜎 − 𝑥 − 𝑦 𝜎 1 − − 𝑥 − 𝑦 𝜎 2 𝑠𝑖 𝑛𝑜 Mahalanobis 𝑒− 𝑥−𝑦 𝛴(𝑥−𝑦) , Σ = 𝑑𝑖𝑎𝑔 𝜎1 −1 , … , 𝜎 𝑑 −1 , 𝜎𝑖 ∈ ℝ+ 36
  • 37. Support Vector Machines (SVM) MC Luis Ricardo Peña Llamas
  • 38. 38
  • 40. Idea central de SVM 40 Vectoresdesoporte Vectoresdesoporte
  • 41. Supongamos que tenemos un vector 𝒘 perpendicular al hiperplano optimo 41
  • 42. ¿Cómo clasificar un nuevo vector? 42 𝑪
  • 43. ¿Cómo clasificar un nuevo elemento? 43 𝑤 𝑇 𝑥 ≥ C
  • 44. ¿Cómo clasificar un nuevo elemento? 44 𝑤 𝑇 𝑥 ≥ C
  • 45. ¿Cómo clasificar un nuevo elemento? › Si queremos conocer a clase pertenece ese nuevo vector, lo haremos con la siguiente regla de decisión: 𝑓 𝒙 = +1 𝑠𝑖 𝒘 𝑇 𝒙 + 𝑏 ≥ 0 −1 𝑠𝑖 𝒘 𝑇 𝒙 + 𝑏 < 0 › Si 𝑦𝑖 ∈ {−1, +1} (dependiendo a que clase que clase pertenece 𝑦𝑖 𝑤 𝑇 𝒙𝑖 + 𝑏 ≥ 1 – Para todo 𝒙𝑖 𝑦𝑖 𝑤 𝑇 𝒙𝑖 + 𝑏 − 1 ≥ 0 45
  • 46. Utilizando las muestras de soporte 𝑦𝑖 𝑤 𝑇 𝒙𝑖 + 𝑏 − 1 = 0 – Para todo 𝒙𝑖 que sea vector de soporte 46
  • 47. Maximizando la anchura del margen 47
  • 48. Maximizando la anchura de la calle › 𝒙+ ⟹ 𝑦+ = +1 › 𝒙− ⟹ 𝑦− = −1 › Tenemos el vector (𝒙+ − 𝒙−), ahora encontramos la anchura multiplicando por un vector unitario 𝒙+ − 𝒙− 𝑇 𝒘 𝒘 = 1 𝒘 (𝒙+ 𝑇 𝒘 − 𝒙− 𝑇 𝒘) = 2 𝒘 › Objetivo: max 1 𝒘 = min 1 2 𝑤 2 48
  • 49. Modelo de optimización min 1 2 𝑤 2 Sujeto a: 𝑦𝑖 𝒘 𝑇 𝒙𝑖 + 𝑏 − 1 ≥ 0, 𝑖 = 1,2, … , 𝑁 49
  • 50. Langraniano ℒ = 1 2 𝒘 − 𝑖=1 𝑁 𝛼𝑖 𝑦𝑖 𝒘 𝑇 𝒙𝑖 + 𝑏 − 1 › Por lo tanto 𝑤 optimo esta dado por: 𝑤 = 𝑖=1 𝑁 𝛼𝑖 𝑦𝑖 𝒙𝑖 50
  • 51. Quiere decir que 𝒘 𝑇 𝒙 = 𝑖=1 𝑁 𝛼𝑖 𝑦𝑖 𝒙𝑖 𝑇 𝒙 = 𝑖=1 𝑁 𝛼𝑖 𝑦𝑖〈𝒙𝑖, 𝒙〉 𝒘 𝑇 𝒙 = 𝑖=1 𝑁 𝛼𝑖 𝑦𝑖 𝜅(𝒙𝑖, 𝒙) 51 Truco kernel
  • 52. Nueva regla de decisión 𝑓 𝒙 = +1 𝑠𝑖 𝑖=1 𝑁 𝛼𝑖 𝑦𝑖 𝜅(𝒙𝑖, 𝒙) + 𝑏 ≥ 0 −1 𝑠𝑖 𝑖=1 𝑁 𝛼𝑖 𝑦𝑖 𝜅(𝒙𝑖, 𝒙) + 𝑏 < 0 52
  • 53. ¿Cuál Kernel es mejor para mis datos? › Actualmente es un problema abierto y no sabemos con certeza si exista respuesta a esta pregunta. › Normalmente, tomamos varios Kernels y hacemos cross- validation para seleccionar el mejor de ellos. 53
  • 54. No solo los SVM utilizan Kernels › Hay un teorema (Representer theorem) Probado por Schölkopf (en el 2001) con el cual cualquier problema que tenga una función de costo y una de castigo: min 𝑓∈ℋ { 𝑖 𝑁 ℒ 𝑓 𝒙𝑖 , 𝑦𝑖 + 𝜆Ω 𝑓 2 } › Se puede representar como 𝑓 𝒙 = 𝑖=1 𝑁 𝛼𝑖 𝜅(𝒙𝑖, 𝒙) , 𝛼𝑖 ∈ ℝ 54