Лекция 6
Линейные модели
для классификации и регрессии
Николай Анохин
29 октября 2014 г.
План занятия
Линейная регрессия
Логистическая регрессия
Обобщенные линейные модели
1 / 32
Постановка задачи
Пусть дан набор объектов D = {(xi , yi )}, xi ∈ X, yi ∈ Y, i ∈ 1, . . . , N,
полученный из неизвестной закономерности y = f (x). Необходимо
выбрать из семейства параметрических функций
H = {h(x, θ) : X × Θ → Y}
такую h∗
(x) = h(x, θ∗
), которая наиболее точно апроксимирует f (x).
Задачи
Регрессия: Y = [a, b] ⊂ R
Классификация: |Y| < C
2 / 32
Линейная регрессия
3 / 32
Модель
y = h(x, θ) + ,
где – гауссовский шум
p( ) = N( |0, β−1
),
откуда
p(y|x, θ, β) = N(y|h(x, θ), β−1
).
Предсказание
E[y|x] = yp(y|x)dy = h(x, θ).
4 / 32
Линейная модель
простейшая модель
h(x, w) = w0+w1x1+. . .+wM xM =
M
j=0
wj xj
улучшенная модель
h(x, w) =
M
j=0
wj φj (x) = wT
φ(x),
φj (x) – базисные функции, φ0(x) = 1
примеры
ϕj (x) = xj
, ϕj (x) = exp −
(x − µj )2
2s2
5 / 32
ML – функция правдоподобия
Дана обучающая выборка D = (X, Y ) из N объектов (xn, yn)
Функция правдоподобия
log p(Y |X, w, β) =
N
n=1
log N(y|wT
φ(xn), β−1
) =
=
N
2
log β −
N
2
log 2π −
β
2
N
n=1
{yn − wT
φ(xn)}2
→ max
w,β
Квадратичная функция потерь
ED(w) =
1
2
N
n=1
{yn − wT
φ(xn)}2
→ min
w
6 / 32
ML – решение
log p(Y |X, w, β) =
N
2
log β −
N
2
log 2π −
β
2
N
n=1
{yn − wT
φ(xn)}2
→ max
w,β
Градиент
β
N
n=1
{yn − wT
φ(xn)}φ(xn)T
= 0
Решение
wML = Φ†
Y = (ΦT
Φ)−1
ΦT
Y ,
1
βML
=
1
N
N
n=1
{yn − wT
MLφ(xn)}2
,
где
Φ =




φ0(x1) . . . φM (x1)
φ0(x2) . . . φM (x2)
. . . . . . . . .
φ0(xN) . . . φM (xN)




7 / 32
Регуляризация
Функция потерь
E(w, λ) = ED(w) + λEW (w),
где (как и раньше)
ED(w) =
1
2
N
n=1
{yn − wT
φ(xn)}2
→ min
w
,
плюс регуляризация
EW (w) = Eq(w) =
M
j=1
|wj |q
Зоопарк
q = 1 – Lasso
q = 2 – Ridge (байесовский вывод: p(w|α) = N(w|0, α−1
I))
EW (w) = ρE1(w) + (1 − ρ)E2(w) – Elastic Net
8 / 32
Логистическая регрессия
9 / 32
Ирисы Фишера
Setosa Versicolor Virginica
Задача
Определить вид ириса на основании длины чашелистика, ширины
чашелистика, длины лепестка и ширины лепестка.
10 / 32
Ирисы Фишера
11 / 32
Многомерное нормальное распределение
N(x|µ, Σ) =
1
(2π)D/2
1
|Σ|1/2
exp −
1
2
(x − µ)T
Σ−1
(x − µ)
Параметры
D-мерный вектор средних D × D-мерная матрица ковариации
µ = xp(x)dx Σ = E[(x − µ)(x − µ)T
]
12 / 32
Генеративная модель
Рассматриваем 2 класса
p(y1|x) =
p(x|y1)p(y1)
p(x|y1)p(y1) + p(x|y2)p(y2)
=
1
1 + e−a
= σ(a)
a = ln
p(x|y1)p(y1)
p(x|y2)p(y2)
σ(a) – сигмоид-функция, a = ln(σ/(1 − σ))
13 / 32
Случай нормальных распределений
Пусть
p(x|yk ) = N(x|µk , Σ),
тогда
p(y1|x) = σ(wT
x + w0),
где
w = Σ−1
(µ1 − µ2)
w0 = −
1
2
µT
1 Σ−1
µ1 +
1
2
µT
2 Σ−1
µ2 + ln
p(y1)
p(y2)
Аналогичный результат для любых распределений из
экспоненциального семейства
14 / 32
Maximum Likelihood
p(y1, x) = p(y1)p(x|y1) = πN(x|µ1, Σ)
p(y2, x) = p(y2)p(x|y2) = (1 − π)N(x|µ2, Σ)
Функция правдоподобия
p(Y , X|π, µ1, µ2, Σ) =
N
n=1
[πN(x|µ1, Σ)]
yn
[(1 − π)N(x|µ2, Σ)]
1−yn
Максимизируя log p(Y , X|π, µ1, µ2, Σ), имеем
π =
1
N
N
n=1
yn =
N1
N1 + N2
,
µ1 =
1
N1
N
n=1
ynxn, µ2 =
1
N2
N
n=1
(1 − yn)xn,
аналогично для Σ
15 / 32
Обобщенная линеная модель
Базисные функции φn(x)
φn(x) = exp −
(x − µn)2
2s2
Функция активации f (a)
f (a) = σ(a)
(Совсем) обобщенная линейная
модель
y(x, w) = f (w φ(x))
16 / 32
Логистическая регрессия
Дано.
D = {φn = φ(xn), yn}, yn ∈ {0, 1}, n = 1 . . . N
Модель.
p(y = 1|φ) = σ(w φ)
функция правдоподобия (кросс-энтропия)
l(w) = log
N
n=1
pyn
(y = 1|φn)(1 − p(y = 1|φn))1−yn
=
=
N
n=1
yn log p(y = 1|φn) + (1 − yn) log(1 − p(y = 1|φn)) = −Jc (w) → max
w
Градиент
Jc (w) =
N
n=1
(p(y = 1|φn) − yn)φn
Гессиан
2
Jc (w) =
N
n=1
p(y = 1|φn)(1 − p(y = 1|φn))φnφT
n
17 / 32
Градиентный спуск
1 function gd(grad, a0, epsilon):
2 initialise eta(k)
3 k = 0
4 a = a0
5 do:
6 k = k + 1
7 a = a - eta(k) grad(a)
8 until eta(k) grad(a) < epsilon
9 return a
Добавление момента: ak+1 = ak − ηk J(ak ) + µk (ak − ak−1)
18 / 32
Метод Ньютона
J(a) ≈ J(ak ) + J(ak )T
(a − ak ) +
1
2
(a − ak )T 2
J(ak )(a − ak ) → min
a
a = ak − 2
J(ak )−1
J(ak )
1 function newton(grad, hessian, a0, epsilon):
2 initialise eta(k)
3 k = 0
4 a = a0
5 do:
6 k = k + 1
7 g = grad(a)
8 H = hessian(a)
9 d = solve(H * d = -g) # find d = - inv(H) * g
10 a = a + eta(k) d
11 until convergence
12 return a
BFGS – использовать приближение 2
J(ak ) или 2
J(ak )−1
19 / 32
Iterative Reweighted Least Squares
Градиент и Гессиан логистической регрессии в матричной форме
Jc (w) = XT
(σ − Y )
2
Jc (w) = XT
SX = XT
diag{σn(1 − σn)}X
Обновление весов
wk+1 = wk − (XT
Sk X)−1
XT
Sk zk ,
zk = Xwk + S−1
k (Y − σk )
Минимизация
N
n=1
Skn(zkn − wT
xn)2
20 / 32
Логистическая регрессия: результаты
21 / 32
Обобщенные линейные модели
22 / 32
Линейные модели
Рассматривается случай 2 классов
Функция принятия решения
y(x) = w x + w0
Регионы принятия решения
R1 = {x : y(x) > 0}
R2 = {x : y(x) < 0}
Задача
найти параметры модели w, w0
23 / 32
Линейные модели: наблюдения
Разделяющая поверхность
D = {x : w x + w0 = 0}
1. w – нормаль к D
2. d = − w0
w – расстояние от
центра координат до D
3. r(x) = y(x)
w – расстояние от D
до x
Положим x0 ≡ 1, получим модель
y(˜x) = ˜w ˜x
24 / 32
Обобщенные линейные модели
Линейная модель
y(x) = w0 + wi xi
Квадратичная модель
y(x) = w0 + wi xi + wij xi xj
Обобщенная линейная модель
g(x) = ai φi (x) = a y
25 / 32
Случай линейно разделимых классов
Обобщенная линейная модель
g(x) = ai φi (x) = a y
Дана обучающая выборка Y = {y1, . . . , yN }
Идея
Преобразовать объекты второго класса в обратные им и решать
задачу оптимизации в области aT
yi > 0, ∀i
26 / 32
Задача оптимизации
Задача
Минимизируем критерий J(a) при условиях aT
yi > 0, ∀i
Пусть Y – множество неправильно проклассифицированных
объектов
Je(a) = y∈Y 1
Jp(a) = y∈Y −a y
Jq(a) = y∈Y (a y)2
Jr (a) = y∈Y
(a y)2
−b
y
Улучшение: добавить отступы
27 / 32
Случай линейно неразделимых классов
Использовать η(k) → 0 при k → ∞
От системы неравенств перейти к системе линейных уравнений
Линейное программирование
28 / 32
Снова переобучение
Оптимизируем критерий с регуляризацией
J1(a) = J(a) + λJR (a)
λ – коэффициент регуляризации
JR (a) = |aj |q
29 / 32
Перцептрон: результаты
30 / 32
Задача: Мультикласс классификация
one-vs-rest
Строим K моделей, каждая соответствует одному классу
one-vs-one
Строим K(K − 1)/2 моделей, каждая соответствует паре классов
Задача
Скачать шаблон кода http://bit.ly/1DvG6hh
Реализовать схему one-vs-one
Нарисовать раздляющие поверхности на графиках
Посчитать итоговую accuracy
31 / 32
Вопросы
32 / 32

More Related Content

PDF
Лекция №4 "Задача классификации"
PDF
Лекция №1 "Задачи Data Mining"
PDF
Geometrija 9-klas-bevz-2017
PPT
Jpeg2000
PDF
ディジタル信号処理 課題解説 その9
PDF
Applications Of MATLAB Ordinary Differential Equations (ODE
PDF
Лекция №11 "Основы нейронных сетей"
PPT
Презентація:Комп"ютери та їх різновиди
Лекция №4 "Задача классификации"
Лекция №1 "Задачи Data Mining"
Geometrija 9-klas-bevz-2017
Jpeg2000
ディジタル信号処理 課題解説 その9
Applications Of MATLAB Ordinary Differential Equations (ODE
Лекция №11 "Основы нейронных сетей"
Презентація:Комп"ютери та їх різновиди

What's hot (12)

PPT
Яким буде місто майбутнього
PDF
практ.зан. 1. степеневі ряди
PPT
cours1_courtellemont.ppt
PPT
Формули скороченого множення
PPT
Circuits chp.2 méthodes d'étude des circuits
PPS
الفرق بين مربعين و تحليله
PPT
Circuits Chp.2 MéThodes D
PDF
Cours sur les AOP.pdf
PPT
Hexadecimal
KEY
Derivoiminen
PDF
DM2020 boolean algebra
PPS
Conversion numérique analogique
Яким буде місто майбутнього
практ.зан. 1. степеневі ряди
cours1_courtellemont.ppt
Формули скороченого множення
Circuits chp.2 méthodes d'étude des circuits
الفرق بين مربعين و تحليله
Circuits Chp.2 MéThodes D
Cours sur les AOP.pdf
Hexadecimal
Derivoiminen
DM2020 boolean algebra
Conversion numérique analogique
Ad

Viewers also liked (6)

PDF
Лекция №3 "Различные алгоритмы кластеризации"
PDF
L10: Алгоритмы кластеризации
PDF
Лекция №2 "Задача кластеризации и ЕМ-алгоритм"
PDF
Лекция №7 "Машина опорных векторов"
PDF
Лекция №5 "Обработка текстов, Naive Bayes"
PDF
Введение в машинное обучение
Лекция №3 "Различные алгоритмы кластеризации"
L10: Алгоритмы кластеризации
Лекция №2 "Задача кластеризации и ЕМ-алгоритм"
Лекция №7 "Машина опорных векторов"
Лекция №5 "Обработка текстов, Naive Bayes"
Введение в машинное обучение
Ad

Similar to Лекция №6 "Линейные модели для классификации и регрессии" (20)

PDF
L3: Линейная и логистическая регрессия
PDF
L2: Задача классификации и регрессии. Метрики ошибок
PDF
Изучайте Machine Learning во имя добра или Teach my shiny metal ass
PDF
К.В. Воронцов "Линейные методы классификации"
PDF
L6: Метод опорных векторов
PDF
CV2015. Лекция 4. Классификация изображений и введение в машинное обучение.
PDF
CV2011 Lecture 7. Recognition
PDF
CV2011 Lecture 6. Fitting
PDF
Machine Learning. Курс лекций
PPT
Истинная модель парной линейной регрессии
PPT
Михаил Александров. Индуктивное моделирование.
PPT
Михаил Александров. Индуктивное моделирование.
PPT
Линейная регрессия
PPT
Прогнозирование - Лекция 2. Корреляционный анализ и простая линейная регрессия
PDF
Анализ данных. Лекция 2
PPT
Конкурс презентаций - Малашенко
PPTX
!Predictive analytics part_2
PDF
ИТМО Machine Learning. Рекомендательные системы — часть 2
PDF
логистическая регрессия
PDF
Методы обучения линейных моделей
L3: Линейная и логистическая регрессия
L2: Задача классификации и регрессии. Метрики ошибок
Изучайте Machine Learning во имя добра или Teach my shiny metal ass
К.В. Воронцов "Линейные методы классификации"
L6: Метод опорных векторов
CV2015. Лекция 4. Классификация изображений и введение в машинное обучение.
CV2011 Lecture 7. Recognition
CV2011 Lecture 6. Fitting
Machine Learning. Курс лекций
Истинная модель парной линейной регрессии
Михаил Александров. Индуктивное моделирование.
Михаил Александров. Индуктивное моделирование.
Линейная регрессия
Прогнозирование - Лекция 2. Корреляционный анализ и простая линейная регрессия
Анализ данных. Лекция 2
Конкурс презентаций - Малашенко
!Predictive analytics part_2
ИТМО Machine Learning. Рекомендательные системы — часть 2
логистическая регрессия
Методы обучения линейных моделей

More from Technosphere1 (19)

PDF
Лекция №10 "Алгоритмические композиции. Завершение"
PDF
Лекция №13 "Глубокие нейронные сети"
PDF
Лекция №12 "Ограниченная машина Больцмана"
PDF
Лекция №9 "Алгоритмические композиции. Начало"
PDF
Лекция №8 "Методы снижения размерности пространства"
PDF
L13: Заключительная
PDF
Л9: Взаимодействие веб-приложений
PDF
Л8 Django. Дополнительные темы
PDF
Webdev7 (2)
PDF
L11: Метод ансамблей
PDF
Мастер-класс: Особенности создания продукта для мобильного веб
PDF
Web лекция 1
PDF
Мастер-класс: "Интеграция в промышленную разработку"
PDF
Webdev7: Обработка HTTP запросов. Django Views
PDF
L8: Л7 Em-алгоритм
PDF
L7:Задача кластеризации. Метрики качества
PDF
L5: Л5 Байесовские алгоритмы
PDF
L4: Решающие деревья
PDF
L1 Вводная лекция. Обзор основных задач Data Science (Лекция №1)
Лекция №10 "Алгоритмические композиции. Завершение"
Лекция №13 "Глубокие нейронные сети"
Лекция №12 "Ограниченная машина Больцмана"
Лекция №9 "Алгоритмические композиции. Начало"
Лекция №8 "Методы снижения размерности пространства"
L13: Заключительная
Л9: Взаимодействие веб-приложений
Л8 Django. Дополнительные темы
Webdev7 (2)
L11: Метод ансамблей
Мастер-класс: Особенности создания продукта для мобильного веб
Web лекция 1
Мастер-класс: "Интеграция в промышленную разработку"
Webdev7: Обработка HTTP запросов. Django Views
L8: Л7 Em-алгоритм
L7:Задача кластеризации. Метрики качества
L5: Л5 Байесовские алгоритмы
L4: Решающие деревья
L1 Вводная лекция. Обзор основных задач Data Science (Лекция №1)

Лекция №6 "Линейные модели для классификации и регрессии"

  • 1. Лекция 6 Линейные модели для классификации и регрессии Николай Анохин 29 октября 2014 г.
  • 2. План занятия Линейная регрессия Логистическая регрессия Обобщенные линейные модели 1 / 32
  • 3. Постановка задачи Пусть дан набор объектов D = {(xi , yi )}, xi ∈ X, yi ∈ Y, i ∈ 1, . . . , N, полученный из неизвестной закономерности y = f (x). Необходимо выбрать из семейства параметрических функций H = {h(x, θ) : X × Θ → Y} такую h∗ (x) = h(x, θ∗ ), которая наиболее точно апроксимирует f (x). Задачи Регрессия: Y = [a, b] ⊂ R Классификация: |Y| < C 2 / 32
  • 5. Модель y = h(x, θ) + , где – гауссовский шум p( ) = N( |0, β−1 ), откуда p(y|x, θ, β) = N(y|h(x, θ), β−1 ). Предсказание E[y|x] = yp(y|x)dy = h(x, θ). 4 / 32
  • 6. Линейная модель простейшая модель h(x, w) = w0+w1x1+. . .+wM xM = M j=0 wj xj улучшенная модель h(x, w) = M j=0 wj φj (x) = wT φ(x), φj (x) – базисные функции, φ0(x) = 1 примеры ϕj (x) = xj , ϕj (x) = exp − (x − µj )2 2s2 5 / 32
  • 7. ML – функция правдоподобия Дана обучающая выборка D = (X, Y ) из N объектов (xn, yn) Функция правдоподобия log p(Y |X, w, β) = N n=1 log N(y|wT φ(xn), β−1 ) = = N 2 log β − N 2 log 2π − β 2 N n=1 {yn − wT φ(xn)}2 → max w,β Квадратичная функция потерь ED(w) = 1 2 N n=1 {yn − wT φ(xn)}2 → min w 6 / 32
  • 8. ML – решение log p(Y |X, w, β) = N 2 log β − N 2 log 2π − β 2 N n=1 {yn − wT φ(xn)}2 → max w,β Градиент β N n=1 {yn − wT φ(xn)}φ(xn)T = 0 Решение wML = Φ† Y = (ΦT Φ)−1 ΦT Y , 1 βML = 1 N N n=1 {yn − wT MLφ(xn)}2 , где Φ =     φ0(x1) . . . φM (x1) φ0(x2) . . . φM (x2) . . . . . . . . . φ0(xN) . . . φM (xN)     7 / 32
  • 9. Регуляризация Функция потерь E(w, λ) = ED(w) + λEW (w), где (как и раньше) ED(w) = 1 2 N n=1 {yn − wT φ(xn)}2 → min w , плюс регуляризация EW (w) = Eq(w) = M j=1 |wj |q Зоопарк q = 1 – Lasso q = 2 – Ridge (байесовский вывод: p(w|α) = N(w|0, α−1 I)) EW (w) = ρE1(w) + (1 − ρ)E2(w) – Elastic Net 8 / 32
  • 11. Ирисы Фишера Setosa Versicolor Virginica Задача Определить вид ириса на основании длины чашелистика, ширины чашелистика, длины лепестка и ширины лепестка. 10 / 32
  • 13. Многомерное нормальное распределение N(x|µ, Σ) = 1 (2π)D/2 1 |Σ|1/2 exp − 1 2 (x − µ)T Σ−1 (x − µ) Параметры D-мерный вектор средних D × D-мерная матрица ковариации µ = xp(x)dx Σ = E[(x − µ)(x − µ)T ] 12 / 32
  • 14. Генеративная модель Рассматриваем 2 класса p(y1|x) = p(x|y1)p(y1) p(x|y1)p(y1) + p(x|y2)p(y2) = 1 1 + e−a = σ(a) a = ln p(x|y1)p(y1) p(x|y2)p(y2) σ(a) – сигмоид-функция, a = ln(σ/(1 − σ)) 13 / 32
  • 15. Случай нормальных распределений Пусть p(x|yk ) = N(x|µk , Σ), тогда p(y1|x) = σ(wT x + w0), где w = Σ−1 (µ1 − µ2) w0 = − 1 2 µT 1 Σ−1 µ1 + 1 2 µT 2 Σ−1 µ2 + ln p(y1) p(y2) Аналогичный результат для любых распределений из экспоненциального семейства 14 / 32
  • 16. Maximum Likelihood p(y1, x) = p(y1)p(x|y1) = πN(x|µ1, Σ) p(y2, x) = p(y2)p(x|y2) = (1 − π)N(x|µ2, Σ) Функция правдоподобия p(Y , X|π, µ1, µ2, Σ) = N n=1 [πN(x|µ1, Σ)] yn [(1 − π)N(x|µ2, Σ)] 1−yn Максимизируя log p(Y , X|π, µ1, µ2, Σ), имеем π = 1 N N n=1 yn = N1 N1 + N2 , µ1 = 1 N1 N n=1 ynxn, µ2 = 1 N2 N n=1 (1 − yn)xn, аналогично для Σ 15 / 32
  • 17. Обобщенная линеная модель Базисные функции φn(x) φn(x) = exp − (x − µn)2 2s2 Функция активации f (a) f (a) = σ(a) (Совсем) обобщенная линейная модель y(x, w) = f (w φ(x)) 16 / 32
  • 18. Логистическая регрессия Дано. D = {φn = φ(xn), yn}, yn ∈ {0, 1}, n = 1 . . . N Модель. p(y = 1|φ) = σ(w φ) функция правдоподобия (кросс-энтропия) l(w) = log N n=1 pyn (y = 1|φn)(1 − p(y = 1|φn))1−yn = = N n=1 yn log p(y = 1|φn) + (1 − yn) log(1 − p(y = 1|φn)) = −Jc (w) → max w Градиент Jc (w) = N n=1 (p(y = 1|φn) − yn)φn Гессиан 2 Jc (w) = N n=1 p(y = 1|φn)(1 − p(y = 1|φn))φnφT n 17 / 32
  • 19. Градиентный спуск 1 function gd(grad, a0, epsilon): 2 initialise eta(k) 3 k = 0 4 a = a0 5 do: 6 k = k + 1 7 a = a - eta(k) grad(a) 8 until eta(k) grad(a) < epsilon 9 return a Добавление момента: ak+1 = ak − ηk J(ak ) + µk (ak − ak−1) 18 / 32
  • 20. Метод Ньютона J(a) ≈ J(ak ) + J(ak )T (a − ak ) + 1 2 (a − ak )T 2 J(ak )(a − ak ) → min a a = ak − 2 J(ak )−1 J(ak ) 1 function newton(grad, hessian, a0, epsilon): 2 initialise eta(k) 3 k = 0 4 a = a0 5 do: 6 k = k + 1 7 g = grad(a) 8 H = hessian(a) 9 d = solve(H * d = -g) # find d = - inv(H) * g 10 a = a + eta(k) d 11 until convergence 12 return a BFGS – использовать приближение 2 J(ak ) или 2 J(ak )−1 19 / 32
  • 21. Iterative Reweighted Least Squares Градиент и Гессиан логистической регрессии в матричной форме Jc (w) = XT (σ − Y ) 2 Jc (w) = XT SX = XT diag{σn(1 − σn)}X Обновление весов wk+1 = wk − (XT Sk X)−1 XT Sk zk , zk = Xwk + S−1 k (Y − σk ) Минимизация N n=1 Skn(zkn − wT xn)2 20 / 32
  • 24. Линейные модели Рассматривается случай 2 классов Функция принятия решения y(x) = w x + w0 Регионы принятия решения R1 = {x : y(x) > 0} R2 = {x : y(x) < 0} Задача найти параметры модели w, w0 23 / 32
  • 25. Линейные модели: наблюдения Разделяющая поверхность D = {x : w x + w0 = 0} 1. w – нормаль к D 2. d = − w0 w – расстояние от центра координат до D 3. r(x) = y(x) w – расстояние от D до x Положим x0 ≡ 1, получим модель y(˜x) = ˜w ˜x 24 / 32
  • 26. Обобщенные линейные модели Линейная модель y(x) = w0 + wi xi Квадратичная модель y(x) = w0 + wi xi + wij xi xj Обобщенная линейная модель g(x) = ai φi (x) = a y 25 / 32
  • 27. Случай линейно разделимых классов Обобщенная линейная модель g(x) = ai φi (x) = a y Дана обучающая выборка Y = {y1, . . . , yN } Идея Преобразовать объекты второго класса в обратные им и решать задачу оптимизации в области aT yi > 0, ∀i 26 / 32
  • 28. Задача оптимизации Задача Минимизируем критерий J(a) при условиях aT yi > 0, ∀i Пусть Y – множество неправильно проклассифицированных объектов Je(a) = y∈Y 1 Jp(a) = y∈Y −a y Jq(a) = y∈Y (a y)2 Jr (a) = y∈Y (a y)2 −b y Улучшение: добавить отступы 27 / 32
  • 29. Случай линейно неразделимых классов Использовать η(k) → 0 при k → ∞ От системы неравенств перейти к системе линейных уравнений Линейное программирование 28 / 32
  • 30. Снова переобучение Оптимизируем критерий с регуляризацией J1(a) = J(a) + λJR (a) λ – коэффициент регуляризации JR (a) = |aj |q 29 / 32
  • 32. Задача: Мультикласс классификация one-vs-rest Строим K моделей, каждая соответствует одному классу one-vs-one Строим K(K − 1)/2 моделей, каждая соответствует паре классов Задача Скачать шаблон кода http://bit.ly/1DvG6hh Реализовать схему one-vs-one Нарисовать раздляющие поверхности на графиках Посчитать итоговую accuracy 31 / 32