Линейная регрессия

В этом модуле рассматриваются концепции линейной регрессии .

Линейная регрессия — это статистический метод, используемый для поиска взаимосвязи между переменными. В контексте машинного обучения линейная регрессия находит взаимосвязь между признаками и меткой .

Например, предположим, что мы хотим спрогнозировать топливную экономичность автомобиля в милях на галлон на основе его веса, и у нас есть следующий набор данных:

Фунты в тысячах (репортаж) Миль на галлон (маркировка)
3.5 18
3.69 15
3.44 18
3.43 16
4.34 15
4.42 14
2.37 24

Если мы нанесем эти точки на график, то получим следующий график:

Рисунок 1. Точки данных, показывающие нисходящий тренд слева направо.

Рисунок 1. Вес автомобиля (в фунтах) в зависимости от пробега в милях на галлон. По мере увеличения веса автомобиля его пробег в милях на галлон, как правило, снижается.

Мы могли бы создать собственную модель, проведя линию наилучшего соответствия через точки:

Рисунок 2. Точки данных и проведенная через них линия наилучшего соответствия, представляющая модель.

Рисунок 2. Линия наилучшего соответствия, проведенная через данные из предыдущего рисунка.

Уравнение линейной регрессии

В алгебраических терминах модель будет определяться как $ y = mx + b $, где

  • $ y $ — это мили на галлон — значение, которое мы хотим предсказать.
  • $ m $ — наклон прямой.
  • $ x $ — это фунты (наше входное значение).
  • $ b $ - точка пересечения с осью y.

В ML мы записываем уравнение для модели линейной регрессии следующим образом:

$$ y' = b + w_1x_1 $$

где:

  • $ y' $ — прогнозируемая метка — выход.
  • $ b $ — это смещение модели. Смещение — это то же самое понятие, что и пересечение с осью Y в алгебраическом уравнении для прямой. В машинном обучении смещение иногда обозначается как $ w_0 $. Смещение — это параметр модели, рассчитываемый в процессе обучения.
  • $w_1$ — это вес признака. Вес — это то же самое понятие, что и наклон $m$ в алгебраическом уравнении прямой. Вес — это параметр модели, который рассчитывается в процессе обучения.
  • $ x_1 $ — это признак — входные данные.

В процессе обучения модель рассчитывает вес и смещение, которые позволяют получить наилучшую модель.

Рисунок 3. Уравнение y' = b + w1x1, в котором каждый компонент аннотирован с указанием своего назначения.

Рисунок 3. Математическое представление линейной модели.

В нашем примере мы рассчитаем вес и смещение по нарисованной нами линии. Смещение равно 34 (точка пересечения линии с осью Y), а вес равен –4,6 (наклон линии). Модель будет определена как $ y' = 34 + (-4,6)(x_1) $, и мы сможем использовать её для прогнозирования. Например, используя эту модель, автомобиль весом 4000 фунтов (1800 кг) будет иметь прогнозируемую топливную экономичность 15,6 миль на галлон (24,7 км/галлон).

Рисунок 4. Тот же график, что и на рисунке 2, с выделенной точкой (4, 15,6).

Рисунок 4. Используя эту модель, автомобиль весом 4000 фунтов имеет прогнозируемую топливную экономичность 15,6 миль на галлон.

Модели с множеством функций

Хотя в примере в этом разделе используется только одна характеристика — вес автомобиля, более сложная модель может опираться на несколько характеристик, каждая из которых имеет свой вес ($ w_1 $, $ w_2 $ и т. д.). Например, модель, опирающаяся на пять характеристик, будет записана следующим образом:

$ y' = b + w_1x_1 + w_2x_2 + w_3x_3 + w_4x_4 + w_5x_5 $

Например, модель, прогнозирующая расход топлива, может дополнительно использовать такие функции, как:

  • Объем двигателя
  • Ускорение
  • Количество цилиндров
  • Лошадиная сила

Эта модель будет записана следующим образом:

Рисунок 5. Уравнение линейной регрессии с пятью признаками.

Рисунок 5. Модель с пятью характеристиками для прогнозирования пробега автомобиля на галлон.

Построив график нескольких дополнительных характеристик, мы можем увидеть, что они также имеют линейную зависимость от значения на этикетке — миль на галлон:

Рисунок 6. График зависимости рабочего объема в кубических сантиметрах от количества миль на галлон, демонстрирующий отрицательную линейную зависимость.

Рисунок 6. Объём двигателя автомобиля в кубических сантиметрах и его расход топлива в милях на галлон. По мере увеличения объёма двигателя автомобиля его расход топлива в милях на галлон, как правило, снижается.

Рисунок 7. График разгона от нуля до шестидесяти в секундах в зависимости от количества миль на галлон, показывающий положительную линейную зависимость.

Рисунок 7. Ускорение автомобиля и его расход топлива. Чем дольше автомобиль разгоняется, тем выше расход топлива.

Упражнение: проверьте свое понимание

Какие части уравнения линейной регрессии обновляются во время обучения?
Смещение и веса
В процессе обучения модель обновляет смещение и веса.
Предсказание
Прогнозы не обновляются во время обучения.
Значения характеристик
Значения признаков являются частью набора данных, поэтому они не обновляются во время обучения.