46.
Линейная регрессия
Пусть имеются две зависимых случайных величины X и Y. Зададим функцию, связывающую между собой эти две случайных величины. Например, можно говорить о зависимости случайной величины — тока на резисторе от другой случайной величины — напряжения прикладываемого к этому резистору. Действительно, и ток, и напряжение, и само сопротивление резистора в зависимости от внешних условий могут меняться в некоторых пределах. В идеальном случае это была бы прямая, проходящая через начало координат (при нулевом напряжении будет нулевой ток), при этом тангенс угла наклона будет равен сопротивлению резистора. Но в реальных измерениях мы получим набор точек (ток — напряжение), который не укладывается точно на прямую: часть точек лежит несколько выше прямой, часть точек — ниже. Задать функцию, связывающую две случайных величины (ток как функцию напряжения) означает найти параметры прямой, такие, чтобы прямая наиболее близко проходила к экспериментальным точкам. Не все величины, как ток и напряжение, связаны между собой линейной зависимостью, однако можно выбором другой случайной величины прийти к линейной зависимости. Например, если известно, что связь между X и Y экспоненциальная, то есть , то выбирая вместо Y другую величину , получим линейную связь . Поэтому будем в дальнейшем рассматривать линейную связь случайных величин X и Y и будем говорить о так называемой линейной регрессииYна X. Другими словами, будем строить функцию, связывающую две случайных величины, X и Y, в виде , где коэффициенты α и β определяются таким образом, чтобы функция имела наименьшее возможное значение (среднеквадратичная линейная регрессия).Теорема. Линейная среднеквадратичная регрессия случайной величины Yна случайную величину Xимеет вид , где .Доказательство.Преобразуем функцию к виду:и исследуем ее на экстремум, для чего вычислим производные:,.Экстремум определяется равенством нулю частных производные, таким образом, имеем систему:.Домножая первое уравнение на и вычитая его из второго, получим коэффициент:.Выражая α из первого уравнения и подставляя найденное значение β, получим:.То, что эти значения дают именно минимум f (α, β) (а не максимум), очевидно из того факта, что максимума здесь быть не может. Это на примере можно охарактеризовать тем, что прямую, в принципе, можно провести сколь угодно далеко от экспериментальных точек. Теорема доказана.Пример 46.1Для совокупности двух случайных величин X и Y, заданных законом распределения (см. таблицу ниже), построить прямую, осуществляющую линейную среднеквадратичную регрессию Y на X.

 

x1 = -1

x2 = 0

x3 = 1

y1 = 0

0,1

0,2

0,1

y2 = 2

0,3

0,2

0,1

Уравнение прямой имеет вид . Вычислим все величины, входящие в уравнение:,,,.В итоге закон регрессии Y на X имеет вид:.
Видеолекция «Линейная регрессия»: