Регрессия (математика)

Материал из Википедии ? свободной энциклопедии
Перейти к навигации Перейти к поиску

Регре?ссия ( лат.   regressio  ? обратное движение, отход) в теории вероятностей и математической статистике  ? односторонняя стохастическая зависимость, устанавливающая соответствие между случайными переменными [1] , то есть математическое выражение , отражающее связь между зависимой переменной у и независимыми переменными х при условии, что это выражение будет иметь статистическую значимость . В отличие от чисто функциональной зависимости y = f ( x ), когда каждому значению независимой переменной x соответствует одно определённое значение величины y , при регрессионной связи одному и тому же значению x могут соответствовать в зависимости от случая различные значения величины y . Если при каждом значении наблюдается значений y i 1 y in i величины y , то зависимость средних арифметических от и является регрессией в статистическом понимании этого термина [2] .

Этот термин в статистике впервые был использован Френсисом Гальтоном (1886) в связи с исследованием вопросов наследования физических характеристик человека. В качестве одной из характеристик был взят рост человека; при этом было обнаружено, что в целом сыновья высоких отцов, что не удивительно, оказались более высокими, чем сыновья отцов с низким ростом. Более интересным было то, что разброс в росте сыновей был меньшим, чем разброс в росте отцов. Так проявлялась тенденция возвращения роста сыновей к среднему ( regression to mediocrity ), то есть ≪регресс≫. Этот факт был продемонстрирован вычислением среднего роста сыновей отцов, рост которых равен 56 дюймам, вычислением среднего роста сыновей отцов, рост которых равен 58 дюймам, и т. д. После этого результаты были изображены на плоскости, по оси ординат которой откладывались значения среднего роста сыновей, а по оси абсцисс  ? значения среднего роста отцов. Точки (приближённо) легли на прямую с положительным углом наклона меньше 45°; важно, что регрессия была линейной .

Допустим, имеется выборка из двумерного распределения пары случайных переменных ( X, Y ). Прямая линия в плоскости ( x, y ) была выборочным аналогом функции

В теории вероятностей под термином ≪регрессия≫ и понимают эту функцию, которая есть ни что иное как условное математическое ожидание случайной переменной Y при условии, что другая случайная переменная X приняла значение x . Если, например, пара ( X, Y ) имеет двумерное нормальное распределение с E ( X )=μ 1 , E ( Y )=μ 2 , var( X )=σ 1 2 , var( Y )=σ 2 2 , cor( X, Y )=ρ, то можно показать, что условное распределение Y при X = x также будет нормальным с математическим ожиданием , равным

и дисперсией

В этом примере регрессия Y на X является линейной функцией . Если регрессия Y на X отлична от линейной, то приведённые уравнения ? это линейная аппроксимация истинного уравнения регрессии.

В общем случае регрессия одной случайной переменной на другую не обязательно будет линейной. Также не обязательно ограничиваться парой случайных переменных. Статистические проблемы регрессии связаны с определением общего вида уравнения регрессии, построением оценок неизвестных параметров, входящих в уравнение регрессии, и проверкой статистических гипотез о регрессии [3] . Эти проблемы рассматриваются в рамках регрессионного анализа .

Простым примером регрессии Y по X является зависимость между Y и X , которая выражается соотношением: Y = u ( X )+ε, где u ( x )= E ( Y | X = x ), а случайные величины X и ε независимы. Это представление полезно, когда планируется эксперимент для изучения функциональной связи y = u ( x ) между неслучайными величинами y и x . На практике обычно коэффициенты регрессии в уравнении y = u ( x ) неизвестны и их оценивают по экспериментальным данным.

Линейная регрессия

[ править | править код ]

Представим зависимость y от x в виде линейной модели первого порядка:

Будем считать, что значения x определяются без ошибки, β 0 и β 1  ? параметры модели, а ε ? ошибка, распределение которой подчиняется нормальному закону с нулевым средним значением и постоянным отклонением σ 2 . Значения параметров β заранее не известны и их нужно определить из набора экспериментальных значений ( x i , y i ), i =1, …, n . Таким образом мы можем записать:

где означает предсказанное моделью значение y при данном x , b 0 и b 1  ? выборочные оценки параметров модели. Определим также  ? значение ошибки аппроксимации для -го наблюдения.

Для вычисления параметров модели по экспериментальным данным зачастую используют различные программы, предназначенные для статистической обработки данных. Однако для этого простого случая не сложно выписать подробные формулы [4] [5] .

Метод наименьших квадратов даёт следующие формулы для вычисления параметров данной модели и их отклонений:

здесь средние значения определяются как обычно: , и s e 2 обозначает остаточное отклонение регрессии, которое является оценкой дисперсии σ 2 в том случае, если модель верна.

Стандартные ошибки коэффициентов регрессии используются аналогично стандартной ошибке среднего ? для нахождения доверительных интервалов и проверки гипотез. Используем, например, критерий Стьюдента для проверки гипотезы о равенстве коэффициента регрессии нулю, то есть о его незначимости для модели. Статистика Стьюдента: . Если вероятность для полученного значения и n ?2 степеней свободы достаточно мала, например, <0,05 ? гипотеза отвергается. Напротив, если нет оснований отвергнуть гипотезу о равенстве нулю, скажем,  ? есть основание задуматься о существовании искомой регрессии, хотя бы в данной форме, или о сборе дополнительных наблюдений. Если же нулю равен свободный член , то прямая проходит через начало координат и оценка углового коэффициента равна

,

а её стандартной ошибки

Линия регрессии и 95%-е доверительные области для линии регрессии (пунктиром) и для значений (сплошные границы)

Обычно истинные величины коэффициентов регрессии β 0 и β 1 не известны. Известны только их оценки b 0 и b 1 . Иначе говоря, истинная прямая регрессии может пройти иначе, чем построенная по выборочным данным. Можно вычислить доверительную область для линии регрессии. При любом значении x соответствующие значения y распределены нормально. Средним является значение уравнения регрессии . Неопределённость его оценки характеризуется стандартной ошибкой регрессии:

Теперь можно вычислить -процентный доверительный интервал для значения уравнения регрессии в точке x :

,

где t (1?α/2, n ?2)  ? t -значение распределения Стьюдента. На рисунке показана линия регрессии, построенная по 10 точкам (сплошные точки), а также 95%-я доверительная область линии регрессии, которая ограничена пунктирными линиями. С 95%-й вероятностью можно утверждать, что истинная линия находится где-то внутри этой области. Или иначе, если мы соберём аналогичные наборы данных (обозначены кружками) и построим по ним линии регрессии (обозначены голубым цветом), то в 95 случаях из 100 эти прямые не покинут пределов доверительной области. (Для визуализации кликните по картинке) Обратите внимание, что некоторые точки оказались вне доверительной области. Это совершенно естественно, поскольку речь идёт о доверительной области линии регрессии, а не самих значений. Разброс значений складывается из разброса значений вокруг линии регрессии и неопределённости положения самой этой линии, а именно:

Здесь m  ? кратность измерения y при данном x . И -процентный доверительный интервал (интервал прогноза) для среднего из m значений y будет:

.

На рисунке эта 95%-я доверительная область при m =1 ограничена сплошными линиями. В эту область попадает 95 % всех возможных значений величины y в исследованном диапазоне значений x .

Еще немного статистики

[ править | править код ]

Можно строго доказать, что, если условное матожидание некоторой двумерной случайной величины ( X, Y ) является линейной функцией от , то это условное матожидание обязательно представимо в виде , где E ( X )=μ 1 , E ( Y )=μ 2 , var( X )=σ 1 2 , var( Y )=σ 2 2 , cor( X, Y )=ρ.

Более того, для уже упомянутой ранее линейной модели , где и  ? независимые случайные величины, а имеет нулевое матожидание (и произвольное распределение), можно доказать, что . Тогда с помощью указанного ранее равенства можно получить формулы для и : ,

.

Если откуда-то априори известно, что множество случайных точек на плоскости порождается линейной моделью, но с неизвестными коэффициентами и , можно получить точечные оценки этих коэффициентов по указанным формулам. Для этого в эти формулы вместо матожиданий, дисперсий и корреляции случайных величин X и Y нужно подставить их несмещенные оценки. Полученные формулы оценок в точности совпадут с формулами, выведенными на основе метода наименьших квадратов.

Примечания

[ править | править код ]
  1. Фёрстер Э., Рёнц Б. , Методы корреляционного и регрессионного анализа, 1983 , с. 15.
  2. Регрессия // Большая советская энциклопедия  : [в 30 т.]  / гл. ред. А. М. Прохоров . ? 3-е изд. ? М.  : Советская энциклопедия, 1969?1978.
  3. Справочник по прикладной статистике. В 2-х т. Т. 1: Пер. с англ. / Под ред. Э. Ллойда, У. Ледермана, Ю. Н. Тюрина. ? М.: Финансы и статистика, 1989. ? 510 с. ? ISBN 5-279-00245-3
  4. Лаваньини И., Маньо Ф., Сералья Р., Тральди П. Количественные методы в масс-спектрометрии ? М.: Техносфера, 2008. ? 176 с. ? ISBN 978-5-94836-190-1 ; ISBN 978-0-470-02516-1 (англ.)
  5. Сергиенко В. И., Бондарева И. Б. Математическая статистика в клинических исследованиях. ? 2-е изд., перераб. и доп. ? М.: ГЭОТАР-Медиа, 2006. ? 304 с. ? ISBN 5-9704-0197-8

Литература

[ править | править код ]
  • Фёрстер Э., Рёнц Б. Методы корреляционного и регрессионного анализа. Руководство для экономистов. ? М. : Финансы и статистика, 1983. ? 304 с. ? (Библиотечка иностранных книг для экономистов и статистиков).