У этого термина существуют и другие значения, см.
Регрессия
.
Регре?ссия
(
лат.
regressio
? обратное движение, отход) в
теории вероятностей
и
математической статистике
?
односторонняя
стохастическая
зависимость, устанавливающая соответствие между случайными переменными
[1]
, то есть
математическое выражение
, отражающее связь между зависимой переменной
у
и независимыми переменными
х
при условии, что это выражение будет иметь
статистическую значимость
. В отличие от чисто
функциональной зависимости
y
=
f
(
x
), когда каждому значению независимой переменной
x
соответствует одно определённое значение величины
y
, при регрессионной связи одному и тому же значению
x
могут соответствовать в зависимости от случая различные значения величины
y
. Если при каждом значении
наблюдается
значений
y
i
1
…
y
in
i
величины
y
, то зависимость средних арифметических
от
и является регрессией в статистическом понимании этого термина
[2]
.
Этот термин в статистике впервые был использован
Френсисом Гальтоном
(1886) в связи с исследованием вопросов
наследования
физических характеристик человека. В качестве одной из характеристик был взят рост человека; при этом было обнаружено, что в целом сыновья высоких отцов, что не удивительно, оказались более высокими, чем сыновья отцов с низким ростом. Более интересным было то, что разброс в росте сыновей был меньшим, чем разброс в росте отцов. Так проявлялась тенденция возвращения роста сыновей к среднему (
regression to mediocrity
), то есть ≪регресс≫. Этот факт был продемонстрирован вычислением среднего роста сыновей отцов, рост которых равен 56 дюймам, вычислением среднего роста сыновей отцов, рост которых равен 58 дюймам, и т. д. После этого результаты были изображены на плоскости, по оси
ординат
которой откладывались значения среднего роста сыновей, а по оси
абсцисс
? значения среднего роста отцов. Точки (приближённо) легли на прямую с положительным углом наклона меньше 45°; важно, что регрессия была
линейной
.
Допустим, имеется выборка из двумерного распределения пары случайных переменных (
X, Y
). Прямая линия в плоскости (
x, y
) была выборочным аналогом функции
В теории вероятностей под термином ≪регрессия≫ и понимают эту функцию, которая есть ни что иное как
условное математическое ожидание
случайной переменной
Y
при условии, что другая случайная переменная
X
приняла значение
x
. Если, например, пара (
X, Y
) имеет
двумерное нормальное распределение
с
E
(
X
)=μ
1
,
E
(
Y
)=μ
2
,
var(
X
)=σ
1
2
,
var(
Y
)=σ
2
2
,
cor(
X, Y
)=ρ, то можно показать, что
условное распределение
Y
при
X
=
x
также будет нормальным с
математическим ожиданием
, равным
и
дисперсией
В этом примере регрессия
Y
на
X
является
линейной функцией
. Если регрессия
Y
на
X
отлична от линейной, то приведённые уравнения ? это линейная
аппроксимация
истинного уравнения регрессии.
В общем случае регрессия одной случайной переменной на другую не обязательно будет линейной. Также не обязательно ограничиваться парой случайных переменных. Статистические проблемы регрессии связаны с определением общего вида уравнения регрессии, построением оценок неизвестных параметров, входящих в уравнение регрессии, и проверкой статистических гипотез о регрессии
[3]
. Эти проблемы рассматриваются в рамках
регрессионного анализа
.
Простым примером регрессии
Y
по
X
является зависимость между
Y
и
X
, которая выражается соотношением:
Y
=
u
(
X
)+ε, где
u
(
x
)=
E
(
Y
|
X
=
x
), а случайные величины
X
и ε независимы. Это представление полезно, когда планируется эксперимент для изучения функциональной связи
y
=
u
(
x
) между неслучайными величинами
y
и
x
. На практике обычно коэффициенты регрессии в уравнении
y
=
u
(
x
) неизвестны и их оценивают по экспериментальным данным.
Представим зависимость
y
от
x
в виде линейной модели первого порядка:
Будем считать, что значения
x
определяются без ошибки, β
0
и β
1
? параметры модели, а ε ? ошибка, распределение которой подчиняется нормальному закону с нулевым средним значением и постоянным отклонением σ
2
. Значения параметров β заранее не известны и их нужно определить из набора экспериментальных значений (
x
i
, y
i
),
i
=1, …,
n
. Таким образом мы можем записать:
где
означает предсказанное моделью значение
y
при данном
x
,
b
0
и
b
1
? выборочные оценки параметров модели. Определим также
? значение ошибки аппроксимации для
-го наблюдения.
Для вычисления параметров модели по экспериментальным данным зачастую используют различные программы, предназначенные для статистической обработки данных. Однако для этого простого случая не сложно выписать подробные формулы
[4]
[5]
.
Метод наименьших квадратов
даёт следующие формулы для вычисления параметров данной модели и их отклонений:
здесь средние значения определяются как обычно:
,
и
s
e
2
обозначает остаточное отклонение регрессии, которое является оценкой дисперсии σ
2
в том случае, если модель верна.
Стандартные ошибки коэффициентов регрессии используются аналогично стандартной ошибке среднего ? для нахождения
доверительных интервалов
и проверки гипотез. Используем, например,
критерий Стьюдента
для проверки гипотезы о равенстве коэффициента регрессии нулю, то есть о его незначимости для модели. Статистика Стьюдента:
. Если вероятность для полученного значения и
n
?2 степеней свободы достаточно мала, например, <0,05 ? гипотеза отвергается.
Напротив, если нет оснований отвергнуть гипотезу о равенстве нулю, скажем,
? есть основание задуматься о существовании искомой регрессии, хотя бы в данной форме, или о сборе дополнительных наблюдений. Если же нулю равен свободный член
, то прямая проходит через начало координат и оценка углового коэффициента равна
- ,
а её стандартной ошибки
Обычно истинные величины коэффициентов регрессии β
0
и β
1
не известны. Известны только их оценки
b
0
и
b
1
. Иначе говоря, истинная прямая регрессии может пройти иначе, чем построенная по выборочным данным. Можно вычислить доверительную область для линии регрессии. При любом значении
x
соответствующие значения
y
распределены нормально. Средним является значение уравнения регрессии
. Неопределённость его оценки характеризуется стандартной ошибкой регрессии:
Теперь можно вычислить
-процентный доверительный интервал для значения уравнения регрессии в точке
x
:
- ,
где
t
(1?α/2,
n
?2)
?
t
-значение распределения Стьюдента. На рисунке показана линия регрессии, построенная по 10 точкам (сплошные точки), а также 95%-я доверительная область линии регрессии, которая ограничена пунктирными линиями. С 95%-й вероятностью можно утверждать, что истинная линия находится где-то внутри этой области. Или иначе, если мы соберём аналогичные наборы данных (обозначены кружками) и построим по ним линии регрессии (обозначены голубым цветом), то в 95 случаях из 100 эти прямые не покинут пределов доверительной области.
(Для визуализации кликните по картинке)
Обратите внимание, что некоторые точки оказались вне доверительной области. Это совершенно естественно, поскольку речь идёт о доверительной области линии регрессии, а не самих значений. Разброс значений складывается из разброса значений вокруг линии регрессии и неопределённости положения самой этой линии, а именно:
Здесь
m
? кратность измерения
y
при данном
x
. И
-процентный доверительный интервал (интервал прогноза) для среднего из
m
значений
y
будет:
- .
На рисунке эта 95%-я доверительная область при
m
=1 ограничена сплошными линиями. В эту область попадает 95 % всех возможных значений величины
y
в исследованном диапазоне значений
x
.
Можно строго доказать, что, если условное матожидание
некоторой двумерной случайной величины (
X, Y
) является линейной функцией от
, то это условное матожидание обязательно представимо в виде
, где
E
(
X
)=μ
1
,
E
(
Y
)=μ
2
,
var(
X
)=σ
1
2
,
var(
Y
)=σ
2
2
,
cor(
X, Y
)=ρ.
Более того, для уже упомянутой ранее линейной модели
, где
и
? независимые случайные величины, а
имеет нулевое матожидание (и произвольное распределение), можно доказать, что
. Тогда с помощью указанного ранее равенства можно получить формулы для
и
:
,
.
Если откуда-то априори известно, что множество случайных точек на плоскости порождается линейной моделью, но с неизвестными коэффициентами
и
, можно получить точечные оценки этих коэффициентов по указанным формулам. Для этого в эти формулы вместо матожиданий, дисперсий и корреляции случайных величин
X
и
Y
нужно подставить их несмещенные оценки. Полученные формулы оценок в точности совпадут с формулами, выведенными на основе метода наименьших квадратов.
- ↑
Фёрстер Э., Рёнц Б.
, Методы корреляционного и регрессионного анализа, 1983
, с. 15.
- ↑
Регрессия //
Большая советская энциклопедия
:
[в 30 т.]
/ гл. ред.
А. М. Прохоров
. ? 3-е изд. ?
М.
: Советская энциклопедия, 1969?1978.
- ↑
Справочник по прикладной статистике. В 2-х т. Т. 1: Пер. с англ. / Под ред. Э. Ллойда, У. Ледермана, Ю. Н. Тюрина. ? М.: Финансы и статистика, 1989. ? 510 с. ?
ISBN 5-279-00245-3
- ↑
Лаваньини И., Маньо Ф., Сералья Р., Тральди П. Количественные методы в масс-спектрометрии ? М.: Техносфера, 2008. ? 176 с. ?
ISBN 978-5-94836-190-1
;
ISBN 978-0-470-02516-1
(англ.)
- ↑
Сергиенко В. И., Бондарева И. Б. Математическая статистика в клинических исследованиях. ? 2-е изд., перераб. и доп. ? М.: ГЭОТАР-Медиа, 2006. ? 304 с. ?
ISBN 5-9704-0197-8
- Фёрстер Э., Рёнц Б.
Методы корреляционного и регрессионного анализа. Руководство для экономистов. ?
М.
: Финансы и статистика, 1983. ? 304 с. ? (Библиотечка иностранных книг для экономистов и статистиков).
Ссылки на внешние ресурсы
|
---|
| |
---|
Словари и энциклопедии
| |
---|