05.01.2021

Мультиколлинеарность


Мультиколлинеарность (multicollinearity) — в эконометрике (регрессионный анализ) — наличие линейной зависимости между объясняющими переменными (факторами) регрессионной модели. При этом различают полную коллинеарность, которая означает наличие функциональной (тождественной) линейной зависимости и частичную или просто мультиколлинеарность — наличие сильной корреляции между факторами.

Полная коллинеарность приводит к неопределенности параметров в линейной регрессиионной модели независимо от методов оценки. Рассмотрим это на примере следующей линейной модели

y = b 1 x 1 + b 2 x 2 + b 3 x 3 + ε {displaystyle y=b_{1}x_{1}+b_{2}x_{2}+b_{3}x_{3}+varepsilon }

Пусть факторы этой модели тождественно связаны следующим образом: x 1 = x 2 + x 3 {displaystyle x_{1}=x_{2}+x_{3}} . Тогда рассмотрим исходную линейную модель, в которой к первому коэффициенту добавим произвольное число a, а из двух других коэффициентов это же число вычтем. Тогда имеем (без случайной ошибки):

y = ( b 1 + a ) x 1 + ( b 2 − a ) x 2 + ( b 3 − a ) x 3 = b 1 x 1 + b 2 x 2 + b 3 x 3 + a ( x 1 − x 2 − x 3 ) = b 1 x 1 + b 2 x 2 + b 3 x 3 {displaystyle y=(b_{1}+a)x_{1}+(b_{2}-a)x_{2}+(b_{3}-a)x_{3}=b_{1}x_{1}+b_{2}x_{2}+b_{3}x_{3}+a(x_{1}-x_{2}-x_{3})=b_{1}x_{1}+b_{2}x_{2}+b_{3}x_{3}}

Таким образом, несмотря на относительно произвольное изменение коэффициентов модели мы получили ту же модель. Такая модель принципиально неидентифицируема. Неопределенность существует уже в самой модели. Если рассмотреть 3-мерное пространство коэффициентов, то в этом пространстве вектор истинных коэффициентов в данном случае не единственный, а представляет собой целую прямую линию! Любая точка этой прямой — истинный вектор коэффициентов.

В связи с этим проблема полной коллинеарности факторов решается уже на стадии отбора переменных при моделировании и поэтому к проблеме качества эконометрических оценок параметров отношения не имеет. На практике чаще возникает другая ситуация — сильная корреляция между факторами.

Последствия мультиколлинеарности

Если полная коллинеарность приводит к неопределенности значений параметров, то частичная мультиколлинеарность приводит к неустойчивости их оценок. Неустойчивость выражается в увеличении статистической неопределенности — дисперсии оценок. Это означает, что конкретные результаты оценки могут сильно различаться для разных выборок несмотря на то, что выборки однородны.

Как известно ковариационная матрица оценок параметров множественной регрессии методом наименьших квадратов равна σ 2 n V x − 1 {displaystyle {frac {sigma ^{2}}{n}}V_{x}^{-1}} . Тем самым чем «меньше» ковариационная матрица (её определитель), тем «больше» ковариационная матрица оценок параметров, и, в частности, больше диагональные элементы этой матрицы, то есть дисперсии оценок параметров. Для большей наглядности рассмотрим это на примере двухфакторной модели:

y = b 0 + b 1 x 1 + b 2 x 2 + ε {displaystyle y=b_{0}+b_{1}x_{1}+b_{2}x_{2}+varepsilon }

Тогда дисперсия оценки параметра, например, при первом факторе равна:

σ b ^ 1 2 = σ 2 n σ ^ x 2 2 ( 1 − r ^ 2 ) {displaystyle sigma _{{hat {b}}_{1}}^{2}={frac {sigma ^{2}}{n{hat {sigma }}_{x_{2}}^{2}(1-{hat {r}}^{2})}}}

где r ^ {displaystyle {hat {r}}} — выборочный коэффициент корреляции между факторами.

Здесь наглядно видно, что чем больше по модулю корреляция между факторами, тем больше дисперсия оценок параметров. При | r | → 1 {displaystyle |r| ightarrow 1} (полная коллинеарность) дисперсия стремится к бесконечности, что соответствует сказанному ранее.

Таким образом, оценки параметров получаются неточными, а значит сложно будет дать интерпретацию влияния тех или иных факторов на объясняемую переменную. При этом на качестве модели в целом мультиколлинеарность не сказывается — она может признаваться статистически значимой, даже тогда, когда все коэффициенты незначимы (это один из признаков мультиколлинеарности).

Обнаружение мультиколлинеарности

Косвенными признаками мультиколлинеарности являются высокие стандартные ошибки оценок параметров модели, малые t-статистики (то есть незначимость коэффициентов), неправильные знаки оценок, при том, что модель в целом признается статистически значимой (большое значение F-статистики). О мультиколлинеарности также может свидетельствовать сильное изменение оценок параметров от добавления (или удаления) выборочных данных (если соблюдены требования достаточной однородности выборки).

Для обнаружения мультиколлинеарности факторов можно проанализировать непосредственно корреляционную матрицу факторов. Уже наличие больших по модулю (выше 0,7-0,8) значений коэффициентов парной корреляции свидетельствует о возможных проблемах с качеством получаемых оценок.

Однако, анализ парных коэффициентов корреляции недостаточен. Необходимо проанализировать коэффициенты детерминации регрессий факторов на остальные факторы ( R i 2 {displaystyle R_{i}^{2}} ). Рекомендуется рассчитывать показатель V I F = 1 / ( 1 − R j 2 ) {displaystyle VIF=1/(1-R_{j}^{2})} . Слишком высокие значения последнего означают наличие мультиколлинеарности.

Способы решения проблемы мультиколлинеарности

Метод главных компонент

Применение метода главных компонент к факторам модели позволяет преобразовать исходные факторы и получить совокупность ортогональных (некоррелированных) факторов. При этом наличие мультиколлинеарности позволит ограничиться небольшим количеством главных компонент. Тем не менее, может возникнуть проблема содержательной интерпретации главных компонент.

Рекурсивный МНК

Ридж-регрессия

Ридж-регрессия или гребневая регрессия предполагает оценку параметров по следующей формуле:

b ^ = ( X T X + λ I ) − 1 X T y {displaystyle {hat {b}}=(X^{T}X+lambda I)^{-1}X^{T}y}

Добавление параметра λ {displaystyle lambda } решает проблему плохой обусловленности матрицы X T X {displaystyle X^{T}X} . Эти оценки смещены, в отличие от МНК-оценок. Однако доказано, что существует такое λ {displaystyle lambda } , при котором эти оценки более эффективны, чем оценки МНК (оценки МНК эффективны(имеют наименьшую дисперсию) среди линейных несмещенных оценок). Тем не менее, четких правил выбора этого параметра нет.


Похожие новости:

Логарифмическая бумага

Логарифмическая бумага
Логарифмическая бумага — разновидность масштабно-координатной бумаги, на которой координатная сетка построена в логарифмическом масштабе. Обычно изготовляется типографским способом. Также

Сигнатура (линейная алгебра)

Сигнатура (линейная алгебра)
Сигнатура — числовая характеристика квадратичной формы или псевдоевклидова пространства, в котором скалярное произведение задано с помощью соответствующей квадратичной формы. Определение Каждая

Математическая статистика

Математическая статистика
Математическая статистика — наука, разрабатывающая математические методы систематизации и использования статистических данных для научных и практических выводов. Во многих своих разделах

Принципы изучения и картографирования ареалов энзоотических инфекционных болезней

Принципы изучения и картографирования ареалов энзоотических инфекционных болезней
В тематической картографии большое внимание уделяется разработке принципов и методов оценочного картографирования. Созданы карты оценки географической среды в связи с инфекциями животных. Один из
Комментариев пока еще нет. Вы можете стать первым!

Добавить комментарий!

Ваше Имя:
Ваш E-Mail:
Введите два слова, показанных на изображении: *
Популярные новости
5 главных преимуществ композитного настила
5 главных преимуществ композитного настила
Композитный настил считается одним из самых популярных типов покрытия для садовых дорожек, летних...
Ассортимент продукции производственной компании «Ревентер»
Ассортимент продукции производственной компании «Ревентер»
Производственная компания «Ревентер» имеет в наличии большой ассортимент продукции, среди которой...
Снабжение ЖКХ - оперативно и эффективно
Снабжение ЖКХ - оперативно и эффективно
Жилищно-коммунальное хозяйство представляет собой огромную совокупность различных отраслей...
Все новости