Экономические дисциплины - Статистика

Тема №6: Методы изучения корреляционной связи

 

  1. Статистические методы изучения взаимосвязи.
  2. Схема построения казуальных моделей.
  3. Особенности применения корреляционного анализа.

1. Статистические методы изучения взаимосвязи

Связи между общественными явлениями отражаются в статистических показателях, которые находятся между собой в определенных соотношениях. При этом одни из признаков выступают как признаки-факторы или причины, другие как результативные признаки или следствия. Использование статистических методов анализа позволяет изучить, измерить и дать количественное выражение взаимосвязи между явлениями общественной жизни, установленными на основе качественного анализа.

Виды взаимосвязей статистических показателей:

  1. Факторные взаимосвязи или корреляционные. Они проявляются в согласованной вариации различных признаков у единиц одной и той же совокупности и изучаются с помощью аналитической группировки и корреляционно регрессионного анализа.
  2. Компонентные взаимосвязи - это такие взаимосвязи, когда изменения какого-то сложного явления целиком определяется изменением компонентов входящих в выражение, характеризующих сложное явление. В отличие от предыдущей связи,  связи между показателем и компонентой жесткие. Изучаются эти показатели индексным методом.
  3. Балансовые взаимосвязи. Они служат для анализа балансовым методом пропорций в образовании ресурсов и их использования.

Корреляционные связи являются частным случаем статистической связи. Статистическая связь - это такая связь, что с изменением одной переменной вторая может в определенных пределах принимать любое значение, но ее статистические характеристики изменяются по определенному закону - разным значениям одной переменной соответствуют разные распределения другой. Частный случай корреляционной связи - функциональная связь. Статистические связи:

-         корреляционная связь – разным значениям одной переменной соответствуют разные средние значения другой;

-         функциональная связь – разным значениям одной переменной соответствуют одно или несколько точно заданных значений другой.

Корреляционная связь возникает различными путями:

  1. Причинная зависимость вариации результативного признака от вариации факторного.
  2. Следствие общей причины.
  3. Оба признака являются и причиной и следствием.

Формы корреляционной связи:

-         Прямая и обратная связь. Прямая связь - с увеличением факторного признака увеличивается и результативный. Обратная связь - с увеличением факторного признака результативный уменьшается.

-         Линейные связи и нелинейные.

-         Однофакторные связи и многофакторные.

Если корреляционная связь такова, что преобладающая доля вариации результативного признака обусловлена вариацией факторных признаков, то приблизительно можно считать зависимость функциональной и можно использовать эту зависимость для анализа и прогнозирования. Такие зависимости или модели называются регрессионными или казуальными или корреляционно-регрессионными.

2. Схема построения казуальных моделей

Рассмотрим схему построения казуальных моделей на примере построения прогнозной модели производительности труда.

Первый этап - это постановка задачи. Постановка задачи - это четкое определение цели создания модели и определение объекта моделирования. Например, необходимо составить план по производительности труда на следующую пятилетку на одном из предприятий г. Рязани. Мы можем поставить задачу об увеличении производительности труда в два раза, но это не будет обосновано. Необходимо определить от чего качественно зависит производительность труда, затем построить количественную модель, сделать прогноз по этим факторам и подставить прогнозные значения факторов в модель, а затем уже определить прогнозное значение производительности труда.

Второй этап это - сбор и систематизация статистической информации. Производительность труда называется результативным признаком - , факторные признаки – это признаки от которых  зависит производительность труда , где . При выборе факторного признака он должен быть количественно выражен; легко управляем; зависит от нас и влияет на производительность труда. Мы выбираем: удельный вес новой техники; заработная плата; основные фонды; продолжительность рабочего дня. Мы должны собрать информацию по этим признакам. Информация берется из документов предприятия. Причем исследуется максимальный перечень факторных признаков. Результат сбора информации оформляется в виде таблицы. Первый столбец - результативный признак, а последующие факторные признаки. Точка выборки - год (квартал). Мы также можем исследовать производительность на нескольких предприятиях, в течение несколько лет, тогда точка выборки завод-год.

завод

у   х1 х2 х3 ..    ..    ..  хn

1

 

2

 

3

 

 

- производительность труда в тыс.руб. на человека.

- фондовооруженность тыс.руб. на человека.

- энерговооруженность в киловаттах на человека.

- коэффициент специализации в процентах.

Третий этап - статистическая оценка значимости факторов или корреляционный анализ. Максимальный перечень факторов, составленный экспертами, может содержать несколько факторных признаков, которые слабо влияют на результативный, и которые не целесообразно включать в модель. Для оценки степени влияния двух случайных величин  и  друг на друга, можно использовать коэффициент парной корреляции., - смешанный центральный момент второго порядка. . Коэффициент корреляции: , где - объем выборки. Коэффициент парной корреляции меняется от -1(если связь обратная) до 1(если связь прямая). Если  и  не связаны между собой, то коэффициент равен нулю.

Результаты расчета коэффициентов парной корреляции оформляется в виде таблице.

..

1

 

 

 

 

1

 

 

..

 

 

 

 

..

 

 

 

 

 

 

 

1

 

Матрица имеет единицы по диагонали и симметрична относительно этой главной диагонали.

В нашем примере получена следующая таблица:

 

1

0,9

0,74

0,03

 

1

0,9

0,1

 

 

1

0,21

 

 

 

1

Выбор факторов включенных в модель производится в два шага. На первом шаге рассматриваются коэффициенты корреляции между результативными и факторными признаками. Если коэффициент превышает некоторое предварительно заданное число, то данный фактор включается в модель, в обратном случае исключается из рассмотрения. В нашем случае отбрасываем третий фактор. На втором шаге рассматриваются коэффициенты парной корреляции между оставшимися факторными признаками. Если рассматриваемых показатель превышает некоторое пороговое значение, то один из факторных признаков исключается. В обратном случае оба фактора включаются в модель.

Четвертый этап - построение эмпирического уравнения регрессии. Строятся графики зависимостей . Если большинство зависимостей линейны, то и общая модель будет линейной.

Пятый этап - построение однофакторных уравнений регрессии.

Рассмотри построение линейной регрессии.

Для нахождения коэффициентов регрессии   используется метод наименьших квадратов.

из этих уравнений получаем значение неизвестных коэффициентов регрессии

 


Помимо линейных зависимостей часто используются степенная, показательная зависимость:

Для нелинейных моделей метод наименьших квадратов не работает, поэтому необходимо привести нелинейную модель к линейной это делается путем логарифмирования и замены переменной.

Шестой этап построение многофакторной модели. Ее построение начинается с выборы формы зависимости. Если среди эмпирических зависимостей преобладают линейные зависимости, то строится многофакторная линейная зависимость . Если преобладает нелинейные зависимости, то и множественная регрессия будет нелинейной. Можно использовать в этом случае мультистепенную зависимость  , которую путем логарифмирования приводим к линейной: . Коэффициенты регрессии  определяются при помощи метода наименьших квадратов . Дифференцируя  по  и приравнивая частные производные к нулю, получаем систему уравнений, которую запишем в матричной форме - , где - матрица факторных признаков размерностью ,  - вектор-строка коэффициентов регрессии размерностью ,  -  вектор-столбец результирующего признака размерностью . Решая систему относительно неизвестных коэффициентов регрессии, получаем

Седьмой этап - оценка точности и адекватности регрессионной модели или дисперсионный анализ. В данном случае можно рассчитать несколько видов дисперсий:

D0 -  рассеивание относительно уравнения регрессии;

Dр -  рассеивание точек лежащих на уравнении регрессии относительно среднего значения;

Общая дисперсия

Остаточная дисперсия (относительно уравнения регрессии)

Дисперсия, обусловленная регрессией

Используются следующие показатели:

-         Остаточная дисперсия. Если у нас зависимость функциональная, то  точка выборки будет лежать на уравнении регрессии и остаточная дисперсия будет равна нулю.

-         Коэффициент множественной корреляции. Существует несколько формул для его расчета. . Если остаточная дисперсия равна нулю, то коэффициент равен единице, т.е.  зависимость функциональная. ,  Здесь надо вычислить матрицу обратной матрице коэффициентов парной корреляции и взять ее первый элемент . Коэффициент множественной корреляции меняется от нуля до единицы, квадрат данного коэффициента называется коэффициентом детерминации и показывает долю изменчивости результативного признака за счет вариации всех факторных включенных в модель.

-         Средняя относительная ошибка .

-         Доверительный интервал позволяет оценить качество модели. Для k-ой точки доверительный интервал вычисляется следующим образом: однофакторная модель , для многофакторной модели .

-         Критерий Фишера оценивает адекватность модели . Полученный критерий сравнивается с табличным значением, для вероятности  и число степеней свободы . Если вычисленное значение больше табличного, то модель адекватна. На практики желательно, чтобы вычисленное значение было больше табличного в четыре раза.

3. Особенности применения корреляционно регрессионного анализа

Классический регрессионный корреляционный анализ базируется на следующих предположениях:

  • Число точек выборки  значительно превосходит число факторных признаков . Обычно . В экономических задачах, как правило, всегда удается получить большую выборку и рассмотренное соотношение не выполняется, но модели приходится все же строить, помня об условии, что при малом числе точек выборки уменьшается число степеней свободы , следовательно,  увеличивается и возрастает доверительный интервал. Точность модели ухудшается, и выводы не будут достоверными.
  • Все i члены выборки для j фактора взаимно не коррелированы. Обратное явление называется автокорреляция, а ряд называется автокоррелированным. Для оценки степени автокорреляции используется коэффициент автокорреляции . Автокоррелированный ряд эквивалентен не автокоррелированному с меньшим числом точек выборки . Уменьшение числа точек выборки ведет к уменьшению числу степеней свободы, а, следовательно, ведет к увеличению доверительного интервала и ухудшению точности модели.
  • Все признаки должны выражаться числом. Сравнение по качеству нескольких объектов между собой производится с помощью ранжирования, т.е. объектам присваивается ранг. Первый ранг лучшему объекту, а последний худшему объекту. Для определения степени связи между ранжированными величинами используются коэффициенты корреляции рангов. Например, коэффициент Спирмана . Коэффициент Спирмана меняется от -1 до 1. Для ранжированных величин используется коэффициент конкордации . Данный коэффициент применяется, например, для оценки согласованности мнения экспертов при обработки данных экспертного опроса, где - число экспертов,  - число оцениваемых объектов. Если мнение экспертов совпадает, то коэффициент равен 1, если противоположно то 0.
 

Добавить комментарий


Защитный код
Обновить