Статистика (Яркина Н.Н., 2020)

Методические подходы к измерению взаимосвязей

Понятие о статистических связях

Все явления общественной жизни существуют не изолированно, они органично связаны между собой, зависят друг от друга, обусловливают одно другое и находятся в постоянном движении и развитии. Раскрывая взаимосвязи и взаимозависимости между явлениями, можно познать их суть и законы развития.

Причинная зависимость является основной формой закономерных связей, действующих в определенных условиях места и времени. Поэтому, для появления следствия необходимы и причины, и условия, т.е. соответствующие факторы.

Общественные явления или отдельные их признаки, оказывающие влияние на другие явления или свойства и определяющие их изменения, называются факторными, а общественные явления или отдельные их признаки, которые изменяются под влиянием соответствующих факторов, называются результативными.

По характеру зависимости явлений различают функциональные (жестко детерминированные) и статистические (или стохастически детерминированные) связи.

Функциональной называется связь, при которой определенному значению факторного признака всегда соответствует, как правило, одно значение результативного признака. Функциональные связи характеризуются полным соответствием между причиной и следствием. Вследствие этого функциональная зависимость всегда выражается точною математической формулой. При этом не обязательно, чтобы одному результативному признаку строго соответствовал только один факторный признак, как, например, в случае связи между длиной окружности и радиусом описываемой формулой: l = 2πR. Существуют функциональные связи, при которых результативный признак является функцией нескольких факторных признаков. Например, площадь земельного участка будет зависеть от длин его сторон: S = a×b. Функциональные зависимости изучаются точными науками, такими как математика, физика, химия и др. Они очень редко используются для исследования общественных явлений.

Статистическая связь не имеет ограничений и условий, присущих функциональной связи.

Связь является статистической, если с изменением значения факторного признака результативный признак может в определенных пределах принимать любые значения с некоторыми вероятностями, но его среднее значение или иные статистические характеристики (показатели вариации, асимметрии, эксцесса и т. п.) изменяются по определенному закону.

Важнейшим частным случаем статистической связи является корреляционная связь.

Слово «корреляция» (от английского correlation) означает соотношение, соответствие. Оно удачно отражает особенность зависимости, при которой определенному значению одного факторного признака может соответствовать несколько значений результативного признака, на основе которых можно определить среднюю величину результативного признака, соответствующую каждому конкретному значению факторного признака.

Связь, при которой разным значениям факторного признака соответствуют различные средние значения результативного признака, называется корреляционной связью. Именно корреляционные зависимости наиболее часто используются при исследовании общественных явлений.

Суть корреляционной зависимости сводится к тому, что, с изменением значения факторного признака х закономерным образом изменяется среднее значение результативного признака у, в то время как в каждом отдельном случае значение результативного признака у (с различными вероятностями) может принимать множество различных значений.

Корреляционная связь между признаками может возникать разными путями:

– во-первых, как причинная зависимость результативного признака (его вариации) от вариации факторного признака. Например, зависимость заработной платой работников от стажа их работы, себестоимости продукции от объемов производства продукции, урожайности зерновых от внесения удобрений и т.п.;

– во-вторых, как связь между двумя следствиями общей причины. Классический пример такого рода корреляционной связи приведен А. Чупровым, крупнейшим российским статистиком ХХ века определившим, что прямая зависимость между убытками от пожара и числом пожарных команд в городе обусловлена общей причиной их величины – размером города;

– в-третьих, как взаимосвязь признаков, каждый из которых и причина, и следствие. Такова, например, корреляция между уровнями производительности труда рабочих и уровнем оплаты одного часа труда (часовой тарифной ставкой).

Характеристика основных разновидностей корреляционных связей представлена в таблице 7.1.

Таблица 7.1

Классификация корреляционных связей
Классификационный признак Название корреляции Характеристика корреляционной связи
По направлению связи Прямая С ростом факторного признака растет и результативный признак. Например, с ростом производительности труда растет объем выпущенной продукции при прочих равных условиях
Обратная С увеличением факторного признака результативный признак уменьшается или наоборот. Например, рост производительности труда приводит к снижению себестоимости единицы продукции при прочих равных условиях
В соответствии с аналитическим выражением (по формуле) Прямолинейная Равным изменениям значений факторного признака соответствуют приблизительно равные изменения средних значений результативного признака
Криволинейная Равным изменениям значений факторного признака соответствуют неравные изменения средних значений результативного признака
По числу факторных показателей, учитываемых для оценки степени их влияния на результативный показатель Парная Связь между двумя показателями, один из которых является факторным, а другой – результативным
Множественная Связь, возникающая от взаимодействия нескольких факторов с результативным показателем. Например, на урожайность зерновых культур влияют качество семян, количество внесенных удобрений, степень механизации сельхозпроизводства и др. В свою очередь, урожайность зерновых культур, количество внесенных удобрений, производительность труда и т.п. влияют на уровень себестоимости 1 ц зерновых культур

Задачи, решаемые при помощи анализа корреляционных связей, приведены на рис. 7.1.

Задачи, решаемые при помощи анализа корреляционных связей

Так как факторные и результативные признаки могут быть количественными и описательными (атрибутивными), т.е. не имеющими численного выражения, то выделяют параметрические и непараметрические методы измерения связей и соответствующие им параметрические и непараметрические показатели связи.

К параметрическим методам измерения связей относятся, например, методы аналитической группировки и корреляционно-регрессионного анализа, а к непараметрическим методам – методы сравнения параллельных рядов и измерения связи между атрибутивными признаками.

Метод сравнения параллельных рядов

Суть метода сравнения параллельных рядов состоит в том, что полученные в результате группировки и счетной обработки материалы статистического наблюдения располагаются ранжированными по факторному признаку параллельными рядами. Параллельно записываются значения результативного признака. Это дает возможность, сравнивая значения факторных и результативных показателей, проследить их соотношение, выявить наличие связи и ее направление.

Пример параллельных рядов, позволяющих оценить характер зависимости между стоимостью основных производственных фондов предприятия (факторным признаком) и объемом его товарной продукции (результативным признаком), приведен в таблице 7.2.

Таблица 7.2

Данные, характеризующие десять предприятий одной отрасли
Показатели Номер предприятия
1 2 3 4 5 6 7 8 9 10
Стоимость основных производственных фондов (х), млрд. руб. 5,3 6,4 7,9 8,3 9,2 10,1 12,5 13,0 14,6 15,7
Товарная продукция (у), млрд. руб. 5,8 7,6 8,7 9,1 11,9 12,3 13,8 14,0 15,2 17,6

Из данных таблицы 7.2 видно, что с увеличением стоимости основных производственных фондов выпуск продукции увеличивается.

Направление и силу корреляционной связи по данным параллельных рядов рассчитывают при помощи коэффициентов корреляции знаков (коэффициента Фехнера) и корреляции рангов (коэффициента корреляции рангов Спирмена).

Коэффициент Фехнера, предложенный немецким психологом Г.Т. Фехнером еще в XIX в., оценивает силу связи на основе сравнения знаков отклонений значений вариант от их среднего значения по каждому признаку. Совпадение знаков по факторному и результативному признакам означает согласованную вариацию, несовпадение – нарушение согласованности между признаками.

Коэффициент Фехнера (КФ), представляющий собой коэффициент корреляции знаков, рассчитывается по формуле:

Коэффициент Фехнера

где ΣС – сумма знаков, которые совпали в обоих рядах; ΣН – сумма не совпавших знаков.

Коэффициент Фехнера изменяется в пределах от -1 до +1. При приближении этого коэффициента к +1 наблюдается прямая и сильная согласованность между исследуемыми признаками, к – 1 имеет место сильная, однако обратная согласованность. При нуле согласованность между исследуемыми признаками отсутствует.

Пример оценки характера связи между показателями параллельного ряда с помощью коэффициента Фехнера

По данным таблицы 7.2 необходимо оценить направление и силу связи между стоимостью основных производственных фондов и товарной продукцией предприятий одной отрасли с помощью коэффициента Фехнера.

Решение

По формуле 4.21 средняя стоимость основных производственных фондов предприятий отрасли равна: x = 10,3 млрд. руб.

По формуле 4.21 средний объем товарной продукции на одно предприятие отрасли равно: y = 11,6 млрд. руб.

Знаки отклонений от средней величины по признакам х и у приведены в таблице 7.3. Знак «минус» означает, что значение признака меньше средней величины, знак «плюс» – больше.

Таблица 7.3

Знаки отклонений от средней величины стоимости основных производственных фондов предприятий (х) и их товарного выпуска (у)
Номер предприятия 1 2 3 4 5 6 7 8 9 10
Знак отклонения от средней величины x-x - - - - - - + + + +
y-y - - - - + + + + + +
С или Н С С С С Н Н С С С С

Итак, в восьми случаях знаки совпали, в двух – не совпали, т.е. ΣС = 8, ΣН = 2.

По формуле 7.1 коэффициент Фехнера: 0,6, т.е. наблюдается достаточно сильная прямая связь между стоимостью основных производственных фондов предприятий и выпуском их продукции, предназначенной для реализации.

Более точно оценивает силу связи коэффициент корреляции рангов.

 

Ранги – это порядковые номера единиц совокупности в ранжированном ряду. Коэффициент корреляции рангов учитывает согласованность рангов, соответствующих отдельным единицам совокупности по каждому из двух исследуемых признаков.

Совокупность ранжируется по факторному признаку в порядке возрастания и единицам совокупности присваиваются соответствующие ранги. Параллельно проставляются ранги тех же единиц совокупности, какие они заняли бы в ранжированном ряду по результативному признаку.

Коэффициент корреляции рангов (ρ), предложенный американским ученым К. Спирменом, рассчитывается по формуле:

Коэффициент корреляции рангов

где d2 – квадрат разницы между величинами рангов в сравниваемых рядах; n – число рангов.

Коэффициент ранговой корреляции может принимать значения в пределах: -1 ≤ ρ ≤ 1. Когда ранги факторного признака полностью совпадают с рангами результативного признака, тогда имеет место почти прямая связь между признаками и ρ = 1. Если ранги расположились строго в противоположном направлении, то наблюдается полная обратная корреляция рангов и ρ = -1. При ρ = 0 корреляция рангов отсутствует.

Необходимо иметь в виду, что этот эмпирический показатель менее точен по сравнению с линейным коэффициентом корреляции и эмпирическим корреляционным отношением, а поэтому, когда он принимает крайние значения ±1 или 0, то это не означает, что существует функциональная связь или зависимость абсолютно отсутствует. Во всех других случаях, когда коэффициент ранговой корреляции не принимает крайних значений, он интерпретируется так же, как и коэффициент линейной корреляции и обладает такими же особенностями (п. 8.2, с. 131).

Пример оценки характера связи между показателями параллельного ряда с помощью коэффициента корреляции рангов Спирмена

По данным таблицы 7.4 необходимо определить направление и силу связи между стоимостью основных производственных фондов (ОПФ) и выработкой продукции на одного рабочего по десяти предприятиям отрасли при помощи коэффициента корреляции рангов Спирмена.

Таблица 7.4

Данные, характеризующие десять предприятий одной отрасли
Показатели Номер предприятия
1 2 3 4 5 6 7 8 9 10
Стоимость ОПФ (х), тыс. руб. 26540 27800 23480 32400 28910 39150 31250 40000 41370 51990
Выработка продукции (у), тыс. руб./чел. 320 410 200 240 430 370 180 390 440 450

Решение

В таблице 7.5 проранжируем предприятия отрасли по стоимости основных производственных фондов (факторному признаку) в порядке возрастания и присвоим им соответствующие ранги. Параллельно проставим ранги тех же предприятий, какие они заняли бы в ранжированном ряду по выработке продукции на одного рабочего (результативному признаку). Вспомогательные данные для расчета коэффициента корреляции рангов Спирмена также приведены в таблице 7.5.

Таблица 7.5

Данные, используемые при расчете коэффициента корреляции рангов Спирмена
№ по порядку Стоимость ОПФ (х), тыс. руб. Выработка продукции (у), тыс. руб./чел Ранги предприятий (R) по признакам х и у Разность рангов
d = Rх - Rу
d2
1 23480 200 1 2 -1 1
2 26540 320 2 4 -2 4
3 27800 410 3 7 -4 16
4 28910 430 4 8 -4 16
5 31250 180 5 1 4 16
6 32400 240 6 3 3 9
7 39150 370 7 5 2 4
8 40000 390 8 6 2 4
9 41370 440 9 9 0 0
10 51990 450 10 10 0 0
Всего х х х х х 70

По формуле 7.2 коэффициент корреляции рангов Спирмена = 0,576, что указывает на заметную прямую связь между стоимостью основных производственных фондов предприятий отрасли и выработкой продукции на одного рабочего.

Существует правило, касающееся повторяющихся вариант, ранг которых определяется как средняя арифметическая соответствующих рангов, например, ранг одинаковых величин, занимающих 4 и 5 место, равен 4,5 («четыре целых пять десятых»). Соответственно одинаковым по порядку четвертому и пятому значениям признака будут присвоены одинаковые ранги 4,5.

В таком случае коэффициент корреляции рангов Спирмена вычисляется по формуле:

коэффициент корреляции рангов Спирмена

где А и В рассчитываются соответственно по формулам:

j – номера связок (совпадений значений) по порядку для признака х;
Аj – число одинаковых рангов в j-й связке по х;
k – номера связок (совпадений значений) по порядку для признака у;
Вk – число одинаковых рангов в k-й связке по у.

Пример оценки характера связи между показателями параллельного ряда с помощью коэффициента корреляции рангов Спирмена в случае совпадения их значений

По данным таблицы 7.6 необходимо определить направление и силу связи между численностью работников 10 предприятий одного региона и величиной их основных производственных фондов (ОПФ).

Таблица 7.6

Данные, характеризующие десять предприятий одного региона
Показатели Номер предприятия
1 2 3 4 5 6 7 8 9 10
Среднесписочная численность персонала, чел. 90 350 1000 350 200 350 28 90 2500 850
Среднегодовая стоимость ОПФ, млрд. руб. 0,24 2,98 5,65 1,26 1,20 1,20 0,50 2,15 80,50 5,65

Решение

В таблице 7.7 проранжируем предприятия региона по стоимости основных производственных фондов (факторному признаку, так как численность работников предприятия зависит от количества эксплуатируемого на предприятии оборудования и других объектов основных фондов) в порядке возрастания и присвоим им соответствующие ранги. Параллельно проставим ранги тех же предприятий, какие они заняли бы в ранжированном ряду по среднесписочной численности работников (результативному признаку). Вспомогательные данные для расчета коэффициента корреляции рангов Спирмена также приведены в таблице 7.7.

Таблица 7.7

Данные, используемые при расчете коэффициента корреляции рангов Спирмена
№ по порядку Среднегодовая стоимость ОПФ (х), млрд. руб. Среднесписочная численность персонала (у), чел. Ранги предприятий (R) по признакам х и у Разность рангов d = Rх - Rу d2
1 0,24 90 1 2,5 -1,5 2,25
2 0,5 28 2 1 1 1
3 1,2 200 3,5 4 -0,5 0,25
4 1,2 350 3,5 6 -2,5 6,25
5 1,26 350 5 6 -1 1
6 2,15 90 6 2,5 3,5 12,25
7 2,98 350 7 6 1 1
8 5,65 850 8,5 8 0,5 0,25
9 5,65 1000 8,5 9 -0,5 0,25
10 80,5 2500 10 10 0 0
Всего х х х х х 24,5

В ранжированном ряду по факторному признаку повторяются варианты, стоящие на 3 и 4 месте и на 8 и 9 месте, следовательно, ранги этих вариант соответственно будут равны 3,5 ((3+4):2) и 8,5 ((8+9):2).

В ранжированном ряду по результативному признаку повторяются варианты, стоящие на 2 и 3 месте и на 5, 6 и 7 месте, следовательно, ранги этих вариант соответственно будут равны 2,5 ((2+3):2) и 6 ((5+6+7):3).

По формуле 7.4: A = 1.

По формуле 7.5: B = 2,5.

По формуле 7.3 коэффициент корреляции рангов Спирмена равен: 0,852.

Полученное значение коэффициента корреляции рангов Спирмена свидетельствует о тесной прямой зависимости между величиной основных производственных фондов и численностью работников предприятия.

Метод аналитической группировки. Таблицы взаимной сопряженности

Наличие зависимости между показателями, характеризующими статистическую совокупность, можно выявить с помощью аналитической группировки. Напомним, что статистические группировки, при помощи которых выявляют взаимосвязи между признаками общественных явлений, называются аналитическими.

Метод аналитических группировок как способ выявления корреляционной зависимости между показателями относится к числу наиболее важных методов исследования взаимосвязей.

Результаты группировки единиц совокупности оформляются в виде таблицы, в которой приводится комбинационное распределение единиц совокупности по двум признакам. Такие таблицы называют таблицами взаимной сопряженности. Примером таблицы взаимной сопряженности можно рассматривать таблицу 5.11, в которой приведена группировка сельскохозяйственных предприятий с разной урожайностью зерновых культур по организационно-правовой форме.

Если в таблице оба признака, по которым дано распределение единиц совокупности, количественные, то такая таблица взаимной сопряженности называется корреляционной.

Корреляционная таблица строится по типу «шахматной», т.е. в подлежащем таблицы выделяются группы по факторному признаку х, в сказуемом – по результативному у или наоборот, а в клетках таблицы на пересечении х и у показано число случаев совпадения каждого значения х с соответствующим значением у.

Для выявления зависимости между непрерывными количественными признаками в сформированных группах по факторному и результативному признакам в качестве х и у принимаются середины соответствующих интервалов.

Макет корреляционной таблицы показан с помощью таблицы 7.8.

Макет корреляционной таблицы

Корреляционная связь существует, если по мере увеличения значения х групповые средние значений у (yj) тоже увеличиваются (или уменьшаются) от группы к группе. Таким образом, сравнивая изменения средних значений результативного признака с изменением средних значений факторного признака, выявляют характер связи между ними.

О наличии и направлении связи можно судить и по «внешнему виду» таблицы, т.е. по расположению в ней частот.

Так, если числа (частоты) расположены (разбросаны) в клетках таблицы беспорядочно, то это чаще всего свидетельствует либо об отсутствии связи между группировочными признаками, либо об их незначительной зависимости. Если же частоты сконцентрированы ближе к одной из диагоналей и центру таблицы, образуя своего рода эллипс, то это почти всегда свидетельствует о наличии зависимости между х и у, близкой к линейной. Диагональ из верхнего левого угла в нижний правый свидетельствует о прямой линейной зависимости между показателями х и у, а из нижнего левого угла в верхний правый – об обратной.

Наглядно проиллюстрировать наличие и форму зависимости между показателями х и у по данным корреляционной таблицы можно и графически.

При построении эмпирической линии регрессии по данным корреляционной таблицы на графике по оси абсцисс отражают значения факторного признака (или середины соответствующих интервалов) х, а по оси ординат – групповые средние результативного показателя, т.е. yj. Для большей наглядности на графике по исходным данным можно построить «корреляционное поле», а затем на его фоне – эмпирическую линию регрессии.

Корреляционное поле представляет, по существу, ту же корреляционную таблицу, в клетках которой вместо чисел проставлено соответствующее число точек. Корреляционное поле отражает не только общую зависимость между х и у, но и концентрацию индивидуальных точек вокруг линии регрессии показателя yj.

На рис. 7.2 показаны варианты распределения корреляционного поля.

Распределение корреляционного поля при разных видах зависимости

Если точки расположены хаотично по всему полю, то это свидетельствует об отсутствии зависимости между двумя признаками (рис. 7.2, а); если они сконцентрированы около оси, идущей от нижнего левого угла к верхнему правому (рис. 7.2, б), – это прямая зависимость между исследуемыми признаками; если точки будут сконцентрированы около оси, пролегающей от верхнего левого угла к нижнему правому (рис. 7.2, в) – имеет место обратная зависимость.

Пример корреляционной таблицы, в которой приведено распределение работников предприятия по уровню квалификации, характеризующегося их тарифным разрядом, и уровню месячной заработной платы, показан с помощью данных таблицы 7.9.

Таблица 7.9

Распределение работников предприятия по уровню квалификации и уровню заработной платы
Разряд работников (xi) Месячная заработная плата, руб. (yj) Итого (fx = fj) Среднемесячный заработок по группам, руб. (yj)
6000- 8000 8000- 10000 10000- 12000 12000- 14000 14000- 16000 16000- 18000 18000- 20000
7000 9000 11000 13000 15000 17000 19000
I 3 8 1 12 8667
II 2 6 14 3 25 10440
III 1 4 20 5 30 12930
IV 1 6 9 4 20 14600
V 1 1 5 3 10 17000
VI 1 2 3 18330
Итого (fy = fi) 5 15 20 30 15 10 5 100 12700

По данным таблицы 7.9 наблюдается наличие прямой корреляционной связи между квалификацией работников и их заработной платой.

Графически зависимость между квалификацией и заработком работников предприятия по данным таблицы 7.9 показана на рис. 7.3.

График, показывающий наличие прямой связи между квалификацией и заработной платой работников предприятия

Аналитические группировки характеризуют только общие черты исследуемой связи между признаками, ее тенденцию, однако не дают количественной оценки силы связи. На основе аналитических группировок и корреляционных таблиц задача оценки тесноты связи между двумя коррелируемыми показателями решается при помощи расчета эмпирического корреляционного отношения, методика расчета которого рассмотрена в п. 5.4 (с. 83).

Уточним формулу 5.20 с учетом обозначений значений признаков, введенных в данной теме.

Эмпирическое корреляционное отношение рассчитывается по формуле:

Эмпирическое корреляционное отношение рассчитывается по формуле

где σ2м гр. и σ2y – соответственно, межгрупповая и общая дисперсии результативного признака.

Межгрупповая дисперсия результативного признака рассчитывается по формуле:

Межгрупповая дисперсия результативного признака рассчитывается по формуле

где n – число групп по факторному признаку х;
yj – среднее значение результативного признака по группам;
y – общее среднее значение результативного признака;
fj = fx – частота в i-й группе х.

Общая дисперсия результативного признака рассчитывается по формуле:

Общая дисперсия результативного признака рассчитывается по формуле

где m – число групп по результативному признаку у;
yi – индивидуальные значения результативного признака (середины интервалов);
fi = fy – частота в j-й группе у.

Пример расчета эмпирического корреляционного отношения

По данным таблицы 7.9 следует оценить тесноту связи между квалификацией работников предприятием и оплатой их труда.

Решение

По формуле 7.7 межгрупповая дисперсия заработной платы работников предприятия равна: 6768.

По формуле 7.8 общая дисперсия заработной платы работников предприятия равна: 8910.

По формуле 7.6 эмпирическое корреляционное отношение равно: 0,87, что свидетельствует о тесной связи между уровнем квалификации работников предприятия и их заработной платой (см. табл. 5.10).

Следует отметить, что η > 0 не является доказательством наличия корреляционной связи между признаками. Отличное от нуля корреляционное отношение может появиться при неправильном распределении исследуемой совокупности на группы.

Эмпирическое корреляционное отношение должно иметь высокий уровень надежности.

Для оценки надежности корреляционных характеристик (т.е. истинности причин отклонений групповых средних от общей средней) используют критерии Фишера (F-критерий) или Стьюдента (t-критерий), разработанные математической статистикой.

Критерий Фишера (FФ) определяется по формуле:

Критерий Фишера рассчитывается по формуле

где σ2м гр. – межгрупповая дисперсия;
σ2ост – остаточная (средняя из внутригрупповых) дисперсия;
k1, k2 – степени свободы для межгрупповой и средней из внутригрупповых дисперсий.

Р. Фишер, английский статистик, установил распределение отношений дисперсий и разработал соответствующие математические таблицы (фрагмент такой таблицы приведен в таблице 7.10). В них приводится F-критерий теоретический (Fт) при двух вероятностях 0,95 и 0,99. Если Fф > Fт, то с принятой степенью вероятности можно утверждать о наличии влияния исследуемого фактора на результативный признак. Если же Fф ≤ Fт, можно утверждать, что разница между дисперсиями обусловлена влиянием случайных факторов.

Таблица 7.10

Критические значения F-критерия (уровень значимости α = 0,05)
k2 k1
1 2 3 4 5 6 8 10 20
1 161,4 199,5 215,7 224,6 230,2 234 238,9 242 248
2 18,51 19 19,16 19,25 19,3 19,33 19,37 19,39 19,44
3 10,13 9,55 9,28 9,12 9,01 8,94 8,84 8,78 8,66
4 7,71 6,94 6,59 6,39 6,26 6,16 6,04 5,96 5,8
5 6,61 5,79 5,41 5,19 5,05 4,95 4,82 4,74 4,56
6 5,99 5,14 4,76 4,53 4,39 4,28 4,15 4,06 3,87
7 5,59 4,74 4,35 4,12 3,97 3,87 3,73 3,63 3,44
8 5,32 4,46 4,07 3,84 3,69 3,58 3,44 3,34 3,15
9 5,12 4,26 3,86 3,63 3,48 3,37 3,23 3,13 2,93
10 4,96 4,1 3,71 3,48 3,33 3,22 3,07 2,97 2,77
11 4,82 3,98 3,59 3,63 3,2 3,09 2,95 2,86 2,65
12 4,75 3,88 4,49 3,26 3,11 3 2,85 2,76 2,54
14 4,6 3,74 3,34 3,11 2,96 2,85 2,7 2,6 2,39
16 4,49 3,63 3,24 3,01 2,85 2,74 2,59 2,49 2,28
18 4,41 3,55 3,16 2,93 2,77 2,66 2,51 2,41 2,19
20 4,35 3,49 3,1 2,87 2,71 2,6 2,45 2,35 2,12
30 4,17 3,32 2,92 2,69 2,53 2,42 2,27 2,16 1,93
40 4,08 3,23 2,84 2,61 2,45 2,34 2,18 2,12 1,84
60 4 3,15 2,76 2,52 2,37 2,25 2,1 2,04 1,75
120 3,92 3,07 2,68 2,45 2,29 2,17 2,02 1,9 1,65

Распределение отношений дисперсий в таблицах Фишера для поиска Fт зависит от степеней свободы k1 и k2. В аналитической группировке они рассчитываются по формулам:

k1 = n - 1; (7.10)

k2 = N - n, (7.11)

где n – число групп по факторному признаку;
N – число единиц исследуемой совокупности.

К аналогичному выводу можно прийти при оценке надежности корреляционного отношения по критерию Стьюдента, который определяется по формуле:

критерий Стьюдента рассчитывается по формуле

где μη – средняя ошибка корреляционного отношения, рассчитываемая по формуле:

средняя ошибка корреляционного отношения рассчитывается по формуле

Если критерий Стьюдента tη ≥ 3, показатель корреляционного отношения считают вероятным (т.е. связь между исследуемыми явлениями доказана). Если tη < 3, то нельзя делать выводы о вероятности связи между исследуемыми явлениями.

Пример оценки степени надежности эмпирического корреляционного отношения с помощью критериев Фишера и Стьюдента

Необходимо проверить степень надежности эмпирического корреляционного отношения, рассчитанного по данным таблицы 7.9 в предыдущем примере.

Решение

Полученное по формуле 7.6 значение η = 0,87, позволило предположить наличие тесной связи между уровнем квалификации работников предприятия и их заработной платой.

По формуле 7.7 была рассчитана межгрупповая дисперсия месячного заработка работников предприятия (σ2м гр. = 6768), по формуле 7.8 – общая дисперсия (σ2y = 8910).

На основании правила сложения дисперсий (формула 5.18) найдем остаточную (среднюю их внутригрупповых) дисперсию: σ2ост = 8910 – 6768 = 2142.

Анализируемая совокупность включала 100 рабочих, для которых исследовалось наличие связи между их заработком и уровнем квалификации, отсюда N = 100. По уровню квалификации (тарифному разряду) было сформировано 6 групп, т. е. n = 6.

По формуле 7.10 рассчитаем значение степени свободы для межгрупповой дисперсии: k1 = 6 – 1 = 5.

По формуле 7.11 рассчитаем значение степени свободы для средней из внутригрупповых дисперсий: k2 = 100 – 6 = 94.

По формуле 7.9 значение критерия Фишера равно: 59,4.

С вероятностью 0,95 (при k1 = 5 и k2 = 94) F-критерий теоретический равен: Fт ≈ 2,29 (см. табл. 7.10). Так как Fф > Fт, то, с принятой степенью вероятности, можно утверждать о влиянии уровня квалификации работников предприятия на размер их заработной платы, т.е. о наличии связи между рассматриваемыми признаками работников предприятия.

По формуле 7.13 средняя ошибка корреляционного отношения равна: 0,024.

По формуле 7.12 значение критерия Стьюдента равно 36,25. Так как критерий Стьюдента tη ≥ 3, то связь между исследуемыми показателями (признаками) доказана.

Полученные значения критерия Фишера и критерия Стьюдента позволяют считать значение эмпирического корреляционного отношения 0,87 надежным для оценки тесноты связи между уровнем квалификации и заработком работников предприятия по данным таблицы 7.9.

Показатели тесноты связи между двумя атрибутивными признаками

Построение таблиц, в которых дается комбинационное распределение единиц совокупности по двум признакам применимо и к атрибутивным признакам. Взаимосвязи между атрибутивными признаками, их влияние на другие показатели, в том числе и количественные, особенно часто приходится изучать при проведении различных социологических исследований.

Простейшей формой таблицы взаимной сопряженности двух атрибутивных признаков является таблица «четырех полей» (четырехклеточная). В ней по каждому признаку выделяются только две группы, чаще всего по альтернативному принципу («да»-«нет», «хорошо»-«плохо» и т.д.).

Для измерения тесноты связи между двумя атрибутивными признаками, имеющими альтернативное выражение, используется коэффициент ассоциации, рассчитываемый с помощью таблицы взаимной сопряженности, которая состоит из четырех клеток, обозначенных латинскими буквами a, b, c, d. Каждая клетка таблицы соответствует определенной альтернативе того или иного признака, как это показано в таблице 7.11.

Таблица 7.11

Таблица взаимной сопряженности двух атрибутивных признаков
Признак А не А ΣВ
В a b а + b
не В c d c + d
ΣА a + c b + d a + b + c + d

Коэффициент ассоциации (Касс) определяется по формуле:

Коэффициент ассоциации определяется по формуле

Его существенный недостаток состоит в том, что если в одной из четырех клеток отсутствует частота (т.е. равна 0), коэффициент ассоциации всегда будет равен по модулю 1, и тем самым будет преувеличена мера действительной связи. Чтобы этого избежать, предложен другой показатель – коэффициент контингенции.

Коэффициент контингенции (Кконт) рассчитывается по формуле

Коэффициент контингенции определяется по формуле

Коэффициент контингенции всегда меньше коэффициента ассоциации.

Связь считается достаточно значительной и подтвержденной, если |Касс| > 0,5 или |Кконт| >0,3.

Для исследования корреляции атрибутивных альтернативных признаков предложен также коэффициент колигации.

Коэффициент колигации (Ккол) рассчитывается по формуле:

Коэффициент колигации определяется по формуле

Коэффициент колигации, как и коэффициент контингенции, оценивает связь между признаками более сдержанно, чем коэффициент ассоциации, причем всегда: Касс > Ккол > Кконт.

Пример расчета показателей тесноты связи между атрибутивными признаками

По результатам опроса студентов второго курса экономических специальностей, целью которого было выявление связи между курением студентов и курением родителей в их семьях, приведенным в таблице 7.12, необходимо оценить связь между курением родителей и их детей.

Таблица 7.12

Данные, характеризующие число курящих и некурящих студентов в курящих и некурящих семьях, чел.
Семьи, в которых Студенты, которые Итого
не курят курят
родители не курят 1 6 7
родители курят 8 1 9
Итого 9 7 16

Решение

По формуле 7.14: Касс = -0,96.

По формуле 7.15: Кконт = -0,75.

По формуле 7.16:

Ккол = -0,75.

Полученные значения коэффициентов ассоциации, контингенции и колигации свидетельствуют о наличии тесной связи между курением детей и их родителей. Правда, результаты опроса показали, что дети поступали с точностью «до наоборот»: в курящих семьях дети не курили и наоборот.

В том случае, когда оба взаимосвязанных признака разделены более чем на две группы, для измерения тесноты связи используются показатели взаимного сочетания (сопряжения), предложенные К. Пирсоном и А. Чупровым.

Коэффициент взаимной сопряженности Пирсона (КП) рассчитывается по формуле:

Коэффициент взаимной сопряженности Пирсона определяется по формуле где φ2 – показатель средней квадратической сопряженности, определяемый путем вычитания единицы из суммы отношений квадратов частот каждой клетки корреляционной таблицы к произведению частот соответствующего столбца и строки, рассчитывается по формуле:

Коэффициент взаимной сопряженности Чупрова (КЧ) рассчитывается по формуле:

Коэффициент взаимной сопряженности Чупрова

где n1 и n2 – соответственно, количество групп в графах и количество групп в строках.

Результат оценки тесноты связи, полученный на основании коэффициента взаимной сопряженности Чупрова, более точен, поскольку он учитывает количество групп по каждому из исследуемых признаков. Его выгодно использовать и при большем разделении единиц совокупности на группы по взаимосвязанным признакам. Коэффициент взаимной сопряженности Пирсона используется в основном в случае квадратной таблицы, тогда как Чупрова – пригоден для измерения связи и в прямоугольных таблицах.

Считается, что уже при значении коэффициентов взаимной сопряженности 0,3 можно говорить о тесной связи между вариацией исследуемых признаков.

Пример расчета коэффициента взаимной сопряженности Чупрова

С помощью коэффициента взаимной сопряженности Чупрова необходимо определить тесноту связи между урожайностью зерновых культур сельскохозяйственных предприятий региона и их организационно-правовой формой по данным таблицы 5.11. Напомним, что рассчитанное в п. 5.4 по данным таблицы 5.11 эмпирическое корреляционное отношение (η = 0,66) характеризует связь между урожайностью зерновых культур сельскохозяйственных предприятий региона и их организационно-правовой формой как достаточно тесную.

Решение

Преобразуем таблицу 5.11 в более удобную для расчета коэффициента взаимной сопряженности Чупрова форму (таблица 7.13).

Таблица 7.13

Распределение сельскохозяйственных предприятий региона по их организационноправовой форме и уровню урожайности зерновых культур
Группы предприятий по урожайности зерновых культур (ц/га) Итого Средняя урожайность по группе, ц/га
по организационно-правовой форме хозяйствования 15,8- 18,97 18,97- 22,14 22,14- 25,31 25,31- 28,48 28,48- 31,65 31,65- 34,82
17,4 20,6 23,7 26,9 30,1 33,2
Государственные предприятия 2 3 1 6 22,14
Общества с ограниченной ответственностью 1 4 8 3 1 17 23,54
Фермерские хозяйства 3 3 1 7 29,16
Итого 3 4 11 7 4 1 30 24,57

По формуле 7.18 показатель средней квадратической сопряженности равен: φ2= 0,693.

По формуле 7.19 коэффициент взаимной сопряженности Чупрова равен: КЧ = 0,263. Так как это значение приближается к 0,3, то можно говорить о наличии достаточно тесной связи между урожайностью зерновых культур и организационно-правовой формой сельскохозяйственных предприятий, что подтверждает ранее сделанные выводы.