Юдин А.С.
Эконометрическое моделирование на базе Н-статистики
Наиболее распространенными методами анализа статистических данных являются методы корреляционно-регрессионного анализа. В то же время эти методы могут быть использованы только при линейных взаимосвязях и нормальных распределениях всех входящих в модель параметров. При нарушении этих требований не может быть обеспечена надежность получаемых результатов.Авторы предлагают использовать новую статистику – энтропию распределения, имеющую нормальное распределение при любых входных распределениях.
Статистические методы исследования сложных экономических и социологических процессов являются одними из основных методов. Полученные с их помощью результаты невозможно переоценить. Тем не менее, во многих случаях точность результатов, полученных на их основе, является крайне низкой из-за пренебрежения некоторыми важными особенностями используемых статистик.
Теория регрессионного анализа базируется на двух основных посылках:
1) исследуемые факторы имеют нормальное (гауссово) распределение;
2) анализируемые взаимосвязи являются линейными. При нарушении этих допущений полученные модели могут быть неадекватными, интервальные оценки – неточными.
Как показали в своих исследованиях Н.С. Райбман, В.М. Чадеев [1] и В.И Городецкий [2], корреляционные модели не дают надежных результатов, а используемые в качестве меры связи величина остаточной дисперсии и корреляционное отношение не могут служить адекватной оценкой точности и надежности модели.
На основании длительных исследований, проведенных авторами с 1980 года, предлагается использовать для построения и анализа моделей статистику «энтропия распределения» [3].
Для дискретных случайных величин энтропия определяется как мера Шеннона-Винера:
где pi– вероятность i-го состояния.
Пусть нормированная непрерывная случайная величина Xимеет функцию плотности вероятностей w(x). Введем следующие интегральные параметры распределения:
( 2 )
Оценкой энтропии являются выборочная энтропия имеющая нормальное распределение со следующими математическим ожиданием и дисперсией [4]:
( 3 )
Здесь - эмпирическая вероятность попадания случайной величины в соответствующий интервал; n– объем выборки. Суммирование производится по всем интервалам.
I(X, Y) = H(X) + H(Y) – H(X,Y) ( 4 )
и коэффициент информационной связи
( 5 )
Как показано в работе [5], мера (4) имеет распределение Пирсона.
Анализ структуры коэффициента (5) дал основание полагать, что в случае линейных взаимосвязей он эквивалентен квадрату коэффициента корреляции. Истинность этого утверждения позволило бы использовать его в качестве меры определенности процесса и при нелинейных связях.
Авторами был проведен вычислительный эксперимент методами имитационного моделирования, результаты которого показали, что с вероятностью 0,999 коэффициент информационной связи совпадает с квадратом коэффициента корреляции в линейных моделях. Именно его и целесообразно использовать в качестве меры определенности процесса.
Литература:
1. Райбман Н.С., Чадеев В.М. Построение моделей процессов производства. - М.: Энергия, 1975. - 376 с.
2. Городецкий В.И. Информативность контроля и построение оптимальных планов испытаний// "Надежность и контроль качества", 1981, № 9.
3. Юдин С.В. Алгоритмы и методы анализа сложных систем на основе информационной меры Шеннона-Винера. //Алгоритмы и структуры специализированных вычислительных систем/ТулПИ. - Тула, 1987. - С. 5-10.
4. Башарин Г.П. О статистической оценке энтропии независимых случайных величин// "Теория вероятностей и ее применения", 1956, т. IV, № 3, с. 361-364
5. Eye, A. von. On the Equivalence of the Information-Theoretic Transmission-Measure to the Common c2-Statistic. - "Biom. J.", v. 24, 1982, p.p. 391-398.