Юдин А.С.

Эконометрическое моделирование на базе Н-статистики

Наиболее распространенными методами анализа статистических данных являются методы корреляционно-регрессионного анализа. В то же время эти методы могут быть использованы только при линейных взаимосвязях и нормальных распределениях всех входящих в модель параметров. При нарушении этих требований не может быть обеспечена надежность получаемых результатов.

Авторы предлагают использовать новую статистику – энтропию распределения, имеющую нормальное распределение при любых входных распределениях.

Статистические методы исследования сложных экономических и социологических процессов являются одними из основных методов. Полученные с их помощью результаты невозможно переоценить. Тем не менее, во многих случаях точность результатов, полученных на их основе, является крайне низкой из-за пренебрежения некоторыми важными особенностями используемых статистик.

Теория регрессионного анализа базируется на двух основных посылках:

1) исследуемые факторы имеют нормальное (гауссово) распределение;

2) анализируемые взаимосвязи являются линейными. При нарушении этих допущений полученные модели могут быть неадекватными, интервальные оценки – неточными.

Как показали в своих исследованиях Н.С. Райбман, В.М. Чадеев [1] и В.И Городецкий [2], корреляционные модели не дают надежных результатов, а используемые в качестве меры связи величина остаточной дисперсии и корреляционное отношение не могут служить адекватной оценкой точности и надежности модели.

На основании длительных исследований, проведенных авторами с 1980 года, предлагается использовать для построения и анализа моделей статистику «энтропия распределения» [3].

Для дискретных случайных величин энтропия определяется как мера Шеннона-Винера:

где p_i– вероятность i-го состояния.

Пусть нормированная непрерывная случайная величина Xимеет функцию плотности вероятностей w(x). Введем следующие интегральные параметры распределения:

( 2 )

Оценкой энтропии являются выборочная энтропия имеющая нормальное распределение со следующими математическим ожиданием и дисперсией [4]:

( 3 )

Здесь - эмпирическая вероятность попадания случайной величины в соответствующий интервал; n– объем выборки. Суммирование производится по всем интервалам.

I(X, Y) = H(X) + H(Y) – H(X,Y) ( 4 )

и коэффициент информационной связи

( 5 )

Как показано в работе [5], мера (4) имеет распределение Пирсона.

Анализ структуры коэффициента (5) дал основание полагать, что в случае линейных взаимосвязей он эквивалентен квадрату коэффициента корреляции. Истинность этого утверждения позволило бы использовать его в качестве меры определенности процесса и при нелинейных связях.

Авторами был проведен вычислительный эксперимент методами имитационного моделирования, результаты которого показали, что с вероятностью 0,999 коэффициент информационной связи совпадает с квадратом коэффициента корреляции в линейных моделях. Именно его и целесообразно использовать в качестве меры определенности процесса.

Литература:

1. Райбман Н.С., Чадеев В.М. Построение моделей процессов производства. - М.: Энергия, 1975. - 376 с.

2. Городецкий В.И. Информативность контроля и построение оптимальных планов испытаний// "Надежность и контроль качества", 1981, № 9.

3. Юдин С.В. Алгоритмы и методы анализа сложных систем на основе информационной меры Шеннона-Винера. //Алгоритмы и структуры специализированных вычислительных систем/ТулПИ. - Тула, 1987. - С. 5-10.

4. Башарин Г.П. О статистической оценке энтропии независимых случайных величин// "Теория вероятностей и ее применения", 1956, т. IV, № 3, с. 361-364

5. Eye, A. von. On the Equivalence of the Information-Theoretic Transmission-Measure to the Common c²-Statistic. - "Biom. J.", v. 24, 1982, p.p. 391-398.