Методы получения общих аналитических решений для регрессионных задач в эконометрике
Пусть заданы массив данных и аппроксимирующая функция , где yn— n-ое значение зависимой переменной, — n-ое значение вектора независимой переменной и — неизвестный вектор параметров. Требуется найти оценки A¢ и погрешности dA¢.
Если F(A, X) = {F(A, X) — множественная линейная модель}, где hl(X) — некоторые функции от X, то обсуждаемую регрессионную задачу можно представить в матричной форме
(1)
и использовать алгебраические методы для решения уравнения (1).
В частности, известный метод наименьших квадратов (МНК) получается как решение следующей минимизационной задачи [1, 2]
S(A) = yn–= (Y–HA)T(Y–HA) Þ min,
(2)
где “T” означает транспонирование матрицы. Действительно, если продифференцировать (2) по Aи приравнять полученное выражение нулю, то получим
¶S(A)/¶A= –2HTY+ 2HTHA= 0.
Если матрица (HTH)–1невырожденная (rank H= L), то получим искомое решение
ALS= (HTH)–1HTY,
(4)
умножив выражение (3) слева на матрицу (HTH)–1.
Очевидно, что вид решения регрессионной задачи может зависеть от вида минимизационной задачи. Например, M-робастная минимизационная задача [2, 3] имеет вид
= или =
где функция j(r) симметрична относительно оси Y, непрерывно дифференцируема с минимумом в нуле и j(0) = 0; y(r) — производная от j(r) по r.
Если F(A, X) — нелинейная функция, то для оценки неизвестного вектора параметров Aчасто используется стандартный МНК-метод или, другими словами, минимизируется сумма квадратов остатков
S(A)= .
(6)
Так как система уравнений ¶S/¶A= 0 в данном случае является нелинейной ищут минимум S(A).
Как показано в [2] общие аналитические решения обсуждаемых регрессионных задач можно получить, решив следующие 4 задачи:
a) Найти такое наименьшее значение a = amin, что, для всех экспериментальных реализаций содержащих все возможные Uподмножества из отсчетов, выполняется неравенство
£ amin,
(7)
где N— размерность исходного массива данных — оценка n-го значения независимой переменной; — функция усечения:
(y) = 2a[y/(2a)] + 2a, если êy– 2a [y/(2a)]ú ³ a; иначе ga(y) = 2a [y/(2a)]
(8)
и n0 — заданное целое число, которое определяет наибольший уровень усечения исходного массива данных
На практике значение aminищется как решение следующей экстремальной задачи
(9)
где максимум по Uозначает нахождение решения по всем подмножествам Uмножества {XU}, содержащих N, N– 1, …, N– n0отсчетов;
b) Построить набор эквивалентных аналитических функций (F((Ci¢, x), Xn)), где a = amin и (Ci¢, x) — некоторый полином степени miс переменной x (–1 £ x £ 1) и векторным параметром
Таким образом, набор эквивалентных аналитических функций строится путем замены векторного параметра Aфункции (F(A, X))на A= {(Ci, x)} и определения наименьшего значения степени и определения оценок коэффициентов полинома (Ci, x).
c) Положить F((Ci¢, x), Xn), где — искомое общее аналитическое решение обсуждаемой регрессионной задачи;
d) Вычислить значения погрешностей dA¢, подставляя крайние значения x в общее аналитическое решение F((Ci¢, x), Xn).
Продемонстрируем, какие преимущества исследователь может получить от использования функций для анализа многомерных массивов данных в эконометрике.
Maronna и Yohai в [4] рассмотрели множественную линейную модель , аппроксимирующую данные из Таблицы 1. Методы, изложенные ранее, дают следующие решения для обсуждаемой регрессионной задачи:
i) Набор эквивалентных аналитических функций имеет вид
где a = 67, –1 £ x £ 1. Следовательно, a0 = –11 ± 20, a1= 0,13 ± 0,03, a2= 0,15 ± 0,03, a3= 0,92 ± 0,09 и общее аналитическое решение регрессионной задачи имеет вид
Таблица 1. Данные для экономики Аргентины за период 1956–1984.
y
z
x1
x2
y
z
x1
x2
y
z
x1
x2
90
682
135
82
112
909
225
92
125
1159
397
125
100
720
152
78
112
933
235
93
161
1172
473
131
104
765
167
78
119
970
260
96
146
1136
401
137
92
699
147
81
147
1031
316
99
221
1300
434
144
114
713
217
92
147
1074
340
100
315
1372
467
156
135
793
238
93
160
1120
376
105
303
1322
360
158
130
758
219
91
148
1137
378
103
175
1147
305
161
101
747
179
85
137
1174
361
109
167
1192
278
163
117
833
226
84
158
1277
367
116
172
1289
228
166
116
907
243
86
169
1292
375
118
-
-
-
-
Следовательно, S(x) имеет наименьшее значение в (12) когда x = 880,58/(2×436,28) = 1,009. Если x = 1,009, то из (11) и (12) получается стандартное МНК-решение {A¢= (–31; 0,044; 0,12; 0,83); S= 27633};
iii) Если то зависимость Q от x имеет вид:
если x £ –0,4079, то Q(x) = 552,256 – 4,0226x,
если–0,4079 < x £ 0,239, то Q(x) = 556,196 + 5,6366x,
Следовательно, Q(x) имеет наименьшее значение в (13) когда x=–0,4079. Если x = –0,4079, то из (11) и (13) получается решение метода наименьших модулей {A¢= (–2,8; 0,001; 0,16; 0,96); = 553,91}.
iv) Если то зависимость Dот x имеет вид:
если x £ 1,79, то D(x) = 96,94 – 4,973x,
если1,79 < x £ 6,578, то D(x) = 94,213 – 3,453x,
еслиx > 6,578, то D(x) = 21,376 + 7,619x.
(14)
Следовательно, D(x) имеет наименьшее значение в (14) когда x =6,578, Если x = 6,578, то из (11) и(14) получается равномерно-аппроксимирующее решение {A¢= (–142; 0,213; –0,00434; 0,315); = 71,49}. Но значение x = 6,578 >> 1 и таким образом это решение не входит в множество правильных решений.
Добавим, если , то = 46, где th — гиперболический тангенс: th (x) = (exp(x) – exp(–x))/(exp(x) + exp(–x)). Таким образом, дает оценку для yлучшую, чем исходная множественная модель
v) Как указано ранее, оцениватель = является M-робастным, если j(r) симметрична относительно оси Y, непрерывно дифференцируема с минимумом в нуле и j(0) = 0. В [2] предлагается в качестве j(r) использовать j(r) = (2/d) ln(1 + exp(dr)) – r. Если d= 2, , то зависимость от x имеет вид:
(x) = 510,86 – 37,48x – 8,618x+ 45,542 exp(x).
(15)
Следовательно, (x) имеет наименьшее значение в (15) когда x =–0,449. Если x = –0,449, то из (11) и (15) получается M-робастное решение {A¢= (–1,96; 0,001; 0,0003; 0,96); = 554,86}.
Maronna и Yohai в [4] исследовали также модель одновременных уравнений, содержащую 3 уравнения:
a) Первое уравнение — уже использовалось ранее для аппроксимации данных из Таблицы 1;
b) Второе уравнение — простая линейная модель , где значения переменной wопределены в Таблице 2;
c) Третье уравнение — где значения переменных и определены в Таблице 2.
Таблица 2. Дополнительные данные для экономики Аргентины за период 1956–1984.
w
x3
x4
w
x3
x4
w
x3
x4
w
x3
x4
828
89
69
1035
122
112
1469
163
163
1732
276
223
879
94
64
1130
134
123
1550
183
139
1643
298
191
921
97
81
1132
147
128
1597
184
188
1560
302
179
842
101
93
1135
145
158
1643
163
135
1666
327
126
902
102
108
1212
143
137
1567
214
202
1647
317
180
941
94
141
1315
166
149
1645
269
238
-
-
-
959
128
106
1385
178
159
1563
291
255
-
-
-
941
130
98
1455
161
146
1737
286
205
-
-
-
Maronna и Yohai в [4] использовали два метода для решения регрессионной задачи с моделью одновременных уравнений: трех стадийный МНК-метод (3S-LS-E) и робастный t-оцениватель со Stahel – Donoho весами (Rt-E-SDW): 3S-LS-E метод дает решение
(16)
Rt-E-SDW метод дает решение
(17)
В данной работе продемонстрировано, что обсуждаемую трех модельную регрессионную задачу можно легко решить, если сначала построить общие аналитические решения регрессионных задач для моделей, указанных ранее в пунктах a) и b). При этом полученное итоговое решение задачи будет обладать лучшими качествами, чем решения (16) и (17).
Литература:
1. Rao C.P.Linear statistical inference and its applications. Wiley & Sons, 1973.