Международный экономический форум 2012

Чебраков Ю.В.

Методы получения общих аналитических решений для регрессионных задач в эконометрике

Пусть заданы массив данных  и аппроксимирующая функция , где ynn-ое значение зависимой переменной,
 — n-ое значение вектора независимой переменной и — неизвестный вектор параметров. Требуется найти оценки A¢ и погрешности dA¢.

Если F(A, X) =  {F(A, X) — множественная линейная модель}, где hl(X) — некоторые функции от X, то обсуждаемую регрессионную задачу можно представить в матричной форме

(1)

и использовать алгебраические методы для решения уравнения (1).

В частности, известный метод наименьших квадратов (МНК) получается как решение следующей минимизационной задачи [1, 2]

S(A) = yn= (YHA)T(YHA) Þ min,

(2)

где “T” означает транспонирование матрицы. Действительно, если продифференцировать (2) по Aи приравнять полученное выражение нулю, то получим

S(A)/¶A= 2HTY+ 2HTHA= 0.

Если матрица (HTH)–1невырожденная (rank H= L), то получим искомое решение

ALS= (HTH)–1HTY,

(4)

умножив выражение (3) слева на матрицу (HTH)1.

Очевидно, что вид решения регрессионной задачи может зависеть от вида минимизационной задачи. Например, M-робастная минимизационная задача [2, 3] имеет вид

 =   или   =

где функция j(r) симметрична относительно оси Y, непрерывно дифференцируема с минимумом в нуле и j(0) = 0; y(r) — производная от j(r) по r.

Если F(A, X) — нелинейная функция, то для оценки неизвестного вектора параметров  Aчасто используется стандартный МНК-метод или, другими словами, минимизируется сумма квадратов остатков

S(A)= .

(6)

Так как система уравнений ¶SA= 0 в данном случае является нелинейной ищут минимум  S(A).

Как показано в [2] общие аналитические решения обсуждаемых регрессионных задач можно получить, решив следующие 4 задачи:

a) Найти такое наименьшее значение a = amin, что, для всех экспериментальных реализаций  содержащих все возможные Uподмножества из  отсчетов, выполняется неравенство

£ amin,

(7)

где N— размерность исходного массива данных   — оценка  n-го значения независимой переменной;  — функция усечения:

(y) = 2a[y/(2a)] + 2a,  если   êy2a [y/(2a)]ú ³ a; иначе  ga(y) = 2a [y/(2a)]

(8)

и n0 — заданное целое число, которое определяет наибольший уровень усечения  исходного массива данных

На практике значение aminищется как решение следующей экстремальной задачи

(9)

где максимум по Uозначает нахождение решения по всем подмножествам Uмножества {XU}, содержащих N, N– 1, …, Nn0отсчетов;

b) Построить набор эквивалентных аналитических функций (F((Ci¢, x), Xn)), где a = amin  и (Ci¢, x) — некоторый полином степени miс переменной x (–1 £ x £ 1) и векторным параметром

Таким образом, набор эквивалентных аналитических функций строится путем замены векторного параметра Aфункции (F(A, X))на A= {(Ci, x)} и определения наименьшего значения степени и определения оценок коэффициентов полинома (Ci, x).

c) Положить F((Ci¢, x), Xn), где  — искомое общее аналитическое решение обсуждаемой регрессионной задачи;

d) Вычислить значения погрешностей dA¢, подставляя крайние значения x в общее аналитическое решение F((Ci¢, x), Xn).

Продемонстрируем, какие преимущества исследователь может получить от использования функций  для анализа многомерных массивов данных в эконометрике.

Maronna и Yohai в [4] рассмотрели множественную линейную модель , аппроксимирующую данные из Таблицы 1. Методы, изложенные ранее, дают следующие решения для обсуждаемой регрессионной задачи:

i) Набор эквивалентных аналитических функций имеет вид

y¢(x, x)=( –10,9 – 19,9x + (0,0133 + 0,0303x) z + (0,1487 – 0,0292x)+ (0,923 – 0,0924x)),

(10)

где a = 67, –1 £ x £ 1. Следовательно, a0 = –11 ± 20, a1= 0,13 ± 0,03, a2= 0,15 ± 0,03, a3= 0,92 ± 0,09 и общее аналитическое решение регрессионной задачи имеет вид

–10,9 – 19,9x + (0,0133 + 0,0303x) z+ (0,1487 – 0,0292x)+ (0,923 – 0,0924x)

(11)

ii) Если S =, то зависимость Sот x имеет вид

S(x) = 28077,4 – 880,58x + 436,28x.

(12)

Таблица 1. Данные для экономики Аргентины за период 1956–1984.

y

z

x1

x2

y

z

x1

x2

y

z

x1

x2

90

682

135

82

112

909

225

92

125

1159

397

125

100

720

152

78

112

933

235

93

161

1172

473

131

104

765

167

78

119

970

260

96

146

1136

401

137

92

699

147

81

147

1031

316

99

221

1300

434

144

114

713

217

92

147

1074

340

100

315

1372

467

156

135

793

238

93

160

1120

376

105

303

1322

360

158

130

758

219

91

148

1137

378

103

175

1147

305

161

101

747

179

85

137

1174

361

109

167

1192

278

163

117

833

226

84

158

1277

367

116

172

1289

228

166

116

907

243

86

169

1292

375

118

-

-

-

-

Следовательно, S(x) имеет наименьшее значение  в (12) когда x =  880,58/(2×436,28) = 1,009. Если x = 1,009, то из (11) и (12) получается стандартное МНК-решение {A¢= (–31; 0,044; 0,12; 0,83); S= 27633};

iii) Если то зависимость Q от x имеет вид:

если  x £ –0,4079, то Q(x) = 552,256 – 4,0226x,

если  –0,4079 < x £ 0,239, то Q(x) = 556,196 + 5,6366x,

если  x > 0,239, то Q(x) = 557,64 – 7,544x + 38,013x.

(13)

Следовательно, Q(x) имеет наименьшее значение в (13) когда x=–0,4079. Если x = –0,4079, то из (11) и (13) получается решение метода наименьших модулей {A¢= (–2,8; 0,001; 0,16; 0,96); = 553,91}. 

iv) Если то зависимость Dот x имеет вид:

если  x £ 1,79, то D(x) = 96,94 – 4,973x,

если  1,79 < x £ 6,578, то D(x) = 94,213 – 3,453x,

если  x > 6,578, то D(x) = 21,376 + 7,619x.

(14)

Следовательно, D(x) имеет наименьшее значение в (14) когда x =6,578, Если x = 6,578, то из (11) и(14) получается равномерно-аппроксимирующее решение {A¢= (–142; 0,213; –0,00434; 0,315); = 71,49}. Но значение x = 6,578 >> 1 и таким образом это решение не входит в множество правильных решений.

Добавим, если , то  = 46, где th — гиперболический тангенс: th (x) = (exp(x) – exp(–x))/(exp(x) + exp(–x)). Таким образом,  дает оценку для yлучшую, чем исходная множественная модель

v) Как указано ранее, оцениватель = является M-робастным, если j(r) симметрична относительно оси Y, непрерывно дифференцируема с минимумом в нуле и j(0) = 0. В [2] предлагается в качестве j(r) использовать j(r) = (2/d) ln(1 + exp(dr)) – r. Если d= 2,   , то зависимость  от x имеет вид:

(x) = 510,86 – 37,48x – 8,618x+ 45,542 exp(x).

(15)

Следовательно, (x) имеет наименьшее значение в (15) когда x =–0,449. Если x = –0,449, то из (11) и (15) получается M-робастное решение {A¢= (–1,96; 0,001; 0,0003; 0,96); = 554,86}.

Maronna и Yohai в [4] исследовали также модель одновременных уравнений, содержащую 3 уравнения:

a) Первое уравнение —  уже использовалось ранее для аппроксимации данных из Таблицы 1;

b) Второе уравнение —  простая линейная модель , где значения переменной wопределены в Таблице 2;

c) Третье уравнение —    где значения переменных  и  определены в Таблице 2.

Таблица 2. Дополнительные данные для экономики Аргентины за период 1956–1984.

w

x3

x4

w

x3

x4

w

x3

x4

w

x3

x4

828

89

69

1035

122

112

1469

163

163

1732

276

223

879

94

64

1130

134

123

1550

183

139

1643

298

191

921

97

81

1132

147

128

1597

184

188

1560

302

179

842

101

93

1135

145

158

1643

163

135

1666

327

126

902

102

108

1212

143

137

1567

214

202

1647

317

180

941

94

141

1315

166

149

1645

269

238

-

-

-

959

128

106

1385

178

159

1563

291

255

-

-

-

941

130

98

1455

161

146

1737

286

205

-

-

-

Maronna и Yohai в [4] использовали два метода для решения регрессионной задачи с моделью одновременных уравнений: трех стадийный МНК-метод (3S-LS-E) и робастный t-оцениватель со Stahel – Donoho весами (Rt-E-SDW):  3S-LS-E метод дает решение

  

(16)

 Rt-E-SDW метод дает решение

  

(17)

В данной работе продемонстрировано, что обсуждаемую трех модельную регрессионную задачу можно легко решить, если сначала построить общие аналитические решения регрессионных задач для моделей, указанных ранее в пунктах a) и b). При этом полученное итоговое решение задачи будет обладать лучшими качествами, чем решения (16) и (17).

Литература:

1. Rao C.P.Linear statistical inference and its applications. Wiley & Sons, 1973.

2. Чебраков Ю.В.Теория оценивания параметров в измерительных экспериментах. Изд-во СПб гос. политехн. ун-та, 1997.

3. Huber P.J.Robust Statistics. Wiley & Sons, 1981.

4. Maronna N.A., Yohai V.J. Robust estimation in simultaneous equations models // J. of statistical planning and inference. 57. 233-244. 1997.