Apa cara yang benar untuk menguji perbedaan yang signifikan antara koefisien?

18

Saya berharap seseorang dapat membantu meluruskan titik kebingungan bagi saya. Katakanlah saya ingin menguji apakah 2 set koefisien regresi secara signifikan berbeda satu sama lain, dengan pengaturan berikut:

$y_i = \alpha + \beta x_i + \epsilon_i$ , dengan 5 variabel independen.
2 grup, dengan ukuran yang kira-kira sama (meskipun ini mungkin bervariasi) $n_1, n_2$
Ribuan regresi serupa akan dilakukan secara bersamaan, sehingga beberapa jenis koreksi hipotesis harus dilakukan.

Salah satu pendekatan yang disarankan kepada saya adalah menggunakan tes-Z:

$Z = \frac{b_1 - b_2}{\sqrt(SEb_1^2 + SEb_2^2)}$

Lain yang saya lihat disarankan di papan ini adalah untuk memperkenalkan variabel dummy untuk pengelompokan dan menulis ulang model sebagai:

$y_i = \alpha + \beta x_i + \delta(x_ig_i) + \epsilon_i$ , di mana adalah variabel pengelompokan, dikodekan sebagai 0, 1. $g$

Pertanyaan saya adalah, bagaimana kedua pendekatan ini berbeda (mis. Asumsi yang berbeda dibuat, fleksibilitas)? Apakah yang satu lebih pantas daripada yang lain? Saya menduga ini cukup mendasar, tetapi klarifikasi apa pun akan sangat dihargai.

regression hypothesis-testing multiple-regression cashoes
sumber

Saya percaya jawaban dan komentar untuk pertanyaan serupa dapat memberikan beberapa klarifikasi yang Anda cari.

whuber

Terima kasih. Saya kenal dengan jawaban itu. Dari pembahasan di bawah ini jawaban yang diterima (dan komentar Anda di sana) Saya meninggalkan kesan bahwa membandingkan koefisien 2 cocok terpisah tidak tepat. Apakah uji-z diterapkan pada koefisien dari nilai cocok yang salah atau apakah pengkodean variabel dummy lebih mudah dan memberikan jawaban yang setara?

tunai

1

Silakan lihat paragraf terakhir dari balasan saya ("Batasan utama ..."). Uji-Z adalah valid dengan asumsi

adalah besar (jika tidak digunakan pada tes) dan estimasi standar deviasi

tidak terlalu berbeda satu sama lain. Tidak ada pendekatan yang terbaik ketika standar deviasi berbeda banyak (kira-kira, lebih dari rasio 3: 1).

n_{i}

$n_i$

S E b_{i}

$SEb_i$

whuber

13

Kedua pendekatan itu berbeda.

Biarkan estimasi kesalahan standar dari dua regresi menjadi dan . Kemudian, karena regresi gabungan (dengan semua interaksi koefisien-dummy) cocok dengan koefisien yang sama, ia memiliki residu yang sama, di mana kesalahan standarnya dapat dihitung sebagai $s_1$ $s_2$

s = \sqrt{\frac{(n_{1} - p) s_{1}^{2} + (n_{2} - p) s_{2}^{2})}{n_{1} + n_{2} - 2 p}} .

$s = \sqrt{\frac{(n_1-p) s_1^2 + (n_2-p) s_2^2)}{n_1 + n_2 - 2 p}}.$

Jumlah parameter sama dengan dalam contoh: lima kemiringan dan intersep dalam setiap regresi. $p$ $6$

Biarkan mengestimasi parameter dalam satu regresi, mengestimasi parameter yang sama dalam regresi lainnya, dan memperkirakan perbedaan mereka dalam regresi gabungan. Kemudian kesalahan standar mereka dihubungkan oleh $b_1$ $b_2$ $b$

S E (b) = s \sqrt{(S E (b_{1}) / s_{1})^{2} + (S E (b_{2}) / s_{2})^{2}} .

$SE(b) = s \sqrt{(SE(b_1)/s_1)^2 + (SE(b_2)/s_2)^2}.$

Jika Anda belum melakukan regresi gabungan, tetapi hanya memiliki statistik untuk regresi terpisah, masukkan persamaan sebelumnya untuk . Ini akan menjadi penyebut untuk uji-t. Jelas itu tidak sama dengan penyebut yang disajikan dalam pertanyaan. $s$

Asumsi yang dibuat oleh regresi gabungan adalah bahwa varian residual pada dasarnya sama di kedua regresi terpisah. Namun, jika ini bukan masalahnya, z-test tidak akan baik, (kecuali jika ukuran sampelnya besar): Anda ingin menggunakan tes CABF atau uji - Welch-Satterthwaite.

whuber
sumber

9

Cara paling langsung untuk menguji perbedaan dalam koefisien antara dua kelompok adalah dengan memasukkan istilah interaksi ke dalam regresi Anda, yang hampir seperti yang Anda jelaskan dalam pertanyaan Anda. Model yang akan Anda jalankan adalah sebagai berikut:

$y_i = \alpha + \beta x_i + \gamma g_i + \delta (x_i \times g_i) + \varepsilon_i$

Perhatikan bahwa saya telah memasukkan variabel grup sebagai regressor terpisah dalam model. Dengan model ini, uji- dengan hipotesis nol adalah tes koefisien yang sama antara kedua kelompok. Untuk melihat ini, pertama mari pada model di atas. Kemudian, kita mendapatkan persamaan berikut untuk grup 0: $t$ $H_0: \delta = 0$ $g_i = 0$

$y_i = \alpha + \beta x_i + \varepsilon_i$

Sekarang, jika , maka kita memiliki: $g_i = 1$

$y_i = (\alpha + \gamma) + (\beta + \delta) x_i + \varepsilon_i$

Jadi, ketika adalah 0, maka dua kelompok memiliki koefisien yang sama. $\delta$

Matt Blackwell
sumber

Terima kasih telah memperbaiki model (saya percaya versi saya di atas hanya memberlakukan bahwa intersep sama di kedua grup ...). Lebih tepatnya, apakah ini setara dengan z-test yang saya posting di atas?

tunai

y_{i} = α + β x_{i} + γ g_{i} + ε_{i}

$y_i = \alpha + \beta x_i + \gamma g_i + \varepsilon_i$

y_{i} = α + β x_{i} + γ g_{i} + δ (x_{i} \times g_{i}) + ε_{i}

$y_i = \alpha + \beta x_i + \gamma g_i + \delta (x_i \times g_i) + \varepsilon_i$

@ matt-blackwell apakah ini secara konseptual sama dengan stratifikasi model dengan setiap nilai g? (mis. b akan menjadi koefisien x ketika g = 0, dan beta + delta ketika g = 1) Meskipun saya menghargai bahwa stratifikasi tidak memungkinkan perbandingan statistik.

bobmcpop

Apa cara yang benar untuk menguji perbedaan yang signifikan antara koefisien?

Jawaban: