Haruskah saya menjalankan regresi terpisah untuk setiap komunitas, atau bisakah komunitas hanya menjadi variabel pengendali dalam model agregat?

11

Saya menjalankan model OLS dengan variabel indeks aset berkelanjutan sebagai DV. Data saya dikumpulkan dari tiga komunitas serupa dalam kedekatan geografis yang dekat satu sama lain. Meskipun demikian, saya pikir penting untuk menggunakan komunitas sebagai variabel kontrol. Ternyata, masyarakat signifikan pada tingkat 1% (t-skor -4,52). Komunitas adalah variabel nominal / kategorikal yang dikodekan sebagai 1,2,3 untuk 1 dari 3 komunitas yang berbeda.

Pertanyaan saya adalah apakah tingkat signifikansi yang tinggi ini berarti saya harus melakukan regresi pada komunitas secara individu daripada sebagai agregasi. Jika tidak, apakah menggunakan komunitas sebagai variabel kontrol pada dasarnya melakukan hal itu?

regression categorical-data stata multiple-regression aggregation cadamt
sumber

Apakah masuk akal untuk menggunakan model hierarkis dengan komunitas sebagai efek acak? Komunitas bukan perhatian utama Anda, bukan? Dengan menggunakan model hierarkis, Anda berbagi kekuatan.

Wayne

14

Pertanyaan itu menyarankan perbandingan tiga model terkait. Untuk membuat perbandingan menjadi jelas, misalkan menjadi variabel dependen, misalkan menjadi kode komunitas saat ini, dan tentukan dan sebagai indikator komunitas 1 dan 2, masing-masing. (Ini berarti bahwa untuk komunitas 1 dan untuk komunitas 2 dan 3; untuk komunitas 2 dan $Y$ $X \in \{1,2,3\}$ $X_1$ $X_2$ $X_1=1$ $X_1=0$ $X_2=1$ $X_2=0$ untuk komunitas 1 dan 3.)

Analisis saat ini dapat berupa salah satu dari yang berikut:

Y = α + β X + ε (first model)

$Y = \alpha + \beta X + \varepsilon\quad\text{(first model)}$

atau

Y = α + β_{1} X_{1} + β_{2} X_{2} + ε (second model) .

$Y = \alpha + \beta_1 X_1 + \beta_2 X_2 + \varepsilon\quad\text{(second model)}.$

Dalam kedua kasus mewakili satu set variabel acak independen yang terdistribusi secara identik dengan nol harapan. Model kedua kemungkinan adalah yang dimaksudkan, tetapi model pertama adalah yang akan sesuai dengan pengkodean yang dijelaskan dalam pertanyaan. $\varepsilon$

Output dari regresi OLS adalah seperangkat parameter yang dipasang (ditunjukkan dengan "topi" pada simbol-simbol mereka) bersama dengan perkiraan varians umum dari kesalahan. Pada model pertama ada satu t-test untuk membandingkan ke . Dalam model kedua ada dua uji-t: satu untuk membandingkan hingga dan yang lain untuk membandingkan hingga . Karena pertanyaan hanya melaporkan satu uji-t, mari kita mulai dengan memeriksa model pertama. $\hat{\beta}$ $0$ $\hat{\beta_1}$ $0$ $\hat{\beta_2}$ $0$

$\hat{\beta}$ $0$ $Y$ $\mathbb{E}[\alpha + \beta X + \varepsilon]$ $\alpha + \beta X$

$X=1$ $\alpha+\beta$

$X=2$ $\alpha+2\beta$

$X=3$ $\alpha+3\beta$

Secara khusus, model pertama memaksa efek komunitas berada dalam perkembangan aritmatika. Jika pengkodean komunitas dimaksudkan hanya sebagai cara sewenang-wenang untuk membedakan antara komunitas, pembatasan bawaan ini juga sewenang-wenang dan kemungkinan salah.

Penting untuk melakukan analisis terperinci yang sama dengan prediksi model kedua:

$X_1=1$ $X_2=0$ $Y$ $\alpha + \beta_1$

Y (community 1) = α + β_{1} + ε .

$Y(\text{community 1}) = \alpha + \beta_1 + \varepsilon.$

$X_1=0$ $X_2=1$ $Y$ $\alpha+\beta_2$

Y (community 2) = α + β_{2} + ε .

$Y(\text{community 2}) = \alpha + \beta_2 + \varepsilon.$

$X_1=X_2=0$ $Y$ $\alpha$

Y (community 3) = α + ε .

$Y(\text{community 3}) = \alpha + \varepsilon.$

$Y$ $\beta_1=0$ $\beta_2=0$ $\beta_2-\beta_1$ $(\alpha + \beta_2) - (\alpha + \beta_1)$ $\beta_2-\beta_1$

Sekarang kita dapat menilai efek dari tiga regresi terpisah. Mereka akan menjadi

Y (community 1) = α_{1} + ε_{1},

$Y(\text{community 1}) = \alpha_1 + \varepsilon_1,$

Y (community 2) = α_{2} + ε_{2},

$Y(\text{community 2}) = \alpha_2 + \varepsilon_2,$

Y (community 3) = α_{3} + ε_{3} .

$Y(\text{community 3}) = \alpha_3 + \varepsilon_3.$

$\alpha_1$ $\alpha+\beta_1$ $\alpha_2$ $\alpha+\beta_2$ $\alpha_3$ $\alpha$ $\varepsilon_1$ $\varepsilon_2$ $\varepsilon_3$ tetapi tidak ada yang diasumsikan tentang hubungan statistik di antara regresi yang terpisah. Oleh karena itu, regresi terpisah memungkinkan fleksibilitas tambahan:

$\varepsilon_1$ $\varepsilon_2$ $\varepsilon_3$
$\varepsilon_i$ $\varepsilon_j$

Fleksibilitas tambahan ini berarti bahwa hasil uji-t untuk parameter kemungkinan akan berbeda antara model kedua dan ketiga. (Namun, seharusnya tidak menghasilkan estimasi parameter yang berbeda.)

Untuk melihat apakah diperlukan regresi terpisah , lakukan hal berikut:

Pas dengan model kedua. Plot residu terhadap komunitas, misalnya sebagai satu set plot kotak berdampingan atau trio histogram atau bahkan sebagai tiga plot probabilitas. Cari bukti bentuk distribusi yang berbeda dan terutama varian yang sangat berbeda. Jika bukti itu tidak ada, model kedua harus ok. Jika ada, diperlukan regresi terpisah.

Ketika model multivariat - yaitu, mereka memasukkan faktor-faktor lain - analisis yang serupa mungkin dilakukan, dengan kesimpulan yang serupa (tetapi lebih rumit). Secara umum, melakukan regresi terpisah sama saja dengan memasukkan semua kemungkinan interaksi dua arah dengan variabel komunitas (diberi kode seperti pada model kedua, bukan yang pertama) dan memungkinkan distribusi kesalahan yang berbeda untuk setiap komunitas.

whuber
sumber

-3

pemilihan model (IMHO) dapat direkomendasikan. Karena model yang kompleks (Kemiringan terpisah) akan memiliki penalti yang lebih keras, maka model yang lebih ringkas dan mudah diinterpretasikan akan "lebih baik".

Ivan Kshnyasev
sumber

1

Tidak sepenuhnya jelas apa yang Anda rekomendasikan di sini, atau bagaimana tabel ini berhubungan dengannya.

Scortchi

Haruskah saya menjalankan regresi terpisah untuk setiap komunitas, atau bisakah komunitas hanya menjadi variabel pengendali dalam model agregat?

Jawaban: