Haruskah saya menjalankan regresi terpisah untuk setiap komunitas, atau bisakah komunitas hanya menjadi variabel pengendali dalam model agregat?

11

Saya menjalankan model OLS dengan variabel indeks aset berkelanjutan sebagai DV. Data saya dikumpulkan dari tiga komunitas serupa dalam kedekatan geografis yang dekat satu sama lain. Meskipun demikian, saya pikir penting untuk menggunakan komunitas sebagai variabel kontrol. Ternyata, masyarakat signifikan pada tingkat 1% (t-skor -4,52). Komunitas adalah variabel nominal / kategorikal yang dikodekan sebagai 1,2,3 untuk 1 dari 3 komunitas yang berbeda.

Pertanyaan saya adalah apakah tingkat signifikansi yang tinggi ini berarti saya harus melakukan regresi pada komunitas secara individu daripada sebagai agregasi. Jika tidak, apakah menggunakan komunitas sebagai variabel kontrol pada dasarnya melakukan hal itu?

cadamt
sumber
Apakah masuk akal untuk menggunakan model hierarkis dengan komunitas sebagai efek acak? Komunitas bukan perhatian utama Anda, bukan? Dengan menggunakan model hierarkis, Anda berbagi kekuatan.
Wayne

Jawaban:

14

Pertanyaan itu menyarankan perbandingan tiga model terkait. Untuk membuat perbandingan menjadi jelas, misalkan menjadi variabel dependen, misalkan X { 1 , 2 , 3 } menjadi kode komunitas saat ini, dan tentukan X 1 dan X 2 sebagai indikator komunitas 1 dan 2, masing-masing. (Ini berarti bahwa X 1 = 1 untuk komunitas 1 dan X 1 = 0 untuk komunitas 2 dan 3; X 2 = 1 untuk komunitas 2 dan X 2 = 0YX{1,2,3}X1X2X1=1X1=0X2=1X2=0 untuk komunitas 1 dan 3.)

Analisis saat ini dapat berupa salah satu dari yang berikut:

Y=α+βX+ε(first model)

atau

Y=α+β1X1+β2X2+ε(second model).

Dalam kedua kasus mewakili satu set variabel acak independen yang terdistribusi secara identik dengan nol harapan. Model kedua kemungkinan adalah yang dimaksudkan, tetapi model pertama adalah yang akan sesuai dengan pengkodean yang dijelaskan dalam pertanyaan.ε

Output dari regresi OLS adalah seperangkat parameter yang dipasang (ditunjukkan dengan "topi" pada simbol-simbol mereka) bersama dengan perkiraan varians umum dari kesalahan. Pada model pertama ada satu t-test untuk membandingkan β ke 0 . Dalam model kedua ada dua uji-t: satu untuk membandingkan ^ β 1 hingga 0 dan yang lain untuk membandingkan ^ β 2 hingga 0 . Karena pertanyaan hanya melaporkan satu uji-t, mari kita mulai dengan memeriksa model pertama.β^0β1^0β2^0

β^0YE[α+βX+ε]α+βX

X=1α+β

X=2α+2β

X=3α+3β

Secara khusus, model pertama memaksa efek komunitas berada dalam perkembangan aritmatika. Jika pengkodean komunitas dimaksudkan hanya sebagai cara sewenang-wenang untuk membedakan antara komunitas, pembatasan bawaan ini juga sewenang-wenang dan kemungkinan salah.

Penting untuk melakukan analisis terperinci yang sama dengan prediksi model kedua:

X1=1X2=0Yα+β1

Y(community 1)=α+β1+ε.

X1=0X2=1Yα+β2

Y(community 2)=α+β2+ε.

X1=X2=0Yα

Y(community 3)=α+ε.

Yβ1=0β2=0β2β1(α+β2)(α+β1)β2β1

Sekarang kita dapat menilai efek dari tiga regresi terpisah. Mereka akan menjadi

Y(community 1)=α1+ε1,

Y(community 2)=α2+ε2,

Y(community 3)=α3+ε3.

α1α+β1α2α+β2α3αε1ε2ε3tetapi tidak ada yang diasumsikan tentang hubungan statistik di antara regresi yang terpisah. Oleh karena itu, regresi terpisah memungkinkan fleksibilitas tambahan:

  • ε1ε2ε3

  • εiεj

Fleksibilitas tambahan ini berarti bahwa hasil uji-t untuk parameter kemungkinan akan berbeda antara model kedua dan ketiga. (Namun, seharusnya tidak menghasilkan estimasi parameter yang berbeda.)

Untuk melihat apakah diperlukan regresi terpisah , lakukan hal berikut:

Pas dengan model kedua. Plot residu terhadap komunitas, misalnya sebagai satu set plot kotak berdampingan atau trio histogram atau bahkan sebagai tiga plot probabilitas. Cari bukti bentuk distribusi yang berbeda dan terutama varian yang sangat berbeda. Jika bukti itu tidak ada, model kedua harus ok. Jika ada, diperlukan regresi terpisah.

Ketika model multivariat - yaitu, mereka memasukkan faktor-faktor lain - analisis yang serupa mungkin dilakukan, dengan kesimpulan yang serupa (tetapi lebih rumit). Secara umum, melakukan regresi terpisah sama saja dengan memasukkan semua kemungkinan interaksi dua arah dengan variabel komunitas (diberi kode seperti pada model kedua, bukan yang pertama) dan memungkinkan distribusi kesalahan yang berbeda untuk setiap komunitas.

whuber
sumber
-3
  • pemilihan model (IMHO) masukkan deskripsi gambar di sinidapat direkomendasikan. Karena model yang kompleks (Kemiringan terpisah) akan memiliki penalti yang lebih keras, maka model yang lebih ringkas dan mudah diinterpretasikan akan "lebih baik".
Ivan Kshnyasev
sumber
1
Tidak sepenuhnya jelas apa yang Anda rekomendasikan di sini, atau bagaimana tabel ini berhubungan dengannya.
Scortchi