Saya menjalankan model OLS dengan variabel indeks aset berkelanjutan sebagai DV. Data saya dikumpulkan dari tiga komunitas serupa dalam kedekatan geografis yang dekat satu sama lain. Meskipun demikian, saya pikir penting untuk menggunakan komunitas sebagai variabel kontrol. Ternyata, masyarakat signifikan pada tingkat 1% (t-skor -4,52). Komunitas adalah variabel nominal / kategorikal yang dikodekan sebagai 1,2,3 untuk 1 dari 3 komunitas yang berbeda.
Pertanyaan saya adalah apakah tingkat signifikansi yang tinggi ini berarti saya harus melakukan regresi pada komunitas secara individu daripada sebagai agregasi. Jika tidak, apakah menggunakan komunitas sebagai variabel kontrol pada dasarnya melakukan hal itu?
Jawaban:
Pertanyaan itu menyarankan perbandingan tiga model terkait. Untuk membuat perbandingan menjadi jelas, misalkan menjadi variabel dependen, misalkan X ∈ { 1 , 2 , 3 } menjadi kode komunitas saat ini, dan tentukan X 1 dan X 2 sebagai indikator komunitas 1 dan 2, masing-masing. (Ini berarti bahwa X 1 = 1 untuk komunitas 1 dan X 1 = 0 untuk komunitas 2 dan 3; X 2 = 1 untuk komunitas 2 dan X 2 = 0Y X∈{1,2,3} X1 X2 X1=1 X1=0 X2=1 X2=0 untuk komunitas 1 dan 3.)
Analisis saat ini dapat berupa salah satu dari yang berikut:
atau
Dalam kedua kasus mewakili satu set variabel acak independen yang terdistribusi secara identik dengan nol harapan. Model kedua kemungkinan adalah yang dimaksudkan, tetapi model pertama adalah yang akan sesuai dengan pengkodean yang dijelaskan dalam pertanyaan.ε
Output dari regresi OLS adalah seperangkat parameter yang dipasang (ditunjukkan dengan "topi" pada simbol-simbol mereka) bersama dengan perkiraan varians umum dari kesalahan. Pada model pertama ada satu t-test untuk membandingkan β ke 0 . Dalam model kedua ada dua uji-t: satu untuk membandingkan ^ β 1 hingga 0 dan yang lain untuk membandingkan ^ β 2 hingga 0 . Karena pertanyaan hanya melaporkan satu uji-t, mari kita mulai dengan memeriksa model pertama.β^ 0 β1^ 0 β2^ 0
Secara khusus, model pertama memaksa efek komunitas berada dalam perkembangan aritmatika. Jika pengkodean komunitas dimaksudkan hanya sebagai cara sewenang-wenang untuk membedakan antara komunitas, pembatasan bawaan ini juga sewenang-wenang dan kemungkinan salah.
Penting untuk melakukan analisis terperinci yang sama dengan prediksi model kedua:
Sekarang kita dapat menilai efek dari tiga regresi terpisah. Mereka akan menjadi
Fleksibilitas tambahan ini berarti bahwa hasil uji-t untuk parameter kemungkinan akan berbeda antara model kedua dan ketiga. (Namun, seharusnya tidak menghasilkan estimasi parameter yang berbeda.)
Untuk melihat apakah diperlukan regresi terpisah , lakukan hal berikut:
Pas dengan model kedua. Plot residu terhadap komunitas, misalnya sebagai satu set plot kotak berdampingan atau trio histogram atau bahkan sebagai tiga plot probabilitas. Cari bukti bentuk distribusi yang berbeda dan terutama varian yang sangat berbeda. Jika bukti itu tidak ada, model kedua harus ok. Jika ada, diperlukan regresi terpisah.
Ketika model multivariat - yaitu, mereka memasukkan faktor-faktor lain - analisis yang serupa mungkin dilakukan, dengan kesimpulan yang serupa (tetapi lebih rumit). Secara umum, melakukan regresi terpisah sama saja dengan memasukkan semua kemungkinan interaksi dua arah dengan variabel komunitas (diberi kode seperti pada model kedua, bukan yang pertama) dan memungkinkan distribusi kesalahan yang berbeda untuk setiap komunitas.
sumber
sumber