(Pertanyaan penelitian saya berbasis ekonomi, tetapi untuk kesederhanaan, saya menggunakan contoh non-ekonomi)
Misalkan saya mencoba mencari tahu apakah suhu tubuh rata-rata suatu populasi sama dengan 37 derajat Celcius. Saya mengambil sampel acak orang dan mengukur suhu tubuh mereka.
Masalahnya adalah, beberapa orang mengukur suhu tubuh mereka sekali, tetapi yang lain mengukur suhu tubuh beberapa kali (dua kali, tiga kali, atau bahkan sepuluh kali).
Biasanya saya akan menurunkan suhu tubuh secara konstan, dan melakukan pengujian hipotesis dengan $ H_0: \ beta_0 = 37 $. Namun, saya khawatir tentang korelasi serial.
Apakah pengelompokan kesalahan standar oleh orang cukup untuk memperbaiki korelasi serial ini? (mis. menggunakan reg bodytemperature, cluster(person)
di Stata)
Jawaban:
Saya tidak yakin ini akan menjawab pertanyaan Anda, tetapi mari saya coba dengan contoh nyata menggunakan Stata dan Data Otomotif 1978 untuk mengurangi harga mobil pada jarak tempuh (mpg).
Ini memberikan perkiraan harga -238,9, dengan standard error (s.e) 57,5. Lalu, jika saya menjalankan regresi yang sama setelah menduplikasi pengamatan tiga kali.
Saya mendapatkan seperti yang diharapkan s.e. dari 32,9. Akhirnya, mengelompokkan s.e. dengan make (Id Mobil)
memberikan nilai 57,2 dan membuat trik.
Namun, jika Anda memperluas dua kali beberapa pengamatan dan tiga kali lainnya (seperti dalam contoh Anda). Kemudian, Anda akan mendapatkan s yang lebih besar tetapi juga perkiraan yang berbeda. Tapi, sekali lagi, pengelompokan dengan make mengurangi s.e. Ini kodenya:
Perhatikan bahwa variabel harga dan mpg telah diperluas tanpa perubahan apa pun untuk setiap mobil. Dalam contoh Anda, jika orang yang telah mengukur suhu mereka beberapa kali memiliki suhu yang berbeda setiap kali, maka Anda dapat mempertimbangkan pengenalan efek tetap individu .
sumber
if
kondisi. Jika individu dengan banyak suhu adalah sampel acak dari populasi, contoh Anda tidak setara. Saya sarankan Anda mencoba ekspansi acak, mis. dengan membuat variabel dengan undian acak dari seragam antara 1 dan 3 dan kemudian menggunakan variabel itu sebagaifweight
. Saya menantikan hasil lihat itu!Jika Anda ingin tetap menggunakan OLS, saran Anda (pengelompokan) tampaknya baik-baik saja. Jika Anda ingin mengejar efisiensi, Anda mungkin ingin menggunakan efek acak FGLS (
xtreg bodytemperature, i(person)
) perkiraan.Jika Anda percaya bahwa semua suhu tubuh rata-rata identik, tidak apa-apa untuk menggunakannya. Tetapi jika mereka heterogen (karena gen atau apa pun), tidak ada yang memuaskan. Saya lebih suka berpikir tentang apa artinya "suhu tubuh rata-rata".
Mari kita ambil contoh. Ketika populasi Anda adalah tiga orang (101, 102, dan 103) dan sampel Anda adalah
(perhatikan bahwa orang 102 diukur dua kali), saya kira yang Anda inginkan adalah $ A = (1/3) \ kali [E (temp_ {101}) + E (temp_ {102}) + E (temp_ {103}) ] $. OLS (rata-rata tidak tertimbang), sama dengan $ (1/4) \ kali (x_1 + x_2 + x_3 + x_4) $, yang merupakan penaksir tidak bias sebesar $ B = (1/4) \ kali [E (temp_ { 101}) + E (temp_ {102}) + E (temp_ {102}) + E (temp_ {103})] $. Jika $ A = B $, itu bagus, tetapi $ A $ dan $ B $ bisa berbeda.
Saat Anda ingin $ A $, yang ingin Anda hitung adalah $ A_ {be} = (1/3) \ kali [x_1 + (x_2 + x_3) / 2 + x_4] $, sementara OLS memberi terlalu banyak bobot pada orang 102 . $ A_ {be} $ disebut panel "antara penaksir grup (BE)". Anda bisa mendapatkannya dengan
xtreg bodytemperature, be i(person)
.Untuk kumpulan data di atas, estimasi BE (dari $ A $) adalah 37.1, sedangkan estimasi OLS (dari $ B $) adalah 37.15. Coba yang berikut ini di Stata (copy & amp; paste).
(Saya sengaja mengurangi 37 untuk menguji hipotesis nol Anda.)
sumber
Saya pikir Anda terlalu rumit masalah ini. Tidak ada alasan yang baik untuk percaya bahwa pengukuran suhu untuk individu yang sama harus dilakukan tergantung . Jika termometer (atau instrumen yang digunakan untuk mengukur suhu) berkualitas baik, maka pengamatan, baik dari waktu ke waktu dan di seluruh sampel independen. Karena itu, Anda dapat memperlakukan beberapa pengamatan dari individu yang sama seolah-olah mereka berasal dari individu lain. Tidak perlu mengelompok. Dengan kata lain, sampel Anda adalah $ iid $, di mana estimasi OLS tidak bias dan konsisten.
Jika Anda masih percaya ada ketergantungan pengukuran dari waktu ke waktu (tetapi Anda perlu berdebat mengapa), Anda memang bisa menggunakan pengelompokan. Membandingkan kedua model akan memberi Anda gambaran tentang apakah pengelompokan itu memang dibutuhkan.
sumber