Kesalahan standar berkerumun

4

(Pertanyaan penelitian saya berbasis ekonomi, tetapi untuk kesederhanaan, saya menggunakan contoh non-ekonomi)

Misalkan saya mencoba mencari tahu apakah suhu tubuh rata-rata suatu populasi sama dengan 37 derajat Celcius. Saya mengambil sampel acak orang dan mengukur suhu tubuh mereka.

Masalahnya adalah, beberapa orang mengukur suhu tubuh mereka sekali, tetapi yang lain mengukur suhu tubuh beberapa kali (dua kali, tiga kali, atau bahkan sepuluh kali).

Biasanya saya akan menurunkan suhu tubuh secara konstan, dan melakukan pengujian hipotesis dengan $ H_0: \ beta_0 = 37 $. Namun, saya khawatir tentang korelasi serial.

Apakah pengelompokan kesalahan standar oleh orang cukup untuk memperbaiki korelasi serial ini? (mis. menggunakan reg bodytemperature, cluster(person) di Stata)

wwl
sumber
Clustering tidak secara umum menangani korelasi serial. Selain itu, cara Anda menyarankan untuk mengelompokkan akan menyiratkan N cluster dengan satu pengamatan masing-masing, yang umumnya bukan ide yang baik. Juga, mengapa Anda khawatir tentang korelasi serial dalam kasus ini? Saya tidak melihat bagaimana korelasi serial dalam sampel Anda dipengaruhi oleh apakah orang-orang di masa lalu pernah mengukur suhu mereka dan Anda tidak memiliki panel dari apa yang saya mengerti. Untuk pertanyaan tentang pengelompokan, saya sangat merekomendasikan makalah Cameron dan Miller "Panduan Praktisi untuk Inferensi Cluster-Robust".
BB King
Ups, maaf, saya tidak menjelaskan dengan jelas. Yang saya maksudkan adalah beberapa orang mengukur suhu mereka beberapa kali, dan ini dicatat dalam dataset mereka. Misalnya, jika suhu saya diambil lima kali, maka itu akan dicatat dalam dataset sebagai lima pengamatan, tetapi dengan nama saya di sebelahnya.
wwl

Jawaban:

1

Saya tidak yakin ini akan menjawab pertanyaan Anda, tetapi mari saya coba dengan contoh nyata menggunakan Stata dan Data Otomotif 1978 untuk mengurangi harga mobil pada jarak tempuh (mpg).

sysuse auto, clear    
reg price mpg, robust

Ini memberikan perkiraan harga -238,9, dengan standard error (s.e) 57,5. Lalu, jika saya menjalankan regresi yang sama setelah menduplikasi pengamatan tiga kali.

expand 3
reg price mpg, robust

Saya mendapatkan seperti yang diharapkan s.e. dari 32,9. Akhirnya, mengelompokkan s.e. dengan make (Id Mobil)

reg price mpg, cluster(make)

memberikan nilai 57,2 dan membuat trik.

Namun, jika Anda memperluas dua kali beberapa pengamatan dan tiga kali lainnya (seperti dalam contoh Anda). Kemudian, Anda akan mendapatkan s yang lebih besar tetapi juga perkiraan yang berbeda. Tapi, sekali lagi, pengelompokan dengan make mengurangi s.e. Ini kodenya:

sysuse auto, clear
expand 3 if price>4000 & price<=6000
expand 2 if price>6000
reg price mpg, robust
reg price mpg, cluster(make)

Perhatikan bahwa variabel harga dan mpg telah diperluas tanpa perubahan apa pun untuk setiap mobil. Dalam contoh Anda, jika orang yang telah mengukur suhu mereka beberapa kali memiliki suhu yang berbeda setiap kali, maka Anda dapat mempertimbangkan pengenalan efek tetap individu .

emeryville
sumber
Ini latihan yang menarik. Namun, sampel Anda diperluas tidak acak karena Anda telah memperluas sampel berdasarkan pada if kondisi. Jika individu dengan banyak suhu adalah sampel acak dari populasi, contoh Anda tidak setara. Saya sarankan Anda mencoba ekspansi acak, mis. dengan membuat variabel dengan undian acak dari seragam antara 1 dan 3 dan kemudian menggunakan variabel itu sebagai fweight. Saya menantikan hasil lihat itu!
luchonacho
0

Jika Anda ingin tetap menggunakan OLS, saran Anda (pengelompokan) tampaknya baik-baik saja. Jika Anda ingin mengejar efisiensi, Anda mungkin ingin menggunakan efek acak FGLS ( xtreg bodytemperature, i(person) ) perkiraan.

Jika Anda percaya bahwa semua suhu tubuh rata-rata identik, tidak apa-apa untuk menggunakannya. Tetapi jika mereka heterogen (karena gen atau apa pun), tidak ada yang memuaskan. Saya lebih suka berpikir tentang apa artinya "suhu tubuh rata-rata".

Mari kita ambil contoh. Ketika populasi Anda adalah tiga orang (101, 102, dan 103) dan sampel Anda adalah

i      person         x      /* x = measured temp */
1       101         36.5
2       102         36.8
3       102         37.8
4       103         37.5

(perhatikan bahwa orang 102 diukur dua kali), saya kira yang Anda inginkan adalah $ A = (1/3) \ kali [E (temp_ {101}) + E (temp_ {102}) + E (temp_ {103}) ] $. OLS (rata-rata tidak tertimbang), sama dengan $ (1/4) \ kali (x_1 + x_2 + x_3 + x_4) $, yang merupakan penaksir tidak bias sebesar $ B = (1/4) \ kali [E (temp_ { 101}) + E (temp_ {102}) + E (temp_ {102}) + E (temp_ {103})] $. Jika $ A = B $, itu bagus, tetapi $ A $ dan $ B $ bisa berbeda.

Saat Anda ingin $ A $, yang ingin Anda hitung adalah $ A_ {be} = (1/3) \ kali [x_1 + (x_2 + x_3) / 2 + x_4] $, sementara OLS memberi terlalu banyak bobot pada orang 102 . $ A_ {be} $ disebut panel "antara penaksir grup (BE)". Anda bisa mendapatkannya dengan xtreg bodytemperature, be i(person).

Untuk kumpulan data di atas, estimasi BE (dari $ A $) adalah 37.1, sedangkan estimasi OLS (dari $ B $) adalah 37.15. Coba yang berikut ini di Stata (copy & amp; paste).

* Copy & paste into Stata
clear all
input person temp
101 36.5
102 36.8
102 37.8
103 37.5
end
gen temp37 = temp-37
reg temp37, vce(cluster person)
xtreg temp37, be i(person)

(Saya sengaja mengurangi 37 untuk menguji hipotesis nol Anda.)

chan1142
sumber
0

Saya pikir Anda terlalu rumit masalah ini. Tidak ada alasan yang baik untuk percaya bahwa pengukuran suhu untuk individu yang sama harus dilakukan tergantung . Jika termometer (atau instrumen yang digunakan untuk mengukur suhu) berkualitas baik, maka pengamatan, baik dari waktu ke waktu dan di seluruh sampel independen. Karena itu, Anda dapat memperlakukan beberapa pengamatan dari individu yang sama seolah-olah mereka berasal dari individu lain. Tidak perlu mengelompok. Dengan kata lain, sampel Anda adalah $ iid $, di mana estimasi OLS tidak bias dan konsisten.

Jika Anda masih percaya ada ketergantungan pengukuran dari waktu ke waktu (tetapi Anda perlu berdebat mengapa), Anda memang bisa menggunakan pengelompokan. Membandingkan kedua model akan memberi Anda gambaran tentang apakah pengelompokan itu memang dibutuhkan.

luchonacho
sumber