Apakah homogenitas sampel merupakan asumsi analisis regresi?

8

Saya telah mengasumsikan (yaitu saya pikir saya diajar, lebih lama dari yang saya ingat) bahwa analisis regresi mengasumsikan bahwa sampel adalah homogen. Jika tidak, maka hal yang tepat untuk dilakukan adalah menambahkan variabel dummy ke kode untuk kelompok berbeda yang termasuk dalam sampel, atau melakukan ANCOVA untuk menguji apakah parameter grup sama. Apakah mengabaikan heterogenitas sampel membatalkan analisis regresi?

TAD
sumber

Jawaban:

8

Sampel biasanya diasumsikan homogen dalam arti bahwa istilah kesalahan ϵi dalam persamaan yi=β0+β1x1+β2x2++ϵi satisify kondisi berikut:

  1. Semua memiliki nilai nol: E(ϵi)=0 untuk semua i,
  2. Tidak berkorelasi: Cov(ϵi,ϵj)=0 untuk ij,
  3. Semua memiliki varian yang sama: Cov(ϵi)=σ2 untuk semua i.

Ini dikenal sebagai kondisi Gauss-Markov dan memastikan bahwa penaksir kuadrat terkecil biasa berkinerja baik (tidak memihak, penaksir tidak bias linier terbaik ...).

Perhatikan bahwa kondisi ini dapat dipenuhi bahkan jika Anda memiliki pengamatan dari kelompok yang berbeda. Seringkali, itu tidak terjadi. Jika ada perbedaan rata-rata antara kelompok, kondisi pertama dan kedua dilanggar. Jika ada korelasi dalam kelompok, kondisi kedua dilanggar. Jika grup berbeda dalam varians, yang ketiga dilanggar.

Pelanggaran kondisi Gauss-Markov dapat menyebabkan segala macam masalah. Untuk beberapa konsekuensi dari varian yang tidak konstan, lihat halaman Wikipedia tentang heteroskedastisitas .

Transformasi dapat bermanfaat ketika kondisi ketiga tidak terpenuhi, tetapi jika grup yang berbeda menyebabkan masalah dengan kondisi satu dan dua, tampaknya lebih masuk akal untuk menambahkan variabel dummy grup atau menggunakan ANCOVA.

MånsT
sumber
1
+1. Jika ada perbedaan antara rata-rata kelompok dan diabaikan dalam pemasangan model, maka model akan sesuai dengan perkiraan terbaik (dalam subruang yang memaksa kelompok-kelompok untuk menjadi homogen) yang masih memilikiE(ε)=0, Yang akan secara efektif rata-rata koefisien atas kelompok. Tentu saja, ketika mean grup berbeda, model ini cocok tidak terlalu berguna, kecuali jika Anda mencoba membuat kesimpulan tentang orang yang dipilih secara acak yang keanggotaan grupnya tidak Anda ketahui.
Makro
Saya menghapus jawaban saya bukan karena ada yang salah tetapi karena jawaban terakhir dari MansT membahasnya lebih lengkap kecuali untuk bagian pemodelan fungsi varians seperti yang dijelaskan dalam buku Ray Carroll.
Michael R. Chernick