Masalah ini kelihatannya mendukung kepalanya yang buruk sepanjang waktu, dan saya mencoba memenggalnya untuk pemahaman saya sendiri tentang statistik (dan kewarasan!).
Asumsi model linier umum (uji-t, ANOVA, regresi, dll.) Meliputi "asumsi normalitas", tetapi saya menemukan ini jarang dijelaskan dengan jelas.
Saya sering menemukan buku teks statistik / manual / dll hanya menyatakan bahwa "asumsi normalitas" berlaku untuk masing-masing kelompok (yaitu, variabel X kategori), dan kita harus kita memeriksa keberangkatan dari normalitas untuk setiap kelompok .
Pertanyaan :
apakah asumsi mengacu pada nilai - nilai Y atau residu dari Y?
untuk kelompok tertentu , apakah mungkin untuk memiliki distribusi yang sangat tidak normal dari nilai-nilai Y (misalnya, condong) TETAPI distribusi residu Y yang kira-kira (atau setidaknya lebih normal) ?
Sumber lain menggambarkan bahwa asumsi berkaitan dengan residu model (dalam kasus di mana ada kelompok, misalnya t-tes / ANOVA), dan kita harus memeriksa keberangkatan normalitas residu ini (yaitu, hanya satu plot / tes QQ untuk menjalankan).
apakah normalitas residual untuk model menyiratkan normalitas residual untuk kelompok ? Dengan kata lain, haruskah kita memeriksa residu model (bertentangan dengan instruksi dalam banyak teks)?
Untuk menempatkan ini dalam konteks, pertimbangkan contoh hipotetis ini:
- Saya ingin membandingkan tinggi pohon (Y) antara dua populasi (X).
- Dalam satu populasi distribusi Y sangat miring kanan (yaitu, sebagian besar pohon pendek, sangat sedikit), sementara yang lain hampir normal
- Tinggi badan secara keseluruhan lebih tinggi pada populasi yang berdistribusi normal (menunjukkan kemungkinan ada perbedaan 'nyata').
- Transformasi data tidak secara substansial meningkatkan distribusi populasi pertama.
Pertama, apakah valid untuk membandingkan kelompok yang diberi distribusi ketinggian yang sangat berbeda?
Bagaimana saya mendekati "asumsi normalitas" di sini? Ingat tinggi dalam satu populasi tidak terdistribusi normal. Apakah saya memeriksa residu untuk kedua populasi secara terpisah ATAU residu untuk model (uji-t)?
Silakan merujuk pertanyaan dengan nomor dalam balasan, pengalaman telah menunjukkan kepada saya bahwa orang tersesat atau teralihkan dengan mudah (terutama saya!). Ingatlah bahwa saya bukan ahli statistik; meskipun saya memiliki pemahaman yang cukup konseptual (yaitu, tidak teknis!) tentang statistik.
PS, saya telah mencari arsip dan membaca utas-utas berikut yang belum memperkuat pemahaman saya:
- Asumsi normalitas ANOVA / distribusi normal residu
- Normalitas residual vs data sampel; bagaimana dengan uji-t?
- Apakah pengujian normal 'pada dasarnya tidak berguna'?
- Menguji normalitas
- Menilai normalitas distribusi
- Tes apa yang saya gunakan untuk mengonfirmasi bahwa residu terdistribusi normal?
- Apa yang harus dilakukan ketika uji Kolmogorov-Smirnov signifikan untuk residu uji parametrik tetapi kemiringan dan kurtosis terlihat normal?
Jawaban:
Satu hal yang dapat membantu pemahaman Anda:
Jika terdistribusi normal dan a dan b adalah konstanta, maka y = x - ax Sebuah b juga terdistribusi normal (tetapi dengan kemungkinan dan varians yang mungkin berbeda).y= x - ab
Karena residu hanyalah nilai-nilai y dikurangi estimasi rata-rata (residu terstandarisasi juga dibagi dengan estimasi kesalahan standar) maka jika nilai-nilai y terdistribusi secara normal maka residu juga dan sebaliknya. Jadi ketika kita berbicara tentang teori atau asumsi, tidak masalah yang kita bicarakan karena yang satu menyiratkan yang lain.
Jadi untuk pertanyaan ini mengarah ke:
Poin lain yang penting untuk dipahami (tetapi sering digabungkan dalam pembelajaran) adalah bahwa ada 2 jenis residu di sini: Residual teoretis yang merupakan perbedaan antara nilai-nilai yang diamati dan model teoritis yang benar, dan residu yang diamati yang merupakan perbedaan antara nilai yang diamati dan perkiraan dari model yang saat ini dipasang. Kami berasumsi bahwa residual teoretis adalah normal. Residu yang diamati bukan i, i, atau terdistribusi normal (tetapi memiliki rata-rata 0). Namun, untuk tujuan praktis residu yang diamati melakukan estimasi residu teoritis dan karenanya masih berguna untuk diagnostik.
sumber
Jawaban singkatnya:
Jawaban yang lebih panjang:
Asumsinya adalah bahwa variabel dependen (y) terdistribusi normal tetapi dengan cara berbeda untuk kelompok yang berbeda. Sebagai konsekuensinya, jika Anda memplot hanya distribusi y, maka dapat dengan mudah terlihat sangat berbeda dari kurva normal berbentuk lonceng standar Anda. Sisa mewakili distribusi y dengan perbedaan-perbedaan dalam berarti "disaring".
Atau, Anda dapat melihat distribusi y di setiap grup secara terpisah. Ini juga menyaring perbedaan cara di seluruh kelompok. Keuntungannya adalah dengan cara ini Anda juga mendapatkan informasi tentang distribusi di setiap grup, yang dalam kasus Anda tampaknya relevan. Kerugiannya adalah bahwa masing-masing kelompok mengandung pengamatan kurang dari dataset gabungan yang akan Anda dapatkan ketika melihat residu. Selain itu, Anda tidak akan dapat membandingkan grup secara bermakna jika Anda memiliki banyak grup, misalnya karena Anda memasukkan banyak variabel prediktor ke model Anda atau variabel prediktor kontinu (semu) untuk model Anda. Jadi, jika model Anda hanya terdiri dari satu variabel prediktor kategoris dan jumlah pengamatan di masing-masing kelompok cukup besar, maka dapat berarti untuk memeriksa distribusi y di setiap kelompok secara terpisah.
sumber
Pertanyaan 3)
Hal penting untuk menggunakan model linier yang memerlukan normalitas adalah residual yang tidak normal, apakah ini dalam kelompok atau tidak, merupakan indikator penting bahwa model Anda mungkin tidak sesuai dengan data Anda.
Jika Anda melakukan ANOVA, maka tentu saja residu keseluruhan Anda tidak harus normal (atau lebih tepatnya homoseksual), itu tidak masuk akal. Dalam regresi, Anda lebih baik memiliki model dengan berakhir dengan residual normal keseluruhan. Jika tidak, penaksir interval dan tes Anda akan salah. Ini mungkin kasus autokorelasi tertentu, atau bias variabel yang hilang. Jika modelnya 100% benar (termasuk mungkin penahan struktural dan pembobotan jika perlu), tidak jauh untuk menganggap istilah kesalahan normal, bahkan berpusat di sekitar 0. Praktis pertanyaannya sering menjadi: Bisakah kita lolos dengan hal-hal ini jika sampel cukup besar Tidak ada jawaban pasti, tetapi untuk pendekatan yang 100% benar ya, semua residu harus normal.
Pertanyaan 4 & 5)
Itu tergantung pada apa yang Anda maksudkan dengan membandingkan. Dengan asumsi istilah kesalahan normal, Anda dapat menguji berdasarkan asumsi dua distribusi yang berbeda. Anda juga dapat menggunakan estimasi GLS untuk regresi untuk memperhitungkan parameter distribusi yang berbeda - JIKA Anda memiliki model yang tepat ... dan saya kira grup Anda sendiri berfungsi sebagai variabel indikator / biner?
Maka mungkin akan sangat sulit untuk alasan bahwa distribusi residu akan normal - konsekuensinya adalah bahwa sementara Anda dapat melakukan hal-hal dengan data Anda, itu tidak akan didasarkan pada OLS biasa.
Tetapi itu tergantung pada apa yang ingin Anda lakukan dengan data.
Saya pikir pendekatan yang baik adalah melihat aljabar OLS reguler dengan fokus pada distribusi yang dihasilkan.
sumber