Saya punya pertanyaan tentang Generalized Linear Models (GLM). Variabel dependen saya (DV) kontinu dan tidak normal. Jadi saya log mengubahnya (masih tidak normal tetapi memperbaikinya).
Saya ingin menghubungkan DV dengan dua variabel kategori dan satu kovariabel kontinu. Untuk ini saya ingin melakukan GLM (saya menggunakan SPSS) tetapi saya tidak yakin bagaimana memutuskan distribusi dan fungsi yang akan dipilih.
Saya telah melakukan uji nonparametrik Levene dan saya memiliki homogenitas varians sehingga saya cenderung menggunakan distribusi normal. Saya telah membaca bahwa untuk regresi linier data tidak perlu menjadi normal, residu lakukan. Jadi, saya telah mencetak residu Pearson terstandarisasi dan nilai prediksi untuk prediktor linier dari masing-masing GLM secara individual (fungsi identitas normal GLM dan fungsi log normal). Saya telah melakukan tes normalitas (histogram dan Shapiro-Wilk) dan merencanakan residual terhadap nilai prediksi (untuk memeriksa keacakan dan varians) untuk keduanya secara individual. Residu dari fungsi identitas tidak normal tetapi residu dari fungsi log normal. Saya cenderung memilih normal dengan fungsi tautan log karena residu Pearson terdistribusi secara normal.
Jadi pertanyaan saya adalah:
- Bisakah saya menggunakan distribusi normal GLM dengan fungsi tautan LOG pada DV yang sudah diubah log?
- Apakah uji homogenitas varians cukup untuk membenarkan menggunakan distribusi normal?
- Apakah prosedur pemeriksaan residu benar untuk membenarkan memilih model fungsi tautan?
Gambar distribusi DV di sebelah kiri dan residu dari normal GLM dengan fungsi log link di sebelah kanan.
Jawaban:
Iya; jika asumsi puas pada skala itu
Mengapa kesetaraan varian menyiratkan normalitas?
Anda harus berhati-hati dalam menggunakan histogram dan tes goodness of fit untuk memeriksa kesesuaian asumsi Anda:
1) Hati - hati menggunakan histogram untuk menilai normalitas. (Lihat juga di sini )
Singkatnya, tergantung pada sesuatu yang sederhana seperti perubahan kecil dalam pilihan binwidth Anda, atau bahkan hanya lokasi batas bin, dimungkinkan untuk mendapatkan tayangan yang sangat berbeda dari bentuk data:
Itu dua histogram dari kumpulan data yang sama. Menggunakan beberapa binwidth yang berbeda dapat berguna dalam melihat apakah tayangan sensitif terhadap itu.
2) Waspadalah menggunakan uji goodness of fit untuk menyimpulkan bahwa asumsi normalitas wajar. Tes hipotesis formal tidak benar-benar menjawab pertanyaan yang tepat.
mis. lihat tautan di bawah item 2. di sini
Dalam keadaan normal, pertanyaannya bukankah 'apakah kesalahan saya (atau distribusi bersyarat) normal?' - mereka tidak akan, kita bahkan tidak perlu memeriksa. Pertanyaan yang lebih relevan adalah 'seberapa parah tingkat ketidaknormalan yang hadir mempengaruhi kesimpulan saya? "
Saya menyarankan estimasi kepadatan kernel atau QQplot normal (plot residual vs skor normal). Jika distribusi terlihat cukup normal, Anda tidak perlu khawatir. Pada kenyataannya, bahkan ketika itu jelas non-normal itu masih mungkin tidak terlalu penting, tergantung pada apa yang ingin Anda lakukan (interval prediksi normal benar-benar akan bergantung pada normalitas, misalnya, tetapi banyak hal lain akan cenderung bekerja pada ukuran sampel besar )
Cukup lucu, pada sampel besar, normalitas menjadi semakin tidak penting (terlepas dari PI seperti disebutkan di atas), tetapi kemampuan Anda untuk menolak normalitas menjadi semakin besar.
Sunting: poin tentang kesetaraan varian adalah yang benar-benar dapat memengaruhi kesimpulan Anda, bahkan pada ukuran sampel yang besar. Tetapi Anda mungkin tidak seharusnya menilai itu dengan tes hipotesis juga. Salah asumsi asumsi adalah masalah apa pun yang Anda anggap distribusi.
Ketika Anda cocok dengan model normal memiliki parameter skala, dalam hal ini penyimpangan skala Anda akan tentang Np bahkan jika distribusi Anda tidak normal.
Dengan tidak adanya mengetahui apa yang Anda ukur atau untuk apa Anda menggunakan inferensi, saya masih tidak dapat menilai apakah akan menyarankan distribusi lain untuk GLM, atau seberapa penting normalitas pada kesimpulan Anda.
Namun, jika asumsi Anda yang lain juga masuk akal (linearitas dan kesetaraan varians setidaknya harus diperiksa dan potensi sumber ketergantungan dipertimbangkan), maka dalam sebagian besar keadaan saya akan sangat nyaman melakukan hal-hal seperti menggunakan CI dan melakukan tes pada koefisien atau kontras. - hanya ada sedikit kesan kemiringan pada residu-residu tersebut, yang, bahkan jika itu adalah efek nyata, seharusnya tidak memiliki dampak substantif pada jenis-jenis inferensi tersebut.
Singkatnya, Anda harus baik-baik saja.
(Walaupun fungsi distribusi dan tautan lain mungkin sedikit lebih baik dalam hal kecocokan, hanya dalam keadaan terbatas mereka cenderung lebih masuk akal.)
sumber