Ini kelihatannya sangat mendasar, tetapi saya selalu terjebak pada titik ini ...
Sebagian besar data yang saya tangani tidak normal, dan sebagian besar analisis didasarkan pada struktur GLM. Untuk analisis saya saat ini, saya memiliki variabel respons yaitu "kecepatan berjalan" (meter / menit). Mudah bagi saya untuk mengidentifikasi bahwa saya tidak dapat menggunakan OLS, tetapi kemudian, saya memiliki ketidakpastian besar dalam memutuskan keluarga apa (Gamma, Weibull, dll.) Yang tepat!
Saya menggunakan Stata dan melihat diagnostik seperti residual dan heteroskedastisitas, residual vs nilai yang dipasang, dll.
Saya menyadari bahwa data penghitungan dapat mengambil bentuk tingkat (misalnya tingkat kejadian) dan telah menggunakan gamma (analog untuk model binomial negatif diskrit berlebih), tetapi hanya ingin "pistol merokok" untuk mengatakan YA, ANDA MEMILIKI HAK KELUARGA. Apakah hanya melihat residu terstandarisasi versus nilai-nilai yang dipasang adalah satu-satunya cara terbaik untuk melakukan ini? Saya ingin menggunakan model campuran untuk memperhitungkan beberapa hierarki dalam data juga, tetapi pertama-tama perlu memilah keluarga yang paling menggambarkan variabel respon saya.
Setiap bantuan dihargai. Bahasa stata sangat dihargai!
Jawaban:
Saya punya beberapa tips:
(1) Bagaimana residu harus dibandingkan dengan kecocokan tidak selalu jelas, jadi sebaiknya terbiasa dengan diagnostik untuk model tertentu. Dalam model regresi logistik, misalnya, statistik Hosmer-Lemeshow digunakan untuk menilai goodness of fit; nilai leverage cenderung kecil di mana peluang yang diperkirakan sangat besar, sangat kecil atau bahkan genap; & sebagainya.
(2) Kadang-kadang satu keluarga model dapat dilihat sebagai kasus khusus yang lain, sehingga Anda dapat menggunakan uji hipotesis pada parameter untuk membantu Anda memilih. Eksponensial vs Weibull, misalnya.
(3) Kriteria Informasi Akaike berguna dalam memilih di antara model-model yang berbeda, yang mencakup pemilihan di antara berbagai keluarga.
(4) Pengetahuan teoritis / empiris tentang apa yang Anda modelkan mempersempit bidang model yang masuk akal.
Tetapi tidak ada cara otomatis untuk menemukan keluarga yang 'benar'; data kehidupan nyata dapat berasal dari distribusi yang rumit seperti yang Anda inginkan, & kompleksitas model yang layak dicoba bertambah seiring dengan jumlah data yang Anda miliki. Ini adalah bagian & paket dari diktum Box bahwa tidak ada model yang benar tetapi beberapa berguna.
Komentar Re @ gung: tampaknya tes Hosmer-Lemeshow yang umum digunakan adalah (a) secara mengejutkan sensitif terhadap pilihan tempat sampah, & (b) umumnya kurang kuat daripada beberapa tes lain terhadap beberapa kelas hipotesis alternatif yang relevan. Itu tidak mengurangi dari poin (1): itu juga bagus untuk menjadi up-to-date.
sumber
Anda mungkin menemukan semenarik untuk membaca sketsa (manual pengantar) untuk paket R
fitdistrplus
. Saya menyadari bahwa Anda lebih suka bekerja di Stata, tetapi saya pikir sketsa tersebut akan cukup jelas sehingga Anda bisa mendapatkan beberapa wawasan tentang proses menyimpulkan keluarga distribusi dari data. Anda mungkin dapat mengimplementasikan beberapa ide di Stata melalui kode Anda sendiri. Secara khusus, saya pikir grafik Cullen dan Frey, jika itu / dapat diimplementasikan di Stata, dapat membantu Anda.sumber