Saya memiliki model linier umum yang mengadopsi fungsi distribusi dan log link Gaussian. Setelah memasang model, saya memeriksa residu: QQ plot, residual vs nilai prediksi, histogram residu (mengakui bahwa kehati-hatian diperlukan). Semuanya terlihat bagus. Ini sepertinya menyarankan (kepada saya) bahwa pilihan distribusi Gaussian cukup masuk akal. Atau, setidaknya, bahwa residu konsisten dengan distribusi yang saya gunakan dalam model saya.
T1 : Apakah akan terlalu jauh untuk menyatakan bahwa itu memvalidasi pilihan distribusi saya?
Saya memilih fungsi tautan log karena variabel respons saya selalu positif, tetapi saya ingin semacam konfirmasi bahwa itu adalah pilihan yang baik.
T2 : Apakah ada tes, seperti memeriksa residu untuk pilihan distribusi, yang dapat mendukung pilihan fungsi tautan saya? (Memilih fungsi tautan tampaknya agak sewenang-wenang bagi saya, karena satu-satunya pedoman yang dapat saya temukan cukup kabur dan lamban, mungkin karena alasan yang baik.)
Jawaban:
Ini adalah varian dari pertanyaan yang sering diajukan mengenai apakah Anda dapat menegaskan hipotesis nol. Dalam kasus Anda, nol adalah bahwa residualnya adalah Gaussian, dan inspeksi visual plot Anda (qq-plot, histogram, dll.) Merupakan 'tes'. (Untuk gambaran umum tentang masalah menyatakan nol, mungkin membantu untuk membaca jawaban saya di sini: Mengapa ahli statistik mengatakan hasil yang tidak signifikan berarti "Anda tidak dapat menolak nol" sebagai lawan menerima hipotesis nol? ) Dalam kasus spesifik Anda, Anda dapat mengatakan bahwa plot menunjukkan residu Anda konsisten dengan asumsi normalitas Anda, tetapi plot tersebut tidak "memvalidasi" asumsi tersebut.
Anda dapat menyesuaikan model Anda menggunakan berbagai fungsi tautan dan membandingkannya,
tetapi tidak ada pengujian fungsi tautan tunggal secara terpisah(ini jelas salah, lihat jawaban @ Glen_b ). Dalam jawaban saya untuk Perbedaan antara model logit dan probit (yang mungkin layak dibaca, meskipun tidak persis sama), saya berpendapat bahwa fungsi tautan harus dipilih berdasarkan:Dalam kerangka itu, tautan kanonik untuk model Gaussian akan menjadi tautan identitas. Dalam hal ini Anda menolak kemungkinan itu, mungkin karena alasan teoretis. Saya menduga pemikiran Anda adalah bahwa tidak dapat mengambil nilai negatif (perhatikan bahwa 'tidak terjadi pada' bukanlah hal yang sama). Jika demikian, log adalah pilihan yang wajar a-priori, tetapi itu tidak hanya mencegahY Y dari menjadi negatif, itu juga menginduksi bentuk tertentu ke hubungan lengkung. Plot standar residual vs nilai yang dipasang (mungkin dengan overlay loess fit) akan membantu Anda mengidentifikasi apakah kelengkungan intrinsik dalam data Anda cocok dengan kelengkungan spesifik yang dikenakan oleh tautan log. Seperti yang saya sebutkan, Anda juga dapat mencoba transformasi apa pun yang memenuhi kriteria teoretis yang Anda inginkan dan membandingkan keduanya secara langsung.
sumber
Itu agak tergantung pada apa yang Anda maksud dengan 'memvalidasi' persis, tapi saya akan mengatakan 'ya, itu terlalu jauh' dengan cara yang sama bahwa Anda tidak dapat benar-benar mengatakan "nol terbukti benar", (terutama dengan titik nol, tetapi setidaknya dalam beberapa hal lebih umum). Anda hanya dapat benar-benar mengatakan "baik, kami tidak memiliki bukti kuat bahwa itu salah". Tetapi bagaimanapun kita tidak mengharapkan model kita menjadi sempurna, mereka adalah model . Apa yang penting, seperti yang dikatakan Box & Draper, adalah " seberapa salah mereka tidak berguna? "
Salah satu dari dua kalimat sebelumnya:
jauh lebih akurat menggambarkan apa yang ditunjukkan oleh diagnostik Anda - bukan bahwa model Gaussian dengan tautan log benar - tetapi itu masuk akal, atau konsisten dengan data.
Jika Anda tahu itu pasti positif maka artinya harus positif. Masuk akal untuk memilih model yang setidaknya konsisten dengan itu. Saya tidak tahu apakah itu pilihan yang baik (mungkin ada pilihan yang jauh lebih baik), tetapi itu adalah hal yang wajar untuk dilakukan; itu bisa menjadi titik awal saya. [Namun, jika variabel itu sendiri tentu positif, pikiran pertama saya cenderung Gamma dengan log-link, bukan Gaussian. "Tidak perlu positif" memang menunjukkan kemiringan dan varian yang berubah dengan rata-rata.]
Sepertinya Anda tidak bermaksud 'tes' seperti dalam "tes hipotesis formal" melainkan sebagai 'pemeriksaan diagnostik'.
Dalam kedua kasus itu, jawabannya adalah, ya, ada.
Salah satu tes hipotesis formal adalah Pregibon Goodness of link test [1].
Ini didasarkan pada penyertaan fungsi tautan dalam keluarga Box-Cox untuk melakukan uji hipotesis parameter Box-Cox.
Lihat juga diskusi singkat tes Pregibon di Breslow (1996) [2] ( lihat hlm. 14 ).
Namun, saya sangat menyarankan untuk tetap menggunakan rute diagnostik. Jika Anda ingin memeriksa fungsi tautan, Anda pada dasarnya menyatakan bahwa pada skala tautan, linier dalam yang ada dalam model, sehingga satu penilaian dasar mungkin melihat sebuah plot residu terhadap prediktor. Sebagai contoh,η= g( μ ) x
residual yang berfungsirWsaya= ( ysaya- μ^saya) ( ∂η∂μ)
(yang saya condong ke arah penilaian ini), atau mungkin dengan melihat penyimpangan dari linearitas dalam residual parsial, dengan satu plot untuk masing-masing prediktor (lihat misalnya, Hardin dan Hilbe, model dan ekstensi linier yang digeneralisasi, edisi ke-2 , detik 4.5) .4 hal. 54, untuk definisi),
Dalam kasus di mana data mengakui transformasi oleh fungsi tautan, Anda dapat mencari linearitas dengan cara yang sama seperti dengan regresi linier (meskipun Anda saya telah meninggalkan kecenderungan dan kemungkinan heteroskedastisitas).
Dalam kasus prediktor kategoris, pilihan fungsi tautan lebih merupakan masalah kenyamanan atau interpretabilitas, kecocokannya harus sama (jadi tidak perlu menilai untuk mereka).
Anda juga bisa mendasarkan diagnostik dari pendekatan Pregibon.
Ini tidak membentuk daftar lengkap; Anda dapat menemukan diagnostik lain yang dibahas.
[Karena itu, saya setuju dengan penilaian gung bahwa pilihan fungsi tautan pada awalnya harus didasarkan pada hal-hal seperti pertimbangan teoretis, jika memungkinkan.]
Lihat juga beberapa diskusi dalam posting ini , yang setidaknya sebagian relevan.
[1]: Pregibon, D. (1980),
"Tes Goodness of Link untuk Model Linear Umum,"
Jurnal Masyarakat Statistik Kerajaan. Seri C (Statistik Terapan) ,
Vol. 29, No. 1, hlm. 15-23.
[2]: Breslow NE (1996),
"Model linear umum: Memeriksa asumsi dan memperkuat kesimpulan,"
Statistica Applicata 8 , 23-41.
pdf
sumber