GLM: memverifikasi pilihan fungsi distribusi dan tautan

14

Saya memiliki model linier umum yang mengadopsi fungsi distribusi dan log link Gaussian. Setelah memasang model, saya memeriksa residu: QQ plot, residual vs nilai prediksi, histogram residu (mengakui bahwa kehati-hatian diperlukan). Semuanya terlihat bagus. Ini sepertinya menyarankan (kepada saya) bahwa pilihan distribusi Gaussian cukup masuk akal. Atau, setidaknya, bahwa residu konsisten dengan distribusi yang saya gunakan dalam model saya.

T1 : Apakah akan terlalu jauh untuk menyatakan bahwa itu memvalidasi pilihan distribusi saya?

Saya memilih fungsi tautan log karena variabel respons saya selalu positif, tetapi saya ingin semacam konfirmasi bahwa itu adalah pilihan yang baik.

T2 : Apakah ada tes, seperti memeriksa residu untuk pilihan distribusi, yang dapat mendukung pilihan fungsi tautan saya? (Memilih fungsi tautan tampaknya agak sewenang-wenang bagi saya, karena satu-satunya pedoman yang dapat saya temukan cukup kabur dan lamban, mungkin karena alasan yang baik.)

Lyngbakr
sumber
2
Q1. Anda dapat mencoba distribusi lain dan melihat apakah kinerjanya lebih baik. Q2. Memilih tautan log untuk memastikan prediksi positif tidak tampak sewenang-wenang bagi saya. Dasar pemikirannya. Tetapi apakah Anda akan mendapatkan prediksi negatif dengan tautan identitas dan data yang Anda miliki pada gilirannya dapat diperiksa. Intinya: Anda tidak dapat memastikan bahwa model lain tidak akan lebih baik sebelum Anda mencobanya.
Nick Cox
1
Terima kasih atas jawabannya, @Nick. Saya khawatir itu hanya akan menjadi kasus menghisap-dan-melihat, seperti yang Anda katakan. Saya tidak begitu khawatir bahwa itu adalah model terbaik tentu saja, hanya saja asumsi dapat dibenarkan. Satu ide yang saya mainkan adalah merencanakan pengamatan saya, , terhadap transformasi eksponensial dari prediktor linier, . Agaknya, semakin dekat titik ke garis 1: 1, semakin baik asumsi fungsi tautan log? Juga, saya bisa menghitung ini dengan untuk baris 1: 1. (Saya bukan ahli statistik, jadi saya tidak yakin seberapa menggelikannya.)Yexp(η)R2
Lyngbakr
2
Saya juga bukan ahli statistik, tetapi saya telah menggunakan plot yang sama untuk mengevaluasi model. Lihat misalnya stata-journal.com/sjpdf.html?articlenum=gr0009 Saya juga telah menggunakan analog sebagai ukuran deskriptif tanpa merasa terlalu bersalah tentang hal itu: lihat stats.stackexchange.com/questions/68066/… untuk beberapa detail . R2
Nick Cox

Jawaban:

13
  1. Ini adalah varian dari pertanyaan yang sering diajukan mengenai apakah Anda dapat menegaskan hipotesis nol. Dalam kasus Anda, nol adalah bahwa residualnya adalah Gaussian, dan inspeksi visual plot Anda (qq-plot, histogram, dll.) Merupakan 'tes'. (Untuk gambaran umum tentang masalah menyatakan nol, mungkin membantu untuk membaca jawaban saya di sini: Mengapa ahli statistik mengatakan hasil yang tidak signifikan berarti "Anda tidak dapat menolak nol" sebagai lawan menerima hipotesis nol? ) Dalam kasus spesifik Anda, Anda dapat mengatakan bahwa plot menunjukkan residu Anda konsisten dengan asumsi normalitas Anda, tetapi plot tersebut tidak "memvalidasi" asumsi tersebut.

  2. Anda dapat menyesuaikan model Anda menggunakan berbagai fungsi tautan dan membandingkannya, tetapi tidak ada pengujian fungsi tautan tunggal secara terpisah (ini jelas salah, lihat jawaban @ Glen_b ). Dalam jawaban saya untuk Perbedaan antara model logit dan probit (yang mungkin layak dibaca, meskipun tidak persis sama), saya berpendapat bahwa fungsi tautan harus dipilih berdasarkan:

    1. Pengetahuan tentang distribusi respons,
    2. Pertimbangan teoretis, dan
    3. Empiris cocok dengan data.

    Dalam kerangka itu, tautan kanonik untuk model Gaussian akan menjadi tautan identitas. Dalam hal ini Anda menolak kemungkinan itu, mungkin karena alasan teoretis. Saya menduga pemikiran Anda adalah bahwa tidak dapat mengambil nilai negatif (perhatikan bahwa 'tidak terjadi pada' bukanlah hal yang sama). Jika demikian, log adalah pilihan yang wajar a-priori, tetapi itu tidak hanya mencegahYYdari menjadi negatif, itu juga menginduksi bentuk tertentu ke hubungan lengkung. Plot standar residual vs nilai yang dipasang (mungkin dengan overlay loess fit) akan membantu Anda mengidentifikasi apakah kelengkungan intrinsik dalam data Anda cocok dengan kelengkungan spesifik yang dikenakan oleh tautan log. Seperti yang saya sebutkan, Anda juga dapat mencoba transformasi apa pun yang memenuhi kriteria teoretis yang Anda inginkan dan membandingkan keduanya secara langsung.

gung - Pasang kembali Monica
sumber
16

Apakah akan terlalu jauh untuk menyatakan bahwa itu memvalidasi pilihan distribusi saya?

Itu agak tergantung pada apa yang Anda maksud dengan 'memvalidasi' persis, tapi saya akan mengatakan 'ya, itu terlalu jauh' dengan cara yang sama bahwa Anda tidak dapat benar-benar mengatakan "nol terbukti benar", (terutama dengan titik nol, tetapi setidaknya dalam beberapa hal lebih umum). Anda hanya dapat benar-benar mengatakan "baik, kami tidak memiliki bukti kuat bahwa itu salah". Tetapi bagaimanapun kita tidak mengharapkan model kita menjadi sempurna, mereka adalah model . Apa yang penting, seperti yang dikatakan Box & Draper, adalah " seberapa salah mereka tidak berguna? "

Salah satu dari dua kalimat sebelumnya:

Ini sepertinya menyarankan (kepada saya) bahwa pilihan distribusi Gaussian cukup masuk akal. Atau, setidaknya, bahwa residu konsisten dengan distribusi yang saya gunakan dalam model saya.

jauh lebih akurat menggambarkan apa yang ditunjukkan oleh diagnostik Anda - bukan bahwa model Gaussian dengan tautan log benar - tetapi itu masuk akal, atau konsisten dengan data.

Saya memilih fungsi tautan log karena variabel respons saya selalu positif, tetapi saya ingin semacam konfirmasi bahwa itu adalah pilihan yang baik.

Jika Anda tahu itu pasti positif maka artinya harus positif. Masuk akal untuk memilih model yang setidaknya konsisten dengan itu. Saya tidak tahu apakah itu pilihan yang baik (mungkin ada pilihan yang jauh lebih baik), tetapi itu adalah hal yang wajar untuk dilakukan; itu bisa menjadi titik awal saya. [Namun, jika variabel itu sendiri tentu positif, pikiran pertama saya cenderung Gamma dengan log-link, bukan Gaussian. "Tidak perlu positif" memang menunjukkan kemiringan dan varian yang berubah dengan rata-rata.]

T2: Apakah ada tes, seperti memeriksa residu untuk pilihan distribusi, yang dapat mendukung pilihan fungsi tautan saya?

Sepertinya Anda tidak bermaksud 'tes' seperti dalam "tes hipotesis formal" melainkan sebagai 'pemeriksaan diagnostik'.

Dalam kedua kasus itu, jawabannya adalah, ya, ada.

Salah satu tes hipotesis formal adalah Pregibon Goodness of link test [1].

Ini didasarkan pada penyertaan fungsi tautan dalam keluarga Box-Cox untuk melakukan uji hipotesis parameter Box-Cox.

Lihat juga diskusi singkat tes Pregibon di Breslow (1996) [2] ( lihat hlm. 14 ).

Namun, saya sangat menyarankan untuk tetap menggunakan rute diagnostik. Jika Anda ingin memeriksa fungsi tautan, Anda pada dasarnya menyatakan bahwa pada skala tautan, linier dalam yang ada dalam model, sehingga satu penilaian dasar mungkin melihat sebuah plot residu terhadap prediktor. Sebagai contoh,η=g(μ)x

residual yang berfungsirsayaW=(ysaya-μ^saya)(ημ)

(yang saya condong ke arah penilaian ini), atau mungkin dengan melihat penyimpangan dari linearitas dalam residual parsial, dengan satu plot untuk masing-masing prediktor (lihat misalnya, Hardin dan Hilbe, model dan ekstensi linier yang digeneralisasi, edisi ke-2 , detik 4.5) .4 hal. 54, untuk definisi),

rksayaT=(ysaya-μ^saya)(ημ)+xsayakβ^k

=rsayaW+xsayakβ^k

Dalam kasus di mana data mengakui transformasi oleh fungsi tautan, Anda dapat mencari linearitas dengan cara yang sama seperti dengan regresi linier (meskipun Anda saya telah meninggalkan kecenderungan dan kemungkinan heteroskedastisitas).

Dalam kasus prediktor kategoris, pilihan fungsi tautan lebih merupakan masalah kenyamanan atau interpretabilitas, kecocokannya harus sama (jadi tidak perlu menilai untuk mereka).

Anda juga bisa mendasarkan diagnostik dari pendekatan Pregibon.

Ini tidak membentuk daftar lengkap; Anda dapat menemukan diagnostik lain yang dibahas.

[Karena itu, saya setuju dengan penilaian gung bahwa pilihan fungsi tautan pada awalnya harus didasarkan pada hal-hal seperti pertimbangan teoretis, jika memungkinkan.]

Lihat juga beberapa diskusi dalam posting ini , yang setidaknya sebagian relevan.

[1]: Pregibon, D. (1980),
"Tes Goodness of Link untuk Model Linear Umum,"
Jurnal Masyarakat Statistik Kerajaan. Seri C (Statistik Terapan) ,
Vol. 29, No. 1, hlm. 15-23.

[2]: Breslow NE (1996),
"Model linear umum: Memeriksa asumsi dan memperkuat kesimpulan,"
Statistica Applicata 8 , 23-41.
pdf

Glen_b -Reinstate Monica
sumber