Asumsi regresi logistik multinomial

Jawaban:

6

Asumsi utama dalam MNL adalah bahwa kesalahan didistribusikan secara independen dan identik dengan distribusi nilai ekstrim Gumbel. Masalah dengan menguji asumsi ini adalah bahwa itu dibuat apriori . Dalam regresi standar Anda cocok dengan kurva kuadrat-terkecil, dan mengukur sisa kesalahan. Dalam model logit, Anda menganggap bahwa kesalahan sudah dalam pengukuran titik, dan menghitung fungsi kemungkinan dari asumsi itu.

Asumsi penting adalah bahwa sampel menjadi eksogen. Jika berbasis pilihan, ada koreksi yang perlu dilakukan.

Sejauh asumsi pada model itu sendiri, Train menjelaskan tiga:

  1. Variasi rasa sistematis dan non-acak.
  2. Substitusi proporsional di antara alternatif (konsekuensi dari properti IIA).
  3. Tidak ada korelasi serial dalam istilah kesalahan (data panel).

Asumsi pertama yang sebagian besar harus Anda pertahankan dalam konteks masalah Anda. Yang ketiga sebagian besar sama, karena istilah kesalahannya adalah murni acak.

Namun, yang kedua dapat diuji sampai batas tertentu. Jika Anda menentukan model logar bersarang, dan ternyata pola substitusi antar-sarang sepenuhnya fleksibel ( ) maka Anda bisa menggunakan model MNL, dan asumsi IIA valid. Tetapi ingat bahwa fungsi log-likelihood untuk model logit bersarang memiliki maksimum lokal, jadi Anda harus memastikan bahwa Anda mendapatkan secara konsisten.λ = 1λ=1λ=1

Sejauh melakukan semua ini di SPSS, saya tidak bisa membantu Anda selain menyarankan Anda menggunakan mlogitpaket di R sebagai gantinya. Maaf.

gregmacfarlane
sumber
Juga, model probit multinomial memberikan hasil yang sebanding dengan serangkaian asumsi yang berbeda. Jadi perbandingan MNP / MNL bisa berharga juga.
gregmacfarlane
3

Salah satu asumsi praktis yang paling penting dari logistik multinomial adalah bahwa jumlah pengamatan dalam kategori frekuensi terkecil adalah besar, misalnya 10 kali jumlah parameter dari sisi kanan model.Y

Frank Harrell
sumber
Ternyata ini tidak selalu sepenuhnya benar. Ada beberapa (sangat) pekerjaan terbaru yang menunjukkan bahwa parameter yang konsisten dapat diperkirakan untuk alternatif yang tidak pernah Anda amati, asalkan Anda memiliki beberapa informasi eksogen tentang berapa frekuensi populasi aktual. Tetapi ini membutuhkan penaksir yang berbeda, jadi secara umum Anda benar.
gregmacfarlane
1
Kedengarannya seperti Bayesian prior dipanggil - tidak bisa tidak setuju. Tetapi tanpa informasi eksternal, logistik multinomial yang tidak dibatasi memiliki banyak parameter untuk diperkirakan.
Frank Harrell
2

gmacfarlane sudah sangat jelas. Tetapi untuk lebih tepatnya, dan saya berasumsi Anda melakukan analisis cross section, asumsi inti adalah IIA (independensi dari alternatif yang tidak relevan). Anda tidak dapat memaksakan kesesuaian data Anda dengan asumsi IIA, Anda harus mengujinya dan berharap agar data tersebut terpenuhi. Spss tidak dapat menangani tes sampai 2010 dengan pasti. R tentu saja melakukannya, tetapi mungkin saya lebih mudah bagi Anda untuk bermigrasi ke stata dan mengimplementasikan tes IIA yang disediakan oleh perintah postestimation mlogit.

Jika IIA tidak berlaku, logit multinomial campuran atau logit bersarang adalah alternatif yang masuk akal. Yang pertama dapat diperkirakan dalam gllamm, yang kedua dengan perintah nlogit yang jauh lebih pelit.

JDav
sumber