Saya tidak tahu apakah saya bisa memberi Anda jawaban yang lengkap, tetapi saya bisa memberi Anda beberapa pemikiran yang mungkin bisa membantu. Pertama, semua model / tes statistik memiliki asumsi. Namun, regresi logistik sangat tidak mengasumsikan residu terdistribusi normal atau variansinya konstan. Sebaliknya, diasumsikan bahwa data didistribusikan sebagai binomial, , yaitu, dengan jumlah uji coba Bernoulli sama dengan jumlah pengamatan pada set yang tepat nilai kovariat dan dengan probabilitas yang terkait dengan set nilai kovariat tersebut. Ingat bahwa varians dari binomial adalah . Jadi, jikaB(nxi,pxi)np(1−p)nBervariasi pada level kovariat yang berbeda, variansnya juga. Lebih lanjut, jika salah satu dari kovariat semuanya terkait dengan variabel respon, maka probabilitas akan bervariasi, dan dengan demikian, varians juga akan berubah. Ini adalah fakta penting tentang regresi logistik.
Kedua, perbandingan model biasanya dilakukan antara model dengan spesifikasi yang berbeda (misalnya, dengan set kovariat yang berbeda termasuk), bukan pada subset data yang berbeda. Sejujurnya, saya tidak yakin bagaimana itu akan dilakukan. Dengan model linier, Anda bisa melihat 2 s untuk melihat berapa banyak lebih cocok adalah dengan data menyimpang dikecualikan, tetapi ini akan hanya menjadi deskriptif, dan Anda harus tahu bahwa akan memiliki naik. Namun, dengan regresi logistik, standar tidak dapat digunakan. Ada berbagai 'pseudo-R2R2R2R2Itu telah dikembangkan untuk memberikan informasi serupa, tetapi mereka sering dianggap cacat dan tidak sering digunakan. Untuk tinjauan umum berbagai pseudo- yang ada, lihat di sini . Untuk beberapa diskusi, dan kritik terhadap mereka, lihat di sini . Kemungkinan lain mungkin untuk menghubungkan betas beta dengan dan tanpa outlier termasuk untuk melihat bagaimana mengecualikan mereka berkontribusi untuk menstabilkan distribusi sampel mereka. Sekali lagi, ini hanya akan bersifat deskriptif (yaitu, itu tidak akan menjadi tes untuk memberi tahu Anda model mana - eh, bagian dari data Anda - yang lebih disukai) dan varians harus turun. Hal-hal ini benar, untuk pseudo-R2R2s dan distribusi jackknifed, karena Anda memilih data untuk dikecualikan berdasarkan fakta bahwa mereka tampak ekstrem.
gung - Pasang kembali Monica
sumber
Saya setuju dengan komentar AdamO di atas secara umum — dengan asumsi bahwa 1 miliarder mewakili 1/100 populasi benar-benar baik-baik saja. Namun, jika kehadiran 1 miliarder membuat data begitu buruk sehingga prediksi untuk 99 orang lainnya terpengaruh, saya akan menghapus 1 miliarder. Saya lebih suka salah dengan prediksi outlier daripada orang lain.
Karena itu, jika Anda menghapus titik data menggunakan nilai D Cook (yaitu, apa pun> 4 / df), maka Anda dapat menggunakan area di bawah kurva ROC untuk kedua model untuk memeriksa peningkatan.
sumber