Saya menggunakan scikit-belajar Python untuk melatih dan menguji regresi logistik.
scikit-belajar mengembalikan koefisien regresi dari variabel independen, tetapi itu tidak memberikan kesalahan standar koefisien. Saya membutuhkan kesalahan standar ini untuk menghitung statistik Wald untuk setiap koefisien dan, pada gilirannya, membandingkan koefisien ini satu sama lain.
Saya telah menemukan satu deskripsi tentang bagaimana menghitung kesalahan standar untuk koefisien regresi logistik (di sini ), tetapi agak sulit untuk diikuti.
Jika Anda mengetahui penjelasan sederhana dan sederhana tentang cara menghitung kesalahan standar ini dan / atau dapat memberikan saya satu, saya akan sangat menghargainya! Maksud saya bukan kode spesifik (meskipun jangan ragu untuk memposting kode apa pun yang mungkin membantu), tetapi lebih merupakan penjelasan algoritmik dari langkah-langkah yang terlibat.
Jawaban:
sumber
Kesalahan standar dari koefisien model adalah akar kuadrat dari entri diagonal dari matriks kovarians. Pertimbangkan yang berikut ini:
(CATATAN: Ini mengasumsikan model dengan intersep.)
Matriks kovarians dapat ditulis sebagai:
Ini dapat diimplementasikan dengan kode berikut:
Semua yang dikatakan,
statsmodels
mungkin akan menjadi paket yang lebih baik untuk digunakan jika Anda ingin akses ke BANYAK diagnostik "out-the-box".sumber
V = np.product(predProbs, axis=1);
covLogit = np.linalg.pinv(np.dot(X_design.T * V), X_design)
Jika Anda tertarik untuk melakukan inferensi, maka Anda mungkin ingin melihat statsmodels . Kesalahan standar dan tes statistik umum tersedia. Berikut ini adalah contoh regresi logistik .
sumber