Banyak buku dan makalah mengatakan bahwa intersepsi tidak boleh ditekan. Baru-baru ini, saya menggunakan dataset pelatihan untuk membangun model regresi linier dengan atau tanpa intersep. Saya terkejut menemukan bahwa model tanpa intersep memprediksi lebih baik dari itu dengan intersep dalam hal rmse dalam dataset validasi independen. Apakah akurasi prediksi salah satu alasan mengapa saya harus menggunakan model zero-intercept?
8
Jawaban:
Perhatikan baik-baik bagaimana rmse atau statistik lainnya dihitung ketika membandingkan model tanpa-penyadapan dengan model penyadapan. Kadang-kadang asumsi dan perhitungan berbeda antara kedua model dan satu mungkin lebih buruk, tetapi terlihat lebih baik karena dibagi oleh sesuatu yang jauh lebih besar.
Tanpa contoh yang dapat direproduksi, sulit untuk mengatakan apa yang berkontribusi.
sumber
Saya tidak berpikir Anda harus memilih model hanya karena mereka bekerja lebih baik dalam sampel tertentu, meskipun itu baik bahwa Anda menggunakan sampel pelatihan dan validasi.
Sebaliknya, lihat apa yang dikatakan model tentang situasi Anda. Dalam beberapa kasus, model zero-intercept masuk akal. Jika DV seharusnya 0 ketika semua IV adalah 0, maka gunakan model zero-intercept. Kalau tidak, jangan.
Pengetahuan substantif harus memandu statistik, bukan sebaliknya
sumber
Model tanpa potong mungkin masuk akal jika dua kondisi terpenuhi. Pertama, harus ada harapan pengetahuan materi pelajaran yang wajar untuk mencegat menjadi nol. Kedua, harus ada ekspektasi pengetahuan materi pelajaran yang wajar untuk garis regresi agar tetap menjadi garis lurus saat Anda mendekati nol. Bahkan jika kedua kondisi terpenuhi, adalah bijaksana untuk menjalankan analisis dengan istilah intersep dan memverifikasi bahwa intersep tidak berbeda secara signifikan dari nol.
(Saya berasumsi bahwa Anda berbicara tentang Y terus menerus dan X terus menerus.)
sumber
Ini bisa dimengerti jika intersep yang Anda dapatkan hanyalah noise - bukan sig. berbeda dari nol. (Apakah saya benar bahwa koefisien regresi terstandarisasi hampir sama di kedua model?) Jika demikian saya tidak berpikir Anda harus menggeneralisasi dari contoh ini. Ketika penyadapan adalah sig. dan substansial, mereka menambahkan sesuatu yang bermakna untuk akurasi prediksi.
sumber
Dalam regresi linier, Anda sepatutnya:
Anda cocokβ diberikan data pelatihan (X,Y)
Misalkan Anda menjatuhkan β0 dan sesuai dengan model, apakah kesalahan dalam pemasangan:
lebih besar daripada jika Anda memasukkannya? Dalam semua (non-degenerate) kasus Anda dapat membuktikan bahwa kesalahannya akan sama atau lebih rendah (pada data pelatihan) saat Anda memasukkanβ0 karena model bebas menggunakan parameter ini untuk mengurangi kesalahan jika ada dan membantu, dan akan menetapkannya ke nol jika tidak membantu. Selanjutnya, misalkan Anda menambahkan konstanta besar ke y (anggap output Anda perlu+10000 daripada di data pelatihan asli Anda), dan perbaiki model, lalu β0 jelas menjadi sangat penting.
Mungkin Anda mengacu pada model yang diatur ketika Anda mengatakan "ditekan". L1 dan L2 diatur, metode ini lebih suka untuk menjaga koefisien mendekati nol (dan Anda seharusnya sudah berarti dan varians menormalkan AndaX sebelumnya untuk membuat langkah ini masuk akal. Dalam regularisasi, Anda kemudian memiliki pilihan apakah akan memasukkan istilah intersep (sebaiknya kita juga memilih yang kecilβ0 ?). Sekali lagi, dalam kebanyakan kasus (semua kasus?), Anda lebih baik tidak mengaturβ0 , karena tidak mungkin untuk mengurangi overfitting dan menyusut ruang fungsi yang dapat diwakili (dengan mengecualikan mereka yang tinggi β0 ) mengarah ke kesalahan yang lebih tinggi.
Catatan sisi: regresi logistik scikit mengatur intersep secara default. Adakah yang tahu mengapa: http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html ? Saya pikir itu bukan ide yang bagus .
sumber