Katakanlah saya sedang membangun model regresi logistik di mana variabel dependen adalah biner dan dapat mengambil nilai atau . Biarkan variabel independen menjadi - ada variabel independen . Katakanlah untuk variabel independen ke- , analisis bivariat menunjukkan tren berbentuk-U - yaitu, jika saya mengelompokkan ke dalam tong yang masing-masing berisi jumlah pengamatan yang kurang lebih sama dan menghitung 'angka buruk' untuk setiap pengamatan bin - # di mana Anda = 0 / total pengamatan di setiap nampan - maka saya mendapatkan kurva berbentuk U.
Pertanyaan saya adalah:
- Bisakah saya langsung menggunakan sebagai input sambil memperkirakan parameter beta? Apakah asumsi statistik dilanggar yang dapat menyebabkan kesalahan signifikan dalam memperkirakan parameter?
- Apakah perlu untuk 'linierisasi' variabel ini melalui transformasi (log, kuadrat, produk dengan dirinya sendiri, dll.)?
regression
estimation
logistic
sas
Mozan Sykol
sumber
sumber
Jawaban:
Anda ingin menggunakan formulasi fleksibel yang akan menangkap non-linearitas secara otomatis, misalnya, beberapa versi model aditif umum . Pilihan orang miskin adalah polinomial , , ..., , tetapi polinomial seperti itu menghasilkan overswings yang mengerikan di ujung rentang variabel masing-masing. Formulasi yang jauh lebih baik adalah menggunakan B-splines (kubik) (lihat catatan intro acak dari halaman pertama Google di sini , dan buku yang bagus, di sini ). B-splines adalah urutan punuk lokal:xk x2k xpkk
http://ars.sciencedirect.com/content/image/1-s2.0-S0169743911002292-gr2.jpg
Ketinggian punuk ditentukan dari regresi Anda (linier, logistik, GLM lainnya), karena fungsi yang Anda paskan hanyalah
untuk bentuk fungsional yang ditentukan dari punuk . Sejauh ini versi paling populer adalah spline kubik halus berbentuk lonceng:B(⋅)
Di sisi implementasi, yang perlu Anda lakukan adalah mengatur 3-5-10 simpul pun yang masuk akal untuk aplikasi Anda dan membuat 3-5-10 variabel apa pun yang sesuai dalam kumpulan data dengan nilai-nilai dari . Biasanya, grid nilai sederhana dipilih, dengan menjadi dua kali ukuran mesh dari grid, sehingga pada setiap titik, ada dua garis B-tumpang tindih, seperti pada plot di atas.xk B(x−xkhk) hk
sumber
Sama seperti regresi linier, regresi logistik dan model linier yang lebih umum diperlukan untuk linier dalam parameter tetapi tidak harus dalam kovariat. Jadi istilah polinomial seperti kuadrat yang disarankan Makro dapat digunakan. Ini adalah kesalahpahaman umum tentang istilah linear dalam model linear umum. Model nonlinear adalah model yang nonlinear dalam parameter. Jika model linier dalam parameter dan berisi persyaratan derau aditif yang IID, model linier meskipun ada kovariat seperti X log X atau exp (X). Karena sekarang saya membaca pertanyaan itu sepertinya sudah diedit. Jawaban spesifik saya adalah ya untuk 1 dan tidak perlu ke 2.2
sumber
Alternatif lain yang layak digunakan oleh toko pemodelan tempat saya bekerja secara rutin, adalah menghapus variabel independen kontinu dan menggantikan 'tingkat buruk'. Ini memaksa hubungan linear.
sumber
disco
paket. Saya membuat algoritma saya sendiri yang secara rekursif membagi variabel kontinu berdasarkan nilai informasi. Saya memasukkannya ke dalam paket R di sini: github.com/Zelazny7/binnr (sedang dalam proses!). Saya juga akan mengganti bobot bukti bukannya rata-rata. Ketika dipasangkan dengan regresi LASSO hasilnya sangat fantastis!binnr
algoritme dengan CRANsmbinning
?