Memilih antara transformasi dalam regresi logistik

8

Dalam regresi linier, transformasi variabel penjelas dilakukan untuk memiliki korelasi maksimum dengan variabel dependen.

Apa ukuran terbaik untuk memilih antara beberapa transformasi dalam regresi logistik karena variabel dependen adalah biner dan tidak kontinu?

Tujuan akhirnya adalah untuk memaksimalkan daya angkat (daya prediksi) dari model.

Jatin
sumber

Jawaban:

14

Kriteria optimalitas yang digunakan oleh regresi logistik (dan banyak metode lain) adalah fungsi kemungkinan. Ini digunakan untuk memperkirakan termasuk multiple mewakili satu untuk mencapai kuadratik, kubik, dan sambungan polinomial (spline). Itu juga dapat digunakan untuk memilih dari antara transformasi bersaing tetapi tindakan memilih tidak akan tercermin dalam matriks informasi, sehingga varians yang dihasilkan dariββXXXβ^akan terlalu kecil, membuat interval kepercayaan tidak memiliki probabilitas cakupan yang dinyatakan. Jika Anda membuat estimasi transformasi sebagai tujuan eksplisit pemasangan model (dan splines regresi adalah cara terbaik untuk melakukannya), Anda akan mempertahankan semua aspek inferensi statistik. Bergantung pada ukuran sampel, spline kubik terbatas (linier di kedua ekor) dengan 4 knot, membutuhkan 3 parameter, bisa menjadi pilihan yang baik.

Frank Harrell
sumber
Terima kasih atas tanggapannya. Berikut ini adalah keprihatinan saya: 1) Apakah transformasi yang dipilih secara univariat akan sama jika saya memilih yang multivariat? Bagi saya tidak ada alasan untuk percaya bahwa yang dipilih secara univariat akan menjadi yang terbaik dalam kombinasi dengan variabel yang diubah lainnya. 2) Saya tidak suka menggunakan splines karena kemungkinan over-fitting dan kinerja yang buruk dalam set validasi. Saya berpikir untuk menggunakan transformasi Box-Cox untuk variabel penjelas dan menemukan transformasi terbaik dengan nilai optimal . Apakah ini masuk akal? Adakah pikiran? λ
Jatin
Tidak, itu tidak beresonansi. Box-Cox digunakan untuk univariat terus menerus , dan banyak pengguna Box-Cox tidak tahu untuk menghukum ketidakpastian di atau Box-Cox membuat asumsi kuat tentang asal pengukuran (nol). Splines tidak cocok lebih dari memiliki terlalu banyak prediktor, dan Anda dapat mengontrol jumlah pemasangan dengan jumlah simpul dan dengan susut (hukuman; lihat fungsi R untuk hukuman quadratic). Seperti yang Anda katakan, yang terbaik adalah memperkirakan transformasi dalam cara yang disesuaikan daripada univariat. Y\lambarms lrm
Frank Harrell
6
  1. Tidak, dalam model linier transformasi tidak (atau seharusnya tidak) dilakukan untuk memiliki korelasi maksimum dengan variabel dependen. Ini harus dilakukan untuk a) Memenuhi asumsi model tentang residu atau b) Memiliki variabel penjelas yang lebih masuk akal; yaitu, yang masuk akal, secara substantif. Seperti yang ditunjukkan oleh @Andy, ini mungkin tidak cukup. Tetapi, dalam hal ini, saya kemudian akan mencari metode regresi alternatif (lihat di bawah) daripada mengambil beberapa transformasi aneh. Misalnya model seperti akan menjadi berantakan untuk dijelaskan.Y=b0+b1x1.21+b2x2.73

  2. Dalam regresi logistik (setidaknya, dalam logistik dikotomis) ada asumsi yang lebih sedikit (dan tidak ada tentang residu, sejauh yang saya tahu), jadi hanya b) berlaku.

Bahkan untuk model linier, saya lebih suka menggunakan b). Dan kemudian, jika asumsi tidak terpenuhi, menggunakan beberapa bentuk regresi lainnya (bisa jadi regresi yang kuat, bisa menjadi model spline, bisa polinomial).

Peter Flom
sumber
Pernyataan have a more sensible explanatory variableini cukup ambigu dan harus diperluas. Saya biasanya akan mengartikannya sebagai transformasi yang memungkinkan interpretasi yang lebih mudah dari koefisien regresi, tetapi itu jelas tidak cukup dan cukup (untuk OLS atau regresi Logistik).
Andy W
Seperti yang saya katakan di posting saya, kekuatan prediksi adalah perhatian utama. Memiliki variabel penjelas yang masuk akal adalah hal yang diinginkan tetapi bukan prioritas. Karenanya, jika memberi saya tumpangan yang lebih baik maka dapat diterima pada tahap ini. Pertanyaannya adalah bagaimana memilih set transformasi terbaik untuk memberikan hasil maksimal. Y=b0+b1x1.21+b2x2.73
Jatin
3

Dengan pemodelan linier umum, ukuran matematika yang diminimalkan disebut "penyimpangan" (-2 * log-likelihood). Ada beberapa macam residu yang bisa dikembangkan. "Residual penyimpangan" adalah istilah individual dalam ekspresi yang cukup kompleks. Saya pikir ini yang paling dimengerti ketika diterapkan pada variabel kategori. Untuk variabel kategorikal menggunakan regresi logistik, ini hanyalah perbedaan antara log-odds (model) dan log-odds (data), tetapi untuk variabel kontinu mereka agak lebih kompleks. Deviance residuals adalah apa yang diminimalkan dalam proses iteratif. Lihat deskripsi ini di situs web UCLA untuk beberapa plot residu penyimpangan yang bagus.

Tampak bagi saya bahwa analisis "lift" dilakukan pada skala probabilitas, bukan pada skala log-odds atau odds atau kemungkinan. Saya melihat bahwa Frank Harrell telah menawarkan beberapa saran dan perselisihan apa pun yang dirasakan antara Frank dan saya harus diselesaikan dengan mempertimbangkan pendapat Frank secara besar-besaran. (Saran saya adalah membeli buku RMS milik Frank.) Saya terkejut dia tidak menawarkan saran untuk mempertimbangkan metode hukuman dan bahwa dia tidak mengeluarkan peringatan agar tidak terlalu pas. Saya akan berpikir bahwa memilih transformasi hanya karena memaksimalkan "lift" akan sama dengan memilih model yang memaksimalkan "akurasi". Saya tahu dia tidak mendukung strategi itu.

DWIN
sumber