Saya bertanya-tanya apa nilainya dalam mengambil variabel prediktor kontinu dan memecahnya (misalnya, menjadi kuintil), sebelum menggunakannya dalam model.
Sepertinya saya bahwa dengan binning variabel kita kehilangan informasi.
- Apakah ini hanya agar kita dapat memodelkan efek non-linear?
- Jika kita menyimpan variabel kontinu dan itu bukan hubungan linear yang lurus, apakah kita perlu membuat semacam kurva agar sesuai dengan data?
Jawaban:
Nilainya? —Baik, ini cara cepat & mudah untuk memperhitungkan kelengkungan tanpa harus memikirkannya, & modelnya mungkin cukup baik untuk apa Anda menggunakannya. Itu cenderung berfungsi dengan baik ketika Anda memiliki banyak data dibandingkan dengan jumlah prediktor, setiap prediktor dipecah menjadi banyak kategori; dalam hal ini dalam setiap pita prediktor rentang respons kecil & rata-rata respons ditentukan dengan tepat.
[Edit dalam menanggapi komentar:
Kadang-kadang ada batas standar yang digunakan dalam suatu bidang untuk variabel kontinu: misalnya dalam kedokteran, pengukuran tekanan darah dapat dikategorikan sebagai rendah, sedang atau tinggi. Mungkin ada banyak alasan bagus untuk menggunakan cut-off seperti itu saat Anda mempresentasikan atau menerapkan model. Secara khusus, aturan keputusan seringkali didasarkan pada informasi yang lebih sedikit daripada yang dimasukkan ke dalam model, & mungkin perlu sederhana untuk diterapkan. Tapi itu tidak berarti bahwa cut-off ini tepat untuk membuang prediktor ketika Anda cocok dengan model.
Misalkan beberapa respons bervariasi secara terus menerus dengan tekanan darah. Jika Anda mendefinisikan kelompok tekanan darah tinggi sebagai prediktor dalam penelitian Anda, efek yang Anda perkirakan adalah respons rata-rata terhadap tekanan darah tertentu dari individu dalam kelompok itu. Ini tidakperkiraan tanggapan rata-rata orang dengan tekanan darah tinggi pada populasi umum, atau orang-orang dalam kelompok tekanan darah tinggi dalam studi lain, kecuali jika Anda mengambil langkah-langkah khusus untuk melakukannya. Jika distribusi tekanan darah pada populasi umum diketahui, seperti yang saya bayangkan, Anda sebaiknya menghitung rata-rata respon orang dengan tekanan darah tinggi pada populasi umum berdasarkan prediksi dari model dengan tekanan darah sebagai variabel kontinu. Binning kasar membuat model Anda hanya bisa digeneralisasikan.
Secara umum, jika Anda memiliki pertanyaan tentang perilaku respons antara cut-off, pas dengan model terbaik yang Anda bisa, & kemudian gunakan untuk menjawabnya.]
[Berkenaan dengan presentasi; Saya pikir ini adalah herring merah:
(1) Kemudahan presentasi tidak membenarkan keputusan pemodelan yang buruk. (Dan dalam kasus di mana binning adalah keputusan pemodelan yang baik, itu tidak perlu pembenaran tambahan.) Tentunya ini jelas. Tidak ada yang pernah merekomendasikan mengeluarkan interaksi penting dari model karena sulit untuk disajikan.
(2) Apa pun jenis model yang Anda cocok, Anda masih dapat menyajikan hasilnya dalam hal kategori jika Anda pikir itu akan membantu interpretasi. Meskipun ...
(3) Anda harus berhati-hati untuk memastikan itu tidak membantu salah tafsir, karena alasan yang diberikan di atas.
(4) Sebenarnya tidak sulit untuk menyajikan respons non-linear. Pendapat pribadi, jelas, & khalayak berbeda; tapi saya belum pernah melihat grafik nilai respons yang dipasang versus nilai prediktor teka-teki seseorang hanya karena melengkung. Interaksi, logit, efek acak, multikolinieritas, ...— semua ini jauh lebih sulit untuk dijelaskan.]
[Poin tambahan yang dibawa oleh @Roland adalah ketepatan pengukuran prediktor; dia menyarankan, saya pikir, bahwa kategorisasi mungkin tepat ketika mereka tidak terlalu tepat. Akal sehat mungkin menyarankan agar Anda tidak memperbaiki masalah dengan menyatakannya kembali dengan kurang tepat, & akal sehat akan benar: MacCallum et al (2002), "Tentang Praktik Dikotomisasi Variabel Kuantitatif", Metode Psikologis , 7 , 1, hlm. 17–19.]
sumber
Bagian dari jawaban ini yang telah saya pelajari sejak bertanya adalah bahwa tidak binning dan binning berusaha untuk menjawab dua pertanyaan yang sedikit berbeda - Apa perubahan tambahan dalam data? dan Apa perbedaan antara yang terendah dan yang tertinggi? .
Tidak binning mengatakan "ini adalah kuantifikasi tren yang terlihat dalam data" dan binning mengatakan "Saya tidak memiliki informasi yang cukup untuk mengatakan berapa banyak perubahan ini dengan setiap kenaikan, tetapi saya dapat mengatakan bahwa bagian atas berbeda dari bagian bawah" .
sumber
Sebagai seorang dokter, saya pikir jawabannya tergantung pada apa yang ingin Anda lakukan. Jika Anda ingin membuat yang paling cocok atau membuat penyesuaian terbaik Anda dapat menggunakan variabel kontinu dan kuadrat.
Jika Anda ingin mendeskripsikan dan mengomunikasikan asosiasi yang rumit untuk audiens yang berorientasi non-statistik, penggunaan variabel yang dikategorikan lebih baik, menerima bahwa Anda dapat memberikan beberapa hasil yang sedikit bias dalam desimal terakhir. Saya lebih suka menggunakan setidaknya tiga kategori untuk menunjukkan asosiasi nonlinier. Alternatifnya adalah menghasilkan grafik dan hasil prediksi pada titik-titik tertentu. Kemudian, Anda mungkin perlu membuat keluarga grafik untuk setiap kovariat berkesinambungan yang mungkin menarik. Jika Anda takut mendapatkan terlalu banyak bias saya pikir Anda dapat menguji kedua model dan melihat apakah perbedaannya penting atau tidak. Anda harus praktis dan realistis.
Saya pikir kita mungkin menyadari bahwa dalam banyak situasi klinis perhitungan kita tidak didasarkan pada data yang tepat dan ketika saya misalnya meresepkan obat untuk orang dewasa saya tetap tidak melakukannya dengan mg per kilo tetap (perumpamaan dengan pilihan antara operasi dan perawatan medis hanya omong kosong).
sumber
Seperti yang telah disebutkan sebelumnya, biasanya yang terbaik adalah menghindari dikotomi variabel kontinu. Namun, dalam menjawab pertanyaan Anda, ada beberapa contoh di mana dikotomi variabel kontinu memberikan keuntungan.
Sebagai contoh, jika variabel yang diberikan mengandung nilai yang hilang untuk proporsi yang signifikan dari populasi, tetapi diketahui sangat prediktif dan nilai yang hilang itu sendiri menanggung nilai prediktif. Misalnya, dalam model penilaian kredit, pertimbangkan variabel, katakanlah saldo rata-rata-kredit-berputar (yang diberikan, tidak berkelanjutan secara teknis, tetapi dalam kasus ini mencerminkan distribusi normal yang cukup dekat untuk diperlakukan seperti itu), yang berisi nilai yang hilang sekitar 20% dari jumlah pemohon dalam target pasar yang diberikan. Dalam hal ini, nilai-nilai yang hilang untuk variabel ini mewakili kelas yang berbeda - mereka yang tidak memiliki garis kredit yang terbuka dan berputar; pelanggan ini akan menampilkan perilaku yang sama sekali berbeda dibandingkan dengan, katakanlah, mereka yang memiliki jalur kredit bergulir yang tersedia, tetapi yang secara teratur tidak memiliki saldo.
Manfaat lain dari dikotomisasi: dapat digunakan untuk mengurangi efek outlier signifikan yang condong ke koefisien, tetapi merupakan kasus realistis yang perlu ditangani. Jika outlier tidak jauh berbeda dalam hasil dari nilai-nilai lain dalam persentil terdekat, tetapi condongkan parameter cukup untuk mempengaruhi akurasi marjinal, maka mungkin bermanfaat untuk mengelompokkannya dengan nilai-nilai yang menampilkan efek yang sama.
Kadang-kadang distribusi secara alami cocok untuk satu set kelas, di mana dikotomisasi sebenarnya akan memberi Anda tingkat akurasi yang lebih tinggi daripada fungsi kontinu.
Juga, seperti yang disebutkan sebelumnya, tergantung pada audiens, kemudahan penyajian dapat melebihi kerugian keakuratannya. Untuk menggunakan penilaian kredit lagi sebagai contoh, dalam praktiknya, tingkat regulasi yang tinggi membuat kasus praktis untuk diskritisasi kadang-kadang. Sementara tingkat akurasi yang lebih tinggi dapat membantu pemberi pinjaman memotong kerugian, praktisi juga harus mempertimbangkan bahwa model harus mudah dipahami oleh regulator (yang dapat meminta ribuan halaman dokumentasi model) dan konsumen, yang jika ditolak kreditnya, secara hukum berhak mendapatkan penjelasan mengapa.
Itu semua tergantung pada masalah yang dihadapi dan data, tetapi tentu saja ada kasus di mana dikotomisasi memiliki kelebihan.
sumber
Jika suatu variabel memiliki efek pada ambang tertentu, buat variabel baru dengan menggesernya adalah hal yang baik untuk dilakukan. Saya selalu menyimpan kedua variabel, yang asli dan yang binning, dan memeriksa variabel mana yang merupakan prediktor yang lebih baik.
sumber
Saya seorang penggemar yang berkomitmen atas saran Frank Harrell bahwa analis harus menolak diskritisasi dini data berkelanjutan. Dan saya punya beberapa jawaban pada CV dan SO yang menunjukkan bagaimana memvisualisasikan interaksi antara variabel kontinu, karena saya pikir itu adalah garis investigasi yang lebih berharga. Namun, saya juga memiliki pengalaman dunia nyata di dunia medis tentang hambatan untuk mematuhi saran ini. Seringkali ada divisi yang menarik yang diharapkan oleh dokter dan non-dokter untuk "pemisahan". "Batas atas normal" konvensional adalah satu titik perpecahan "alami". Pertama-tama, seseorang pertama-tama memeriksa statistik yang menopang suatu hubungan dan kemudian mengkomunikasikan substansi temuan dalam hal yang diharapkan audiens Anda dan dapat dengan mudah dipahami. Meskipun "alergi" saya untuk barplot, mereka sangat umum dalam wacana ilmiah dan medis. Jadi audiens cenderung memiliki pola kognitif siap pakai untuk memprosesnya dan akan dapat mengintegrasikan hasilnya dalam basis pengetahuan mereka.
Selain itu, tampilan grafis interaksi model antara bentuk variabel prediktor non-linear memerlukan presentasi plot kontur atau tampilan rangka gambar yang sebagian besar penonton akan mengalami kesulitan dalam mencerna. Saya telah menemukan masyarakat medis dan umum lebih mudah menerima presentasi yang memiliki hasil diskritisasi dan tersegmentasi. Jadi saya kira kesimpulannya adalah bahwa pemisahan dilakukan dengan benar setelah analisis statistik selesai; dan dilakukan dalam fase presentasi.
sumber
Berkali-kali binning variabel kontinu datang dengan perasaan tidak enak yang menyebabkan kerusakan karena kehilangan informasi. Namun, tidak hanya Anda dapat mengikat kehilangan informasi, Anda dapat memperoleh informasi dan mendapatkan lebih banyak keuntungan.
Jika Anda menggunakan binning dan mendapatkan variabel yang dikategorikan Anda mungkin dapat menerapkan algoritma pembelajaran yang tidak berlaku untuk variabel kontinu. Dataset Anda mungkin lebih cocok dengan salah satu dari algoritma ini jadi inilah manfaat pertama Anda.
Gagasan memperkirakan kerugian akibat binning didasarkan pada makalah "pembelajaran PAC dengan atribut yang tidak relevan". Misalkan konsep kami adalah biner sehingga kami dapat membagi sampel menjadi positif dan negatif. Untuk setiap pasangan sampel negatif dan positif, perbedaan konsep mungkin dijelaskan oleh perbedaan dalam salah satu fitur (atau sebaliknya, itu tidak dapat dijelaskan oleh fitur yang diberikan). Himpunan perbedaan fitur adalah himpunan penjelasan yang mungkin untuk perbedaan konsep, karenanya data yang digunakan untuk menentukan konsep. Jika kami melakukan binning dan kami masih mendapatkan set penjelasan yang sama untuk pasangan, kami tidak kehilangan informasi yang dibutuhkan (sehubungan dengan mempelajari algoritma yang bekerja dengan perbandingan seperti itu). Jika kategorisasi kami akan sangat ketat, kami mungkin akan memiliki serangkaian penjelasan yang lebih kecil tetapi kami akan dapat mengukur secara akurat berapa banyak dan di mana kami kehilangan. Itu akan memungkinkan kami untuk menukar jumlah sampah dengan set penjelasan.
Sejauh ini kami melihat bahwa kami tidak akan rugi karena kategorisasi, tetapi jika kami mempertimbangkan untuk menerapkan langkah seperti itu, kami ingin mendapat manfaat. Memang, kita bisa mendapat manfaat dari kategorisasi
Banyak algoritma pembelajaran yang akan diminta untuk mengklasifikasikan sampel dengan nilai yang tidak terlihat pada set kereta, akan menganggap nilai sebagai "tidak diketahui". Karenanya kita akan mendapatkan nampan "tidak dikenal" yang mencakup SEMUA nilai yang tidak terlihat selama kereta (atau bahkan tidak cukup terlihat). Untuk algoritma seperti itu, perbedaan antara pasangan nilai yang tidak diketahui tidak akan digunakan untuk meningkatkan klasifikasi. Bandingkan pasangan Anda setelah binning dengan pasangan yang tidak diketahui dan lihat apakah binning Anda bermanfaat dan Anda benar-benar mendapatkan.
Anda dapat memperkirakan seberapa umum akan nilai yang tidak diketahui dengan memeriksa distribusi nilai dari setiap fitur. Fitur adalah nilai-nilai yang muncul hanya beberapa kali merupakan bagian besar dari distribusi mereka adalah kandidat yang baik untuk binning. Perhatikan bahwa dalam banyak skenario Anda akan memiliki banyak fitur dengan tidak diketahui meningkatkan probabilitas bahwa sampel akan berisi nilai yang tidak diketahui. Algoritma yang menangani semua atau banyak fitur cenderung mengalami kesalahan dalam situasi seperti itu.
A. Dhagat dan L. Hellerstein, "pembelajaran PAC dengan atribut yang tidak relevan", dalam 'Prosiding IEEE Symp. tentang Yayasan Ilmu Komputer, 1994. http://citeseer.ist.psu.edu/dhagat94pac.html
sumber