Apa manfaat memecah variabel prediktor kontinu?

78

Saya bertanya-tanya apa nilainya dalam mengambil variabel prediktor kontinu dan memecahnya (misalnya, menjadi kuintil), sebelum menggunakannya dalam model.

Sepertinya saya bahwa dengan binning variabel kita kehilangan informasi.

  • Apakah ini hanya agar kita dapat memodelkan efek non-linear?
  • Jika kita menyimpan variabel kontinu dan itu bukan hubungan linear yang lurus, apakah kita perlu membuat semacam kurva agar sesuai dengan data?
Tom
sumber
12
1) Tidak. Anda benar bahwa binning kehilangan informasi. Ini harus dihindari jika memungkinkan. 2) Secara umum, fungsi kurva yang konsisten dengan teori di balik data lebih disukai.
O_Devinyak
8
Saya tidak tahu tentang manfaatnya, tetapi ada sejumlah bahaya yang diakui secara luas
Glen_b
2
Argumen enggan untuk itu, pada kesempatan: Ini dapat menyederhanakan interpretasi klinis dan presentasi hasil - misalnya. tekanan darah sering merupakan prediktor kuadratik dan seorang dokter dapat mendukung penggunaan cutoffs untuk BP rendah, normal dan tinggi dan mungkin tertarik untuk membandingkan kelompok-kelompok luas ini.
user20650
4
@ user20650: Saya tidak yakin saya mengerti Anda, tetapi bukankah lebih baik untuk mencocokkan model terbaik yang Anda bisa, & kemudian menggunakan prediksi model itu untuk mengatakan apa pun yang ingin Anda katakan tentang kelompok luas? 'Kelompok tekanan darah tinggi' dalam penelitian saya belum tentu memiliki distribusi tekanan yang sama dengan populasi umum, sehingga hasilnya tidak akan menggeneralisasi.
Scortchi
7
Interpretasi klinis yang disederhanakan adalah fatamorgana. Estimasi efek dari variabel kontinu yang dikategorikan tidak memiliki interpretasi yang diketahui.
Frank Harrell

Jawaban:

64

x+x2+

Nilainya? —Baik, ini cara cepat & mudah untuk memperhitungkan kelengkungan tanpa harus memikirkannya, & modelnya mungkin cukup baik untuk apa Anda menggunakannya. Itu cenderung berfungsi dengan baik ketika Anda memiliki banyak data dibandingkan dengan jumlah prediktor, setiap prediktor dipecah menjadi banyak kategori; dalam hal ini dalam setiap pita prediktor rentang respons kecil & rata-rata respons ditentukan dengan tepat.

[Edit dalam menanggapi komentar:

Kadang-kadang ada batas standar yang digunakan dalam suatu bidang untuk variabel kontinu: misalnya dalam kedokteran, pengukuran tekanan darah dapat dikategorikan sebagai rendah, sedang atau tinggi. Mungkin ada banyak alasan bagus untuk menggunakan cut-off seperti itu saat Anda mempresentasikan atau menerapkan model. Secara khusus, aturan keputusan seringkali didasarkan pada informasi yang lebih sedikit daripada yang dimasukkan ke dalam model, & mungkin perlu sederhana untuk diterapkan. Tapi itu tidak berarti bahwa cut-off ini tepat untuk membuang prediktor ketika Anda cocok dengan model.

Misalkan beberapa respons bervariasi secara terus menerus dengan tekanan darah. Jika Anda mendefinisikan kelompok tekanan darah tinggi sebagai prediktor dalam penelitian Anda, efek yang Anda perkirakan adalah respons rata-rata terhadap tekanan darah tertentu dari individu dalam kelompok itu. Ini tidakperkiraan tanggapan rata-rata orang dengan tekanan darah tinggi pada populasi umum, atau orang-orang dalam kelompok tekanan darah tinggi dalam studi lain, kecuali jika Anda mengambil langkah-langkah khusus untuk melakukannya. Jika distribusi tekanan darah pada populasi umum diketahui, seperti yang saya bayangkan, Anda sebaiknya menghitung rata-rata respon orang dengan tekanan darah tinggi pada populasi umum berdasarkan prediksi dari model dengan tekanan darah sebagai variabel kontinu. Binning kasar membuat model Anda hanya bisa digeneralisasikan.

Secara umum, jika Anda memiliki pertanyaan tentang perilaku respons antara cut-off, pas dengan model terbaik yang Anda bisa, & kemudian gunakan untuk menjawabnya.]

[Berkenaan dengan presentasi; Saya pikir ini adalah herring merah:

(1) Kemudahan presentasi tidak membenarkan keputusan pemodelan yang buruk. (Dan dalam kasus di mana binning adalah keputusan pemodelan yang baik, itu tidak perlu pembenaran tambahan.) Tentunya ini jelas. Tidak ada yang pernah merekomendasikan mengeluarkan interaksi penting dari model karena sulit untuk disajikan.

(2) Apa pun jenis model yang Anda cocok, Anda masih dapat menyajikan hasilnya dalam hal kategori jika Anda pikir itu akan membantu interpretasi. Meskipun ...

(3) Anda harus berhati-hati untuk memastikan itu tidak membantu salah tafsir, karena alasan yang diberikan di atas.

(4) Sebenarnya tidak sulit untuk menyajikan respons non-linear. Pendapat pribadi, jelas, & khalayak berbeda; tapi saya belum pernah melihat grafik nilai respons yang dipasang versus nilai prediktor teka-teki seseorang hanya karena melengkung. Interaksi, logit, efek acak, multikolinieritas, ...— semua ini jauh lebih sulit untuk dijelaskan.]

[Poin tambahan yang dibawa oleh @Roland adalah ketepatan pengukuran prediktor; dia menyarankan, saya pikir, bahwa kategorisasi mungkin tepat ketika mereka tidak terlalu tepat. Akal sehat mungkin menyarankan agar Anda tidak memperbaiki masalah dengan menyatakannya kembali dengan kurang tepat, & akal sehat akan benar: MacCallum et al (2002), "Tentang Praktik Dikotomisasi Variabel Kuantitatif", Metode Psikologis , 7 , 1, hlm. 17–19.]

Scortchi - Reinstate Monica
sumber
6
Komentar luar biasa tentang masalah yang menyebar. Sangat penting untuk mempromosikan ide-ide kuantitatif secara menyeluruh di sini. Sudah ada terlalu banyak penekanan pada melewati ambang batas, misalnya bencana tingkat atas, di bawah tingkat kenyamanan.
Nick Cox
14
Saya akan menantang siapa pun untuk menunjukkan validasi dari setiap cutoff yang digunakan oleh dokter.
Frank Harrell
Perlu dicatat bahwa pendekatan binning ini memang memiliki beberapa manfaat di bidang lain - ini sangat populer ketika dikombinasikan dengan jaring saraf besar untuk memprediksi distribusi multi-modal seperti orientasi kendaraan. Lihat arxiv.org/abs/1612.00496 misalnya.
N. McA.
11

Bagian dari jawaban ini yang telah saya pelajari sejak bertanya adalah bahwa tidak binning dan binning berusaha untuk menjawab dua pertanyaan yang sedikit berbeda - Apa perubahan tambahan dalam data? dan Apa perbedaan antara yang terendah dan yang tertinggi? .

Tidak binning mengatakan "ini adalah kuantifikasi tren yang terlihat dalam data" dan binning mengatakan "Saya tidak memiliki informasi yang cukup untuk mengatakan berapa banyak perubahan ini dengan setiap kenaikan, tetapi saya dapat mengatakan bahwa bagian atas berbeda dari bagian bawah" .

Tom
sumber
5

Sebagai seorang dokter, saya pikir jawabannya tergantung pada apa yang ingin Anda lakukan. Jika Anda ingin membuat yang paling cocok atau membuat penyesuaian terbaik Anda dapat menggunakan variabel kontinu dan kuadrat.

Jika Anda ingin mendeskripsikan dan mengomunikasikan asosiasi yang rumit untuk audiens yang berorientasi non-statistik, penggunaan variabel yang dikategorikan lebih baik, menerima bahwa Anda dapat memberikan beberapa hasil yang sedikit bias dalam desimal terakhir. Saya lebih suka menggunakan setidaknya tiga kategori untuk menunjukkan asosiasi nonlinier. Alternatifnya adalah menghasilkan grafik dan hasil prediksi pada titik-titik tertentu. Kemudian, Anda mungkin perlu membuat keluarga grafik untuk setiap kovariat berkesinambungan yang mungkin menarik. Jika Anda takut mendapatkan terlalu banyak bias saya pikir Anda dapat menguji kedua model dan melihat apakah perbedaannya penting atau tidak. Anda harus praktis dan realistis.

Saya pikir kita mungkin menyadari bahwa dalam banyak situasi klinis perhitungan kita tidak didasarkan pada data yang tepat dan ketika saya misalnya meresepkan obat untuk orang dewasa saya tetap tidak melakukannya dengan mg per kilo tetap (perumpamaan dengan pilihan antara operasi dan perawatan medis hanya omong kosong).

Roland
sumber
1
Mengapa analogi itu omong kosong? Karena mengelompokkan variabel kontinu tidak pernah menghasilkan model yang jauh lebih buruk? Atau karena menggunakan model yang jauh lebih buruk tidak pernah memiliki konsekuensi praktis?
Scortchi
9
Itu sama sekali bukan kasus @Roland. Estimasi yang diperoleh dari cutoff hanya sederhana karena orang tidak mengerti apa estimasi estimasi. Itu karena mereka tidak memperkirakan kuantitas ilmiah, yaitu kuantitas yang memiliki makna di luar sampel atau eksperimen. Misalnya, rasio odds tinggi: rendah atau perbedaan rata-rata akan meningkat jika Anda menambahkan pasien dengan nilai sangat tinggi atau sangat rendah ke dataset. Juga, penggunaan cutoff menyiratkan bahwa biologi tidak terputus, yang tidak demikian.
Frank Harrell
@Scortchi Mengubah dari pengobatan medis ke bedah karena lebih mudah dijelaskan (benarkah?) Akan seperti mengganti usia dengan tinggi sebagai variabel penjelas.
Roland
Saya setuju tentang menghindari variabel dikotomi. Kedokteran klinis bukanlah ilmu yang sulit di mana desimal terakhir penting. Dalam model saya bekerja dengan hasil hanya berubah pada desimal terakhir jika saya menggunakan kategori usia vs usia sebagai variabel kontinu dan kuadrat tetapi meningkatkan pemahaman dan kemampuan komunikasi asosiasi sangat besar.
Roland
4

Seperti yang telah disebutkan sebelumnya, biasanya yang terbaik adalah menghindari dikotomi variabel kontinu. Namun, dalam menjawab pertanyaan Anda, ada beberapa contoh di mana dikotomi variabel kontinu memberikan keuntungan.

Sebagai contoh, jika variabel yang diberikan mengandung nilai yang hilang untuk proporsi yang signifikan dari populasi, tetapi diketahui sangat prediktif dan nilai yang hilang itu sendiri menanggung nilai prediktif. Misalnya, dalam model penilaian kredit, pertimbangkan variabel, katakanlah saldo rata-rata-kredit-berputar (yang diberikan, tidak berkelanjutan secara teknis, tetapi dalam kasus ini mencerminkan distribusi normal yang cukup dekat untuk diperlakukan seperti itu), yang berisi nilai yang hilang sekitar 20% dari jumlah pemohon dalam target pasar yang diberikan. Dalam hal ini, nilai-nilai yang hilang untuk variabel ini mewakili kelas yang berbeda - mereka yang tidak memiliki garis kredit yang terbuka dan berputar; pelanggan ini akan menampilkan perilaku yang sama sekali berbeda dibandingkan dengan, katakanlah, mereka yang memiliki jalur kredit bergulir yang tersedia, tetapi yang secara teratur tidak memiliki saldo.

Manfaat lain dari dikotomisasi: dapat digunakan untuk mengurangi efek outlier signifikan yang condong ke koefisien, tetapi merupakan kasus realistis yang perlu ditangani. Jika outlier tidak jauh berbeda dalam hasil dari nilai-nilai lain dalam persentil terdekat, tetapi condongkan parameter cukup untuk mempengaruhi akurasi marjinal, maka mungkin bermanfaat untuk mengelompokkannya dengan nilai-nilai yang menampilkan efek yang sama.

Kadang-kadang distribusi secara alami cocok untuk satu set kelas, di mana dikotomisasi sebenarnya akan memberi Anda tingkat akurasi yang lebih tinggi daripada fungsi kontinu.

Juga, seperti yang disebutkan sebelumnya, tergantung pada audiens, kemudahan penyajian dapat melebihi kerugian keakuratannya. Untuk menggunakan penilaian kredit lagi sebagai contoh, dalam praktiknya, tingkat regulasi yang tinggi membuat kasus praktis untuk diskritisasi kadang-kadang. Sementara tingkat akurasi yang lebih tinggi dapat membantu pemberi pinjaman memotong kerugian, praktisi juga harus mempertimbangkan bahwa model harus mudah dipahami oleh regulator (yang dapat meminta ribuan halaman dokumentasi model) dan konsumen, yang jika ditolak kreditnya, secara hukum berhak mendapatkan penjelasan mengapa.

Itu semua tergantung pada masalah yang dihadapi dan data, tetapi tentu saja ada kasus di mana dikotomisasi memiliki kelebihan.

cjthompson
sumber
Dikotomisasi dimasukkan ke dalam dua tempat sampah - maksud Anda diskritisasi?
Scortchi
2
Dalam kedua contoh pertama Anda, diskritisasi mencoba menggertak jalan ke pesta dengan menempel pada tamu yang bonafid. Jangan tertipu. (1) Jika Anda ingin memodelkan tidak memiliki jalur kredit revolving terbuka sebagai kelas yang berbeda, cukup gunakan variabel dummy untuk menunjukkan kondisi itu & berikan nilai konstan untuk saldo kredit revolving rata-rata. (2) Jika Anda ingin memperlakukan nilai prediktor ekstrem tertentu secara identik, sebagai "besar" atau "kecil", potong mereka; tidak perlu dipermasalahkan dengan sisa nilai. Kasus ke-3 tidak terbantahkan - jangan ragu untuk menambahkan contoh.
Scortchi
3

Jika suatu variabel memiliki efek pada ambang tertentu, buat variabel baru dengan menggesernya adalah hal yang baik untuk dilakukan. Saya selalu menyimpan kedua variabel, yang asli dan yang binning, dan memeriksa variabel mana yang merupakan prediktor yang lebih baik.

Nguyen
sumber
3

Saya seorang penggemar yang berkomitmen atas saran Frank Harrell bahwa analis harus menolak diskritisasi dini data berkelanjutan. Dan saya punya beberapa jawaban pada CV dan SO yang menunjukkan bagaimana memvisualisasikan interaksi antara variabel kontinu, karena saya pikir itu adalah garis investigasi yang lebih berharga. Namun, saya juga memiliki pengalaman dunia nyata di dunia medis tentang hambatan untuk mematuhi saran ini. Seringkali ada divisi yang menarik yang diharapkan oleh dokter dan non-dokter untuk "pemisahan". "Batas atas normal" konvensional adalah satu titik perpecahan "alami". Pertama-tama, seseorang pertama-tama memeriksa statistik yang menopang suatu hubungan dan kemudian mengkomunikasikan substansi temuan dalam hal yang diharapkan audiens Anda dan dapat dengan mudah dipahami. Meskipun "alergi" saya untuk barplot, mereka sangat umum dalam wacana ilmiah dan medis. Jadi audiens cenderung memiliki pola kognitif siap pakai untuk memprosesnya dan akan dapat mengintegrasikan hasilnya dalam basis pengetahuan mereka.

Selain itu, tampilan grafis interaksi model antara bentuk variabel prediktor non-linear memerlukan presentasi plot kontur atau tampilan rangka gambar yang sebagian besar penonton akan mengalami kesulitan dalam mencerna. Saya telah menemukan masyarakat medis dan umum lebih mudah menerima presentasi yang memiliki hasil diskritisasi dan tersegmentasi. Jadi saya kira kesimpulannya adalah bahwa pemisahan dilakukan dengan benar setelah analisis statistik selesai; dan dilakukan dalam fase presentasi.

DWIN
sumber
1

Berkali-kali binning variabel kontinu datang dengan perasaan tidak enak yang menyebabkan kerusakan karena kehilangan informasi. Namun, tidak hanya Anda dapat mengikat kehilangan informasi, Anda dapat memperoleh informasi dan mendapatkan lebih banyak keuntungan.

Jika Anda menggunakan binning dan mendapatkan variabel yang dikategorikan Anda mungkin dapat menerapkan algoritma pembelajaran yang tidak berlaku untuk variabel kontinu. Dataset Anda mungkin lebih cocok dengan salah satu dari algoritma ini jadi inilah manfaat pertama Anda.

Gagasan memperkirakan kerugian akibat binning didasarkan pada makalah "pembelajaran PAC dengan atribut yang tidak relevan". Misalkan konsep kami adalah biner sehingga kami dapat membagi sampel menjadi positif dan negatif. Untuk setiap pasangan sampel negatif dan positif, perbedaan konsep mungkin dijelaskan oleh perbedaan dalam salah satu fitur (atau sebaliknya, itu tidak dapat dijelaskan oleh fitur yang diberikan). Himpunan perbedaan fitur adalah himpunan penjelasan yang mungkin untuk perbedaan konsep, karenanya data yang digunakan untuk menentukan konsep. Jika kami melakukan binning dan kami masih mendapatkan set penjelasan yang sama untuk pasangan, kami tidak kehilangan informasi yang dibutuhkan (sehubungan dengan mempelajari algoritma yang bekerja dengan perbandingan seperti itu). Jika kategorisasi kami akan sangat ketat, kami mungkin akan memiliki serangkaian penjelasan yang lebih kecil tetapi kami akan dapat mengukur secara akurat berapa banyak dan di mana kami kehilangan. Itu akan memungkinkan kami untuk menukar jumlah sampah dengan set penjelasan.

Sejauh ini kami melihat bahwa kami tidak akan rugi karena kategorisasi, tetapi jika kami mempertimbangkan untuk menerapkan langkah seperti itu, kami ingin mendapat manfaat. Memang, kita bisa mendapat manfaat dari kategorisasi

Banyak algoritma pembelajaran yang akan diminta untuk mengklasifikasikan sampel dengan nilai yang tidak terlihat pada set kereta, akan menganggap nilai sebagai "tidak diketahui". Karenanya kita akan mendapatkan nampan "tidak dikenal" yang mencakup SEMUA nilai yang tidak terlihat selama kereta (atau bahkan tidak cukup terlihat). Untuk algoritma seperti itu, perbedaan antara pasangan nilai yang tidak diketahui tidak akan digunakan untuk meningkatkan klasifikasi. Bandingkan pasangan Anda setelah binning dengan pasangan yang tidak diketahui dan lihat apakah binning Anda bermanfaat dan Anda benar-benar mendapatkan.

Anda dapat memperkirakan seberapa umum akan nilai yang tidak diketahui dengan memeriksa distribusi nilai dari setiap fitur. Fitur adalah nilai-nilai yang muncul hanya beberapa kali merupakan bagian besar dari distribusi mereka adalah kandidat yang baik untuk binning. Perhatikan bahwa dalam banyak skenario Anda akan memiliki banyak fitur dengan tidak diketahui meningkatkan probabilitas bahwa sampel akan berisi nilai yang tidak diketahui. Algoritma yang menangani semua atau banyak fitur cenderung mengalami kesalahan dalam situasi seperti itu.

A. Dhagat dan L. Hellerstein, "pembelajaran PAC dengan atribut yang tidak relevan", dalam 'Prosiding IEEE Symp. tentang Yayasan Ilmu Komputer, 1994. http://citeseer.ist.psu.edu/dhagat94pac.html

Dl
sumber