Jadi saya sudah membaca beberapa posting tentang mengapa binning harus selalu dihindari. Referensi populer untuk klaim itu adalah tautan ini .
Liburan utama adalah bahwa titik-titik binning (atau titik potong) agak sewenang-wenang serta hilangnya informasi yang dihasilkan, dan bahwa splines harus lebih disukai.
Namun, saya saat ini bekerja dengan Spotify API, yang memiliki banyak langkah kepercayaan berkelanjutan untuk beberapa fitur mereka.
Melihat satu fitur, "instrumentalness", status referensi:
Memprediksi apakah suatu lagu tidak mengandung vokal. Suara “Ooh” dan “aah” diperlakukan sebagai instrumen dalam konteks ini. Rap atau trek kata yang diucapkan jelas "vokal". Semakin dekat nilai instrumentalness ke 1.0, semakin besar kemungkinan trek tidak mengandung konten vokal. Nilai di atas 0,5 dimaksudkan untuk mewakili trek instrumental , tetapi kepercayaan diri lebih tinggi ketika nilai mendekati 1.0.
Mengingat distribusi data saya sangat miring (sekitar 90% sampel hampir di atas 0, saya merasa masuk akal untuk mengubah fitur ini menjadi dua fitur kategori: "instrumental" (semua sampel dengan nilai di atas 0,5) dan "non_instrumental "(untuk semua sampel dengan nilai di bawah 0,5).
Apakah ini salah? Dan apa yang akan menjadi alternatif, ketika hampir semua data saya (terus-menerus) berputar di sekitar nilai tunggal? Dari apa yang saya mengerti tentang splines, mereka tidak akan bekerja dengan masalah klasifikasi (apa yang saya lakukan).
Jawaban:
Agak berlebihan untuk mengatakan bahwa binning harus dihindari dengan cara apa pun , tetapi tentu saja bahwa binning memperkenalkan pilihan bin yang memperkenalkan kesewenang-wenangan dalam analisis. Dengan metode statistik modern umumnya tidak perlu untuk terlibat dalam binning, karena apa pun yang dapat dilakukan pada data "binned" yang diskrit umumnya dapat dilakukan pada nilai kontinu yang mendasarinya.
Penggunaan "binning" yang paling umum dalam statistik adalah dalam pembuatan histogram. Histogram mirip dengan kelas umum penduga kepadatan kernel (KDE), sepanjang melibatkan agregasi fungsi langkah pada nampan yang dipilih, sedangkan KDE melibatkan agregasi kernel yang lebih halus. Fungsi langkah yang digunakan dalam histogram bukanlah fungsi yang lancar, dan umumnya kasus bahwa fungsi kernel yang lebih baik dapat dipilih yang kurang sewenang-wenang di bawah metode KDE, yang juga menghasilkan perkiraan yang lebih baik dari kepadatan data yang mendasarinya. Saya sering memberi tahu siswa bahwa histogram hanyalah "KDE orang miskin". Secara pribadi, saya tidak akan pernah menggunakannya, karena sangat mudah untuk mendapatkan KDE tanpa membuang data, dan ini memberikan hasil yang unggul tanpa pilihan binning sewenang-wenang.
Penggunaan umum lain dari "binning" terjadi ketika seorang analis ingin mendiskritkan data kontinu ke dalam bin untuk menggunakan teknik analitis yang menggunakan nilai diskrit. Ini tampaknya seperti yang disarankan di bagian yang Anda kutip mengenai prediksi suara vokal. Dalam kasus seperti itu ada beberapa kesewenang-wenangan yang diperkenalkan oleh binning dan ada juga kehilangan informasi. Lagi-lagi lebih baik menghindari ini jika mungkin, dengan mencoba membentuk model langsung pada nilai-nilai berkelanjutan yang mendasarinya, daripada membentuk model pada nilai-nilai "binned" yang didiskritisasi.
Sebagai aturan umum, para ahli statistik diharapkan untuk menghindari teknik analitik yang memperkenalkan asumsi sewenang-wenang, terutama dalam kasus-kasus di mana teknik alternatif tersedia untuk dengan mudah menghindari asumsi-asumsi ini. Jadi saya setuju dengan sentimen bahwa binning umumnya tidak perlu. Tentunya tidak boleh dihindari sama sekali karena biayanya penting, tetapi umumnya harus dihindari ketika ada teknik alternatif sederhana yang memungkinkan untuk dihindari tanpa ketidaknyamanan yang serius.
sumber
Saya biasanya akan berdebat menentang kategorisasi variabel kontinu untuk alasan yang diungkapkan dengan baik oleh orang lain yang terkenal, Frank Harrell. Dalam hal ini mungkin akan membantu jika bertanya pada diri sendiri tentang proses yang menghasilkan skor. Tampaknya sebagian besar skor secara efektif nol mungkin dengan beberapa noise yang ditambahkan. Beberapa dari mereka agak dekat dengan persatuan lagi dengan kebisingan. Sangat sedikit di antara keduanya. Dalam hal ini tampaknya ada lebih banyak pembenaran untuk pengkategorian karena orang dapat berargumentasi bahwa modulo noise ini adalah variabel biner. Jika seseorang cocok sebagai variabel kontinu, koefisien akan memiliki makna dalam hal perubahan dalam variabel prediktor tetapi dalam kasus ini pada sebagian besar jangkauannya, variabel tersebut sangat jarang penduduknya sehingga tampaknya tidak menarik.
sumber
Bayangkan Anda memiliki arloji yang hanya menunjukkan jam. Maksud saya hanya memiliki panah jam yang sekali jam membuat 1/12 melompat ke jam lain, itu tidak bergerak dengan lancar. Jam seperti itu tidak akan sangat berguna, karena Anda tidak akan tahu apakah itu jam lima lewat dua, setengah dua, atau sepuluh atau tiga. Itulah masalah dengan data yang dikosongkan , kehilangan detail dan memperkenalkan perubahan "gelisah".
sumber
Untuk beberapa aplikasi, tampaknya termasuk yang sedang Anda renungkan, binning bisa sangat diperlukan. Jelas untuk melakukan masalah kategorisasi, pada titik tertentu Anda harus menarik data kategorikal dari model Anda, dan kecuali jika input Anda semuanya kategorikal juga, Anda perlu melakukan binning. Pertimbangkan sebuah contoh:
Namun, apa yang telah Anda dengar mungkin benar, dalam binning nilai-nilai menengah yang terlalu dini itu menyerahkan informasi yang bisa saja dipertahankan. Jika tujuan akhir dari proyek Anda adalah untuk menentukan apakah Anda akan "menyukai" lagu tersebut, yang dapat ditentukan oleh dua faktor: "instrumentalness" dan "rockitude", Anda mungkin akan lebih baik mempertahankannya sebagai variabel kontinu sampai Anda perlu menarik "kesukaan" sebagai variabel kategori.
atau koefisien apa pun yang Anda anggap paling tepat, atau model apa pun lainnya yang sesuai dengan pelatihan Anda.
Jika sebaliknya Anda memutuskan apakah sesuatu itu "instrumental" (benar atau salah) dan "batu" (benar atau salah), maka Anda memiliki 4 kategori yang ditata di depan Anda sebagai hari:
Tapi yang harus Anda putuskan adalah yang mana dari 4 kategori yang Anda "sukai". Anda telah memberikan fleksibilitas dalam keputusan akhir Anda.
Keputusan untuk menolak atau tidak bergantung sepenuhnya pada tujuan Anda. Semoga berhasil.
sumber
Dalam konteks pertanyaan OP, saya akan puas jika ambang sewenang-wenang 0,5 ditetapkan untuk berbagai nilai antara nilai-nilai min dan maks yang kredibel, dan untuk melihat bahwa hasil dasar analisisnya sebagian besar tidak tergantung pada pemilihan.
sumber