Mengapa binning harus dihindari dengan cara apa pun?

10

Jadi saya sudah membaca beberapa posting tentang mengapa binning harus selalu dihindari. Referensi populer untuk klaim itu adalah tautan ini .

Liburan utama adalah bahwa titik-titik binning (atau titik potong) agak sewenang-wenang serta hilangnya informasi yang dihasilkan, dan bahwa splines harus lebih disukai.

Namun, saya saat ini bekerja dengan Spotify API, yang memiliki banyak langkah kepercayaan berkelanjutan untuk beberapa fitur mereka.

Melihat satu fitur, "instrumentalness", status referensi:

Memprediksi apakah suatu lagu tidak mengandung vokal. Suara “Ooh” dan “aah” diperlakukan sebagai instrumen dalam konteks ini. Rap atau trek kata yang diucapkan jelas "vokal". Semakin dekat nilai instrumentalness ke 1.0, semakin besar kemungkinan trek tidak mengandung konten vokal. Nilai di atas 0,5 dimaksudkan untuk mewakili trek instrumental , tetapi kepercayaan diri lebih tinggi ketika nilai mendekati 1.0.

Mengingat distribusi data saya sangat miring (sekitar 90% sampel hampir di atas 0, saya merasa masuk akal untuk mengubah fitur ini menjadi dua fitur kategori: "instrumental" (semua sampel dengan nilai di atas 0,5) dan "non_instrumental "(untuk semua sampel dengan nilai di bawah 0,5).

Apakah ini salah? Dan apa yang akan menjadi alternatif, ketika hampir semua data saya (terus-menerus) berputar di sekitar nilai tunggal? Dari apa yang saya mengerti tentang splines, mereka tidak akan bekerja dengan masalah klasifikasi (apa yang saya lakukan).

Readler
sumber
10
Setup yang Anda gambarkan sepertinya tidak menyiratkan bahwa binning adalah ide yang bagus. Anda mengatakan sendiri bahwa ada informasi seberapa dekat dengan 1.0 nilainya. IMHO Anda sebaiknya memiliki fitur terus menerus yang terkait dengan probabilitas menjadi instrumental. Mungkin Anda bisa mengembangkan pertanyaan Anda.
Frank Harrell
Pertanyaan saya pada dasarnya adalah kapan boleh menggunakan binning, jika tidak. Dalam kasus saya, saya menggunakannya berdasarkan domain (instrumental / bukan instrumental), karena saya percaya itu lebih predikatif daripada mengatakan seberapa dekat trek dengan menjadi instrumental (karena trek baik atau tidak instrumental). Namun Anda menentang logika ini di poin 8 pos Anda. Saya, sebagai seorang pemula, hanya mengalami kesulitan benar-benar memahami mengapa itu harus terjadi.
Readler
1
Saya menulis posting panjang tentang ini dalam konteks pemodelan prediktif: madrury.github.io/jekyll/update/statistics/2017/08/04/…
Matthew Drury
Sangat informatif dan menyeluruh, terima kasih. Namun, saya tidak melihat kaitannya dengan pertanyaan saya (meskipun saya masih mendapatkan beberapa wawasan baru, jadi semuanya baik-baik saja!). Artikel Anda berbicara tentang meniadakan variabel prediktor dalam masalah regresi dan mengapa itu adalah ide yang buruk (yang dengan tegas diperdebatkan artikel Anda) dan mengapa menggunakan splines membantu untuk memodelkan regresi. Saya bertanya tentang mengapa buruk untuk mendiskritasikan nilai-nilai fitur kontinu (input) dalam masalah klasifikasi (yang variabel prediktornya secara inheren "sampah", yaitu kelas).
Readler
2
Jika hampir semua fitur Anda ada pada satu titik, maka kemungkinan tidak akan membantu model Anda, apa pun yang Anda lakukan.
Akumulasi

Jawaban:

15

Agak berlebihan untuk mengatakan bahwa binning harus dihindari dengan cara apa pun , tetapi tentu saja bahwa binning memperkenalkan pilihan bin yang memperkenalkan kesewenang-wenangan dalam analisis. Dengan metode statistik modern umumnya tidak perlu untuk terlibat dalam binning, karena apa pun yang dapat dilakukan pada data "binned" yang diskrit umumnya dapat dilakukan pada nilai kontinu yang mendasarinya.

Penggunaan "binning" yang paling umum dalam statistik adalah dalam pembuatan histogram. Histogram mirip dengan kelas umum penduga kepadatan kernel (KDE), sepanjang melibatkan agregasi fungsi langkah pada nampan yang dipilih, sedangkan KDE melibatkan agregasi kernel yang lebih halus. Fungsi langkah yang digunakan dalam histogram bukanlah fungsi yang lancar, dan umumnya kasus bahwa fungsi kernel yang lebih baik dapat dipilih yang kurang sewenang-wenang di bawah metode KDE, yang juga menghasilkan perkiraan yang lebih baik dari kepadatan data yang mendasarinya. Saya sering memberi tahu siswa bahwa histogram hanyalah "KDE orang miskin". Secara pribadi, saya tidak akan pernah menggunakannya, karena sangat mudah untuk mendapatkan KDE tanpa membuang data, dan ini memberikan hasil yang unggul tanpa pilihan binning sewenang-wenang.

Penggunaan umum lain dari "binning" terjadi ketika seorang analis ingin mendiskritkan data kontinu ke dalam bin untuk menggunakan teknik analitis yang menggunakan nilai diskrit. Ini tampaknya seperti yang disarankan di bagian yang Anda kutip mengenai prediksi suara vokal. Dalam kasus seperti itu ada beberapa kesewenang-wenangan yang diperkenalkan oleh binning dan ada juga kehilangan informasi. Lagi-lagi lebih baik menghindari ini jika mungkin, dengan mencoba membentuk model langsung pada nilai-nilai berkelanjutan yang mendasarinya, daripada membentuk model pada nilai-nilai "binned" yang didiskritisasi.

Sebagai aturan umum, para ahli statistik diharapkan untuk menghindari teknik analitik yang memperkenalkan asumsi sewenang-wenang, terutama dalam kasus-kasus di mana teknik alternatif tersedia untuk dengan mudah menghindari asumsi-asumsi ini. Jadi saya setuju dengan sentimen bahwa binning umumnya tidak perlu. Tentunya tidak boleh dihindari sama sekali karena biayanya penting, tetapi umumnya harus dihindari ketika ada teknik alternatif sederhana yang memungkinkan untuk dihindari tanpa ketidaknyamanan yang serius.

Ben - Pasang kembali Monica
sumber
Saya melihat. Tindak lanjut pertanyaan, meskipun: melihat distribusi contoh yang disebutkan di atas lihat di sini (ironisnya histogram), saya hanya gagal melihat kegunaan dalam variabel kontinu di mana hampir semua sampel berputar di sekitar satu nilai (di sini menjadi 0), yang merupakan adalah apa yang awalnya membuat saya membuang fitur ini. Anda menyebutkan alternatif - maukah Anda menguraikan atau mengarahkan saya ke arah yang benar di mana saya bisa belajar lebih banyak?
Readler
Coba baca tentang KDE dan pertimbangkan juga beberapa cara alternatif untuk memplot data univariat .
Ben - Pasang kembali Monica
Saya histogram itu saya melihat nilai di semua tempat (tapi, ya, sebagian besar hampir nol). Seharusnya tidak ada ketidaknyamanan dalam menggunakan fit spline, dan itu pasti akan memberikan lebih banyak informasi. Plot spline yang pas! dan, jika karena alasan tertentu Anda harus memutuskan , plot itu dapat membantu Anda dalam hal bagaimana. Mungkin saja, bahwa untuk penggunaan khusus Anda, cutpoint lain dari 0,5 lebih baik.
kjetil b halvorsen
2
Histogram tidak dapat ditafsirkan dengan benar sebagai KDE. Apa yang akan menjadi kernel?
whuber
1
Sehubungan dengan paragraf ketiga Anda, saya memiliki pertanyaan serupa muncul ketika saya mencoba untuk menghitung perolehan informasi dengan beberapa data numerik. Bisakah Anda melihat pertanyaan ini dan menjelaskan apa yang harus dilakukan dalam situasi ini? stats.stackexchange.com/questions/384684/…
astel
4

Saya biasanya akan berdebat menentang kategorisasi variabel kontinu untuk alasan yang diungkapkan dengan baik oleh orang lain yang terkenal, Frank Harrell. Dalam hal ini mungkin akan membantu jika bertanya pada diri sendiri tentang proses yang menghasilkan skor. Tampaknya sebagian besar skor secara efektif nol mungkin dengan beberapa noise yang ditambahkan. Beberapa dari mereka agak dekat dengan persatuan lagi dengan kebisingan. Sangat sedikit di antara keduanya. Dalam hal ini tampaknya ada lebih banyak pembenaran untuk pengkategorian karena orang dapat berargumentasi bahwa modulo noise ini adalah variabel biner. Jika seseorang cocok sebagai variabel kontinu, koefisien akan memiliki makna dalam hal perubahan dalam variabel prediktor tetapi dalam kasus ini pada sebagian besar jangkauannya, variabel tersebut sangat jarang penduduknya sehingga tampaknya tidak menarik.

Nyonya
sumber
4
Jawaban singkat saya tentang kapan binning boleh digunakan adalah ini: Ketika titik diskontinuitas sudah diketahui sebelum melihat data (ini adalah titik akhir bin) dan jika diketahui bahwa hubungan antara x dan y dalam setiap bin yang memiliki panjang bukan nol adalah datar.
Frank Harrell
2

Bayangkan Anda memiliki arloji yang hanya menunjukkan jam. Maksud saya hanya memiliki panah jam yang sekali jam membuat 1/12 melompat ke jam lain, itu tidak bergerak dengan lancar. Jam seperti itu tidak akan sangat berguna, karena Anda tidak akan tahu apakah itu jam lima lewat dua, setengah dua, atau sepuluh atau tiga. Itulah masalah dengan data yang dikosongkan , kehilangan detail dan memperkenalkan perubahan "gelisah".

Tim
sumber
1
(+1) Ya, dan tambahkan ke bahwa masalah tambahan bahwa pembuat arloji mungkin tidak memilih kenaikan per jam, tetapi mungkin secara sewenang-wenang memutuskan bahwa arlojinya akan naik 19 menit, dan Anda memiliki masalah tambahan di luar hanya kehilangan informasi .
Ben - Reinstate Monica
2

Untuk beberapa aplikasi, tampaknya termasuk yang sedang Anda renungkan, binning bisa sangat diperlukan. Jelas untuk melakukan masalah kategorisasi, pada titik tertentu Anda harus menarik data kategorikal dari model Anda, dan kecuali jika input Anda semuanya kategorikal juga, Anda perlu melakukan binning. Pertimbangkan sebuah contoh:

AI yang canggih sedang bermain poker. Ia telah mengevaluasi kemungkinan tangannya lebih unggul dari tangan pemain lain sebesar 70%. Ini adalah gilirannya untuk bertaruh, namun telah diberitahu bahwa ia harus menghindari binning di semua biaya, dan akibatnya tidak pernah menempatkan taruhan; lipatan secara default.

Namun, apa yang telah Anda dengar mungkin benar, dalam binning nilai-nilai menengah yang terlalu dini itu menyerahkan informasi yang bisa saja dipertahankan. Jika tujuan akhir dari proyek Anda adalah untuk menentukan apakah Anda akan "menyukai" lagu tersebut, yang dapat ditentukan oleh dua faktor: "instrumentalness" dan "rockitude", Anda mungkin akan lebih baik mempertahankannya sebagai variabel kontinu sampai Anda perlu menarik "kesukaan" sebagai variabel kategori.

like={0rockitude3+instrumentalness2<31rockitude3+instrumentalness23

atau koefisien apa pun yang Anda anggap paling tepat, atau model apa pun lainnya yang sesuai dengan pelatihan Anda.

Jika sebaliknya Anda memutuskan apakah sesuatu itu "instrumental" (benar atau salah) dan "batu" (benar atau salah), maka Anda memiliki 4 kategori yang ditata di depan Anda sebagai hari:

  1. instrumental, batu
  2. non-instrumental, batu
  3. instrumental, tidak ada batu
  4. non-instrumental, tidak ada batu

Tapi yang harus Anda putuskan adalah yang mana dari 4 kategori yang Anda "sukai". Anda telah memberikan fleksibilitas dalam keputusan akhir Anda.

Keputusan untuk menolak atau tidak bergantung sepenuhnya pada tujuan Anda. Semoga berhasil.

guenthmonstr
sumber
2

R

R{b1bN}bi=[li,ui]liuii

l=l0wl0u0=l0+ww(wmin,wmax)

P(R)=w=wminwmaxl=l0l0+wP(R|l,w)P(l,w)P(l,w)2(u0l0)wmax+wmin×(wmaxwmin)

wmax,wmin,l0P(R)P(R|wmax,wmin,l0)P(R)P(R|wmax,wmin,l0)=P(R)

Dalam konteks pertanyaan OP, saya akan puas jika ambang sewenang-wenang 0,5 ditetapkan untuk berbagai nilai antara nilai-nilai min dan maks yang kredibel, dan untuk melihat bahwa hasil dasar analisisnya sebagian besar tidak tergantung pada pemilihan.

Peter Leopold
sumber