Apa itu bucketization?

10

Saya sudah berkeliling untuk menemukan penjelasan yang jelas tentang "emberisasi" dalam pembelajaran mesin tanpa hasil. Apa yang saya pahami sejauh ini adalah bahwa bucketisasi mirip dengan kuantisasi dalam pemrosesan sinyal digital di mana serangkaian nilai kontinu diganti dengan satu nilai diskrit. Apakah ini benar?

Apa pro dan kontra (selain dampak nyata dari kehilangan informasi) dalam menerapkan bucketization? Apakah ada aturan praktis tentang cara menerapkan emberisasi? Apakah ada pedoman / algoritma untuk menerapkan bucketisasi sebelum menerapkan pembelajaran mesin?

Medali
sumber
Saya mungkin tidak memiliki jawaban yang benar tetapi Kelas kasar dan Kelas halus [WoE dan IV] membantu dalam emberisasi. Maafkan saya jika ini bukan yang Anda harapkan.
Srikanth Guhan

Jawaban:

4

Ini adalah topik yang luas, dan Anda akan menemukan berbagai alasan mengapa data seharusnya, atau sudah, di-bucket. Tidak semuanya terkait dengan akurasi prediksi.

Pertama, inilah contoh di mana pemodel mungkin ingin melakukan bucket. Misalkan saya sedang membangun model penilaian kredit: Saya ingin tahu kecenderungan orang untuk gagal bayar pinjaman. Dalam data saya, saya memiliki kolom yang menunjukkan status laporan kredit. Yaitu, saya memesan laporan dari agensi pemeringkat, dan agensi mengembalikan, katakanlah, skor kepemilikan mereka, bersama dengan variabel kategori yang menunjukkan keandalan skor ini. Indikator ini mungkin jauh lebih berbutir daripada yang saya butuhkan untuk keperluan saya. Misalnya, "tidak ada informasi yang cukup untuk skor yang dapat diandalkan" dapat dibagi ke dalam banyak kelas seperti "kurang dari 20 tahun", "baru-baru ini pindah ke negara", "tidak ada riwayat kredit sebelumnya", dll. Banyak dari kelas-kelas ini mungkin jarang penduduknya, dan karenanya agak tidak berguna dalam regresi atau model lainnya. Untuk mengatasinya, saya mungkin ingin menyatukan kelas-kelas seperti untuk menggabungkan kekuatan statistik menjadi kelas "representatif". Sebagai contoh, mungkin hanya masuk akal bagi saya untuk menggunakan indikator biner "informasi bagus dikembalikan" vs. "tidak ada informasi dikembalikan". Dalam pengalaman saya, banyak aplikasi bucketisasi termasuk dalam jenderal iniruntuh dari jenis kategori jarang penduduk .

Beberapa algoritma menggunakan bucketisasi secara internal. Misalnya, pohon yang cocok dengan algoritma peningkatan sering menghabiskan sebagian besar waktu mereka dalam langkah peringkasan, di mana data kontinu di setiap node diskritisasi dan nilai rata-rata dari respons di setiap ember dihitung. Ini sangat mengurangi kompleksitas komputasi untuk menemukan pemisahan yang tepat, tanpa banyak pengorbanan dalam akurasi karena peningkatan.

Anda juga dapat dengan mudah menerima data pra-bucket. Data diskrit lebih mudah untuk dikompresi dan disimpan - array panjang angka floating point hampir tidak dapat dimampatkan, tetapi ketika didiskritisasi menjadi "tinggi", "sedang" dan "rendah", Anda dapat menghemat banyak ruang dalam basis data Anda. Data Anda juga dapat dari sumber yang ditargetkan pada aplikasi non-pemodelan. Ini cenderung sering terjadi ketika saya menerima data dari organisasi yang melakukan pekerjaan analitis lebih sedikit. Data mereka sering digunakan untuk pelaporan, dan dirangkum ke tingkat tinggi untuk membantu interpretabilitas laporan kepada orang awam. Data ini masih bisa bermanfaat, tetapi seringkali beberapa daya hilang.

Apa yang saya lihat nilai kurang, meskipun mungkin saya dapat diperbaiki, adalah pra-emberisasi pengukuran kontinu untuk keperluan pemodelan. Ada banyak metode yang sangat kuat untuk menyesuaikan efek non-linier dengan prediktor berkelanjutan, dan penghapusan menghilangkan kemampuan Anda untuk menggunakannya. Saya cenderung melihat ini sebagai praktik yang buruk.

Matthew Drury
sumber
4

Menurut artikel " emberisasi Tingkat Tinggi Versus Ilmu Data Tingkat Rendah" adalah

Langkah bucketisasi (kadang-kadang disebut pengaliran multivarian) terdiri dari pengidentifikasian metrik (dan kombinasi 2-3 metrik) dengan daya prediksi tinggi, gabungkan dan masukkan dengan tepat, untuk mengurangi varians intra-bucket sambil menjaga ember cukup besar.

Jadi pemahaman saya adalah bahwa Anda dengan rakus mengelompokkan data sesuai dengan fitur yang paling prediktif, kemudian menganalisis subkelompok.

Arthur B.
sumber