Sejumlah sumber menunjukkan bahwa ada banyak konsekuensi negatif dari diskritisasi (kategorisasi) variabel kontinu sebelum analisis statistik (sampel referensi [1] - [4] di bawah).
Sebaliknya [5] menunjukkan bahwa beberapa teknik pembelajaran mesin diketahui menghasilkan hasil yang lebih baik ketika variabel kontinyu didiskritisasi (juga mencatat bahwa metode diskritisasi yang diawasi berperforma lebih baik).
Saya ingin tahu apakah ada manfaat atau justifikasi yang diterima secara luas untuk praktik ini dari perspektif statistik?
Secara khusus, apakah akan ada justifikasi untuk mendiskritisasi variabel kontinu dalam analisis GLM?
[1] Royston P, Altman DG, Sauerbrei W. Dichotomizing prediktor berkelanjutan dalam regresi berganda: ide yang buruk. Stat Med 2006; 25: 127-41
[2] Brunner J, Austin PC. Inflasi tingkat kesalahan tipe I dalam regresi berganda ketika variabel independen diukur dengan kesalahan. Jurnal Statistik Kanada 2009; 37 (1): 33-46
[3] Irwin JR, McClelland GH. Konsekuensi negatif dari dikotomisasi variabel prediktor kontinu. Jurnal Riset Pemasaran 2003; 40: 366-371.
[4] Harrell Jr FE. Masalah yang disebabkan oleh pengelompokan variabel kontinu. http://biostat.mc.vanderbilt.edu/twiki/bin/view/Main/CatContinuous, 2004. Diakses pada 6.9.2004
[5] Kotsiantis, S .; Kanellopoulos, D. "Teknik Diskritisasi: Sebuah survei terbaru". GESTS Transaksi Internasional tentang Ilmu dan Teknik Komputer 32 (1): 47–58.
Jawaban:
Tujuan dari model statistik adalah untuk memodelkan (perkiraan) realitas yang tidak diketahui dan mendasar. Ketika Anda mendiskritisasi sesuatu yang secara alami kontinu, Anda mengatakan bahwa semua respons untuk berbagai variabel prediktor persis sama, lalu ada lompatan tiba-tiba untuk interval berikutnya. Apakah Anda benar-benar percaya bahwa dunia alami bekerja dengan memiliki perbedaan besar dalam respons antara nilai-x dari 9,999 dan 10,001 sementara tidak ada perbedaan antara 9,001 dan 9,999 (dengan asumsi salah satu intervalnya adalah 9-10)? Saya tidak dapat memikirkan proses alami apa pun yang saya anggap akan berhasil dengan cara itu.
Sekarang ada banyak proses alami yang bertindak secara non linier, perubahan dari 8 menjadi 9 dalam prediktor dapat membuat perubahan yang sangat berbeda dalam respons daripada perubahan dari 10 menjadi 11. Dan oleh karena itu, prediktor diskritisasi mungkin lebih cocok daripada hubungan linier, tetapi itu karena diizinkan lebih banyak derajat kebebasan. Tapi, ada cara lain untuk memungkinkan derajat kebebasan tambahan, seperti polinomial atau splines, dan opsi ini memungkinkan kita untuk menghukum untuk mendapatkan tingkat kelancaran tertentu dan mempertahankan sesuatu yang merupakan pendekatan yang lebih baik dari proses alami yang mendasarinya.
sumber
Sunting: Karena kecenderungan jawaban lain yang saya lihat, penafian singkat: jawaban saya dimotivasi oleh perspektif pembelajaran mesin, dan bukan pemodelan statistik.
Beberapa model, seperti Naif Bayes, tidak berfungsi dengan fitur terus menerus. Diskritisasi fitur dapat membantu menggunakannya berkinerja lebih baik. Secara umum, model yang tidak bergantung pada karakter "numerik" dari fitur (pohon keputusan muncul di benak) tidak terpengaruh terlalu banyak selama diskritisasi tidak terlalu brutal. Namun beberapa model lain akan berkinerja sangat buruk jika diskritisasi terlalu penting. Sebagai contoh, GLM tidak akan mendapat manfaat sama sekali dari proses.
Dalam beberapa kasus, ketika memori / waktu pemrosesan menjadi faktor pembatas, diskritisasi fitur memungkinkan untuk mengagregasi dataset, mengurangi ukurannya dan konsumsi waktu memori / komputasi.
Jadi intinya adalah jika Anda tidak dibatasi secara komputasi, dan jika model Anda tidak benar-benar membutuhkan fitur-fitur yang terpisah, jangan jalankan diskritisasi fitur. Kalau tidak, tentu saja pertimbangkan itu.
sumber