Kapan kita harus discretize / bin variabel independen / fitur dan kapan tidak?
Upaya saya untuk menjawab pertanyaan:
- Secara umum, kita tidak boleh bin, karena binning akan kehilangan informasi.
- Binning sebenarnya meningkatkan derajat kebebasan model, jadi, dimungkinkan untuk menyebabkan over-fitting setelah binning. Jika kita memiliki model "bias tinggi", binning mungkin tidak buruk, tetapi jika kita memiliki model "varian tinggi", kita harus menghindari binning.
- Itu tergantung pada model apa yang kita gunakan. Jika itu adalah mode linear, dan data memiliki banyak kemungkinan "outlier" binning lebih baik. Jika kita memiliki model pohon, maka, outlier dan binning akan membuat terlalu banyak perbedaan.
Apakah saya benar? lalu apa lagi?
Saya pikir pertanyaan ini harus ditanyakan berkali-kali tetapi saya tidak dapat menemukannya di CV hanya posting ini
Jawaban:
Sepertinya Anda juga mencari jawaban dari sudut pandang prediktif, jadi saya mengumpulkan demonstrasi pendek dari dua pendekatan dalam R
Di bawah ini, saya telah memberikan kode untuk fungsi yang akan membandingkan kedua metode secara otomatis untuk fungsi sinyal yang sebenarnya diberikan
Fungsi ini akan membuat pelatihan yang berisik dan menguji set data dari sinyal yang diberikan, dan kemudian menyesuaikan serangkaian regresi linier dengan data pelatihan dari dua jenis
cuts
Model termasuk prediktor binned, yang dibentuk oleh segmentasi kisaran data ke dalam interval terbuka setengah ukuran yang sama, dan kemudian menciptakan prediktor biner yang menunjukkan ke mana interval setiap titik pelatihan milik.splines
Model termasuk kubik dasar spline ekspansi alam, dengan knot sama spasi sepanjang rentang dari prediktor tersebut.Argumennya adalah
signal
: Fungsi satu variabel yang mewakili kebenaran untuk diperkirakan.N
: Jumlah sampel untuk dimasukkan dalam pelatihan dan data pengujian.noise
: Jumlah kebisingan gaussian acak untuk menambah sinyal pelatihan dan pengujian.range
: Kisaran data pelatihan dan pengujianx
, data ini dihasilkan secara seragam dalam kisaran ini.max_paramters
: Jumlah maksimum parameter untuk diestimasi dalam suatu model. Ini adalah jumlah maksimum segmen dalamcuts
model, dan jumlah maksimum simpul dalamsplines
model.Perhatikan bahwa jumlah parameter yang diestimasi dalam
splines
model adalah sama dengan jumlah simpul, sehingga kedua model tersebut cukup dibandingkan.Objek kembali dari fungsi memiliki beberapa komponen
signal_plot
: Sebidang fungsi sinyal.data_plot
: Sebaran plot pelatihan dan data pengujian.errors_comparison_plot
: Plot yang menunjukkan evolusi jumlah tingkat kesalahan kuadrat untuk kedua model pada rentang jumlah parameter yang diukur.Saya akan menunjukkan dengan dua fungsi sinyal. Yang pertama adalah gelombang dosa dengan tren linier yang meningkat ditumpangkan
Inilah cara tingkat kesalahan berkembang
Contoh kedua adalah fungsi gila yang saya simpan hanya untuk hal semacam ini, plot dan lihat
Dan untuk bersenang-senang, ini adalah fungsi linear yang membosankan
Anda dapat melihat bahwa:
Jadi splines selalu lebih disukai dari sudut pandang prediktif.
Kode
Berikut kode yang saya gunakan untuk membuat perbandingan ini. Saya telah membungkus semuanya dalam suatu fungsi sehingga Anda dapat mencobanya dengan fungsi sinyal Anda sendiri. Anda harus mengimpor perpustakaan
ggplot2
dansplines
R.sumber
Agregasi secara substantif bermakna (apakah peneliti menyadarinya atau tidak).
Seseorang harus memasukkan data, termasuk variabel independen, berdasarkan data itu sendiri ketika diinginkan:
Untuk pendarahan kekuatan statistik.
Membiasakan ukuran asosiasi.
Saya percaya, sebuah literatur dimulai dengan Ghelke dan Biehl (1934 — pasti layak dibaca, dan menunjukkan beberapa simulasi komputer yang cukup mudah sehingga seseorang dapat berlari untuk diri sendiri), dan melanjutkan terutama dalam literatur 'modifikasi unit unit problem' (Openshaw , 1983; Dudley, 1991; Lee dan Kemp, 2000) membuat kedua poin ini jelas.
Jika seseorang tidak memiliki teori apriori tentang skala agregasi (berapa unit yang akan diagregasikan) dan fungsi kategorisasi dari agregasi (di mana observasi individu akan berakhir di mana unit agregat), ia tidak boleh agregat. Misalnya, dalam epidemiologi, kami peduli dengan kesehatan individu , dan tentang kesehatan populasi . Yang terakhir bukan hanya koleksi acak dari yang pertama, tetapi didefinisikan oleh, misalnya, batas-batas geopolitik, keadaan sosial seperti kategorisasi ras-etnis, status carceral dan kategori sejarah, dll. (Lihat, misalnya Krieger, 2012)
Referensi
Dudley, G. (1991). Skala, agregasi, dan masalah unit areal yang dapat dimodifikasi . [pay-walled] The Operational Geographer, 9 (3): 28–33.
Gehlke, CE dan Biehl, K. (1934). Efek tertentu dari Pengelompokan Terhadap Ukuran Koefisien Korelasi dalam Bahan Saluran Sensus . [berbayar] Jurnal Asosiasi Statistik Amerika , 29 (185): 169-170.
Krieger, N. (2012). Siapa dan apa itu "populasi"? perdebatan historis, kontroversi saat ini, dan implikasi untuk memahami "kesehatan populasi" dan memperbaiki kesenjangan kesehatan . Milbank Quarterly , 90 (4): 634-681.
Lee, HTK dan Kemp, Z. (2000). Penalaran hierarkis dan pemrosesan analitik on-line dari data spasial dan temporal . Dalam Prosiding Simposium Internasional ke-9 tentang Penanganan Data Spasial , Beijing, PR China. Persatuan Geografis Internasional.
Openshaw, S. (1983). Masalah unit areal yang dapat dimodifikasi. Konsep dan Teknik dalam Geografi Modern . Geo Books, Norwich, Inggris.
sumber