Saya berpikir tentang masalah yang memprediksi log (menghabiskan) pelanggan menggunakan regresi linier.
Saya sedang mempertimbangkan fitur apa yang akan digunakan sebagai input dan bertanya-tanya apakah akan baik-baik saja untuk menggunakan persentil variabel sebagai input.
Misalnya saya bisa menggunakan pendapatan perusahaan sebagai input. Yang saya pikirkan adalah apakah saya bisa menggunakan persentil pendapatan perusahaan sebagai gantinya.
Contoh lain akan menjadi pengelompokan kategori industri (NAICS) - jika saya melihat pengeluaran rata-rata per kode NAICS dan kemudian menetapkan setiap kode NAICS ke 'Persentasi NAICS', apakah itu akan menjadi variabel penjelas valid yang dapat saya gunakan?
Hanya ingin tahu apakah ada masalah yang harus diperhatikan saat menggunakan persentil? Apakah dalam beberapa hal setara dengan jenis penskalaan fitur?
sumber
Jawaban:
Jika model Anda memerlukan semacam kontes dalam pendapatan perusahaan, Anda dapat menggunakan persentil. Log persentil tampaknya lebih bermakna, kuantil tidak akan menjadi linear dalam nilai, atau jadi saya bayangkan
Dalam cerita ini, Anda memasukkan (%) perusahaan dengan pendapatan di bawah perusahaan pengamatan. Ceritanya adalah bahwa dengan pendapatan tinggi memiliki reputasi yang lebih baik daripada perusahaan dengan pendapatan rendah, dan hubungan "memiliki lebih dari pesaing" ini relevan, bukan tingkat pendapatan itu sendiri. Saya bisa melihat ini sebagai bagian penting dari pengakuan dan branding perusahaan.
sumber