Menggunakan persentil sebagai prediktor - ide bagus?

9

Saya berpikir tentang masalah yang memprediksi log (menghabiskan) pelanggan menggunakan regresi linier.

Saya sedang mempertimbangkan fitur apa yang akan digunakan sebagai input dan bertanya-tanya apakah akan baik-baik saja untuk menggunakan persentil variabel sebagai input.

Misalnya saya bisa menggunakan pendapatan perusahaan sebagai input. Yang saya pikirkan adalah apakah saya bisa menggunakan persentil pendapatan perusahaan sebagai gantinya.

Contoh lain akan menjadi pengelompokan kategori industri (NAICS) - jika saya melihat pengeluaran rata-rata per kode NAICS dan kemudian menetapkan setiap kode NAICS ke 'Persentasi NAICS', apakah itu akan menjadi variabel penjelas valid yang dapat saya gunakan?

Hanya ingin tahu apakah ada masalah yang harus diperhatikan saat menggunakan persentil? Apakah dalam beberapa hal setara dengan jenis penskalaan fitur?

andrewm4894
sumber
2
Jika Anda memiliki data asli, mengapa Anda ingin menggunakan persentil? Mungkin itu bukan ide yang baik, karena persentil hanya ordinal, bukan ukuran metrik. Tapi saya tidak yakin tentang bias / efisiensi.
hplieninger
9
XX
1
jika Anda dapat mengelompokkan variabel industri dalam kelompok, misalnya 4, gunakan pengkodean dummy (atau skema pengkodean lain yang sesuai) dan Anda selesai. Itulah cara saya akan melakukannya.
hplieninger
3
Saya tidak bisa memikirkan alasan mengapa persentil akan terkait linier dengan variabel dependen. Jika Anda dapat memikirkannya, maka mungkin tidak apa-apa (dan harap perbarui pertanyaan Anda dengan alasan Anda)
Peter Flom
1
Jika Anda ingin menggunakan kode NAICS sebagai proxy untuk pengeluaran perusahaan, maka Anda dapat melakukannya dengan menggunakan pengeluaran rata-rata dalam kode NAICS - tidak perlu menggunakan persentil.
Scortchi

Jawaban:

1

Jika model Anda memerlukan semacam kontes dalam pendapatan perusahaan, Anda dapat menggunakan persentil. Log persentil tampaknya lebih bermakna, kuantil tidak akan menjadi linear dalam nilai, atau jadi saya bayangkan

Dalam cerita ini, Anda memasukkan (%) perusahaan dengan pendapatan di bawah perusahaan pengamatan. Ceritanya adalah bahwa dengan pendapatan tinggi memiliki reputasi yang lebih baik daripada perusahaan dengan pendapatan rendah, dan hubungan "memiliki lebih dari pesaing" ini relevan, bukan tingkat pendapatan itu sendiri. Saya bisa melihat ini sebagai bagian penting dari pengakuan dan branding perusahaan.

RegressForward
sumber