Memprediksi data hitung dengan hutan acak

12

Bisakah Hutan Acak dilatih untuk memprediksi data penghitungan dengan tepat? Bagaimana ini akan dilanjutkan? Saya memiliki rentang nilai yang cukup luas sehingga klasifikasi tidak terlalu masuk akal. Jika saya akan menggunakan regresi, apakah saya akan memotong hasilnya? Saya cukup tersesat di sini. Ada ide?

JEquihua
sumber
1
tidak bisakah kamu menggunakan regresi poisson?
RJ-
Saya ingin menggunakan sesuatu yang non-parametrik. Tidak terlalu ingat asumsi regresi poisson, tapi saya cukup yakin salah satunya adalah bahwa pengamatan independen dan sangat tidak terpenuhi di sini. Bisakah ini sangat mempengaruhi saya?
JEquihua
2
Apakah Anda hanya mencoba membuat regresi RF (mungkin juga dalam log)? Mungkin hanya bekerja cukup baik.
1
Belum pernah. Tapi itu adalah instst pertamaku. Log atau transformasi root kuadrat. Tapi saya ingin melihat apakah ada yang punya pengalaman dalam hal ini.
JEquihua
Saya mencoba hanya melakukan regresi pada respon, log (response) dan sqrt (response) dan tidak ada yang baik. Saya pikir masalahnya lebih dari variabel independen saya selesai menjelaskan jawabannya. Baiklah.
JEquihua

Jawaban:

8

Ada paket R yang disebut mobForestyang dapat ditampung hutan acak nyata untuk menghitung data. Ini didasarkan pada mod()(partisi rekursif berbasis model) dalam partypaket. Ia melakukan regresi Poisson jika familyargumennya ditentukan sebagai poisson(). Paket tidak lagi dalam repositori CRAN, tetapi versi yang sebelumnya tersedia dapat diperoleh dari arsip.

Jika Anda tidak terbatas pada hutan acak / mengantongi, versi peningkatan juga tersedia untuk data jumlah. Yaitu, gbm(model regresi yang digeneralisasi umum). Itu juga bisa cocok dengan model Poisson.

Randel
sumber
5

Saya melihat beberapa kemungkinan.

  • Anda bisa memasukkan respons ke beberapa kategori sembarang dan menggunakan pohon klasifikasi
  • Jika jumlah biasanya sangat rendah, 0, 0, 0, 1, 0, 3, 0, 2, Anda bisa memperlakukan setiap jumlah bilangan bulat sebagai kelas dan sekali lagi menggunakan pohon klasifikasi (mungkin bukan kasus Anda). Dalam kasus ini, akan lebih sulit untuk mendapatkan varian metrik tipe varians tinggi yang dijelaskan sebagai kebalikan dari regresi berkelanjutan.
  • Jika jumlah biasanya tidak rendah dan ada banyak variasi, saya hanya akan menggunakan pohon regresi. Menggunakan regresi poisson daripada regresi linier, misalnya, hanya saus ketika datang untuk mendapatkan prediktor linier yang baik. Jika Anda tidak melihat kekuatan prediktif yang baik dengan hutan acak, maka saya ragu model yang lebih menarik yang secara khusus mengakomodasi data jumlah akan banyak membantu Anda.
Ben Ogorek
sumber