Apakah RandomForest mengabaikan independensi spasial?

8

Saya memiliki 5 variabel untuk setiap negara di dunia dan saya perlu menganalisis efek dan interaksinya pada variabel independen. Acak Hutan akan memadai untuk ruang lingkup saya karena berkaitan dengan hubungan non-linear dan memprediksi pentingnya variabel. Namun, saya bertanya-tanya apakah ketergantungan spasial mungkin menjadi masalah. Saya belum pernah melihat ketergantungan spasial dibahas dalam aplikasi RF bahkan jika telah banyak digunakan untuk data spasial.

Oritteropus
sumber

Jawaban:

8

Tidak ada masalah dengan autokorelasi spasial dari respons Anda atau variabel penjelas. Ini adalah teknik yang sepenuhnya non-parametrik. Saya telah menggunakannya untuk interpolasi variabel keragaman struktural di seluruh negara saya berdasarkan data in situ dari grid biasa dan memperkenalkan koordinat sebagai kovariabel bahkan menghasilkan prediksi yang lebih baik. Ini karena Random Forest didasarkan pada pendekatan divide and conquer (pohon klasifikasi dan regresi), yang berarti ia memisahkan ruang fitur Anda menjadi subset terpisah di mana model yang lebih sederhana (secara default rata-rata sederhana dalam kasus regresi) dapat menghasilkan prediksi yang baik. Memperkenalkan koordinat sebagai variabel, dalam kasus saya, mengeksploitasi autokorelasi spasial karena masuk akal bahwa himpunan bagian geografis tertentu dari negara berperilaku homogen.

JEquihua
sumber
Meskipun saya cenderung setuju dengan jawabannya, apakah Anda mengetahui adanya studi empiris yang menunjukkan hal ini? RF pasti memiliki masalah nilai penting dan variabel yang sangat berkorelasi (misalnya, Strobl et al ).
Nabi 60091
2
Ini sangat masuk akal karena ketika Anda menanam pohon, pada setiap pembagian, harus diputuskan variabel apa yang akan digunakan. Dalam kasus ekstrim, jika Anda memiliki dua variabel berkorelasi sempurna, skema pemisahan hanya akan memilih salah satu dari mereka secara acak. Jadi, jika Anda melatih kembali hutan acak, Anda akan melihat skor pentingnya menjadi sangat tidak stabil dalam variabel-variabel yang berkorelasi ini. Mereka akan sangat rentan untuk berganti tempat dalam hierarki.
JEquihua
@ Jequihua Saya tahu saya sangat terlambat ke pesta, tetapi saya akan sangat tertarik untuk mengetahui bagaimana Anda memasukkan koordinat sebagai kovariabel? Saya menggunakan paket randomForest di R dan saya tidak mengetahui adanya opsi untuk memasukkan kovariabel namun masuk akal terutama dengan data spasial yang terkait secara otomatis berkorelasi.
Kristina
Halo @Kristina. Saya baru saja memperkenalkan mereka sebagai fitur tambahan, yaitu lat dan lon sebagai dua kolom berbeda di tabel kereta Anda. Ini hanya berfungsi jika data kereta Anda mewakili ruang geografis Anda dengan baik, dalam contoh saya, saya memiliki sekitar 25.000 titik yang terletak di kotak biasa di atas area yang saya minati.
JEquihua
@JEquihua Terima kasih atas tanggapan Anda! Saya mencoba ini sebelumnya, namun, saya mendapat kesan bahwa model ini sangat miring. Namun, ini mungkin disebabkan oleh fakta bahwa saya memiliki beberapa kawasan independen (kawasan perlindungan laut di seluruh dunia) dalam data saya. Apakah Anda punya saran cara terbaik untuk menangani ini karena saya ingin memasukkan lokasi. Terima kasih!
Kristina