Saya memiliki dataset dengan 5.818.446 baris dan 51 kolom, di mana 50 di antaranya adalah prediktor. Respons saya kuantitatif, jadi saya tertarik dengan model regresi. Saya mencoba menyesuaikan hutan acak dengan data saya menggunakan paket tanda sisipan. Namun, saya tidak memiliki cukup RAM untuk melakukannya.
Saya sudah mencari solusi untuk masalah saya. Selain memiliki komputer yang lebih kuat, sepertinya saya dapat menggunakan bagging untuk menyelesaikan masalah saya. Karena itu, ide saya adalah sebagai berikut:
Buat partisi train dan test dari dataset asli saya
Sampel dengan penggantian sebagian kecil dataset kereta saya menjadi R (misalkan 1% darinya, yaitu 58.185 baris)
Pasangkan hutan acak ke bagian kecil data ini
Simpan hasil model
Ulangi langkah 2-4 1.000 kali
Gabungkan 1.000 model ini yang diperoleh dari langkah 2-5
Namun, hutan acak itu sendiri menggunakan bagging agar sesuai dengan model dengan data dan dengan demikian saya tidak yakin apakah pendekatan saya benar. Karena itu, saya punya beberapa pertanyaan untuk Anda:
i) Apakah pendekatan saya benar? Maksud saya, karena saya tidak memiliki cukup RAM di sistem saya, apakah benar mencocokkan banyak model hutan acak yang berbeda untuk potongan data yang berbeda dan menggabungkannya setelah?
ii) Dengan asumsi pendekatan saya benar, 1% data adalah aturan praktis yang baik untuk ukuran sampel saya? Bahkan dengan 1% data, saya masih punya.
iii) Dengan asumsi pendekatan saya benar, apakah ada sejumlah replikasi untuk model yang harus saya gunakan? Saya memikirkan 1.000 karena alasan.
sumber
l1
regularisasi, yang biasanya menjatuhkan bobot komponen yang tidak signifikan hingga mendekati nol, sehingga Anda dapat melihat dengan memeriksa pohon mana yang harus Anda pertahankan.Jawaban:
Ini tidak menjawab pertanyaan spesifik Anda, tetapi motivasi di baliknya. The
bigRF
paket dapat memecahkan masalah Anda:Juga:
sumber