Proyek saya saat ini mungkin mengharuskan saya untuk membuat model untuk memprediksi perilaku sekelompok orang tertentu. set data pelatihan hanya berisi 6 variabel (id hanya untuk tujuan identifikasi):
id, age, income, gender, job category, monthly spend
di mana monthly spend
adalah variabel respon. Tetapi dataset pelatihan berisi sekitar 3 juta baris, dan dataset (yang berisi id, age, income, gender, job category
tetapi tidak ada variabel respons) yang akan diprediksi berisi 1 juta baris. Pertanyaan saya adalah: apakah ada masalah potensial jika saya melemparkan terlalu banyak baris (3 juta dalam kasus ini) ke dalam model statistik? Saya mengerti biaya komputasi adalah salah satu perhatian, apakah ada masalah lain? Apakah ada buku / makalah yang sepenuhnya menjelaskan masalah ukuran kumpulan data?
sumber
Jawaban:
Ada dua macam masalah yang mungkin Anda temui:
1) Masalah komputer karena kumpulan data terlalu besar. Saat ini, beberapa juta baris dengan 6 kolom tidak terlalu besar. Tapi, tergantung pada program Anda, komputer Anda, jumlah RAM Anda dan mungkin hal-hal lain, itu mungkin macet.
2) Masalah statistik. Di sini, masalah seperti yang Anda diskusikan akan memiliki satu "masalah" yang saya tahu: Bahkan efek kecil akan sangat signifikan. Ini bukan masalah dengan regresi, ini masalah dengan nilai p. Lebih baik melihat ukuran efek (parameter regresi).
3) Jenis lain masalah dengan model Anda bukan karena jumlah baris, tetapi sifat variabel respons (pengeluaran bulanan). Meskipun regresi OLS tidak membuat asumsi tentang distribusi respons (hanya tentang kesalahan), namun, model dengan uang sebagai variabel dependen sering memiliki kesalahan tidak normal. Selain itu, seringkali masuk akal, secara substantif, untuk mengambil catatan tanggapan. Apakah ini benar dalam kasus Anda tergantung pada apa yang Anda coba lakukan.
sumber
Yang penting adalah jumlah individu (baris) dibandingkan dengan jumlah koefisien yang Anda perlu perkirakan untuk model yang ingin Anda muat. Aturan umum yang tipikal menyarankan sekitar 20 pengamatan per koefisien sebagai minimum, jadi Anda harus dapat memperkirakan hingga 150.000 koefisien — tentunya lebih dari cukup untuk empat prediksi Anda.
Bahkan Anda memiliki peluang, bukan masalah, dalam hal ini: untuk menyesuaikan model yang agak rumit termasuk hubungan non-linear dari respons terhadap prediktor, & interaksi antara prediktor; yang dapat memprediksi respons jauh lebih baik daripada yang lebih sederhana di mana hubungan respons terhadap prediktor dianggap linier & aditif.
sumber