Ching, Anda tidak harus membuat data Anda seimbang dalam hal 1 dan 0. Yang Anda butuhkan adalah angka 1 yang cukup untuk kemungkinan maksimum untuk bertemu. Melihat distribusi 1 (100.000) dalam dataset Anda, Anda seharusnya tidak memiliki masalah. Anda dapat melakukan percobaan sederhana di sini
- Contoh 10% dari 1 dan 10% dari 0 dan gunakan bobot 10 untuk keduanya
- Sampel 100% dari angka 1 dan 10% dari angka 0 dan gunakan bobot 10 untuk angka 0
Dalam kedua kasus, Anda akan mendapatkan perkiraan yang identik. Sekali lagi gagasan pembobotan terkait dengan pengambilan sampel. Jika Anda menggunakan seluruh kumpulan data, Anda tidak perlu membobotnya. Jika saya jadi Anda, saya hanya akan menggunakan 10% jika 1 dan 10% dari 0.
Di R, Anda akan menggunakan glm
. Berikut ini contoh kode:
glm(y ~ x1 + x2, weights = wt, data =data, family = binomial("logit"))
Dalam dataset Anda harus ada variabel wt
untuk bobot.
Jika Anda menggunakan 10% dari 0 dan 1, wt
variabel Anda akan memiliki nilai 10.
Jika Anda menggunakan 10% dari 0 dan 100% dari 1: wt
variabel akan memiliki nilai 10 untuk pengamatan dengan y = 0 dan 1 untuk pengamatan dengan y = 1