Saya telah bermain-main dengan regresi logistik dengan berbagai algoritma optimasi batch (gradien konjugat, newton-raphson, dan berbagai metode quasinewton). Satu hal yang saya perhatikan adalah bahwa kadang-kadang, menambahkan lebih banyak data ke model sebenarnya dapat membuat pelatihan model membutuhkan waktu lebih sedikit. Setiap iterasi membutuhkan melihat lebih banyak titik data, tetapi jumlah total iterasi yang dibutuhkan dapat turun secara signifikan ketika menambahkan lebih banyak data. Tentu saja, ini hanya terjadi pada set data tertentu, dan pada titik tertentu menambahkan lebih banyak data akan menyebabkan pengoptimalan melambat kembali.
Apakah ini fenomena yang dipelajari dengan baik? Di mana saya dapat menemukan informasi lebih lanjut tentang mengapa / kapan ini bisa terjadi?
sumber
Jawaban:
Dengan jumlah data yang lebih sedikit, korelasi palsu antara input regresi seringkali tinggi, karena Anda hanya memiliki begitu banyak data. Ketika variabel regresi dikorelasikan, permukaan kemungkinan relatif datar, dan itu menjadi lebih sulit bagi pengoptimal, terutama yang tidak menggunakan Hessian penuh (misalnya Newton Raphson), untuk menemukan minimum.
Ada beberapa grafik yang bagus di sini dan lebih banyak penjelasan, dengan bagaimana berbagai algoritma bekerja terhadap data dengan jumlah korelasi yang berbeda, di sini: http://fa.bianp.net/blog/2013/numerical-optimizers-for-logistic-regress/
sumber