Dalam tugas-tugas pembelajaran mesin, adalah umum untuk mengacak data dan menormalkannya. Tujuan normalisasi jelas (karena memiliki rentang nilai fitur yang sama). Tapi, setelah banyak berjuang, saya tidak menemukan alasan berharga untuk mengacak data.
Saya telah membaca posting ini di sini membahas kapan kita perlu mengacak data, tetapi tidak jelas mengapa kita harus mengocok data. Selain itu, saya sering melihat dalam algoritma seperti Adam atau SGD di mana kita perlu batch gradient descent (data harus dipisahkan ke mini-batch dan ukuran batch harus ditentukan). Sangat penting menurut posting ini untuk mengacak data untuk setiap zaman untuk memiliki data yang berbeda untuk setiap kelompok. Jadi, mungkin datanya dikocok dan yang lebih penting diubah.
Kenapa kita melakukan ini?
Jawaban:
Berdasarkan Apa yang harus kita lakukan ketika pertanyaan yang diposting di DataScience merupakan duplikat dari pertanyaan yang diposting di CrossValidated? , Saya memposting ulang jawaban saya untuk pertanyaan yang sama yang ditanyakan di CrossValidated ( https://stats.stackexchange.com/a/311318/89653 ).
Catatan: sepanjang jawaban ini saya mengacu pada minimalisasi kehilangan pelatihan dan saya tidak membahas kriteria berhenti seperti kehilangan validasi. Pilihan kriteria berhenti tidak mempengaruhi proses / konsep yang dijelaskan di bawah ini.
Proses pelatihan jaringan saraf adalah untuk menemukan nilai minimum dari fungsi kerugian , di mana merupakan matriks (atau beberapa matriks) dari bobot antara neuron dan mewakili dataset pelatihan. Saya menggunakan subskrip untuk untuk menunjukkan bahwa minimalisasi hanya terjadi pada bobot (yaitu, kami mencari sedemikian rupa sehingga diminimalkan) sementara diperbaiki.WXX ℒ WW ℒ XLX(W) W X X L W W L X
Sekarang, jika kita berasumsi bahwa kita memiliki elemen dalam (yaitu, ada bobot dalam jaringan), adalah permukaan dalam ruang dimensi . Untuk memberikan analog visual, bayangkan bahwa kita hanya memiliki dua bobot neuron ( ). Maka memiliki interpretasi geometris yang mudah: ia adalah permukaan dalam ruang 3 dimensi. Ini muncul dari fakta bahwa untuk setiap matriks bobot yang diberikan , fungsi kehilangan dapat dievaluasi pada dan nilai tersebut menjadi ketinggian permukaan.W P ℒ P + 1 P = 2 ℒ W XP W P L P+1 P=2 L W X
Tetapi ada masalah ketidakkonsistenan; permukaan yang saya jelaskan akan memiliki banyak minimum lokal, dan karena itu algoritma gradient descent rentan untuk menjadi "terjebak" dalam minimum tersebut sementara solusi yang lebih dalam / lebih rendah / lebih baik mungkin terletak di dekatnya. Ini mungkin terjadi jika tidak berubah pada semua iterasi pelatihan, karena permukaannya tetap untuk diberikan ; semua fitur-fiturnya statis, termasuk berbagai minimumnya.XX X
Solusi untuk ini adalah pelatihan batch mini yang dikombinasikan dengan pengocokan. Dengan mengocok baris dan pelatihan hanya pada sebagian dari mereka selama iterasi yang diberikan, berubah dengan setiap iterasi, dan itu sebenarnya sangat mungkin bahwa tidak ada dua iterasi pada seluruh urutan iterasi pelatihan dan zaman akan dilakukan pada sama persis . Efeknya adalah bahwa pemecah dapat dengan mudah "memantul" dari minimum lokal. Bayangkan bahwa pemecah terjebak dalam minimum lokal pada iterasi dengan pelatihan mini-batch . Minimum lokal ini sesuai dengan dievaluasi pada nilai bobot tertentu; kami akan menyebutnyaX i X i ℒ ℒ X i ( W i ) X i + 1 ℒ X i + 1 ( W i ) ℒ X i ( W i ) ℒ X i + 1 ℒ X i ℒ X W WX X i Xi L LXi(Wi) . Pada iterasi berikutnya bentuk permukaan kerugian kita sebenarnya berubah karena kita menggunakan , yaitu, , dapat mengambil nilai yang sangat berbeda dari dan sangat mungkin tidak sesuai dengan minimum lokal! Kami sekarang dapat menghitung pembaruan gradien dan melanjutkan pelatihan. Agar jelas: bentuk akan - secara umum - berbeda dari . Perhatikan bahwa di sini saya mengacu pada fungsi kerugian dievaluasi pada set pelatihan ; ini adalah permukaan lengkap yang didefinisikan atas semua nilaiXi+1 LXi+1(Wi) LXi(Wi) LXi+1 LXi L X W , daripada evaluasi kerugian itu (yang hanya skalar) untuk nilai . Perhatikan juga bahwa jika mini-batch digunakan tanpa pengocokan, masih ada tingkat "diversifikasi" permukaan yang hilang, tetapi akan ada sejumlah (hingga relatif kecil) jumlah permukaan kesalahan unik yang terlihat oleh solver (khususnya, ia akan melihat set persis mini-batch yang sama - dan karena itu kehilangan permukaan - selama setiap zaman).W
Satu hal yang sengaja saya hindari adalah diskusi tentang ukuran mini-batch, karena ada sejuta pendapat tentang ini dan memiliki implikasi praktis yang signifikan (paralelisasi yang lebih besar dapat dicapai dengan batch yang lebih besar). Namun, saya percaya yang berikut ini layak disebutkan. Karena dievaluasi dengan menghitung nilai untuk setiap baris (dan menjumlahkan atau mengambil rata-rata; yaitu, operator komutatif) untuk seperangkat matriks bobot , susunan baris tidak berpengaruh ketika menggunakan full- batch gradient descent (yaitu, ketika setiap batch adalah penuh , dan iterasi dan zaman adalah hal yang sama). X W X XL X W X X
sumber
Pengocokan data melayani tujuan mengurangi varians dan memastikan bahwa model tetap umum dan lebih sedikit pakaian.
Kasus yang jelas di mana Anda akan mengacak data Anda adalah jika data Anda diurutkan berdasarkan kelas / target mereka. Di sini, Anda ingin mengacak untuk memastikan bahwa set pelatihan / tes / validasi Anda mewakili keseluruhan distribusi data.
Untuk keturunan gradient batch, logika yang sama berlaku. Gagasan di balik penurunan gradien batch adalah dengan menghitung gradien pada batch tunggal, Anda biasanya akan mendapatkan estimasi gradien "benar" yang cukup baik. Dengan begitu, Anda menghemat waktu perhitungan dengan tidak harus menghitung gradien "true" di seluruh dataset setiap waktu.
Anda ingin mengocok data Anda setelah setiap zaman karena Anda akan selalu memiliki risiko untuk membuat batch yang tidak mewakili keseluruhan dataset, dan oleh karena itu, estimasi gradien Anda akan mati. Mengacak data Anda setelah setiap zaman memastikan bahwa Anda tidak akan "terjebak" dengan terlalu banyak kumpulan yang buruk.
Dalam keturunan gradien stokastik biasa, ketika setiap batch memiliki ukuran 1, Anda masih ingin mengocok data Anda setelah setiap zaman untuk membuat pembelajaran Anda tetap umum. Memang, jika titik data 17 selalu digunakan setelah titik data 16, gradiennya sendiri akan menjadi bias dengan pembaruan data titik 16 apa pun yang dibuat pada model. Dengan mengacak data Anda, Anda memastikan bahwa setiap titik data menciptakan perubahan "independen" pada model, tanpa bias oleh titik yang sama sebelumnya.
sumber
Misalkan data diurutkan dalam urutan tertentu. Misalnya kumpulan data yang diurutkan berdasarkan kelas mereka. Jadi, jika Anda memilih data untuk pelatihan, validasi, dan tes tanpa mempertimbangkan subjek ini, Anda akan memilih masing-masing kelas untuk tugas yang berbeda, dan itu akan gagal prosesnya.
Oleh karena itu, untuk menghambat masalah semacam ini, solusi sederhana adalah mengocok data untuk mendapatkan rangkaian pelatihan, validasi, dan data uji yang berbeda.
Tentang mini-batch, jawaban untuk posting ini dapat menjadi solusi untuk pertanyaan Anda.
sumber
Kita perlu mengocok hanya untuk minibatch / SGD, tidak perlu keturunan batch gradient.
Jika tidak mengocok data, data dapat diurutkan atau titik data serupa akan terletak bersebelahan, yang mengarah pada konvergensi yang lambat:
Saya menggambar plot fungsi kerugian L-2 untuk regresi linier untuk
y=2x
di sinisumber
Melengkapi jawaban @ Josh, saya ingin menambahkan bahwa, untuk alasan yang sama, pengocokan harus dilakukan sebelum batching. Jika tidak, Anda mendapatkan jumlah permukaan terbatas yang sama.
sumber
Untuk akurasi model yang terbaik, selalu disarankan bahwa data pelatihan harus memiliki semua rasa data.
Pengacakan data pelatihan membantu kami dalam mencapai target ini.
sumber
Dengan mengocok baris dan pelatihan hanya pada sebagian dari mereka selama iterasi yang diberikan, 𝑋 berubah dengan setiap iterasi, dan itu sebenarnya sangat mungkin bahwa tidak ada dua iterasi atas seluruh urutan iterasi pelatihan dan zaman akan dilakukan pada saat yang sama persis exact
sumber