Statistik dan Big Data

10
Mengapa gradient descent diperlukan?

Ketika kita dapat membedakan fungsi biaya dan menemukan parameter dengan menyelesaikan persamaan yang diperoleh melalui diferensiasi parsial sehubungan dengan setiap parameter dan mencari tahu di mana fungsi biaya minimum. Juga saya pikir mungkin untuk menemukan banyak tempat di mana turunannya...

10
Harapan

Biarkan X1X1X_1 , X2X2X_2 , ⋯⋯\cdots , Xd∼N(0,1)Xd∼N(0,1)X_d \sim \mathcal{N}(0, 1) dan menjadi independen. Apa harapan X41(X21+⋯+X2d)2X14(X12+⋯+Xd2)2\frac{X_1^4}{(X_1^2 + \cdots + X_d^2)^2} ? Mudah untuk menemukan E(X21X21+⋯+X2d)=1dE(X12X12+⋯+Xd2)=1d\mathbb{E}\left(\frac{X_1^2}{X_1^2 + \cdots...

10
Memprediksi persyaratan memori CPU dan GPU untuk pelatihan DNN

Katakanlah saya memiliki beberapa arsitektur model pembelajaran yang mendalam, serta ukuran mini-batch yang dipilih. Bagaimana saya mendapatkan dari persyaratan memori yang diharapkan untuk melatih model itu? Sebagai contoh, pertimbangkan model (tidak berulang) dengan input dimensi 1000, 4 lapisan...

10
Cara terbaik untuk menginisialisasi status LSTM

Saya bertanya-tanya apa cara terbaik untuk menginisialisasi keadaan untuk LSTM. Saat ini saya baru saja menginisialisasi ke semua nol. Saya tidak dapat menemukan apa pun secara online tentang cara menginisialisasi. Satu hal yang saya pikirkan untuk dilakukan adalah menjadikan status awal sebagai...