Saya tidak mengerti persis apa yang dimaksud dengan ukuran simpul. Saya tahu apa itu simpul keputusan, tetapi bukan apa ukuran simpul
Saya tidak mengerti persis apa yang dimaksud dengan ukuran simpul. Saya tahu apa itu simpul keputusan, tetapi bukan apa ukuran simpul
Saya telah menggunakan theano untuk bereksperimen dengan LSTM, dan bertanya-tanya apa metode optimasi (SGD, Adagrad, Adadelta, RMSprop, Adam, dll) bekerja paling baik untuk LSTM? Apakah ada makalah penelitian tentang topik ini? Juga, apakah jawabannya tergantung pada jenis aplikasi yang saya...
Saya baru mengenal pengoptimalan. Saya terus melihat persamaan yang memiliki superskrip 2 dan subskrip 2 di sebelah kanan norma. Sebagai contoh, di sini adalah persamaan kuadrat terkecil mnt | | Ax-b | |22||Ax−b||22 ||Ax-b||^2_2 Saya rasa saya mengerti superskrip 2: artinya kuadratkan nilai...
Kita semua akrab dengan gagasan, didokumentasikan dengan baik dalam literatur, bahwa optimasi LASSO (demi kesederhanaan membatasi perhatian di sini untuk kasus regresi linier) setara dengan model linier dengan kesalahan Gaussian di mana parameter diberikan Laplace sebelumnya \ exp (- \ lambda \...
Untuk suatu tugas, saya diminta untuk memberikan bukti bahwa k-means menyatu dalam sejumlah langkah yang terbatas. Inilah yang saya tulis: CCCE(C)=∑xmini=1k∥x−ci∥2E(C)=∑xmini=1k‖x−ci‖2E(C)=\sum_{\mathbf{x}}\min_{i=1}^{k}\left\Vert \mathbf{x}-\mathbf{c}_{i}\right\Vert ^{2}E(C)E(C)E(C) Langkah...
Saya tidak dapat secara spesifik tentang sifat data karena ini adalah hak milik, tetapi anggaplah kami memiliki data seperti ini: Setiap bulan, beberapa orang mendaftar untuk suatu layanan. Kemudian, pada setiap bulan berikutnya, orang-orang tersebut dapat memutakhirkan layanan, menghentikan...
Saya mengambil kursus Andrew Ng tentang Pembelajaran Mesin melalui Coursera . Untuk persamaan, superskrip digunakan sebagai pengganti subskrip. Misalnya, dalam persamaan berikut x(i)x(i)x^{(i)} digunakan sebagai ganti xixix_i
Saya menggunakan classifier yang mengembalikan probabilitas. Untuk menghitung AUC, saya menggunakan paket-pROC. Probabilitas keluaran dari classifier adalah: probs=c(0.9865780, 0.9996340, 0.9516880, 0.9337157, 0.9778576, 0.8140116, 0.8971550, 0.8967585, 0.6322902, 0.7497237) probsmenunjukkan...
Jika f1, ... , fkf1,…,fkf_1,\ldots,f_k kepadatan diketahui dari mana saya dapat mensimulasikan, yaitu, yang algoritma tersedia. dan jika produk ∏i = 1kfsaya( x )αsayaα1, ... , αk> 0∏i=1kfi(x)αiα1,…,αk>0\prod_{i=1}^k f_i(x)^{\alpha_i}\qquad \alpha_1,\ldots,\alpha_k>0 dapat diintegrasikan,...
Saya membaca bab bias-varians dari unsur-unsur pembelajaran statistik dan saya ragu dalam rumus di halaman 29. Biarkan data muncul dari model sehingga Y=f(x)+ϵY=f(x)+ϵ Y = f(x)+\epsilon mana adalah bilangan acak dengan nilai yang diharapkan dan Variance . Biarkan nilai kesalahan model yang...
Pengaturan saya adalah sebagai berikut: Saya mengikuti garis pedoman dalam "Pemodelan Prediktif Terapan". Jadi saya telah memfilter fitur-fitur terkait dan berakhir dengan yang berikut: 4900 titik data di set latihan dan 1600 titik data di set tes. Saya memiliki 26 fitur dan targetnya adalah...
Makalah penelitian pembelajaran mesin sering memperlakukan pembelajaran dan inferensi sebagai dua tugas yang terpisah, tetapi tidak cukup jelas bagi saya apa perbedaannya. Dalam buku ini misalnya mereka menggunakan statistik Bayesian untuk kedua jenis tugas, tetapi tidak memberikan motivasi untuk...
Dalam pelatihan jaringan saraf yang dalam dan dangkal, mengapa metode gradien (misalnya gradient descent, Nesterov, Newton-Raphson) umum digunakan, berbeda dengan metaheuristik lainnya? Metaheuristik yang saya maksud adalah metode seperti annealing yang disimulasikan, optimisasi koloni semut,...
Secara intuitif, rata-rata hanyalah rata-rata pengamatan. Perbedaannya adalah seberapa banyak pengamatan ini bervariasi dari rata-rata. Saya ingin tahu mengapa kebalikan dari varian dikenal sebagai presisi. Intuisi apa yang bisa kita buat dari ini? Dan mengapa matriks presisi berguna seperti...
Ini bukan pekerjaan rumah. Saya tertarik untuk memahami apakah logika saya benar dengan masalah statistik sederhana ini. Katakanlah saya memiliki koin 2 sisi di mana kemungkinan membalik kepala adalah P(H)P(H)P(H) dan probabilitas membalik ekor adalah 1−P(H)1−P(H)1-P(H) . Mari kita asumsikan semua...
Saya telah membaca Maraun et al , "Proses Gaussian Non-stasioner dalam domain wavelet: Sintesis, estimasi, dan pengujian signifikan" (2007) yang mendefinisikan kelas dokter non-stasioner yang dapat ditentukan oleh pengganda dalam domain wavelet. Realisasi dari salah satu GP tersebut adalah: mana...
Saya melatih jaringan saraf (detail tidak penting) di mana data target adalah vektor sudut (antara 0 dan 2 * pi). Saya mencari saran tentang cara menyandikan data ini. Inilah yang sedang saya coba (dengan kesuksesan terbatas): 1) Pengodean 1-of-C: I bin pengaturan kemungkinan sudut menjadi 1000...
Saya telah memahami bagaimana regresi ridge mengecilkan koefisien terhadap nol secara geometris. Selain itu saya tahu bagaimana membuktikannya dalam "Kasus Orthonormal" yang istimewa, tetapi saya bingung bagaimana cara kerjanya dalam kasus umum melalui "Dekomposisi
Saya baru-baru ini menjadi tertarik pada LSTM dan saya terkejut mengetahui bahwa bobot dibagi bersama waktu. Saya tahu bahwa jika Anda berbagi bobot lintas waktu, maka urutan waktu input Anda dapat menjadi panjang variabel. Dengan bobot bersama, Anda memiliki lebih sedikit parameter untuk...
Saya mencoba memahami arsitektur Recurrent neural network (RNN) yang berbeda untuk diterapkan pada data deret waktu dan saya agak bingung dengan nama-nama berbeda yang sering digunakan ketika menggambarkan RNN. Apakah struktur memori jangka pendek panjang (LSTM) dan Gated Recurrent Unit (GRU) pada...