Ditutup . Pertanyaan ini perlu lebih fokus . Saat ini tidak menerima jawaban. Ingin meningkatkan pertanyaan ini? Perbarui pertanyaan sehingga berfokus pada satu masalah hanya dengan mengedit posting ini . Ditutup 2 tahun yang lalu . Saya baru di...
Ditutup . Pertanyaan ini perlu lebih fokus . Saat ini tidak menerima jawaban. Ingin meningkatkan pertanyaan ini? Perbarui pertanyaan sehingga berfokus pada satu masalah hanya dengan mengedit posting ini . Ditutup 2 tahun yang lalu . Saya baru di...
Situasi apa yang kita ketahui di mana gradient descent dapat ditunjukkan untuk menyatu (baik ke titik kritis atau ke minimum lokal / global) untuk fungsi non-cembung? Untuk SGD pada fungsi non-cembung, satu jenis bukti telah ditinjau di sini,
Saya membaca Thinking, Fast and Slow oleh Daniel Kahneman dan saya menemukan teks berikut Beberapa tahun yang lalu saya memiliki kesempatan yang tidak biasa untuk memeriksa ilusi keterampilan finansial dari dekat. Saya telah diundang untuk berbicara dengan sekelompok penasihat investasi di...
Saya sedang mempelajari perbedaan antara regularisasi dalam regresi RKHS dan regresi linier, tetapi saya kesulitan memahami perbedaan penting antara keduanya. (xi,yi)(xi,yi)(x_i,y_i)f(⋅)f(⋅)f(\cdot)f(x)≈u(x)=∑i=1mαiK(x,xi),f(x)≈u(x)=∑i=1mαiK(x,xi),\begin{equation}f(x)\approx u(x)=\sum_{i=1}^m...
Judul mengatakan semuanya - berapa banyak parameter yang bisa dilatih yang ada di lapisan GRU? Pertanyaan semacam ini banyak muncul ketika mencoba membandingkan model dari tipe lapisan RNN yang berbeda, seperti unit memori jangka pendek (LSTM) vs GRU, dalam hal kinerja per-parameter. Karena...
Sebuah pdf biasanya ditulis sebagai , di mana huruf kecil diperlakukan sebagai realisasi atau hasil dari variabel acak yang memiliki pdf itu. Demikian pula, cdf ditulis sebagai , yang memiliki arti . Namun, dalam beberapa keadaan, seperti definisi fungsi skor dan derivasi ini bahwa cdf...
Saya bertemu dengan perilaku paradoks dari apa yang disebut "tes eksak" atau "tes permutasi", prototipe di antaranya adalah tes Fisher. Ini dia. Bayangkan Anda memiliki dua kelompok yang terdiri dari 400 orang (mis. 400 kontrol vs 400 kasus), dan kovariat dengan dua modalitas (mis. Terbuka / tidak...
Saya baru-baru ini menyaksikan pembicaraan oleh Eric J. Ma dan memeriksa entri blog - nya , di mana ia mengutip Radford Neal, bahwa model Bayesian tidak mengenakan pakaian yang berlebihan (tetapi mereka bisa mengenakan pakaian yang sesuai ) dan ketika menggunakannya, kita tidak perlu set tes untuk...
Saya mencoba memodelkan dan memperkirakan deret waktu yang bersifat siklik daripada musiman (yaitu ada pola yang mirip musim, tetapi tidak dengan periode tetap). Ini harus dimungkinkan untuk dilakukan dengan menggunakan model ARIMA, sebagaimana disebutkan dalam Bagian 8.5 dari Peramalan: prinsip...
Definisi paling sederhana dari statistik yang cukup dalam perspektif frequentist diberikan di sini di Wikipedia . Namun, baru-baru ini saya menemukan buku Bayesian, dengan definisi . Disebutkan dalam tautan bahwa keduanya setara, tetapi saya tidak mengerti caranya. Juga, di halaman yang sama, di...
Saya menemukan masalah simulasi berikut: diberi satu set dari bilangan real yang diketahui, distribusi pada { - 1 , 1 } d didefinisikan oleh P ( X = ( x 1 , ... , x d ) ) ∝ ( x 1 ω 1 + … + x d ω d ) + di mana ( z ){ ω1, ... , ωd}{ω1,...,ωd}\{\omega_1,\ldots,\omega_d\}{ - 1 , 1...
Saya tahu pertama saat distribusi. Saya juga tahu bahwa distribusi saya kontinu, unimodal, dan berbentuk baik (sepertinya distribusi gamma). Apakah mungkin untuk:NNN Dengan menggunakan beberapa algoritma, hasilkan sampel dari distribusi ini, yang dalam kondisi terbatas akan memiliki momen yang...
Ada sejumlah situs web yang menggambarkan penurunan gradien untuk menemukan parameter untuk regresi linier sederhana (di sini adalah salah satunya). Google juga menjelaskannya dalam kursus ML baru (untuk umum) mereka. Namun di Wikipedia , rumus berikut untuk menghitung parameter
Ini mungkin sedikit pertanyaan filosofis, tapi di sini kita pergi: Dalam teori keputusan, risiko penaksir Bayes untuk didefinisikan sehubungan dengan distribusi sebelumnya pada .θ∈qπqθ^( x )θ^(x)\hat\theta(x)θ ∈ Θθ∈Θ\theta\in\Thetaππ\piΘΘ\Theta Sekarang, di satu sisi, agar benar telah menghasilkan...
Saat ini saya sedang mengerjakan tugas perkiraan permintaan, dengan data puluhan ribu produk di beberapa ribu toko. Lebih khusus lagi, saya memiliki data penjualan harian setiap tahun selama beberapa tahun di setiap toko, dan tujuan saya adalah meramalkan penjualan setiap item di setiap toko di...
Apakah mungkin untuk memiliki perbedaan PDF dari dua tampilan iid rv seperti persegi panjang (bukan, katakanlah, segitiga yang kita dapatkan jika rv diambil dari distribusi seragam). yaitu apakah mungkin untuk PDF f dari jk (untuk dua iid rv diambil dari beberapa distribusi) memiliki f (x) = 0,5...
Apa tes musiman yang paling sederhana untuk rangkaian waktu? Menjadi lebih spesifik, saya ingin menguji apakah dalam specific time series the seasonal componentbermakna. Paket apa yang direkomendasikan di Python /
Saya akhir-akhir ini memanfaatkan kembali pengetahuan dalam Time Series dan menyadari bahwa pembelajaran mesin sebagian besar hanya memberikan perkiraan satu langkah di depan. Dengan prakiraan satu langkah ke depan yang saya maksud adalah prakiraan yang, misalnya, jika kita memiliki data per jam,...
Pertanyaan : Saya telah memasang model probabilistik (jaringan bayesian) untuk memodelkan variabel hasil biner. Saya ingin membuat plot kalibrasi resolusi tinggi (misalnya spline) dikoreksi karena overfitting dengan bootstrap. Apakah ada prosedur standar untuk menghitung kurva seperti...
Saya membaca pembelajaran yang mendalam oleh Ian Goodfellow et al. Ini memperkenalkan bias sebagai B i a s ( θ ) = E(θ^) - θBsayaSebuahs(θ)=E(θ^)-θBias(\theta)=E(\hat\theta)-\theta dimana θ^θ^\hat\theta dan θθ\theta masing-masing adalah taksiran parameter dan parameter nyata yang...