Statistik dan Big Data

22

Apa yang dimaksud dengan properti oracle dari estimator?

Apa yang dimaksud dengan properti oracle dari estimator? Apa tujuan pemodelan yang relevan dengan properti oracle (prediktif, jelas, ...)? Baik penjelasan teoritis yang ketat dan (terutama) intuitif

22

Menjatuhkan salah satu kolom saat menggunakan pengkodean satu-panas

Pemahaman saya adalah bahwa dalam pembelajaran mesin itu bisa menjadi masalah jika dataset Anda memiliki fitur yang sangat berkorelasi, karena mereka secara efektif menyandikan informasi yang sama. Baru-baru ini seseorang menunjukkan bahwa ketika Anda melakukan enkode satu-panas pada variabel...

regression machine-learning categorical-data discrete-data categorical-encoding

22

Intuisi Teorema Bayes

Saya telah mencoba untuk mengembangkan pemahaman berbasis intuisi teorema Bayes dalam hal sebelumnya , posterior , kemungkinan dan probabilitas marjinal . Untuk itu saya menggunakan persamaan berikut: P( B | A ) = P( A | B ) P( B )P( A )P(B|SEBUAH)=P(SEBUAH|B)P(B)P(SEBUAH)P(B|A) =...

bayesian likelihood intuition

22

Bagaimana cara menentukan kepercayaan prediksi jaringan saraf?

Untuk mengilustrasikan pertanyaan saya, anggaplah saya memiliki perangkat pelatihan di mana input memiliki tingkat kebisingan tetapi hasilnya tidak, misalnya; # Training data [1.02, 1.95, 2.01, 3.06] : [1.0] [2.03, 4.11, 5.92, 8.00] : [2.0] [10.01, 11.02, 11.96, 12.04] : [1.0] [2.99, 6.06, 9.01,...

regression machine-learning neural-networks confidence-interval prediction-interval

22

Apa itu sampling penting?

Saya mencoba belajar penguatan dan topik ini benar-benar membingungkan saya. Saya telah mengambil pengantar statistik, tetapi saya tidak bisa memahami topik ini secara

variance simulation monte-carlo unbiased-estimator importance-sampling

22

Regresi polinomial mentah atau ortogonal?

Saya ingin mengembalikan variabel ke x , x 2 , ... , x 5 . Haruskah saya melakukan ini menggunakan polinomial mentah atau ortogonal? Saya melihat pertanyaan di situs yang berurusan dengan ini, tetapi saya tidak benar-benar mengerti apa perbedaan antara menggunakannya.

r regression polynomial

22

Bagaimana istilah kesalahan regresi dapat dikorelasikan dengan variabel penjelas?

Kalimat pertama dari halaman wiki ini mengklaim bahwa "Dalam ekonometrika, masalah endogenitas terjadi ketika variabel penjelas berkorelasi dengan istilah kesalahan. 1 " Pertanyaan saya adalah bagaimana ini bisa terjadi? Bukankah beta regresi dipilih sedemikian sehingga istilah kesalahannya...

regression

22

Backpropagation yang luar biasa melalui koneksi lewati ResNet

Saya ingin tahu tentang bagaimana gradien diperbanyak kembali melalui jaringan saraf menggunakan modul ResNet / lewati koneksi. Saya telah melihat beberapa pertanyaan tentang ResNet (mis. Jaringan saraf dengan koneksi lompatan-lapisan ) tetapi yang satu ini menanyakan secara khusus tentang...

machine-learning neural-networks conv-neural-network gradient-descent backpropagation

22

Nilai rata-rata paradoks - Disebut apakah ini

Saya punya dataset. Katakan pengamatan dan variabel:101010333 obs A B C 1 0 0 1 2 0 1 0 3 1 0 1 4 1 1 0 5 1 0 1 6 1 0 0 7 1 1 0 8 0 0 1 9 0 1 1 10 0 1 1 Katakanlah itu adalah pelanggan yang telah membeli ( ) atau tidak ( ) di setiap kategori . Ada yang ada di sana sehingga rata-rata pelanggan...

proportion descriptive-statistics paradox

22

Mengapa fungsi biaya jaringan saraf non-cembung?

Ada utas serupa di sini ( Fungsi biaya jaringan saraf adalah non-cembung? ) Tapi saya tidak dapat memahami poin-poin dalam jawaban di sana dan alasan saya untuk bertanya lagi berharap ini akan menjelaskan beberapa masalah: Jika saya menggunakan jumlah fungsi biaya selisih kuadrat, saya akhirnya...

machine-learning neural-networks optimization loss-functions convex

22

Apakah peta panas “salah satu jenis visualisasi data yang paling tidak efektif”?

Pertanyaan: Kapan (untuk tipe apa dari masalah visualisasi data) apakah peta panas paling efektif? (Khususnya, lebih efektif daripada semua teknik visualisasi lain yang mungkin?) Kapan peta panas paling tidak efektif? Apakah ada pola umum atau aturan praktis yang dapat digunakan untuk memutuskan...

data-visualization heatmap

22

Apakah format gambar (png, jpg, gif) memengaruhi cara pelatihan pengenalan jaringan saraf gambar?

Saya sadar bahwa ada banyak kemajuan berkaitan dengan pengenalan gambar, klasifikasi gambar, dll dengan jaring saraf convolutional yang mendalam. Tetapi jika saya melatih jaring, katakanlah, gambar PNG, apakah hanya akan berfungsi untuk gambar yang disandikan? Apa properti gambar lain yang...

neural-networks deep-learning image-processing

22

Tes statistik umum sebagai model linier

(PEMBARUAN: Saya mempelajari lebih dalam tentang ini dan memposting hasilnya di sini ) Daftar tes statistik bernama sangat besar. Banyak tes umum mengandalkan inferensi dari model linier sederhana, misalnya uji satu sampel hanya y = β + ε yang diuji terhadap model nol y = μ + ε yaitu β = μ di mana...

regression correlation anova t-test linear-model

22

Mengapa output softmax bukan ukuran ketidakpastian yang baik untuk model Deep Learning?

Saya telah bekerja dengan Convolutional Neural Networks (CNNs) untuk beberapa waktu sekarang, sebagian besar pada data gambar untuk segmentasi semantik / contoh segmentasi. Saya sering memvisualisasikan softmax dari output jaringan sebagai "peta panas" untuk melihat seberapa tinggi per pixel...

probability deep-learning conv-neural-network uncertainty softmax

22

Berapa kali saya harus menggulingkan dadu untuk secara yakin menilai keadilannya?

(Permintaan maaf sebelumnya untuk penggunaan bahasa awam daripada bahasa statistik.) Jika saya ingin mengukur peluang menggelindingkan masing-masing sisi dari die enam sisi fisik tertentu ke sekitar +/- 2% dengan keyakinan yang wajar akan kepastian, berapa banyak gulungan sampel yang...

probability inference pdf dice

22

Mengapa mean cenderung lebih stabil dalam sampel yang berbeda dari median?

Bagian 1.7.2 dari Menemukan Statistik Menggunakan R oleh Andy Fields, dkk, sambil mendaftar nilai rata-rata vs median, menyatakan: ... rerata cenderung stabil pada sampel yang berbeda. Ini setelah menjelaskan banyak kebajikan median, misalnya ... Median relatif tidak terpengaruh oleh skor...

mean median

22

Apakah perbedaan antara nomor yang terdistribusi secara merata terdistribusi secara merata?

Kami menggulung dadu 6 sisi beberapa kali. Menghitung selisih (nilai absolut) antara roll dan roll sebelumnya, apakah perbedaan diharapkan didistribusikan secara merata? Untuk menggambarkan dengan 10 gulungan: roll num result diff 1 1 0 2 2 1 3 1 1 4 3 2 5 3 0 6 5 2 7 1 4 8 6 5 9 4 2 10 4...

distributions uniform

22

Apa tujuan dari autokorelasi?

Mengapa autokorelasi sangat penting? Saya sudah mengerti prinsipnya (saya kira ..) tetapi karena ada juga contoh di mana tidak ada autokorelasi, saya bertanya-tanya: Bukankah segala sesuatu di alam entah bagaimana autokorelasi? Aspek terakhir lebih mengarah pada pemahaman umum tentang autokorelasi...

autocorrelation

21

Koefisien Determinasi (

Saya ingin sepenuhnya memahami gagasan menggambarkan jumlah variasi antar variabel. Setiap penjelasan web sedikit mekanis dan tumpul. Saya ingin "mendapatkan" konsepnya, bukan hanya menggunakan angka secara mekanis.r2r2r^2 Misalnya: Jam belajar vs skor tes rrr = .8 r2r2r^2 = .64 So, what does...

regression correlation variance

21

Mengukur Kesamaan Dokumen

Untuk mengelompokkan dokumen (teks) Anda perlu cara mengukur kesamaan antara pasangan dokumen. Dua alternatif adalah: Bandingkan dokumen sebagai vektor istilah menggunakan Cosine Similarity - dan TF / IDF sebagai bobot untuk persyaratan. Bandingkan setiap distribusi probabilitas dokumen...

information-retrieval