Pertanyaan yang diberi tag missing-data

15
Apa intuisi di balik sampel yang dapat ditukar di bawah hipotesis nol?

Tes permutasi (juga disebut tes pengacakan, uji pengacakan ulang, atau tes yang tepat) sangat berguna dan berguna ketika asumsi distribusi normal yang diperlukan misalnya, t-testtidak terpenuhi dan ketika transformasi nilai dengan peringkat dari tes non-parametrik seperti Mann-Whitney-U-testakan...

15
Akurasi mesin peningkat gradien menurun karena jumlah iterasi meningkat

Saya bereksperimen dengan algoritma mesin peningkat gradien melalui caretpaket di R. Menggunakan dataset penerimaan perguruan tinggi kecil, saya menjalankan kode berikut: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ###...

14
Berurusan dengan dataset dengan sejumlah fitur

Apa saja pendekatan untuk mengklasifikasikan data dengan sejumlah fitur yang bervariasi? Sebagai contoh, pertimbangkan masalah di mana setiap titik data adalah vektor titik x dan y, dan kami tidak memiliki jumlah titik yang sama untuk setiap contoh. Bisakah kita memperlakukan setiap pasangan poin...

14
Dapatkah saya merekonstruksi distribusi normal dari ukuran sampel, dan nilai min dan maks? Saya bisa menggunakan titik tengah untuk proksi mean

Saya tahu ini mungkin sedikit mengikat, secara statistik, tetapi ini adalah masalah saya. Saya memiliki banyak data rentang, yaitu ukuran minimum, maksimum, dan sampel suatu variabel. Untuk beberapa data ini saya juga memiliki nilai rata-rata, tetapi tidak banyak. Saya ingin membandingkan rentang...

12
Bagaimana cara melakukan imputasi nilai dalam jumlah poin data yang sangat besar?

Saya memiliki dataset yang sangat besar dan sekitar 5% nilai acak hilang. Variabel-variabel ini berkorelasi satu sama lain. Contoh berikut dataset R hanyalah contoh mainan dengan data berkorelasi dummy. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE),...

12
80% dari data yang hilang dalam satu variabel

Ada satu variabel dalam data saya memiliki 80% dari data yang hilang. Data hilang karena tidak ada (yaitu berapa banyak pinjaman bank yang harus dibayar perusahaan). Saya menemukan sebuah artikel yang mengatakan bahwa metode penyesuaian variabel dummy adalah solusi untuk masalah ini. Berarti saya...

12
Teknik untuk Menangani Data Tidak Lengkap / Hilang

Pertanyaan saya diarahkan pada teknik untuk menangani data yang tidak lengkap selama pengklasifikasi / pelatihan model / pemasangan. Misalnya, dalam dataset dengan beberapa ratus baris, setiap baris memiliki misalkan lima dimensi dan label kelas sebagai item terakhir, sebagian besar titik data...

11
R / mgcv: Mengapa produk tensor () dan ti () menghasilkan permukaan yang berbeda?

The mgcvpaket untuk Rmemiliki dua fungsi untuk pas interaksi produk tensor: te()dan ti(). Saya memahami pembagian kerja dasar antara keduanya (menyesuaikan interaksi non-linear vs menguraikan interaksi ini menjadi efek utama dan interaksi). Yang tidak saya mengerti adalah mengapa te(x1, x2)dan...

11
Bagaimana cara menangani data yang tidak ada (tidak hilang)?

Saya tidak pernah benar-benar menemukan teks atau contoh yang bagus tentang bagaimana menangani data 'tidak ada' untuk input ke segala jenis classifier. Saya telah membaca banyak tentang data yang hilang tetapi apa yang dapat dilakukan tentang data yang tidak dapat atau tidak ada dalam kaitannya...