Saya melihat daftar ini di sini dan tidak percaya ada begitu banyak cara untuk menyelesaikan kuadrat terkecil. "Persamaan normal" di Wikipedia tampaknya merupakan cara yang cukup lurus ke
Saya melihat daftar ini di sini dan tidak percaya ada begitu banyak cara untuk menyelesaikan kuadrat terkecil. "Persamaan normal" di Wikipedia tampaknya merupakan cara yang cukup lurus ke
Saya melatih multi-class LDA classifier dengan 8 kelas data. Saat melakukan pelatihan, saya mendapat peringatan: " Variabel collinear " Saya mendapatkan akurasi pelatihan lebih dari 90% . Saya menggunakan perpustakaan scikits-learn di Python do train dan menguji data multi-kelas. Saya...
Lebih banyak pertanyaan umum. Saya menjalankan SVF rbf untuk pemodelan prediktif. Saya pikir program saya saat ini jelas perlu sedikit mempercepat. Saya menggunakan scikit belajar dengan pencarian kasar ke grid + validasi silang. Setiap menjalankan SVM membutuhkan waktu sekitar satu menit, tetapi...
Saya telah membaca posting berikut untuk validasi silang bersarang dan masih belum 100% yakin apa yang harus saya lakukan dengan pemilihan model dengan validasi silang bersarang: Validasi silang bersarang untuk pemilihan model Pemilihan model dan validasi silang: Cara yang benar Untuk...
Saat menggunakan bootstrap untuk evaluasi model, saya selalu berpikir sampel out-of-bag langsung digunakan sebagai set tes. Namun, ini tampaknya tidak menjadi kasus untuk pendekatan scikit-learning yang sudah ketinggalan zamanBootstrap , yang tampaknya membangun set tes dari menggambar dengan...
Saya mencoba menggunakan Regresi Hutan Acak di scikits-learn. Masalahnya adalah saya mendapatkan kesalahan tes yang sangat tinggi: train MSE, 4.64, test MSE: 252.25. Beginilah tampilan data saya: (biru: data nyata, hijau: diperkirakan): Saya menggunakan 90% untuk pelatihan dan 10% untuk ujian....
Apakah membandingkan fitur menggunakan fitur F-regressionyang sama dengan yang berhubungan dengan label secara individual dan mengamati nilai ?R2R2R^2 Saya sering melihat rekan-rekan saya menggunakan pilihan F regressionuntuk fitur dalam pipa pembelajaran mesin mereka dari
Hampir semua basis data yang ingin kita prediksi menggunakan algoritma pembelajaran mesin akan menemukan nilai yang hilang untuk beberapa karakteristik. Ada beberapa pendekatan untuk mengatasi masalah ini, untuk mengecualikan garis yang memiliki nilai yang hilang sampai mereka mengisi dengan nilai...
Saya mencoba untuk menduplikasi hasil dari sklearnperpustakaan regresi logistik menggunakan glmnetpaket di R. sklearnminw,c12wTw+C∑i=1Nlog(exp(−yi(XTiw+c))+1)minw,c12wTw+C∑i=1Nlog(exp(-ysaya(XsayaTw+c))+1)\min_{w,c} \frac12 w^Tw + C\sum_{i=1}^N \log(\exp(-y_i(X_i^Tw+c)) + 1) Dari sketsa dari...
Saya punya pertanyaan tentang dua metode berbeda dari perpustakaan yang berbeda yang tampaknya melakukan pekerjaan yang sama. Saya mencoba membuat model regresi linier. Berikut adalah kode yang saya gunakan perpustakaan statsmodel dengan OLS: X_train, X_test, y_train, y_test =
Scikit memiliki CalibratedClassifierCV , yang memungkinkan kita untuk mengkalibrasi model kita pada pasangan X, y tertentu. Ini juga menyatakan dengan jelas itudata for fitting the classifier and for calibrating it must be disjoint. Jika mereka harus dipisahkan, apakah sah untuk melatih...
Halaman Scikit Learn pada Seleksi Model menyebutkan penggunaan validasi silang bersarang: >>> clf = GridSearchCV(estimator=svc, param_grid=dict(gamma=gammas), ... n_jobs=-1) >>> cross_validation.cross_val_score(clf, X_digits, y_digits) Dua loop validasi silang dilakukan...
Kelas yang diprediksi dari regresi logistik (biner) ditentukan dengan menggunakan ambang pada probabilitas keanggotaan kelas yang dihasilkan oleh model. Seperti yang saya pahami, biasanya 0,5 digunakan secara default. Tetapi memvariasikan ambang akan mengubah klasifikasi yang diprediksi. Apakah...
Saat ini saya mencoba menghitung BIC untuk kumpulan data mainan saya (ofc iris (:). Saya ingin mereproduksi hasil seperti yang ditunjukkan di sini (Gbr. 5). Makalah itu juga merupakan sumber saya untuk formula BIC. Saya memiliki 2 masalah dengan ini: Notasi: nsayanin_i = jumlah elemen dalam...
Saya menggunakan scikit-belajar untuk melakukan regresi logistik dengan crossvalidation pada set data (sekitar 14 parameter dengan> 7000 pengamatan normal). Saya juga memiliki target classifier yang memiliki nilai 1 atau 0. Masalah yang saya miliki adalah bahwa terlepas dari pemecah yang...
Saya memahami hubungan antara Analisis Komponen Utama dan Dekomposisi Nilai Singular pada tingkat aljabar / eksak. Pertanyaan saya adalah tentang implementasi scikit-learning . Dokumentasi mengatakan: " [TruncatedSVD] sangat mirip dengan PCA, tetapi beroperasi pada vektor sampel secara langsung,...
Saya memiliki dataset yang sangat besar dan sekitar 5% nilai acak hilang. Variabel-variabel ini berkorelasi satu sama lain. Contoh berikut dataset R hanyalah contoh mainan dengan data berkorelasi dummy. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE),...
Mencoba mempelajari beberapa Python dan Sklearn, tetapi untuk pekerjaan saya, saya perlu menjalankan regresi yang menggunakan distribusi kesalahan dari keluarga Poisson, Gamma, dan terutama Tweedie. Saya tidak melihat apa pun dalam dokumentasi tentang mereka, tetapi mereka berada di beberapa...
Saya membaca tentang metrik regresi di python yang scikit-belajar panduan dan meskipun masing-masing dari mereka memiliki rumus sendiri, saya tidak bisa mengatakan secara intuitif apa perbedaan antara R2R2R^2 dan skor varian dan oleh karena itu ketika menggunakan satu atau yang lain untuk...
Saya telah membaca tentang metode Nyström untuk aproximation kernel peringkat rendah. Metode ini diimplementasikan dalam scikit-learn [1] sebagai metode untuk memproyeksikan sampel data ke pendekatan peringkat rendah dari pemetaan fitur kernel. Sepengetahuan saya, diberikan set pelatihan dan...