Apa perbedaan antara Outlier dan Anomaly dalam konteks pembelajaran mesin. Pemahaman saya adalah keduanya merujuk pada hal yang
Apa perbedaan antara Outlier dan Anomaly dalam konteks pembelajaran mesin. Pemahaman saya adalah keduanya merujuk pada hal yang
Dalam Kahneman dan Deaton (2010) , penulis menulis yang berikut:††^\dagger Regresi ini menjelaskan 37% dari varians, dengan root mean square error (RMSE) dari 0,67852. Untuk menghilangkan pencilan dan laporan pendapatan yang tidak masuk akal, kami menjatuhkan pengamatan di mana nilai absolut...
Saya memiliki dataset dengan asumsi bahwa tetangga terdekat adalah prediktor terbaik. Hanya contoh sempurna dari gradien dua arah divisualisasikan- Misalkan kita memiliki kasus di mana beberapa nilai hilang, kita dapat dengan mudah memprediksi berdasarkan tetangga dan tren. Matriks data yang...
Saya mencoba memisahkan dua kelompok nilai dari satu set data. Saya dapat berasumsi bahwa salah satu populasi terdistribusi secara normal dan setidaknya setengah dari ukuran sampel. Nilai yang kedua sama-sama lebih rendah atau lebih tinggi dari nilai dari yang pertama (distribusi tidak diketahui)....
Apa pro dan kontra dari menggunakan LARS [1] dibandingkan menggunakan penurunan koordinat untuk menyesuaikan regresi linier yang diatur L1? Saya terutama tertarik pada aspek kinerja (masalah saya cenderung ada Ndalam ratusan ribu dan p<20.) Namun, wawasan lainnya juga akan dihargai. sunting:...
Saya memiliki seri waktu harian yang cukup dapat diprediksi dengan musiman mingguan. Saya dapat membuat prediksi yang tampaknya cukup akurat (dikonfirmasi oleh validasi silang) ketika tidak ada hari libur. Namun, ketika ada hari libur, saya memiliki masalah berikut: Saya mendapatkan angka bukan...
Saya perlu mendapatkan seakurat mungkin nilai untuk kecerahan sumber cahaya yang stabil terutama yang diberikan dua belas nilai luminositas sampel. Sensornya tidak sempurna, dan cahayanya kadang-kadang bisa "berkedip" lebih terang atau lebih gelap, yang bisa diabaikan, karenanya saya perlu deteksi...
Saya mencoba mendeteksi nilai-nilai anomali dalam serangkaian waktu data iklim dengan beberapa pengamatan yang hilang. Mencari di web saya menemukan banyak pendekatan yang tersedia. Dari semua itu, dekomposisi pertama tampaknya menarik, dalam arti menghilangkan tren dan komponen musiman dan...
Catatan: pertanyaan ini adalah repost, karena pertanyaan saya sebelumnya harus dihapus karena alasan hukum. Sambil membandingkan PROC CAMPURAN dari SAS dengan fungsi lmedari nlmepaket di R, saya menemukan beberapa perbedaan yang agak membingungkan. Lebih khusus lagi, derajat kebebasan dalam...
Saya sedang mengerjakan statistik untuk pembuatan perangkat lunak. Saya punya data untuk setiap build on pass / gagal dan waktu yang berlalu dan kami menghasilkan ~ 200 dari ini / minggu. Tingkat keberhasilannya mudah untuk dikumpulkan, saya dapat mengatakan bahwa 45% lulus setiap minggu. Tapi...
Saya menemukan banyak artikel yang menyatakan bahwa metode peningkatan sensitif terhadap outlier, tetapi tidak ada artikel yang menjelaskan mengapa. Dalam pengalaman saya, pencilan buruk untuk algoritma pembelajaran mesin, tetapi mengapa meningkatkan metode dipilih sebagai sangat...
Saya sedang menulis skrip yang menganalisis waktu proses yang dijalankan. Saya tidak yakin distribusi mereka tetapi saya ingin tahu apakah suatu proses berjalan "terlalu lama". Sejauh ini saya telah menggunakan 3 standar deviasi dari waktu menjalankan terakhir (n> 30), tetapi saya diberitahu...
Saya menggunakan estimator biasa untuk kurtosis, , tapi saya perhatikan bahwa bahkan 'outlier' kecil dalam distribusi empiris saya , yaitu puncak kecil jauh dari pusat, sangat mempengaruhinya. Apakah ada estimator kurtosis yang lebih kuat?K^=
Saya sedang melakukan penelitian di bidang respon fungsional tungau. Saya ingin melakukan regresi untuk memperkirakan parameter (tingkat serangan dan waktu penanganan) dari fungsi Rogers tipe II. Saya memiliki dataset pengukuran. Bagaimana saya bisa menentukan outlier yang terbaik? Untuk regresi...
Saya memiliki regresi logistik intersep acak (karena pengukuran berulang) dan saya ingin melakukan beberapa diagnostik, khususnya mengenai pencilan dan pengamatan yang berpengaruh. Saya melihat residu untuk melihat apakah ada pengamatan yang menonjol. Tetapi saya juga ingin melihat jarak seperti...
Dapatkah regresi digunakan untuk deteksi lier. Saya mengerti bahwa ada cara untuk meningkatkan model regresi dengan menghapus outlier. Tetapi tujuan utama di sini bukan untuk mencocokkan model regresi tetapi mencari tahu liers menggunakan
Seperti judulnya, apakah ada yang tahu tentang buku yang bagus dan terkini yang mencakup preprocessing data secara umum dan khususnya teknik deteksi outlier? Buku ini tidak perlu berfokus secara khusus pada hal itu, tetapi harus membahas topik-topik yang disebutkan di atas secara mendalam - saya...
Apa cara terbaik untuk memilih fitur secara otomatis untuk deteksi anomali? Saya biasanya memperlakukan Deteksi Anomali sebagai algoritme di mana fitur dipilih oleh para ahli manusia: yang penting adalah kisaran output (seperti pada "input abnormal - output abnormal") sehingga bahkan dengan banyak...
Saya mencoba untuk mengotomatisasi deteksi outlier dalam time-series dan saya menggunakan modifikasi dari solusi yang diusulkan oleh Rob Hyndman di sini . Katakanlah, saya mengukur kunjungan harian ke situs web dari berbagai negara. Untuk beberapa negara di mana kunjungan hariannya beberapa...
Saya perlu menulis sebuah program untuk menemukan titik GPS rata-rata dari populasi titik. Dalam praktiknya hal berikut terjadi: Setiap bulan seseorang merekam titik GPS dari aset statis yang sama. Karena sifat GPS, titik-titik ini sedikit berbeda setiap bulan. Kadang-kadang orang membuat...