Dataset saya berisi dua (agak berkorelasi kuat) variabel (runtime algoritma) dan (jumlah node yang diperiksa, apa pun). Keduanya sangat berkorelasi dengan desain, karena algoritma dapat mengelola kira-kira node per detik.
Algoritma dijalankan pada beberapa masalah, tetapi dihentikan jika solusi belum ditemukan setelah beberapa waktu habis . Jadi data disensor dengan benar pada variabel waktu.
Saya memplot perkiraan fungsi kepadatan kumulatif (atau jumlah terakumulasi) dari variabel untuk kasus-kasus di mana algoritma itu berakhir dengan . Ini menunjukkan berapa banyak masalah yang dapat dipecahkan dengan memperluas paling banyak node dan berguna untuk membandingkan berbagai konfigurasi algoritma. Tetapi dalam plot untuk , ada ekor lucu di atas yang berbelok ke kanan, seperti yang dapat dilihat pada gambar di bawah ini. Bandingkan ecdf untuk variabel , di mana penyensoran dilakukan.
Hitungan Kumulatif
Jumlah yang terakumulasi dari
Simulasi
Saya mengerti mengapa ini terjadi, dan dapat mereproduksi efek dalam simulasi menggunakan kode R berikut . Ini disebabkan oleh penyensoran pada variabel yang sangat berkorelasi di bawah penambahan beberapa noise.
qplot(
Filter(function(x) (x + rnorm(1,0,1)[1]) < 5,
runif(10000,0,10)),
stat="ecdf",geom="step")
Bagaimana fenomena ini disebut? Saya perlu menyatakan dalam publikasi bahwa penggemar ini adalah artefak dari eksperimen dan tidak mencerminkan distribusi yang sebenarnya.
Jawaban:
Saya bukan ahli, tapi saya percaya apa yang Anda lihat adalah analog dengan kliping lembut .
Sortir Kliping (Gain Compression)
Ini sedikit berbeda, karena kliping Anda disebabkan oleh proses non-deterministik, di mana sinyal Anda terpotong ketika ditambah suara acak melebihi ambang, bukannya perangkat yang secara deterministik mengurangi sinyal analog. Saya memiliki pedal gitar yang melakukan ini, itu melembutkan "pukulan" dari bermain gitar listrik:
Demo Kompresor Keeyley
Sepertinya analogi yang layak. Saya tidak yakin apakah ada nama di komunitas statistik.
sumber
Saya menduga Anda mengalami keluarga distribusi stabil non-simetris.
Pertama, plot ecdf Anda dalam plot log-log. Mengadopsi pendekatan parametrik, asumsikan Distribusi Pareto,
Cdf dalam kasus Anda diterjemahkan sebagaiFt( t ) = 1 - (tm i nt)Sebuah fo r t > tm i n dimana tm i n adalah waktu penyelesaian minimum algoritme Anda, maka ambang yang muncul di sebelah kiri grafik ecdf α^ , yang disebut indeks Pareto.
Jika Anda melihat garis dalam plot log-log, maka Anda berada di jalur yang benar, buat regresi linier pada log yang mentransformasikan data Anda harus, untuk mencari tahu
Indeks pareto harus lebih besar dari 1, ia memberikan dan menginterpretasikan "tailness" yang berat dari distribusi, berapa banyak data yang terbentang di tepinya. Semakin dekat dengan 1 semakin banyak situasi patogen yang Anda miliki.α menyatakan rasio dari node yang menghabiskan waktu yang dapat diabaikan vs node yang menghabiskan waktu yang berlebihan sebelum penyelesaiannya. Pembaca sebelumnya menunjukkan fakta bahwa Anda mengakhiri eksperimen Anda secara tiba-tiba, ini menimbulkan kerumitan yang digambarkan sebagaiα^=α^(T) . Saya sarankan Anda harus bervariasiT untuk mengeksplorasi ketergantungan ini.
Dengan kata lain,
Fenomena ekor berat adalah umum dalam ilmu komputer, terutama ketika node bersaing melawan sumber daya bersama secara acak, misalnya jaringan komputer.
sumber
katakan bahwa distribusi Anda terpotong , seperti terpotong normal
sumber