Terkait dengan Menganalisa rasio variabel dan Cara parameterisasi rasio dua variabel terdistribusi normal, atau kebalikan dari satu? .
Misalkan saya memiliki sejumlah sampel dari empat distribusi acak kontinu yang berbeda, yang semuanya dapat kita anggap normal. Dalam kasus saya, ini terkait dengan beberapa metrik kinerja dua sistem file yang berbeda (katakanlah, ext4 dan XFS), baik dengan dan tanpa enkripsi. Metriknya mungkin, misalnya, jumlah file yang dibuat per detik, atau latensi rata-rata untuk beberapa operasi file. Kita dapat mengasumsikan bahwa semua sampel yang diambil dari distribusi ini akan selalu benar-benar positif. Sebut distribusi ini mana dan .
Sekarang, hipotesis saya adalah enkripsi memperlambat salah satu sistem file dengan faktor yang lebih besar dari yang lain. Apakah ada beberapa tes sederhana untuk hipotesis ?
Jawaban:
Salah satu alternatif jawaban StasK adalah menggunakan tes permutasi. Langkah pertama adalah menentukan statistik uji , mungkin:T
di mana adalah, mungkin, rata-rata sampel dari pengamatan , dll. (Ini sesuai dengan definisi hipotesis Anda sebagai rasio dari ekspektasi daripada kemungkinan alternatif dari ekspektasi rasio - alternatif mana yang mungkin Anda inginkan.) Langkah kedua adalah mengubah secara acak label dalam data berkali-kali, katakanlah, , dan hitung untuk setiap permutasi. Langkah terakhir adalah membandingkan asli Anda dengan diamati ; p-value permutasi-diperkirakan akan menjadi sebagian kecil dari . Perfext4,cryptoext4,xfsi=1,…,10000TiTTiTi≤TPerfˆext4,crypto Perfext4,crypto ext4, xfs i=1,…,10000 Ti T Ti Ti≤T
Tes permutasi membebaskan Anda dari ketergantungan pada asimptotik, tetapi tentu saja tergantung pada ukuran sampel Anda (dan data juga, tentu saja), metode delta, yang saya gunakan sesekali juga, dapat bekerja dengan baik.
sumber
Anda dapat menghitung kesalahan standar (asimptotik) dari rasio menggunakan metode delta . Jika Anda memiliki dua variabel acak dan sehingga dalam distribusi (yang akan terjadi jika Anda memiliki data independen, tetapi juga berlaku pada kasus yang lebih umum dari data yang dikelompokkan ketika Anda menjalankan tes pada mesin yang berbeda), maka untuk rasio dengan analog populasi , kami memiliki Y √X Y r= ˉ Y / ˉ X ro=μY/μX √
Saya harap Anda dapat mengambilnya dari sana dan melakukan sisa perhitungan amplop untuk mendapatkan formula akhir.
Perhatikan bahwa hasilnya asimtotik, dan rasio adalah penaksir bias dalam sampel kecil. Bias memiliki orde , dan menghilang secara asimptotik bila dibandingkan dengan variabilitas sampel yang merupakan orde .r 0 O ( 1 / n ) O ( 1 / √r r0 O ( 1 / n ) O ( 1 / n--√)
sumber
Rasio varian Normal didistribusikan Cauchy. Mengetahui hal itu, Anda cukup melakukan Uji Faktor Bayes.
Ini adalah ide yang agak spontan. Saya sekarang tidak yakin dengan mekanisme penghasil data. Apakah Anda menginstal sistem file yang berbeda pada PC yang sama dan kemudian melakukan benchmark untuk kedua kasus tersebut, sehingga kami dapat mengasumsikan struktur data hierarkis?
Juga saya tidak yakin mencari rasio sebenarnya masuk akal.
Dan kemudian Anda menulis rasio dari nilai yang diharapkan, sedangkan saya memikirkan nilai yang diharapkan dari rasio. Saya kira saya perlu informasi lebih lanjut tentang pembuatan data sebelum melanjutkan.
sumber
Dalam kasus di mana Anda tidak dapat melakukan permutasi, misalnya ketika ukuran sampel menciptakan jutaan kemungkinan, solusi lain adalah pemasangan ulang Monte Carlo.
Hipotesis nol adalah bahwa tidak ada perbedaan dalam kecepatan antara dan , untuk dan . Oleh karena itu, rasio rata-rata dari semua sampel tidak berbeda dari rasio .x f s n o c r y p t o c r y p t o e x t 4e x t 4 x fs n o c r yhalt o c r yp t o nocryptocryptoe x t 4x fs no c r yp t o c r yp t o
di manax = e x t 4x fs
dann = s a m p l es i ze
Jika benar, memilih hasil secara acak untuk rasio atau juga akan menghasilkan . Satu akan menghitung:H0 nocrypto crypto Tobserved=0
dan melakukan, katakanlah, 10.000 putaran resampling. Distribusi nilai dihasilkan adalah interval kepercayaan untuk . Perbedaan antara dan ratio signifikan jika nilai dihitung berada di luar kisaran, misalnya, 95% dari nilai . H 0 n o c r y p t o c r y p t o T o b s e r v e d ( p < 0,05 ) T r e s a m p l i n gTresampling H0 nocrypto crypto Tobserved (p<0.05) Tresampling
sumber