Uji perbedaan signifikan dalam rasio variabel acak yang berdistribusi normal

9

Terkait dengan Menganalisa rasio variabel dan Cara parameterisasi rasio dua variabel terdistribusi normal, atau kebalikan dari satu? .

Misalkan saya memiliki sejumlah sampel dari empat distribusi acak kontinu yang berbeda, yang semuanya dapat kita anggap normal. Dalam kasus saya, ini terkait dengan beberapa metrik kinerja dua sistem file yang berbeda (katakanlah, ext4 dan XFS), baik dengan dan tanpa enkripsi. Metriknya mungkin, misalnya, jumlah file yang dibuat per detik, atau latensi rata-rata untuk beberapa operasi file. Kita dapat mengasumsikan bahwa semua sampel yang diambil dari distribusi ini akan selalu benar-benar positif. Sebut distribusi ini mana dan .Perffstype,encryptionfstype{xfs,ext4}encryption{crypto,nocrypto}

Sekarang, hipotesis saya adalah enkripsi memperlambat salah satu sistem file dengan faktor yang lebih besar dari yang lain. Apakah ada beberapa tes sederhana untuk hipotesis ?E[Perfxfs,crypto]E[Perfxfs,nocrypto]<E[Perfext4,crypto]E[Perfext4,nocrypto]

Sami Liedes
sumber
Beberapa teks tampaknya telah dihapus dari tengah pertanyaan ini. Apakah Anda pikir Anda dapat memulihkannya?
whuber
Saya pikir "Jadi," ditinggalkan di sana karena kesalahan, setidaknya saya tidak bisa memikirkan apa yang ingin saya tambahkan ke sana. Mungkin itu adalah sesuatu yang akhirnya saya pindah ke paragraf kedua.
Sami Liedes
Anda bisa memasukkan model linear umum untuk distribusi normal dengan fungsi tautan log.
onestop
1
"Jumlah file" dan "latensi rata-rata" tidak dapat didistribusikan secara normal (tidak ada yang dapat negatif untuk memulai). Keduanya cenderung condong ke kanan. Jumlah file adalah jumlah diskrit.
Glen_b -Reinstate Monica

Jawaban:

12

Salah satu alternatif jawaban StasK adalah menggunakan tes permutasi. Langkah pertama adalah menentukan statistik uji , mungkin:T

T=Perf^ext4,cryptoPerf^ext4,nocryptoPerf^xfs,cryptoPerf^xfs,nocrypto

di mana adalah, mungkin, rata-rata sampel dari pengamatan , dll. (Ini sesuai dengan definisi hipotesis Anda sebagai rasio dari ekspektasi daripada kemungkinan alternatif dari ekspektasi rasio - alternatif mana yang mungkin Anda inginkan.) Langkah kedua adalah mengubah secara acak label dalam data berkali-kali, katakanlah, , dan hitung untuk setiap permutasi. Langkah terakhir adalah membandingkan asli Anda dengan diamati ; p-value permutasi-diperkirakan akan menjadi sebagian kecil dari . Perfext4,cryptoext4,xfsi=1,,10000TiTTiTiTPerf^ext4,cryptoPerfext4,cryptoext4, xfsi=1,,10000TiTTiTiT

Tes permutasi membebaskan Anda dari ketergantungan pada asimptotik, tetapi tentu saja tergantung pada ukuran sampel Anda (dan data juga, tentu saja), metode delta, yang saya gunakan sesekali juga, dapat bekerja dengan baik.

Jbowman
sumber
Itu saran yang bagus juga!
Tugas
Perhatikan bahwa rasio dua variabel normal terpusat adalah variabel Cauchy.
Xi'an
1
@ Xi'an: Jelas kita bisa menganggap mereka independen di sini? Seperti yang Anda tahu, itu akan diperlukan untuk hasil ini untuk bertahan (dan memiliki kesempatan untuk menjadi berguna).
kardinal
@ cardinal: ya, tentu saja, mereka harus mandiri!
Xi'an
1
Sebagai titik teknis yang sangat sombong - permutasi bekerja sedikit lebih baik ketika statistik pengujian Anda sangat penting / tidak melibatkan parameter yang tidak diketahui / stabil-varians ... setidaknya di bawah nol. Dengan proporsi, Anda dapat melakukan transformasi arc sin. Dengan kuantitas kontinu yang benar-benar positif, saya mungkin akan mulai dengan log. Tapi ini benar-benar lezat.
Tugas
4

Anda dapat menghitung kesalahan standar (asimptotik) dari rasio menggunakan metode delta . Jika Anda memiliki dua variabel acak dan sehingga dalam distribusi (yang akan terjadi jika Anda memiliki data independen, tetapi juga berlaku pada kasus yang lebih umum dari data yang dikelompokkan ketika Anda menjalankan tes pada mesin yang berbeda), maka untuk rasio dengan analog populasi , kami memiliki Y XY r= ˉ Y / ˉ X ro=μY/μX

n(X¯μXY¯μY)N((00),(σXXσXYσXYσYY))
r=Y¯/X¯ro=μY/μXXYσXYCV2[r]=CV2[ ˉ X ]+CV2[ ˉ Y ]zH0:
n(rr0)N(0,μY2μX4σXX2μYμX3σXY+1μX2σYY)
Jika dan independen, karena mungkin masuk akal untuk mengasumsikan dalam kasus Anda, maka ungkapan ini agak disederhanakan dengan menjatuhkan , jadi kita dapatkan bahwa koefisien kuadrat variasi meringkas: Ia memiliki keuntungan tambahan bahwa ukuran sampel mungkin berbeda. Selain itu, jika RHS dan LHS Anda independen, Anda dapat membentuk statistik untukXYσXY
CV2[r]=CV2[X¯]+CV2[Y¯]
zH0: tidak ada perbedaan dengan mengambil perbedaan rasio dan membaginya dengan kesalahan standar yang sesuai yang diperoleh dari CV ini.

Saya harap Anda dapat mengambilnya dari sana dan melakukan sisa perhitungan amplop untuk mendapatkan formula akhir.

Perhatikan bahwa hasilnya asimtotik, dan rasio adalah penaksir bias dalam sampel kecil. Bias memiliki orde , dan menghilang secara asimptotik bila dibandingkan dengan variabilitas sampel yang merupakan orde .r 0 O ( 1 / n ) O ( 1 / rr0O(1/n)O(1/n)

Tugas
sumber
Terima kasih atas jawaban yang luar biasa dan mencerahkan! Saya pikir saya akan memilih tes permutasi jbowban untuk studi saya karena saya pikir saya memahaminya dan keterbatasannya lebih baik, tetapi metode delta jelas terlihat seperti sesuatu yang perlu saya pelajari dan cari tahu.
Sami Liedes
@stask, bisakah ini dilakukan di sini? stats.stackexchange.com/questions/398436/...
Xavier Bourret Sicotte
Xavier, saya pikir @ usεr11852 memberikan jawaban yang bagus. Saya tidak akan repot menambahkan itu.
Tugas
@StasK - dalam kondisi apa kondisi yang Anda nyatakan dalam jawaban Anda valid? Apakah konvergensi statistik rasio dijamin oleh asumsi sebelumnya dan metode Delta?
Xavier Bourret Sicotte
Ini asimptotik ... tidak ada yang dijamin, dan batas kesalahan sulit untuk didapatkan. Semua metode delta (atau hasil konvergensi lemah lainnya) katakan adalah bahwa ketika Anda meningkatkan ukuran sampel, perbedaan antara distribusi sampel hingga aktual dari distribusi asimptotik akan semakin kecil. Itu mungkin berarti bahwa ketika Anda meningkatkan ukuran sampel dari 1000 menjadi 10.000, perbedaan vertikal antara cdf akan turun dari 0,2 menjadi 0,1, dan yang terakhir masih tidak dapat diterima untuk tujuan praktis. Atau itu mungkin berarti bahwa selisihnya dari 0,01 menjadi 0,001.
Tugas
0

Rasio varian Normal didistribusikan Cauchy. Mengetahui hal itu, Anda cukup melakukan Uji Faktor Bayes.

Ini adalah ide yang agak spontan. Saya sekarang tidak yakin dengan mekanisme penghasil data. Apakah Anda menginstal sistem file yang berbeda pada PC yang sama dan kemudian melakukan benchmark untuk kedua kasus tersebut, sehingga kami dapat mengasumsikan struktur data hierarkis?

Juga saya tidak yakin mencari rasio sebenarnya masuk akal.

Dan kemudian Anda menulis rasio dari nilai yang diharapkan, sedangkan saya memikirkan nilai yang diharapkan dari rasio. Saya kira saya perlu informasi lebih lanjut tentang pembuatan data sebelum melanjutkan.

joint_p
sumber
1
Rasio normals hanya Cauchy jika (a) mereka independen dan (b) memiliki varian yang sama.
kardinal
Xi'an punya pemikiran yang sama kurasa ...
joint_p
1
Tidak jelas (bagi saya, setidaknya) bahwa ada struktur independensi seperti itu atau bahwa mereka akan memiliki rata-rata nol. Mungkin, jika Anda dapat memperluas jawaban Anda, itu akan membantu memperjelas pendekatan yang Anda sarankan. :)
kardinal
1
@ cardinal - Saya pikir itu adalah rasio normals independen dengan nol rata - rata adalah cauchy dengan nol median dan parameter skala sama dengan rasio standar deviasi normal. Jika mereka memiliki nilai nol maka itu tidak cauchy.
probabilityislogic
@prob: (+1) Anda benar! Terima kasih sudah menangkapnya. Saya menjatuhkan "standar" dan "rata-rata nol" dalam komentar pertama saya (yang terakhir berhasil membuatnya menjadi yang kedua).
kardinal
0

Dalam kasus di mana Anda tidak dapat melakukan permutasi, misalnya ketika ukuran sampel menciptakan jutaan kemungkinan, solusi lain adalah pemasangan ulang Monte Carlo.

Hipotesis nol adalah bahwa tidak ada perbedaan dalam kecepatan antara dan , untuk dan . Oleh karena itu, rasio rata-rata dari semua sampel tidak berbeda dari rasio .x f s n o c r y p t o c r y p t o e x t 4ext4xfsnocryptocrypto nocryptocryptoext4xfsnocryptocrypto

H0:Tobserved=xnocryptonnocryptoxcryptoncrypto=0

di mana x=ext4xfs

dan n=samplesize

Jika benar, memilih hasil secara acak untuk rasio atau juga akan menghasilkan . Satu akan menghitung:H0nocryptocryptoTobserved=0

Tresampling=x1random+xnrandomnnocryptox1random+xnrandomncrypto

dan melakukan, katakanlah, 10.000 putaran resampling. Distribusi nilai dihasilkan adalah interval kepercayaan untuk . Perbedaan antara dan ratio signifikan jika nilai dihitung berada di luar kisaran, misalnya, 95% dari nilai . H 0 n o c r y p t o c r y p t o T o b s e r v e d ( p < 0,05 ) T r e s a m p l i n gTresamplingH0nocryptocryptoTobserved(p<0.05)Tresampling

pengguna1979481
sumber