Saat menguji beberapa hipotesis nol versus alternatif dengan statistik uji , di mana , terapkan tes permutasi dengan setpermutasi padadan kami memiliki statistik
Apa manfaat menggunakan tes permutasi daripada tidak menggunakannya? Yaitu seperti apa saat tes permutasi bekerja?
Kondisi apa yang membuat itu terjadi? Seperti beberapa kondisi pada uji statistik dan / atau pada hipotesis nol?
Sebagai contoh,
Haruskah sama dengan nilai p berdasarkan , untuk sampel ? Jika ya, mengapa? (referensi juga dihargai)
Nilai p didefinisikan sebagai . Jika tes permutasi adalah untuk memperkirakan distribusi permutasi U (X) | X = x , bagaimana T (X) sama dengan nilai p U (X) pada X = x ? Terutama, mungkin ada lebih dari satu distribusi di null H , dan T (X) tidak mempertimbangkan distribusi null satu per satu dan kemudian mengambil \ sup_ {F \ in H} dan \ inf_ {c: U (x) \ geq c} .
Haruskah tes permutasi membuat distribusi bebas dari hipotesis nol? Kondisi apa yang akan membuat itu terjadi?
Haruskah didistribusikan secara merata ke ? Kondisi apa yang akan membuat itu terjadi? Perhatikan bahwa ketika adalah fungsi konstan, juga konstan pada dan distribusi jauh dari seragam di atas .
Terima kasih dan salam!
Jawaban:
Karena diskusi semakin panjang, saya telah mengambil jawaban saya untuk sebuah jawaban. Tapi saya sudah mengubah urutannya.
Tes permutasi "tepat", bukan asimptotik (bandingkan dengan, misalnya, tes rasio kemungkinan). Jadi, misalnya, Anda dapat melakukan tes cara bahkan tanpa dapat menghitung distribusi perbedaan di bawah nol; Anda bahkan tidak perlu menentukan distribusi yang terlibat. Anda dapat merancang statistik uji yang memiliki kekuatan baik di bawah serangkaian asumsi tanpa menjadi sensitif terhadap asumsi-asumsi tersebut sebagai asumsi parametrik sepenuhnya (Anda dapat menggunakan statistik yang kuat tetapi memiliki ARE bagus).
Perhatikan bahwa definisi yang Anda berikan (atau lebih tepatnya, siapa pun yang Anda kutip di sana memberi) tidak universal; beberapa orang akan menyebut U sebagai statistik uji permutasi (yang membuat tes permutasi bukanlah statistik tetapi bagaimana Anda mengevaluasi nilai-p). Tapi begitu Anda melakukan tes permutasi dan Anda telah menetapkan arahan sebagai 'ekstrem dari ini tidak konsisten dengan H0', definisi untuk T di atas pada dasarnya adalah bagaimana Anda menghitung nilai-p - itu hanya proporsi aktual dari distribusi permutasi setidaknya sama ekstrimnya dengan sampel di bawah nol (definisi p-value).
Jadi misalnya, jika saya ingin melakukan tes (satu-ekor, untuk kesederhanaan) dari sarana seperti uji-dua sampel, saya bisa menjadikan statistik saya sebagai pembilang dari t-statistik, atau t-statistik itu sendiri, atau jumlah sampel pertama (masing-masing definisi tersebut adalah monoton dalam yang lain, tergantung pada sampel gabungan), atau transformasi monoton mereka, dan memiliki tes yang sama, karena mereka menghasilkan nilai-p yang identik. Yang perlu saya lakukan adalah melihat seberapa jauh (dalam hal proporsi) distribusi permutasi dari statistik apa pun yang saya pilih kebohongan statistik sampel. T seperti yang didefinisikan di atas hanyalah statistik lain, sama bagusnya dengan yang lain yang bisa saya pilih (T sebagaimana didefinisikan ada monotonik di U).
T tidak akan persis seragam, karena itu akan memerlukan distribusi kontinu dan T tentu saja terpisah. Karena U dan oleh karena itu T dapat memetakan lebih dari satu permutasi ke statistik yang diberikan, hasilnya tidak mungkin sama, tetapi mereka memiliki "seragam-seperti" cdf **, tetapi di mana langkah-langkah tidak selalu sama dalam ukuran .
** ( , dan benar-benar sama dengan itu pada batas kanan setiap lompatan - mungkin ada nama untuk apa itu sebenarnya)F(x)≤x
Untuk statistik yang masuk akal saat berlanjut hingga tak terbatas, distribusi mendekati keseragaman. Saya pikir cara terbaik untuk mulai memahami mereka adalah dengan melakukannya dalam berbagai situasi.n T
T adalah nilai-p (untuk kasus-kasus di mana U besar menunjukkan penyimpangan dari nol dan U kecil konsisten dengan itu). Perhatikan bahwa distribusi tergantung pada sampel. Jadi distribusinya bukan untuk sampel apa pun.
Saya sudah menjelaskan bahwa T tidak seragam.
Saya pikir saya sudah menjelaskan apa yang saya lihat sebagai manfaat dari tes permutasi; orang lain akan menyarankan keuntungan lain ( misalnya ).
Kalimat yang Anda kutip secara eksplisit menyatakan bahwa T adalah nilai-p, dan kapan itu. Jika Anda bisa menjelaskan apa yang tidak jelas tentang itu mungkin saya bisa mengatakan lebih banyak. Adapun alasannya, lihat definisi nilai-p (kalimat pertama pada tautan) - cukup langsung mengikuti dari itu
Ada diskusi dasar yang bagus tentang tes permutasi di sini .
-
Sunting: Saya tambahkan di sini contoh uji permutasi kecil; kode (R) ini hanya cocok untuk sampel kecil - Anda perlu algoritma yang lebih baik untuk menemukan kombinasi ekstrim dalam sampel sedang.
Pertimbangkan tes permutasi terhadap alternatif satu sisi:
* tetapi saya biasanya menghindarinya karena itu cenderung membingungkan masalah bagi siswa ketika mencoba mencari distribusi nol
pada data berikut:
Ada 35 cara membagi 7 pengamatan menjadi sampel ukuran 3 dan 4:
Seperti yang disebutkan sebelumnya, mengingat 7 nilai data, jumlah sampel pertama adalah monoton dalam perbedaan rata-rata, jadi mari kita gunakan itu sebagai statistik uji. Jadi sampel asli memiliki statistik uji:
Sekarang inilah distribusi permutasi:
(Ini tidak penting untuk mengurutkan mereka, saya hanya melakukan itu untuk membuatnya lebih mudah untuk melihat statistik uji adalah nilai kedua dari akhir.)
Kita dapat melihat (dalam hal ini dengan inspeksi) bahwa adalah 2/35, ataup
(Perhatikan bahwa hanya dalam kasus tanpa tumpang tindih xy adalah nilai-p di bawah 0,05 dimungkinkan di sini. Dalam kasus ini, akan menjadi seragam diskrit karena tidak ada nilai terikat dalam )T U
Panah merah muda menunjukkan statistik sampel pada sumbu x, dan nilai p pada sumbu y.
sumber