Jumlah permutasi yang diperlukan untuk nilai p berbasis permutasi

8

Jika saya perlu menghitung berbasis permutasi p-nilai dengan tingkat signifikansi α, berapa banyak permutasi yang saya butuhkan?

Dari artikel "Tes Permutasi untuk Mempelajari Kinerja Classifier" , halaman 5:

Dalam praktiknya, batas atas 1/(2k) biasanya digunakan untuk menentukan jumlah sampel yang diperlukan untuk mencapai ketelitian tes yang diinginkan.

... dimana k adalah jumlah permutasi.

Bagaimana cara menghitung jumlah permutasi yang diperlukan dari rumus ini?

Neptunus
sumber

Jawaban:

12

Saya akui, paragrafnya mungkin membingungkan.

Saat melakukan tes permutasi, Anda memperkirakan nilai-p. Masalahnya adalah, bahwa estimasi nilai p memiliki kesalahan itu sendiri yang dihitung sebagaip(1p)k. Jika kesalahan terlalu besar, nilai-p tidak dapat diandalkan.

Jadi berapa banyak permutasi yang dibutuhkan seseorang untuk mendapatkan estimasi yang andal?

Pertama-tama tentukan kesalahan maksimum yang diizinkan Anda alias presisi. Biarkan ini terjadiP. Maka nilai-p yang diperkirakan harus dalam interval[p3P,p+3P](karena p kira - kira terdistribusi normal )

Menggunakan batas atas

Paragraf yang dikutip dari makalah ini menyarankan untuk digunakan 12k sebagai estimasi batas atas kesalahan alih-alih p(1p)k. Ini sesuai dengan nilai p yang tidak diketahui dari p = 0,5 (di mana kesalahan maksimum di antara semua ps untuk k tetap).

Jadi: Anda ingin tahu k mana 12kP.

<=> 14P2k

Tetapi karena rumus yang dikutip mewakili batas atas, pendekatan ini sangat kasar.

Menggunakan kesalahan pada tingkat signifikansi

Pendekatan lain menggunakan tingkat signifikansi yang diinginkan αsebagai p untuk menghitung presisi yang dibutuhkan. Ini benar, karena kesalahan estimasi p lebih penting jika kita mendekati ambang keputusan (yang merupakan tingkat signifikansi).

Dalam hal ini orang ingin tahu di mana k α(1α)kP.

<=> (α(1α))P2k

Perhatikan bahwa jika p-value benar yang tidak dikenal jelas lebih besar dari α, maka kesalahan sebenarnya lebih besar, jadi p [p3P,p+3P] tidak tahan lagi.

Memperpanjang interval kepercayaan

Pendekatan ini sesuai dengan pusat interval kepercayaan berada tepat di ambang keputusan. Untuk memaksa batas atas dari interval kepercayaan dari estimasi yang berada di bawah ambang keputusan (yang lebih tepat), kita perlu ...

lα(1α)kP

<=> (l)2(α(1α))P2k

di mana l sesuai dengan (lihat kembali grafik )

| l | confidence interval |
| 1 | ~68 % |
| 2 | ~95 % |
| 3 | ~99 % |

Contoh: Biarkan precison yang diinginkan P menjadi 0,005.

Kemudian menggunakan satu batas atas kasar yang didapat k>=10000.

Menggunakan P at α=0.05 dan meminta interval kepercayaan-95% yang didapat k>=7600.

Untuk P = 0,01 pada α=0.01 dan interval kepercayaan 95% didapatkan k> = 396.

Akhirnya : Saya sangat menyarankan untuk menyelam lebih dalam ke simulasi Monte-Carlo. Wikipedia menyediakan awal.

steffen
sumber
Terima kasih, saya telah membaca ini: epibiostat.ucsf.edu/biostat/sen/statgen/… dan saya mencoba membandingkannya dengan metode yang Anda tulis. Apa perbedaan pendapat Anda?
Neptunus
@Neptune Saya telah memperbarui jawaban saya untuk membuat tautan. Versi diperpanjang sekarang setara (selain menjatuhkan(1α)), yang merupakan IMHO penyederhanaan yang tidak perlu).
steffen