Bagaimana prosedur FDR memperkirakan Tingkat Penemuan Palsu tanpa model tarif dasar?

9

Adakah yang bisa menjelaskan bagaimana prosedur FDR dapat memperkirakan FDR tanpa model / asumsi tingkat dasar positif sebenarnya?

false-discovery-rate pengguna4733
sumber

5

Saya pikir itu pertanyaan yang sangat bagus; terlalu banyak orang menggunakan prosedur Benjamini-Hochberg (disingkat BH; mungkin prosedur yang paling populer untuk mengendalikan FDR) sebagai kotak hitam. Memang ada asumsi mendasar yang dibuatnya pada statistik dan disembunyikan dengan baik dalam definisi nilai-p!

$P$ $P$ $P\sim U[0,1]$ $\Pr[P\leq t] \leq t$ $P$

Tetapi perhatikan di sini bahwa saya terus berbicara tentang hipotesis nol; jadi apa yang Anda sebutkan tentang pengetahuan tentang tingkat dasar dari positif sejati tidak diperlukan, Anda hanya perlu pengetahuan tentang tingkat dasar dari positif palsu! Kenapa ini?

Biarkan menunjukkan jumlah semua hipotesis yang ditolak (positif) dan positif palsu, lalu: $R$ $V$

FDR = E [\frac{V}{max (R, 1)}] \approx \frac{E [V]}{E [R]}

$\text{FDR} = \mathbb E\left[\frac{V}{\max(R,1)}\right] \approx \frac{\mathbb E[V]}{\mathbb E[R]}$

Jadi untuk memperkirakan FDR Anda memerlukan cara memperkirakan , . Kita sekarang akan melihat aturan keputusan yang menolak semua p-nilai . Untuk memperjelas hal ini dalam notasi saya juga akan menulis untuk jumlah yang sesuai / variabel acak dari prosedur tersebut. $\mathbb E[R]$ $\mathbb E[V]$ $\leq t$ $FDR(t),R(t),V(t)$

Karena hanyalah ekspektasi dari total jumlah penolakan, Anda dapat memperkirakannya dengan jumlah yang tidak bias dengan jumlah penolakan yang Anda amati, jadi , yaitu hanya dengan menghitung berapa banyak nilai-p Anda . $\mathbb E[R(t)]$ $\mathbb E[R(t)] \approx R(t)$ $\leq t$

Sekarang bagaimana dengan ? Nah menganggap dari Anda Total hipotesis null hipotesis, maka dengan keseragaman (atau sub-keseragaman) dari p-nilai di bawah nol Anda mendapatkan: $\mathbb E[V]$ $m_0$ $m$

E [V (t)] = \sum_{i null} Pr [P_{i} \leq t] \leq m_{0} t

$\mathbb E[V(t)] = \sum_{i \text{ null}} \Pr[P_i \leq t] \leq m_0 t$

Tapi kita masih belum tahu , tapi kita tahu itu , jadi batas atas yang konservatif hanya akan . Karena itu, karena kita hanya perlu batas atas pada jumlah positif palsu, cukuplah kita mengetahui distribusinya! Dan inilah yang dilakukan prosedur BH. $m_0$ $m_0 \leq m$ $\mathbb E[V(t)] \leq m t$

Jadi, sementara komentar Aarong Zeng bahwa "prosedur BH adalah cara untuk mengendalikan FDR pada tingkat yang diberikan q. Ini bukan tentang memperkirakan FDR" tidak salah, itu juga sangat menyesatkan! Prosedur BH sebenarnya tidak memperkirakan FDR untuk setiap threshold yang diberikan . Dan kemudian memilih ambang batas terbesar, sehingga FDR yang diperkirakan di bawah . Memang "nilai p yang disesuaikan" dari hipotesis pada dasarnya hanyalah perkiraan FDR pada ambang batas (hingga isotonisasi). Saya pikir algoritma BH standar menyembunyikan fakta ini sedikit, tetapi mudah untuk menunjukkan kesetaraan dari dua pendekatan ini (juga disebut "teorema kesetaraan" dalam literatur pengujian berganda). $t$ $\alpha$ $i$ $t=p_i$

Sebagai komentar terakhir, memang ada metode seperti prosedur Storey yang bahkan memperkirakan dari data; ini dapat meningkatkan daya sedikit. Juga pada prinsipnya Anda benar, orang juga bisa memodelkan distribusi di bawah alternatif (tingkat dasar positif sejati Anda) untuk mendapatkan prosedur yang lebih kuat; tetapi sejauh ini beberapa penelitian pengujian telah berfokus pada mempertahankan kontrol kesalahan tipe-I daripada memaksimalkan daya. Satu kesulitan juga adalah bahwa dalam banyak kasus masing-masing alternatif sejati Anda akan memiliki distribusi alternatif yang berbeda (misalnya kekuatan yang berbeda untuk hipotesis yang berbeda), sementara di bawah nol semua nilai-p memiliki distribusi yang sama. Ini membuat pemodelan tingkat positif sejati bahkan lebih sulit. $m_0$

udara
sumber

3

+1 Agaknya "BH" mengacu pada Benjamini-Hochberg . (Itu selalu ide yang baik untuk mengeja akronim, jangan sampai orang salah paham.) Selamat datang di situs kami!

whuber

1

Terima kasih! Juga ya Anda benar, saya mengedit posting saya untuk mencerminkan hal itu.

tayang

4

Seperti yang disarankan oleh @air, prosedur Benjamini-Hochberg (BH) menjamin kontrol FDR. Itu tidak bertujuan memperkirakannya. Karena itu diperlukan asumsi ketergantungan yang lemah antara statistik uji. [1,2]

Metode yang bertujuan memperkirakan FDR [misalnya 3,4,5] memang memerlukan beberapa asumsi pada proses generatif untuk memperkirakannya. Mereka biasanya menganggap statistik uji independen. Mereka juga akan mengasumsikan sesuatu pada distribusi nol dari statistik uji. Berangkat dari distribusi nol ini, bersama dengan asumsi independensi, dengan demikian dapat dikaitkan dengan efek, dan FDR dapat diperkirakan.

Perhatikan bahwa ide-ide ini muncul kembali dalam literatur deteksi kebaruan yang semi-diawasi. [6].

[1] Benjamini, Y., dan Y. Hochberg. "Mengontrol Tingkat Penemuan Salah: Pendekatan Praktis dan Kuat untuk Pengujian Berganda." SERI MASYARAKAT STATISTIK JURNAL-ROYAL B 57 (1995): 289–289.

[2] Benjamini, Y., dan D. Yekutieli. "Kontrol Tingkat Penemuan Palsu dalam Berbagai Pengujian di bawah Ketergantungan." TAHUNAN STATISTIK 29, no. 4 (2001): 1165-88.

[3] Storey, JD "Pendekatan Langsung ke Tingkat Penemuan Salah." Jurnal The Royal Statistics Society Seri B 64, no. 3 (2002): 479–98. doi: 10.1111 / 1467-9868.00346.

[4] Efron, B. "Microarray, Bayes Empiris dan Model Dua-Grup." Ilmu Statistik 23, no. 1 (2008): 1-22.

[5] Jin, Jiashun, dan T. Tony Cai. "Memperkirakan Null dan Proporsi Efek Nonnull dalam Berbagai Perbandingan Skala Besar." Jurnal Asosiasi Statistik Amerika 102, no. 478 (1 Juni 2007): 495–506. doi: 10.1198 / 016214507000000167.

[6] Claesen, Marc, Jesse Davis, Frank De Smet, dan Bart De Moor. "Menilai Pengklasifikasi Biner Hanya Menggunakan Data Positif dan Tidak Berlabel." arXiv: 1504.06837 [cs, Stat], 26 April 2015. http://arxiv.org/abs/1504.06837 .

JohnRos
sumber

1

+1 meskipun poin utama saya dari paragraf itu adalah bahwa prosedur BH benar - benar menyarankan cara memperkirakan FDR (meskipun sedikit konservatif) dan pada kenyataannya tidak memperkirakannya untuk sampai pada ambang penolakan akhir. Definisi algoritmiknya sebagai prosedur peningkatan dalam referensi [1] mengaburkan ini, tetapi pada akhirnya estimasi FDR adalah persis seperti yang dilakukan prosedur BH !! (Efron sering mengemukakan hal itu, tetapi juga melihat Bagian 4. "Koneksi antara kedua pendekatan" dalam referensi Anda [3].)

air

2

Anda benar bahwa setelah [3, Persamaan 2.5], seseorang dapat melihat prosedur BH menggunakan estimasi konservatif FDR dengan .

p_{0} = 1

$p_0=1$

JohnRos

0

Ketika model mendasar yang sebenarnya tidak diketahui, kami tidak dapat menghitung FDR, tetapi dapat memperkirakan nilai FDR dengan uji permutasi . Pada dasarnya prosedur tes permutasi hanya melakukan tes hipotesis beberapa kali dengan mengubah vektor variabel hasil dengan permutasi. Ini juga dapat dilakukan berdasarkan permutasi sampel, tetapi tidak umum seperti yang sebelumnya.

Makalah di sini meninjau prosedur permutasi standar untuk estimasi FDR, dan juga mengusulkan estimator FDR baru. Seharusnya bisa menjawab pertanyaan Anda.

Aaron Zeng
sumber

3

Prosedur yang paling umum seperti BH tidak menggunakan tes permutasi. Apa yang digunakan? Selain itu, tes permutasi biasanya menyediakan distribusi di bawah nol, bukankah estimasi FDR memerlukan model dari nol dan alternatif serta proporsi relatif yang mendasari masing-masing?

user4733

Pertama, prosedur BH adalah cara untuk mengontrol FDR pada tingkat yang diberikan . Ini bukan tentang memperkirakan FDR. Kedua, tes permutasi dilakukan di bawah nol dari semua hipotesis. Saya tidak yakin apa yang Anda maksud dengan "memerlukan model baik dari nol dan alternatif serta proporsi relatif yang mendasari masing-masing". Tetapi ketika Anda membuat hipotesis Anda, Anda sudah memiliki pasangan nol dan alternatif. Apakah ini masuk akal?

q

$q$

Aaron Zeng

Bagaimana prosedur FDR memperkirakan Tingkat Penemuan Palsu tanpa model tarif dasar?

Jawaban: