Uji proporsi dan klasifikasi biner

10

Saya memiliki mesin prototipe yang memproduksi komponen.

Dalam pengujian pertama mesin menghasilkan bagian dan classifier biner memberitahu saya bahwa bagian rusak ( , biasanya dan ) dan bagian baik.N1d1d1<N1d1/N1<0.01N1104N1d1

Kemudian teknisi membuat beberapa perubahan pada mesin untuk mengurangi jumlah bagian yang rusak.

Dalam pengujian kedua dan selanjutnya, mesin yang dimodifikasi menghasilkan bagian dan klasifikasi biner yang sama (tidak tersentuh) memberi tahu saya bahwa bagian rusak, toh sangat mirip dengan .N2d2d2/N2d1/N1

Teknisi ingin mengetahui apakah perubahannya efektif.

Dengan asumsi bahwa pengklasifikasi sempurna (sensitivitasnya adalah 100% dan spesifisitasnya adalah 100%), saya dapat melakukan tes untuk proporsi (dengan R, saya ketik saja prop.test(c(d1,d2),c(N1,N2))).

Tetapi classifiernya tidak sempurna, jadi bagaimana saya bisa memperhitungkan sensitivitas dan spesifisitas, keduanya tidak diketahui, dari classifier untuk menjawab dengan benar teknisi tersebut?

Alessandro Jacopson
sumber
Bisakah Anda mengkonfirmasi tingkat akurasi classifier?
Michelle
@Michelle Saya tahu tanpa kesalahan dan tapi saya tidak tahu berapa banyak bagian yang rusak yang diklasifikasikan dengan baik. d1d2
Alessandro Jacopson
Halo lagi. Bisakah Anda melakukan sampel acak bagian yang baik dari N1 dan N2, secara terpisah, untuk memperkirakan tingkat positif palsu?
Michelle
1
Dengan informasi ini, dapatkah Anda menggunakan metode ini untuk membandingkan perubahan? onlinelibrary.wiley.com/doi/10.1002/sim.906/abstract juga lihat di sini ncbi.nlm.nih.gov/pubmed/18224558 dan gagasan lain di sini, teks lengkap: stat.colostate.edu/ ~ bradb
Michelle
2
(+1) ini pertanyaan yang bagus!
steffen

Jawaban:

4

Jadi saya mendapatkan ini dari prinsip pertama, dan dengan demikian saya tidak yakin itu benar. Inilah pikiran saya:

EDIT: Ini tidak benar sebelumnya. Saya telah memperbaruinya.

  1. Mari kita biarkan menunjukkan perbedaan yang diharapkan antara jumlah aktual positif sebenarnya dan jumlah keluaran oleh pengelompokan biner yang akan kita panggil . Anda dapat mengukur ini dengan menjalankan penggolong Anda pada set dengan label yang dikenal. Kurangi jumlah positif aktual dari jumlah positif yang dihasilkan oleh pengklasifikasi, dan kemudian bagi dengan untuk mendapatkan .αd1d1^Nα

  2. Jadi, estimasi titik untuk rasio aktual dari bagian yang rusak diberikan oleh: . Artinya, jumlah yang diamati bagian cacat, kurang jumlah positif palsu yang diharapkan, ditambah jumlah negatif palsu yang diharapkan.d1N1^=d1+αN1N1

  3. Demikian pula,d2N2^=d2+αN2N2

  4. Jadi, sekarang mari kita lakukan tes prop. Dalam uji prop standar, pertama-tama kita menghitung rasio gabungan yang digunakan sebagai nilai nol: . Jadi di sini, kami memasukkan perkiraan titik kami dari dan untuk mendapatkan:p=p1N1+p2N2N1+N2d1N1^d2N2^p=d1+d2+α(N1+N2)N1+N2

  5. Dan kemudian kesalahan standar seperti biasa:p(1p)(1N1+1N2)

  6. Dan statistik pengujiannya sama:z=d1N1d2N2se

Beberapa pemikiran tentang interpretasi:

  • Model dapat menghasilkan nilai imajiner untuk kesalahan standar. Ini akan terjadi ketika , yang akan menjadi kasus ketika jumlah kesalahan yang kami harapkan pengklasifikasi untuk menghasilkan melebihi jumlah yang kami amati. Sebagai contoh, misalkan kita mengharapkan classifier kita untuk menghasilkan rata-rata 5 positif bahkan ketika diberi sampel yang tidak mengandung positif. Jika kita mengamati 4 positif, maka seolah-olah tidak ada sinyal: Hasil kami tidak dapat dibedakan dari kebisingan yang dihasilkan oleh penggolong. Dalam hal ini, saya kira kita seharusnya tidak menolak hipotesis nol.p<0

  • Cara lain untuk berpikir tentang hal ini adalah bahwa, jika jumlah bagian yang rusak berada dalam margin of error untuk pengklasifikasi maka tentu saja kita tidak dapat mengatakan apakah ada perbedaan: kita bahkan tidak dapat mengetahui apakah ada bagian yang rusak!

Menggabungkan kesalahan dalam estimasi :α

  • Saya memikirkan hal ini lagi, dan saya pikir ada beberapa cara Anda bisa melakukan ini, tetapi pada dasarnya Anda ingin mendapatkan perkiraan distribusi . Idealnya Anda akan melakukan pembelian ini dengan mengulangi prosedur Anda untuk mendapatkan estimasi pada sampel data yang representatif yang Anda inginkan untuk menggunakan metode ini. Jika ini tidak memungkinkan, Anda dapat melakukan bootstrap pada satu set data dengan mengambil sampel darinya, meskipun ini tidak ideal kecuali jika single datset Anda mewakili semua set yang Anda pedulikan.αα

Misalkan kita ingin menghitung interval kepercayaan dengan keyakinan .h

  • Hitung interval kepercayaan empiris di atas menggunakan distribusi bootstrapped. Masukkan setiap titik akhir ke dalam proses di atas, gunakan itu sebagai estimasi titik (sangat konservatif atau sangat liberal) untuk dan temukan interval kepercayaan untuk estimasi perbedaan proporsi menggunakan uji prop . Misalkan kita mendapatkan interval ( dan sebagai interval untuk nilai lebih rendah dan lebih tinggi . Maka interval (yang berisi kedua interval sebelumnya) harus menjadi (1-jam) * 100% CI untuk perbedaan dalam proporsi ... Saya pikir ...h2αα lowl,lowr)(highl,highr)α(highl,lowr)h2lowl,lowr)(highl,highr)α(highl,lowr)

Catatan: Dalam contoh di atas saya mengasumsikan tes 1 sisi. Anda membagi h dengan 2 untuk memperhitungkan fakta bahwa Anda menguji dua hipotesis independen ( berada dalam interval yang Anda pikirkan dan statistik uji menjadi perbedaan yang signifikan). Jika Anda ingin melakukan tes dua sisi, bagilah dengan 4 sebagai gantinya.α

John Doucette
sumber
+1, terima kasih. Dalam 6 Anda menulis "statis", maksud Anda "statistik"?
Alessandro Jacopson
Pada poin pertama Anda, Anda menganggap memberikan kesalahan standar imajiner. Bagaimana dengan (yang dapat memberikan kesalahan standar imajiner juga)? Apakah mungkin mendapatkan ? 0 < p < 1 0 < p < 1p<00<p<10<p<1
Alessandro Jacopson
Pada poin kedua Anda, Anda menulis tentang "varian", apa maksud Anda? Pemahaman saya adalah sebagai berikut: katakanlah saya mengambil sampel ukuran dari yang baik dari tes pertama dan menemukan 7 bagian yang rusak, maka jika saya menganggap Saya akan mengabaikan varian apa pun dalam . Di sisi lain saya bisa mendapatkan interval kepercayaan untuk (misalnya dengan R ) dan kemudian memasukkannya ke dalam model. Apakah saya benar? β = 70.01(N1d1)100 βββ=7100ββprop.test(7,100)
Alessandro Jacopson
@uvts_cvs Yap, itu seharusnya "statistik". Saya akan memperbaikinya sebentar lagi. Ada juga kesalahan ketik dalam perhitungan untuk kesalahan standar, yang seharusnya p * (1-p) sebagai gantinya. P harus selalu <1, kecuali mungkin jika classifier Anda benar-benar buruk dan d besar. Untuk komentar ketiga Anda, ya, itulah idenya. Saya hanya tidak yakin bagaimana memasukkan perkiraan itu ke dalam model. Mungkin orang lain di sini tahu?
John Doucette
Terima kasih telah menerima, tapi sejak semalam saya sudah memikirkannya lebih lanjut (pertanyaan yang sangat bagus!), Dan memiliki beberapa ide tentang cara memasukkan varians. Juga, saya menyadari bahwa model ini kurang tepat. Perlu untuk mengalikan dengan jumlah eksemplar negatif dan dengan jumlah eksemplar positif . Saya akan menyelesaikannya dan memperbaruinya nanti. βαβ
John Doucette