Saya memiliki mesin prototipe yang memproduksi komponen.
Dalam pengujian pertama mesin menghasilkan bagian dan classifier biner memberitahu saya bahwa bagian rusak ( , biasanya dan ) dan bagian baik.
Kemudian teknisi membuat beberapa perubahan pada mesin untuk mengurangi jumlah bagian yang rusak.
Dalam pengujian kedua dan selanjutnya, mesin yang dimodifikasi menghasilkan bagian dan klasifikasi biner yang sama (tidak tersentuh) memberi tahu saya bahwa bagian rusak, toh sangat mirip dengan .
Teknisi ingin mengetahui apakah perubahannya efektif.
Dengan asumsi bahwa pengklasifikasi sempurna (sensitivitasnya adalah 100% dan spesifisitasnya adalah 100%), saya dapat melakukan tes untuk proporsi (dengan R, saya ketik saja prop.test(c(d1,d2),c(N1,N2))
).
Tetapi classifiernya tidak sempurna, jadi bagaimana saya bisa memperhitungkan sensitivitas dan spesifisitas, keduanya tidak diketahui, dari classifier untuk menjawab dengan benar teknisi tersebut?
sumber
Jawaban:
Jadi saya mendapatkan ini dari prinsip pertama, dan dengan demikian saya tidak yakin itu benar. Inilah pikiran saya:
EDIT: Ini tidak benar sebelumnya. Saya telah memperbaruinya.
Mari kita biarkan menunjukkan perbedaan yang diharapkan antara jumlah aktual positif sebenarnya dan jumlah keluaran oleh pengelompokan biner yang akan kita panggil . Anda dapat mengukur ini dengan menjalankan penggolong Anda pada set dengan label yang dikenal. Kurangi jumlah positif aktual dari jumlah positif yang dihasilkan oleh pengklasifikasi, dan kemudian bagi dengan untuk mendapatkan .α d1 d1^ N α
Jadi, estimasi titik untuk rasio aktual dari bagian yang rusak diberikan oleh: . Artinya, jumlah yang diamati bagian cacat, kurang jumlah positif palsu yang diharapkan, ditambah jumlah negatif palsu yang diharapkan.d1N1^=d1+α∗N1N1
Demikian pula,d2N2^=d2+α∗N2N2
Jadi, sekarang mari kita lakukan tes prop. Dalam uji prop standar, pertama-tama kita menghitung rasio gabungan yang digunakan sebagai nilai nol: . Jadi di sini, kami memasukkan perkiraan titik kami dari dan untuk mendapatkan:p=p1∗N1+p2∗N2N1+N2 d1N1^ d2N2^ p=d1+d2+α∗(N1+N2)N1+N2
Dan kemudian kesalahan standar seperti biasa:p∗(1−p)∗(1N1+1N2)−−−−−−−−−−−−−−−−−−√
Dan statistik pengujiannya sama:z=d1N1−d2N2se
Beberapa pemikiran tentang interpretasi:
Model dapat menghasilkan nilai imajiner untuk kesalahan standar. Ini akan terjadi ketika , yang akan menjadi kasus ketika jumlah kesalahan yang kami harapkan pengklasifikasi untuk menghasilkan melebihi jumlah yang kami amati. Sebagai contoh, misalkan kita mengharapkan classifier kita untuk menghasilkan rata-rata 5 positif bahkan ketika diberi sampel yang tidak mengandung positif. Jika kita mengamati 4 positif, maka seolah-olah tidak ada sinyal: Hasil kami tidak dapat dibedakan dari kebisingan yang dihasilkan oleh penggolong. Dalam hal ini, saya kira kita seharusnya tidak menolak hipotesis nol.p<0
Cara lain untuk berpikir tentang hal ini adalah bahwa, jika jumlah bagian yang rusak berada dalam margin of error untuk pengklasifikasi maka tentu saja kita tidak dapat mengatakan apakah ada perbedaan: kita bahkan tidak dapat mengetahui apakah ada bagian yang rusak!
Menggabungkan kesalahan dalam estimasi :α
Misalkan kita ingin menghitung interval kepercayaan dengan keyakinan .h
Catatan: Dalam contoh di atas saya mengasumsikan tes 1 sisi. Anda membagi h dengan 2 untuk memperhitungkan fakta bahwa Anda menguji dua hipotesis independen ( berada dalam interval yang Anda pikirkan dan statistik uji menjadi perbedaan yang signifikan). Jika Anda ingin melakukan tes dua sisi, bagilah dengan 4 sebagai gantinya.α
sumber
prop.test(7,100)