Pertama izinkan saya mengatakan bahwa saya memiliki satu kursus statistik di sekolah teknik 38 tahun yang lalu. Jadi saya buta di sini.
Saya mendapatkan hasil dari 18 tes diagnostik terpisah untuk suatu penyakit. Setiap tes adalah biner - ya / tidak, tanpa ambang batas yang dapat disesuaikan untuk "menyetel" tes. Untuk setiap tes saya memiliki data yang benar-benar valid pada benar / salah positif / negatif bila dibandingkan dengan "standar emas", menghasilkan angka spesifisitas dan sensitivitas (dan apa pun yang dapat Anda peroleh dari data itu).
Tentu saja, tidak ada tes tunggal yang memiliki spesifisitas / sensitivitas yang cukup untuk digunakan sendiri, dan ketika Anda "mengamati" hasil semua tes, seringkali tidak ada tren yang jelas.
Saya bertanya-tanya apa cara terbaik untuk menggabungkan angka-angka ini dengan cara yang akan menghasilkan skor akhir yang (semoga) lebih dapat diandalkan daripada tes tunggal. Sejauh ini saya telah menemukan teknik menggabungkan spesifisitas tes TRUE
spec_combined = 1 - (1 - spec_1) * (1 - spec_2) * ... (1 - spec_N)
dan menggabungkan sensitivitas tes FALSE dengan cara yang sama. Rasio
(1 - sens_combined) / (1 - spec_combined)
kemudian tampaknya menghasilkan "skor akhir" yang cukup baik, dengan nilai di atas 10 atau lebih sebagai TRUE yang dapat diandalkan dan nilai di bawah 0,1 atau lebih menjadi FALSE yang andal.
Tetapi skema ini tidak memiliki ketelitian yang sebenarnya, dan untuk beberapa kombinasi hasil pengujian tampaknya menghasilkan jawaban yang kontra-intuitif.
Apakah ada cara yang lebih baik untuk menggabungkan hasil tes dari beberapa tes, mengingat spesifisitas dan sensitivitasnya? (Beberapa tes memiliki spesifisitas 85 dan sensitivitas 15, tes lain justru sebaliknya.)
OK, kepalaku sakit!
Katakanlah saya mendapat tes 1-4 dengan sensitivitas / spesifisitas (dalam%):
- 65/50
- 25/70
- 30/60
- 85/35
Tes 1 dan 2 positif, 3 dan 4 negatif.
Peluang diduga bahwa 1 adalah false positive akan menjadi (1 - 0,5), dan untuk 2 (1 - 0,7), sehingga probabilitas bahwa keduanya positif palsu adalah 0,5 x 0,3 = 0,15.
Peluang diduga bahwa 3 dan 4 adalah negatif palsu adalah (1 - 0,3) dan (1 - 0,85) atau 0,7 x 0,15 = 0,105.
(Untuk sementara kami akan mengabaikan fakta bahwa jumlahnya tidak bertambah.)
Tetapi probabilitas yang diduga bahwa 1 dan 2 adalah positif sejati adalah 0,65 dan 0,25 = 0,1625, sedangkan probabilitas yang diduga bahwa 3 dan 4 adalah negatif sejati adalah 0,6 dan 0,35 = 0,21.
Sekarang kita dapat mengajukan dua pertanyaan:
- Mengapa tidak angka menambahkan (atau bahkan datang dekat). (Nomor sens / spec yang saya gunakan berasal dari "kehidupan nyata".)
- Bagaimana saya harus memutuskan hipotesis mana yang (kemungkinan besar) benar (dalam contoh ini tampaknya menjadi "negatif" untuk kedua kalori, tapi saya tidak yakin itu selalu terjadi), dan apa yang dapat saya gunakan untuk "angka prestasi" "memutuskan apakah hasilnya" signifikan "?
Info lebih lanjut
Ini adalah upaya untuk memperbaiki dan memperluas skema "pembobotan" yang ada yang sepenuhnya "artistik" di alam (yaitu, baru saja dikeluarkan dari **). Skema saat ini pada dasarnya ada di baris "Jika ada dua dari tiga yang pertama positif, dan jika dua dari empat berikutnya, dan salah satu dari dua berikutnya, maka anggap positif." (Itu contoh yang agak disederhanakan, tentu saja.) Statistik yang tersedia tidak mendukung skema pembobotan itu - bahkan dengan algoritma pembobotan mentah berdasarkan statistik yang diukur, saya menghasilkan jawaban yang sangat berbeda. Tapi, tidak ada cara yang ketat untuk mengevaluasi statistik saya tidak memiliki kredibilitas.
Juga, skema saat ini hanya memutuskan positif / negatif, dan saya perlu membuat kasus "ambigu" (secara statistik valid) di tengah, sehingga beberapa angka jasa diperlukan.
Terbaru
Saya telah menerapkan algoritma inferensi Bayesian yang lebih-atau-kurang "murni", dan, setelah berputar-putar pada beberapa masalah sampingan, tampaknya berfungsi cukup baik. Alih-alih bekerja dari spesifisitas dan sensitivitas, saya memperoleh input formula langsung dari angka positif positif / false positif. Sayangnya, ini berarti saya tidak dapat menggunakan beberapa data berkualitas lebih baik yang tidak disajikan dengan cara yang memungkinkan angka-angka ini diekstraksi, tetapi algoritmenya jauh lebih bersih, memungkinkan modifikasi input dengan perhitungan tangan yang jauh lebih sedikit, dan sepertinya cukup stabil dan hasilnya cocok dengan "intuisi" dengan cukup baik.
Saya juga datang dengan "algoritma" (dalam arti pemrograman murni) untuk menangani interaksi antara pengamatan saling tergantung. Pada dasarnya, alih-alih mencari formula penyapuan, sebagai gantinya saya menyimpan pengganda probabilitas marjinal untuk setiap pengamatan yang dimodifikasi saat pengamatan sebelumnya diproses, berdasarkan tabel sederhana - "Jika pengamatan A benar, maka modifikasi probabilitas marginal B pengamatan dengan faktor 1,2 ", mis. Tidak elegan, dengan cara apa pun, tetapi bisa diservis, dan tampaknya cukup stabil di berbagai input.
(Saya akan memberikan hadiah kepada apa yang saya anggap sebagai pos paling membantu dalam beberapa jam, jadi jika ada yang ingin mendapatkan beberapa jilatan, silakan saja.)
sumber
Jawaban:
"Saya bertanya-tanya apa cara terbaik untuk menggabungkan angka-angka ini dengan cara yang akan menghasilkan skor akhir yang (semoga) lebih dapat diandalkan daripada tes tunggal." Cara yang sangat umum adalah dengan menghitung alpha Cronbach dan, secara lebih umum, untuk melakukan apa yang oleh beberapa orang disebut analisis reliabilitas "standar". Ini akan menunjukkan sejauh mana skor yang diberikan berkorelasi dengan rata-rata dari 17 skor lainnya; skor tes mana yang paling baik dijatuhkan dari skala; dan apa reliabilitas konsistensi internal baik dengan semua 18 dan dengan subset yang diberikan. Sekarang, beberapa komentar Anda tampaknya mengindikasikan bahwa banyak dari 18 ini tidak saling berhubungan; jika itu benar, Anda mungkin berakhir dengan skala yang hanya terdiri dari beberapa tes.
EDIT SETELAH KOMENTAR: Pendekatan lain mengacu pada gagasan bahwa ada tradeoff antara konsistensi internal dan validitas. Semakin sedikit korelasi pengujian Anda, semakin baik cakupan kontennya, yang meningkatkan validitas konten (jika bukan keandalan). Jadi dengan berpikir seperti ini Anda akan mengabaikan alpha Cronbach dan indikator terkait dari korelasi total barang dan alih-alih menggunakan alasan apriori untuk menggabungkan 18 tes ke dalam skala. Semoga skala seperti itu akan sangat berkorelasi dengan standar emas Anda.
sumber
Untuk sedikit menyederhanakan, anggaplah Anda hanya memiliki dua tes diagnostik. Anda ingin menghitung
Anda menyarankan bahwa hasil tes ini independen, tergantung pada orang yang memiliki penyakit. Jika demikian, maka
Di mana adalah sensitivitas Tes .Pr(Ti∣Disease) i
Dimana
dan adalah untuk Test .Pr(Ti∣No Disease) 1−specificity i
sumber