Saya punya dataset dengan format berikut.
Ada kanker hasil biner / tidak ada kanker. Setiap dokter dalam dataset telah melihat setiap pasien dan memberikan penilaian independen pada apakah pasien menderita kanker atau tidak. Para dokter kemudian memberikan tingkat kepercayaan mereka dari 5 bahwa diagnosis mereka benar, dan tingkat kepercayaan ditampilkan dalam tanda kurung.
Saya telah mencoba berbagai cara untuk mendapatkan perkiraan yang baik dari dataset ini.
Ini bekerja cukup baik bagi saya untuk rata-rata di seluruh dokter, mengabaikan tingkat kepercayaan mereka. Dalam tabel di atas yang akan menghasilkan diagnosa yang benar untuk Pasien 1 dan Pasien 2, walaupun itu akan salah mengatakan bahwa Pasien 3 menderita kanker, karena oleh mayoritas 2-1 para dokter berpikir Pasien 3 menderita kanker.
Saya juga mencoba metode di mana kami secara acak mengambil sampel dua dokter, dan jika mereka tidak setuju satu sama lain, maka suara yang diputuskan pergi ke dokter mana pun yang lebih percaya diri. Metode itu ekonomis karena kita tidak perlu berkonsultasi dengan banyak dokter, tetapi metode ini juga sedikit meningkatkan tingkat kesalahan.
Saya mencoba metode terkait di mana kami secara acak memilih dua dokter, dan jika mereka tidak setuju satu sama lain, kami secara acak memilih dua dokter lagi. Jika satu diagnosis didahului oleh setidaknya dua 'suara' maka kami menyelesaikan hal-hal yang mendukung diagnosis itu. Jika tidak, kami terus mengambil sampel lebih banyak dokter. Metode ini cukup ekonomis dan tidak membuat banyak kesalahan.
Saya tidak dapat menahan perasaan bahwa saya kehilangan beberapa cara yang lebih canggih dalam melakukan sesuatu. Sebagai contoh, saya bertanya-tanya apakah ada beberapa cara saya bisa membagi dataset menjadi set pelatihan dan tes, dan mencari beberapa cara optimal untuk menggabungkan diagnosis, dan kemudian melihat bagaimana bobot tersebut dilakukan pada set tes. Salah satu kemungkinan adalah semacam metode yang memungkinkan saya menurunkan berat badan dokter yang terus membuat kesalahan pada set uji coba, dan mungkin diagnosa berat badan yang dibuat dengan keyakinan tinggi (kepercayaan tidak berkorelasi dengan akurasi dalam dataset ini).
Saya punya berbagai dataset yang cocok dengan deskripsi umum ini, sehingga ukuran sampel bervariasi dan tidak semua dataset terkait dengan dokter / pasien. Namun, dalam dataset khusus ini ada 40 dokter, yang masing-masing melihat 108 pasien.
EDIT: Berikut adalah tautan ke beberapa bobot yang dihasilkan dari pembacaan saya atas jawaban @ jeremy-miles.
Hasil tidak tertimbang ada di kolom pertama. Sebenarnya dalam dataset ini nilai kepercayaan maksimum adalah 4, bukan 5 seperti yang saya katakan sebelumnya. Jadi dengan mengikuti pendekatan @ jeremy-miles, skor terbobot tertinggi yang bisa didapatkan oleh pasien adalah 7. Itu berarti bahwa setiap dokter menyatakan dengan tingkat kepercayaan 4 bahwa pasien tersebut menderita kanker. Skor tidak tertimbang terendah yang dapat diperoleh pasien adalah 0, yang berarti bahwa setiap dokter menyatakan dengan tingkat kepercayaan 4 bahwa pasien tersebut tidak menderita kanker.
Pembobotan oleh Cronbach's Alpha. Saya menemukan di SPSS bahwa ada keseluruhan Cronbach's Alpha 0,9807. Saya mencoba memverifikasi bahwa nilai ini benar dengan menghitung Cronbach's Alpha secara lebih manual. Saya membuat matriks kovarians dari 40 dokter, yang saya tempelkan di sini . Kemudian berdasarkan pada pemahaman saya tentang rumus Alpha Cronbach di manaadalah jumlah item (di sini para dokter adalah 'item') saya menghitung dengan menjumlahkan semua elemen diagonal dalam matriks kovarians, dandengan menjumlahkan semua elemen dalam matriks kovarians. Saya kemudian mendapatSaya kemudian menghitung 40 hasil Cronbach Alpha yang berbeda yang akan terjadi ketika setiap dokter dikeluarkan dari dataset. Saya menimbang dokter mana pun yang berkontribusi negatif terhadap Cronbach's Alpha di nol. Saya menemukan bobot untuk dokter yang tersisa sebanding dengan kontribusi positif mereka terhadap Cronbach's Alpha.
Bobot berdasarkan Korelasi Total Item. Saya menghitung semua Korelasi Total Item, dan kemudian bobot setiap dokter sebanding dengan ukuran korelasinya.
Bobot dengan Koefisien Regresi.
Satu hal yang saya masih tidak yakin tentang bagaimana mengatakan metode mana yang bekerja "lebih baik" daripada yang lain. Sebelumnya saya telah menghitung hal-hal seperti Skor Keterampilan Peirce, yang sesuai untuk contoh di mana ada prediksi biner dan hasil biner. Namun, sekarang saya memiliki perkiraan mulai dari 0 hingga 7 bukannya 0 hingga 1. Haruskah saya mengonversi semua skor tertimbang> 3,50 ke 1, dan semua skor tertimbang <3,50 ke 0?
sumber
No Cancer (3)
adalahCancer (2)
? Itu akan sedikit menyederhanakan masalah Anda.Cancer (4)
hingga prediksi tidak ada kanker dengan kepercayaan maksimalNo Cancer (4)
. Kita tidak bisa mengatakan ituNo Cancer (3)
danCancer (2)
itu sama, tetapi kita bisa mengatakan ada sebuah kontinum, dan titik tengah dalam kontinum ini adalahCancer (1)
danNo Cancer (1)
.Jawaban:
Pertama, saya akan melihat apakah para dokter sepakat satu sama lain. Anda tidak dapat menganalisis 50 dokter secara terpisah, karena Anda akan mengenakan model yang sesuai - kebetulan seorang dokter akan terlihat hebat.
Anda mungkin mencoba menggabungkan kepercayaan diri dan diagnosis ke dalam skala 10 poin. Jika seorang dokter mengatakan bahwa pasien tidak memiliki kanker, dan mereka sangat percaya diri, itu adalah 0. Jika dokter mengatakan mereka menderita kanker dan mereka sangat percaya diri, itu adalah 9. Jika mereka dokter mengatakan mereka tidak, dan tidak percaya diri, itu 5, dll.
Ketika Anda mencoba untuk memprediksi, Anda melakukan semacam analisis regresi, tetapi berpikir tentang urutan kausal dari variabel-variabel ini, itu sebaliknya. Apakah pasien menderita kanker adalah penyebab diagnosis, hasilnya adalah diagnosis.
Baris Anda haruslah pasien, dan kolom Anda haruslah dokter. Anda sekarang memiliki situasi yang umum dalam psikometrik (itulah sebabnya saya menambahkan tag).
Kemudian lihat hubungan antar skor. Setiap pasien memiliki skor rata-rata, dan skor dari masing-masing dokter. Apakah skor rata-rata berkorelasi positif dengan skor setiap dokter? Jika tidak, dokter itu mungkin tidak dapat dipercaya (ini disebut korelasi item-total). Kadang-kadang Anda menghapus satu dokter dari skor total (atau skor rata-rata) dan melihat apakah dokter itu berkorelasi dengan rata-rata semua dokter lain - ini adalah total korelasi item yang dikoreksi.
Anda dapat menghitung alpha Cronbach (yang merupakan bentuk korelasi intra-kelas), dan alpha tanpa masing-masing dokter. Alpha harus selalu naik ketika Anda menambahkan dokter, jadi jika naik ketika Anda menghapus dokter, peringkat dokter itu dicurigai (ini tidak sering memberi tahu Anda sesuatu yang berbeda dari korelasi total barang yang dikoreksi).
Jika Anda menggunakan R, hal semacam ini tersedia dalam paket psik, menggunakan fungsi alpha. Jika Anda menggunakan Stata, perintahnya adalah alpha, di SAS itu proc proc, dan di SPSS itu dalam skala, reliabilitas.
Kemudian Anda dapat menghitung skor, sebagai skor rata-rata dari masing-masing dokter, atau rata-rata tertimbang (terbobot oleh korelasi) dan melihat apakah skor tersebut merupakan prediksi dari diagnosis yang sebenarnya.
Atau Anda dapat melewati tahap itu, dan mundur setiap skor dokter pada diagnosis secara terpisah, dan memperlakukan parameter regresi sebagai bobot.
Jangan ragu untuk meminta klarifikasi, dan jika Anda ingin buku, saya suka Streiner dan "Skala Pengukuran Kesehatan" Norman.
-Edit: berdasarkan info tambahan OPs.
Wow, itu sih alfa Cronbach. Satu-satunya saat aku melihatnya setinggi itu adalah ketika terjadi kesalahan.
Sekarang saya akan melakukan regresi logistik dan melihat kurva ROC.
Perbedaan antara pembobotan dengan regresi dan korelasi tergantung pada bagaimana Anda percaya dokter merespons. Beberapa dokumen mungkin secara umum lebih percaya diri (tanpa lebih terampil), dan karenanya mereka mungkin menggunakan rentang ekstrim lebih banyak. Jika Anda ingin memperbaikinya, gunakan korelasi, daripada regresi, lakukan itu. Saya mungkin akan mempertimbangkan regresi, karena ini menyimpan data asli (dan tidak membuang informasi apa pun).
Sunting (2): Saya menjalankan model regresi logistik di R untuk melihat seberapa baik masing-masing memprediksi output. tl / dr: tidak ada di antara mereka.
Ini kode saya:
Dan hasilnya:
sumber
Dua saran di luar kotak:
sumber
P
= kemungkinan menjadi kanker yang diberikan oleh dokter, kemudian (dengan notasi python):y=[1 if p >= 0.5 else 0 for p in P]
danw=[abs(p-0.5)*2 for p in P]
. Kemudian latih modelnya:LogisticRegression().
fit
(X,y,w)
(Ini di luar bidang keahlian saya, jadi jawaban oleh Jeremy Miles mungkin lebih dapat diandalkan.)
Ini satu ide.
0^0=1
0^0=NaN
sumber
No Cancer (3) = Cancer (2)
No Cancer (3) = Cancer (3)
Dari pertanyaan Anda, tampaknya yang ingin Anda uji adalah sistem pengukuran Anda. Dalam ranah rekayasa proses, ini akan menjadi analisis sistem pengukuran atribut atau MSA.
Tautan ini memberikan beberapa informasi bermanfaat tentang ukuran sampel yang dibutuhkan dan perhitungan berjalan untuk melakukan studi jenis ini. https://www.isixsigma.com/tools-templates/measurement-systems-analysis-msa-gage-rr/making-sense-attribute-gage-rr-cculations/
Dengan penelitian ini, Anda juga perlu dokter untuk mendiagnosis pasien yang sama dengan informasi yang sama setidaknya dua kali.
Anda dapat melakukan studi ini dengan satu dari dua cara. Anda dapat menggunakan kanker sederhana / tidak ada peringkat kanker untuk menentukan kesepakatan antara dokter dan oleh masing-masing dokter. Idealnya, mereka juga harus dapat mendiagnosis dengan tingkat kepercayaan yang sama. Anda kemudian dapat menggunakan skala 10 poin penuh untuk menguji perjanjian antara dan oleh masing-masing dokter. (Semua orang harus setuju bahwa kanker (5) adalah peringkat yang sama, bahwa tidak ada kanker (1) adalah peringkat yang sama, & c.)
Perhitungan di situs web tertaut mudah dilakukan di platform apa pun yang mungkin Anda gunakan untuk pengujian.
sumber