Pertanyaan ini adalah tentang memperkirakan skor cut-off pada kuesioner skrining multi-dimensi untuk memprediksi titik akhir biner, dengan adanya skala berkorelasi.
Saya ditanya tentang minat mengendalikan subskala terkait ketika menyusun skor batas pada setiap dimensi skala pengukuran (ciri-ciri kepribadian) yang mungkin digunakan untuk penyaringan alkoholisme. Artinya, dalam kasus khusus ini, orang tersebut tidak tertarik untuk menyesuaikan pada kovariat eksternal (prediktor) - yang mengarah ke area (sebagian) di bawah kurva ROC yang disesuaikan dengan kovariat, mis. (1-2) - tetapi pada dasarnya pada skor lain dari kuesioner yang sama karena mereka berkorelasi satu sama lain (misalnya "impulsif" dengan "pencarian sensasi"). Jumlahnya sama dengan membangun GLM yang mencakup skor skor minat (di sisi kiri kita cari) dan skor lain dihitung dari kuesioner yang sama, sementara di sisi kanan hasilnya mungkin status minum.
Untuk memperjelas (per @robin permintaan), misalkan kita memiliki skor, mengatakan x j (misalnya, kecemasan, impulsif, neurotisisme, sensasi mencari), dan kami ingin mencari cut-off nilai t j (yaitu "kasus positif "jika x j > t j ," case negatif "sebaliknya) untuk masing-masing. Kami biasanya menyesuaikan faktor-faktor risiko lain seperti jenis kelamin atau usia ketika merancang cut-off tersebut (menggunakan analisis kurva ROC). Sekarang, bagaimana dengan menyesuaikan impulsif (IMP) pada jenis kelamin, usia, dan pencarian sensasi (SS) karena SS diketahui berkorelasi dengan IMP? Dengan kata lain, kita akan memiliki nilai cut-off untuk IMP di mana efek usia, jenis kelamin dan tingkat kecemasan dihilangkan.
Selain mengatakan bahwa cut-off harus tetap sesederhana mungkin, respons saya adalah
Tentang kovariat, saya akan merekomendasikan memperkirakan AUC dengan dan tanpa penyesuaian, hanya untuk melihat apakah kinerja prediksi meningkat. Di sini, kovariat Anda hanyalah subskala lain yang ditentukan dari instrumen pengukuran yang sama dan saya tidak pernah menghadapi situasi seperti itu (biasanya, saya menyesuaikan faktor-faktor risiko yang diketahui, seperti Usia atau Jenis Kelamin). [...] Juga, karena Anda tertarik pada masalah prognostik (yaitu efektivitas skrining kuesioner), Anda mungkin juga tertarik untuk memperkirakan nilai prediksi positif (PPV, probabilitas pasien dengan hasil tes positif yang diklasifikasikan dengan benar) asalkan Anda dapat mengklasifikasikan subjek sebagai "positif" atau "negatif" tergantung pada subskala mereka pada kuesioner Anda. Perhatikan, bagaimanapun,
Apakah Anda memiliki pemahaman yang lebih menyeluruh tentang situasi khusus ini, dengan tautan ke makalah terkait bila memungkinkan?
Referensi
- Janes, H dan Pepe, MS (2008). Menyesuaikan untuk Kovariat dalam Studi Diagnostik, Screening, atau Penanda Prognostik: Sebuah Konsep Lama dalam Pengaturan Baru . American Journal of Epidemiology , 168 (1): 89-97.
- Janes, H dan Pepe, MS (2008). Mengakomodasi Kovariat dalam Analisis ROC . Seri Kertas Kerja Biostatistik UW , Kertas 322.
sumber
Jawaban:
Cara Anda membayangkan analisis itu sebenarnya bukan cara yang saya sarankan agar Anda mulai memikirkannya. Pertama-tama mudah untuk menunjukkan bahwa jika cutoff harus digunakan, cutoff tidak diterapkan pada fitur individual tetapi pada probabilitas prediksi keseluruhan. Cutoff optimal untuk kovariat tunggal tergantung pada semua level kovariat lainnya; itu tidak bisa konstan. Kedua, kurva ROC tidak berperan dalam memenuhi tujuan membuat keputusan yang optimal untuk subjek individu .
Untuk menangani skala berkorelasi ada banyak teknik reduksi data yang dapat membantu. Salah satunya adalah analisis redundansi formal di mana setiap prediktor diprediksi secara nonlinier dari semua prediktor lain, pada gilirannya. Ini diimplementasikan dalam
redun
fungsi dalamHmisc
paket R. Pengelompokan variabel, analisis komponen utama, dan analisis faktor adalah kemungkinan lain. Tetapi bagian utama dari analisis, dalam pandangan saya, harus membangun model probabilitas yang baik (misalnya, model logistik biner).sumber
Poin dari artikel Janes, Pepe tentang kurva ROC yang disesuaikan dengan kovariat memungkinkan interpretasi yang lebih fleksibel dari perkiraan nilai kurva ROC. Ini adalah metode stratifikasi kurva ROC di antara kelompok-kelompok tertentu dalam populasi yang diminati. Perkiraan fraksi positif sejati (TPF; persamaan sensitivitas) dan fraksi negatif sejati (TNF; spesifisitas spesifik) ditafsirkan sebagai "probabilitas hasil skrining yang benar mengingat status penyakit adalah Y / N di antara individu-individu yang sama [variabel yang disesuaikan] daftar]". Sepintas, sepertinya yang Anda coba lakukan adalah meningkatkan tes diagnostik Anda dengan memasukkan lebih banyak spidol ke dalam panel Anda.
Latar belakang yang baik untuk memahami metode ini sedikit lebih baik adalah membaca tentang model bahaya proporsional Cox dan melihat buku Pepe tentang "Evaluasi Statistik Tes Medis untuk Klasifikasi dan ...". Anda akan melihat penyaringan ukuran keandalan berbagi banyak properti serupa dengan kurva survival, menganggap skor yang dipasang sebagai waktu survival. Sama seperti model Cox memungkinkan untuk stratifikasi kurva kelangsungan hidup, mereka mengusulkan memberikan langkah-langkah keandalan bertingkat.
Alasan ini penting bagi kami mungkin dibenarkan dalam konteks model efek campuran biner: misalkan Anda tertarik untuk memprediksi risiko menjadi pecandu met. SES memiliki efek mendominasi yang jelas pada hal ini sehingga tampaknya bodoh untuk mengevaluasi tes diagnostik, yang mungkin didasarkan pada perilaku pribadi, tanpa cara membuat stratifikasi. Ini karena [hanya roll dengan ini], bahkan jika orang kaya menunjukkan gejala manik dan depresi, mereka mungkin tidak akan pernah mencoba meth. Namun, orang miskin akan menunjukkan peningkatan risiko yang jauh lebih besar dengan gejala psikologis (dan skor risiko yang lebih tinggi). Analisis risiko yang kasar akan menunjukkan kinerja yang sangat buruk dari model prediksi Anda karena perbedaan yang sama dalam dua kelompok tidak dapat diandalkan. Namun, jika Anda bertingkat (kaya versus miskin),
Titik penyesuaian kovariat adalah untuk mempertimbangkan kelompok yang berbeda homogen karena prevalensi yang lebih rendah dan interaksi dalam model risiko antara strata yang berbeda.
sumber