Saat ini saya bekerja dengan sejumlah besar data klaim asuransi kesehatan yang mencakup beberapa klaim laboratorium dan farmasi. Namun, informasi paling konsisten dalam kumpulan data terdiri dari diagnosis (ICD-9CM) dan kode prosedur (CPT, HCSPCS, ICD-9CM).
Tujuan saya adalah:
- Identifikasi kondisi prekursor yang paling berpengaruh (komorbiditas) untuk kondisi medis seperti penyakit ginjal kronis;
- Identifikasi kemungkinan (atau kemungkinan) bahwa seorang pasien akan mengembangkan kondisi medis berdasarkan kondisi yang mereka miliki di masa lalu;
- Lakukan hal yang sama seperti 1 dan 2, tetapi dengan prosedur dan / atau diagnosa.
- Lebih disukai, hasilnya akan ditafsirkan oleh dokter
Saya telah melihat hal-hal seperti kertas Warisan Hadiah Kesehatan Heritage dan telah belajar banyak dari mereka, tetapi mereka berfokus pada memprediksi rawat inap.
Jadi inilah pertanyaan saya: Metode apa yang menurut Anda cocok untuk masalah seperti ini? Dan, sumber daya apa yang paling berguna untuk belajar tentang aplikasi sains data dan metode yang relevan dengan perawatan kesehatan dan kedokteran klinis?
EDIT # 2 untuk menambahkan tabel plaintext:
CKD adalah kondisi target, "penyakit ginjal kronis", ".Setiap" menunjukkan bahwa mereka telah memperoleh kondisi itu setiap saat, ".isbefore.ckd" berarti mereka memiliki kondisi itu sebelum diagnosis CKD pertama mereka. Singkatan lainnya sesuai dengan kondisi lain yang diidentifikasi oleh pengelompokan kode ICD-9CM. Pengelompokan ini terjadi dalam SQL selama proses impor. Setiap variabel, dengan pengecualian patient_age, adalah biner.
sumber
Jawaban:
Saya tidak pernah bekerja dengan data medis, tetapi dari alasan umum saya akan mengatakan bahwa hubungan antara variabel dalam perawatan kesehatan cukup rumit. Model yang berbeda, seperti hutan acak, regresi, dll. Hanya dapat menangkap sebagian dari hubungan dan mengabaikan yang lain. Dalam keadaan seperti itu masuk akal untuk menggunakan eksplorasi dan pemodelan statistik umum .
Sebagai contoh, hal pertama yang akan saya lakukan adalah mencari korelasi antara kemungkinan kondisi prekursor dan diagnosa. Misalnya dalam berapa persen kasus penyakit ginjal kronis yang didahului oleh flu panjang? Jika tinggi, itu tidak selalu berarti kausalitas , tetapi memberikan makanan yang cukup baik untuk dipikirkan dan membantu untuk lebih memahami hubungan antara kondisi yang berbeda.
Langkah penting lainnya adalah visualisasi data. Apakah CKD lebih sering terjadi pada pria daripada wanita? Bagaimana dengan tempat tinggal mereka? Apa distribusi kasus CKD berdasarkan usia? Sulit untuk memahami dataset besar sebagai satu set angka, merencanakannya membuatnya lebih mudah.
Ketika Anda memiliki gagasan tentang apa yang sedang terjadi, lakukan pengujian hipotesis untuk memeriksa asumsi Anda. Jika Anda menolak hipotesis nol (asumsi dasar) yang mendukung alternatif satu, selamat, Anda telah membuat "sesuatu yang nyata".
Akhirnya, ketika Anda memiliki pemahaman yang baik tentang data Anda, cobalah untuk membuat model yang lengkap . Mungkin sesuatu yang umum seperti PGM (misalnya jaringan Bayesian yang dibuat secara manual), atau sesuatu yang lebih spesifik seperti regresi linier atau SVM , atau apa pun. Tetapi dengan cara apa pun Anda sudah akan tahu bagaimana model ini sesuai dengan data Anda dan bagaimana Anda bisa mengukur efisiensinya.
Sebagai sumber awal yang baik untuk belajar pendekatan statistik, saya akan merekomendasikan kursus Intro to Statistics oleh Sebastian Thrun. Meskipun cukup mendasar dan tidak termasuk topik lanjutan, ini menjelaskan konsep paling penting dan memberikan pemahaman sistematis tentang teori probabilitas dan statistik.
sumber
Meskipun saya bukan ilmuwan data, saya adalah seorang ahli epidemiologi yang bekerja di lingkungan klinis. Pertanyaan penelitian Anda tidak menentukan periode waktu (yaitu peluang mengembangkan CKD dalam 1 tahun, 10 tahun, seumur hidup?).
Secara umum, saya akan melalui sejumlah langkah sebelum berpikir tentang pemodelan (analisis univariat, analisis bivariat, pemeriksaan kolinearitas, dll). Namun, metode yang paling umum digunakan untuk mencoba memprediksi peristiwa biner (menggunakan variabel kontinu OR biner) adalah regresi logistik. Jika Anda ingin melihat CKD sebagai nilai lab (albumin urin, eGFR) Anda akan menggunakan regresi linier (hasil kontinu).
Sementara metode yang digunakan harus diinformasikan oleh data dan pertanyaan Anda, dokter digunakan untuk melihat rasio odds dan rasio risiko karena ini adalah ukuran asosiasi yang paling umum dilaporkan dalam jurnal medis seperti NEJM dan JAMA.
Jika Anda mengatasi masalah ini dari sudut pandang kesehatan manusia (berbeda dengan Business Intelligence), Model Prediksi Klinis Steyerberg ini adalah sumber yang bagus.
sumber
"Identifikasi kondisi prekursor yang paling berpengaruh (komorbiditas) untuk kondisi medis seperti penyakit ginjal kronis"
Saya tidak yakin bahwa hal itu mungkin untuk ID yang paling kondisi berpengaruh; Saya pikir itu akan tergantung pada model apa yang Anda gunakan. Baru kemarin saya memasukkan hutan acak dan pohon regresi yang ditingkatkan ke data yang sama, dan urutan dan kepentingan relatif masing-masing model untuk variabel sangat berbeda.
sumber