Mengkorelasikan variabel klinis berkelanjutan dan data ekspresi gen

8

Dalam analisis klasifikasi SVM (linear kernel) dari kumpulan data ekspresi gen (~ 400 variabel / gen) untuk ~ 25 setiap kasus dan kontrol, saya menemukan bahwa pengklasifikasi berbasis ekspresi gen memiliki karakteristik kinerja yang sangat baik. Kasus dan kontrol tidak berbeda secara signifikan untuk sejumlah variabel klinis / demografis variabel kategoris dan kontinu (sesuai dengan uji Fisher atau t), tetapi mereka berbeda secara signifikan untuk usia.

Adakah cara untuk menunjukkan bahwa hasil analisis klasifikasi tidak dipengaruhi oleh usia?

Saya berpikir untuk mengurangi data ekspresi gen menjadi komponen utama, dan melakukan analisis korelasi Spearman terhadap komponen terhadap usia.

Apakah ini pendekatan yang masuk akal? Sebagai alternatif, dapatkah saya memeriksa korelasi antara usia dan nilai probabilitas kelas-keanggotaan yang diperoleh dalam analisis SVM.

Terima kasih.

pengguna4045
sumber
1
Apakah ini studi kasus-kontrol? Atau studi kohort? Mengapa ada perbedaan usia (skema pengambilan sampel? Patomekanisme?)? Apakah usia sesuai diagnosis? Atau apakah ini penyakit kronis dan usia saat ini mengambil sampel jaringan untuk analisis ekspresi gen? Apakah usia diketahui berhubungan dengan penyakit? Apakah usia berpengaruh pada ekspresi gen lebih banyak efek waktu sejak lahir atau sejak diagnosis? --- Saya perlu jawaban untuk pertanyaan-pertanyaan ini untuk melihat pertanyaan Anda jika "hasil analisis klasifikasi tidak dipengaruhi oleh usia?" dalam perspektif yang tepat.
GaBorgulya
Ini adalah studi retrospektif pada ekspresi microRNA darah dan kanker paru-paru. Kasus-kasus tersebut memiliki kanker paru-paru. Kontrol tidak dan dipilih dari populasi pasien yang muncul di klinik skrining kanker paru-paru biasanya karena riwayat merokok. Pencocokan untuk usia, jenis kelamin, dll., Tidak dilakukan ketika memilih kasus dan kontrol. Kanker paru-paru biasanya didiagnosis setelah usia 45-50 tahun. Tidak diketahui apakah ekspresi microRNA darah dipengaruhi oleh kanker paru-paru, tetapi beberapa penyakit lain diketahui mempengaruhi ekspresi.
user4045
Efek usia pada ekspresi microRNA darah tidak diketahui. Usia rata-rata (dan std. Deviasi) kasus dan kontrol penelitian adalah 71 (7) dan 60 (9) y, masing-masing.
user4045
Ketika Anda mengatakan "dipengaruhi oleh usia", apa sebenarnya yang Anda maksud? Berikut ini dua kemungkinan. Satu kemungkinan adalah bahwa microarray Anda tidak mengandung penanda penyakit apa pun. Tapi, mereka memang berisi informasi tentang usia, dan karena dalam kasus Anda populasi yang sakit dan kontrol dari usia yang berbeda, Anda mendapatkan ilusi kinerja klasifikasi yang baik. Kemungkinan lain adalah bahwa microarray memang mengandung penanda penyakit, dan, lebih lanjut, penanda ini adalah apa yang menjadi fokus SVM. Namun, karena dalam data Anda umurnya berbeda, masih ada korelasi antara usia dan kategori.
SheldonCooper
@SheldonCooper: Benar, dan saya ingin tahu apakah kita bisa atau tidak bisa mengetahui mana dari dua kemungkinan itu. Jika tidak, dapatkah kita memperkirakan secara kasar nilai ekstra yang diberikan penanda gen di atas usia? Klasifikasi SVM memiliki karakteristik kinerja yang baik (akurasi dalam validasi silang internal> 90%, dan AUC> 0,95). AUC dalam analisis ROC usia adalah 0,82.
user4045

Jawaban:

2

Setidaknya ada dua kemungkinan untuk data ini. Satu kemungkinan adalah bahwa microarray Anda tidak mengandung penanda penyakit apa pun. Tapi, mereka memang berisi informasi tentang usia, dan karena dalam kasus Anda populasi yang sakit dan kontrol dari usia yang berbeda, Anda mendapatkan ilusi kinerja klasifikasi yang baik. Kemungkinan lain adalah bahwa microarray memang mengandung penanda penyakit, dan, lebih lanjut, penanda ini adalah apa yang menjadi fokus SVM.

Sepertinya komponen utama dari data dapat dikorelasikan dengan usia dalam kedua kemungkinan ini. Dalam kasus pertama, itu karena usia adalah apa yang diungkapkan oleh data. Dalam kasus kedua itu karena penyakit adalah apa yang diungkapkan oleh data, dan penyakit ini sendiri berkorelasi dengan usia (untuk dataset Anda). Saya tidak berpikir ada cara mudah untuk melihat nilai korelasi dan menyimpulkan kasusnya.

Saya dapat memikirkan beberapa cara untuk menilai efeknya secara berbeda. Salah satu opsi adalah untuk membagi set pelatihan Anda ke dalam kelompok dengan usia yang sama. Dalam hal ini, untuk usia 'muda' kelas normal akan memiliki lebih banyak contoh pelatihan daripada kelas penyakit, dan sebaliknya untuk usia yang lebih tua. Tetapi selama ada cukup contoh, ini seharusnya tidak menjadi masalah. Pilihan lain adalah melakukan hal yang sama dengan set tes, yaitu melihat apakah classifier cenderung mengatakan 'sakit' lebih sering untuk pasien yang lebih tua. Kedua opsi ini mungkin sulit karena Anda tidak memiliki banyak contoh.

Satu lagi opsi adalah melatih dua pengklasifikasi. Di yang pertama, satu-satunya fitur adalah usia. Tampaknya ini memiliki AUC 0,82. Yang kedua, akan ada usia dan data microarray. (Tampaknya saat ini Anda melatih classifier berbeda yang hanya menggunakan data microarray, dan itu memberi Anda AUC 0,95. Menambahkan fitur usia secara eksplisit kemungkinan akan meningkatkan kinerja, sehingga AUC akan lebih tinggi.) Jika classifier kedua berkinerja lebih baik daripada yang pertama, ini menunjukkan bahwa usia bukan satu-satunya hal yang menarik dalam data ini. Berdasarkan komentar Anda, peningkatan AUC adalah 0,13 atau lebih, yang tampaknya adil.

SheldonCooper
sumber
Terima kasih atas berbagai sarannya. Saya pikir Anda benar bahwa memeriksa korelasi usia dengan komponen utama tidak memberikan jawaban. Saya memang melakukan analisis itu dan ada korelasi yang baik (Spearman r> 0,5) untuk masing-masing dari tiga PC pertama (mereka bersama-sama berkontribusi ~ 55% dari varians). Ada juga korelasi usia yang baik dengan nilai probabilitas dari analisis SVM. Untuk dua opsi pertama yang Anda sarankan, saya harus memeriksa apakah ada cukup sampel dan bagaimana melakukannya (saya menggunakan LOOCV dan 1000-iteration Monte Carlo CV dengan split 4: 1 untuk pelatihan dan pengujian).
user4045
Mengenai ROC yang menggunakan data usia dan data microarray, saya akan mencobanya. Peningkatan AUC dari 0,95 (data microarray saja) akan menunjukkan bahwa data ekspresi memiliki informasi spesifik penyakit yang tidak tergantung pada usia. Tidak adanya peningkatan, bagaimanapun, tidak akan berarti apa-apa karena data ekspresi dipengaruhi oleh usia. Baik?
user4045
Anda sudah mengalami peningkatan AUC, dari 0,82 hanya untuk usia menjadi 0,95 untuk microarray. Ini yang penting menurut saya. Jika Anda mendapatkan peningkatan lebih lanjut, bagus. Jika Anda tidak mendapatkan peningkatan lebih lanjut, Anda benar bahwa itu tidak berarti apa-apa. Bagian penting adalah Anda mengalami peningkatan dari 0,82 menjadi 0,95.
SheldonCooper
Dalam analisis baru, dengan usia ditambahkan sebagai variabel ke set data ekspresi, AUC meningkat ~ 0,04. Saya kira seseorang tidak dapat menyimpulkan apa pun dari ini.
user4045
Apakah AUC baru (untuk usia + microarray) 0,99, atau 0,86?
SheldonCooper