Apa yang Anda pikirkan tentang menerapkan teknik pembelajaran mesin, seperti Hutan Acak atau regresi yang dihukum (dengan penalti L1 atau L2, atau kombinasi keduanya) dalam studi klinis sampel kecil ketika tujuannya adalah untuk mengisolasi prediktor yang menarik dalam konteks klasifikasi? Ini bukan pertanyaan tentang pemilihan model, saya juga tidak bertanya tentang bagaimana menemukan perkiraan optimal dari efek variabel / kepentingan. Saya tidak berencana untuk melakukan inferensi yang kuat tetapi hanya menggunakan pemodelan multivariat, karena itu hindari menguji setiap prediktor terhadap hasil yang diinginkan satu per satu, dan memperhitungkan keterkaitan mereka.
Saya hanya ingin tahu apakah pendekatan seperti itu sudah diterapkan dalam kasus ekstrem khusus ini, katakanlah 20-30 subjek dengan data pada 10-15 variabel kategori atau kontinu. Ini bukan kasus dan saya pikir masalah di sini terkait dengan jumlah kelas yang kami coba jelaskan (yang seringkali tidak seimbang), dan (sangat) kecil n. Saya menyadari literatur besar tentang topik ini dalam konteks bioinformatika, tetapi saya tidak menemukan referensi yang terkait dengan studi biomedis dengan fenotipe yang diukur secara psikometrik (misalnya seluruh kuesioner neuropsikologis).
Adakah petunjuk atau petunjuk ke makalah yang relevan?
Memperbarui
Saya terbuka terhadap solusi lain untuk menganalisis data jenis ini, misalnya algoritma C4.5 atau turunannya, metode aturan asosiasi, dan teknik penambangan data apa pun untuk klasifikasi terawasi atau semi-terawasi.
Jawaban:
Saya belum melihat ini digunakan di luar bioinformatika / pembelajaran mesin juga, tapi mungkin Anda bisa menjadi yang pertama :)
Sebagai perwakilan yang baik dari metode metode sampel kecil dari bioinformatika, regresi logistik dengan regularisasi L1 dapat memberikan kecocokan yang baik ketika jumlah parameter eksponensial dalam jumlah pengamatan, interval kepercayaan non-asimtotik dapat dibuat menggunakan ketidaksetaraan tipe Chernoff (yaitu, Dudik, (2004) misalnya). Trevor Hastie telah melakukan beberapa pekerjaan menerapkan metode ini untuk mengidentifikasi interaksi gen. Dalam makalah di bawah ini, ia menggunakannya untuk mengidentifikasi efek signifikan dari model dengan 310.637 parameter yang disesuaikan agar sesuai dengan sampel 2.200 pengamatan.
"Analisis hubungan Genome-lebar dengan regresi logistik yang dihukum." Penulis: Hastie, T; Sobel, E; Wu, T. T; Chen, Y. F; Lange, K Bioinformatika Vol: 25 Masalah: 6 ISSN: 1367-4803 Tanggal: 03/2009 Halaman: 714 - 721
Presentasi terkait oleh Victoria Stodden ( Pemilihan Model dengan Banyak Variabel Lebih Dari Pengamatan )
sumber
Saya akan memiliki sedikit kepercayaan pada generalisasi dari hasil analisis eksplorasi dengan 15 prediktor dan ukuran sampel 20.
Dalam keadaan seperti itu, saran saya umumnya akan membatasi analisis untuk hubungan bivariat. Jika Anda mengambil perspektif bayesian, maka saya akan mengatakan bahwa harapan Anda sebelumnya sama jika tidak lebih penting daripada data.
sumber
Salah satu aturan umum adalah memiliki setidaknya 10 kali jumlah instance data pelatihan (tidak untuk berbicara tentang data uji / validasi, dll.) Karena ada parameter yang dapat disesuaikan di pengklasifikasi. Ingatlah bahwa Anda memiliki masalah di mana Anda harus tidak hanya memiliki data yang memadai tetapi juga data yang representatif . Pada akhirnya, tidak ada aturan sistematis karena ada begitu banyak variabel ketika membuat keputusan ini. Seperti yang dikatakan Hastie, Tibshirani, dan Friedman dalam The Elements of Statistics Learning (lihat Bab 7):
Jika Anda baru di bidang ini, saya sarankan membaca makalah "Pengenalan Pola" pendek ini dari Encyclopedia of Biomedical Engineering yang memberikan ringkasan singkat dari beberapa masalah data.
sumber
Saya dapat meyakinkan Anda bahwa RF akan bekerja dalam kasus itu dan ukuran pentingnya akan sangat berwawasan (karena tidak akan ada ekor besar atribut tidak penting yang menyesatkan seperti dalam standar (n << p) s). Saya tidak dapat mengingat sekarang semua kertas yang berurusan dengan masalah yang sama, tetapi saya akan mencarinya.
sumber
Jika Anda memiliki input diskrit, saya sedang menulis sebuah program untuk memprediksi nilai input biner yang hilang, diberikan input sebelumnya. Kategori apa pun, misalnya "1 dari 6", dapat dikonversi menjadi bit biner, dan itu akan berfungsi dengan baik; itu tidak akan berpengaruh.
Tujuan dari algoritma yang saya tulis adalah untuk belajar secepat mungkin secara matematis. Akibatnya memiliki kompleksitas ruang dan waktu yang sangat buruk (kompleksitas ruang sekitar O (4 ^ N) !.
Tetapi untuk itu Anda pada dasarnya belajar 1 kali, untuk sistem apa pun yang kondisinya dapat dinyatakan sebagai vektor bit. Misalnya, penambah penuh memiliki 8 status masukan yang berbeda. Algoritma akan mempelajari penambah penuh dengan sempurna setelah hanya 8 sampel pelatihan yang berbeda. Tidak hanya itu, tetapi Anda kemudian dapat memberikan jawabannya dan memprediksikan pertanyaan, atau memberikannya sebagian dari jawaban dan bagian dari pertanyaan dan mengisinya dengan sisanya.
Jika input data memiliki banyak bit, itu akan menjadi komputasi yang cukup dan memori yang intensif. Tetapi jika Anda memiliki sangat sedikit sampel, - atau lebih tepatnya tujuan desainnya - ini akan memberi Anda prediksi terbaik.
Anda hanya melatihnya dengan vektor bit, termasuk vektor bit yang bitnya tidak diketahui. Untuk mendapatkan prediksi, Anda juga hanya memberinya sedikit vektor, bit mana yang tidak diketahui, dan bit mana yang ingin Anda prediksi.
Kode sumber tersedia di sini: https://sourceforge.net/p/aithroughlogiccompression/code/HEAD/tree/BayesianInferenceEngine/src/_version2/
sumber