Saya memiliki dataset dengan 11 variabel dan PCA (orthogonal) dilakukan untuk mengurangi data. Memutuskan jumlah komponen untuk dijaga jelas bagi saya dari pengetahuan saya tentang subjek dan plot scree (lihat di bawah) bahwa dua komponen utama (PC) cukup untuk menjelaskan data dan komponen lainnya hanya kurang informatif.
Scree plot dengan analisis paralel: nilai eigen yang diamati (hijau) dan nilai eigen yang disimulasikan berdasarkan pada 100 simulasi (merah). Plot Scree menyarankan 3 PC, sedangkan tes paralel menunjukkan hanya dua PC pertama.
Seperti yang Anda lihat, hanya 48% varians yang dapat ditangkap oleh dua PC pertama.
Pengamatan plot pada bidang pertama yang dibuat oleh 2 PC pertama mengungkapkan tiga cluster yang berbeda menggunakan hierarchical aglomerative clustering (HAC) dan K-means clustering. 3 kelompok ini ternyata sangat relevan dengan masalah yang dipermasalahkan dan konsisten dengan temuan lain juga. Jadi kecuali fakta bahwa hanya 48% dari varians yang ditangkap, semuanya sangat baik.
Salah satu dari dua pengulas saya mengatakan: seseorang tidak dapat banyak bergantung pada temuan ini karena hanya 48% dari varians dapat dijelaskan dan itu kurang dari yang dibutuhkan.
Pertanyaan
Apakah ada nilai yang diperlukan tentang berapa banyak varians yang harus ditangkap oleh PCA agar valid? Apakah itu tidak tergantung pada pengetahuan domain dan metodologi yang digunakan? Adakah yang bisa menilai berdasarkan keseluruhan analisis hanya berdasarkan nilai varians yang dijelaskan saja?
Catatan
- Data adalah 11 variabel gen yang diukur dengan metodologi yang sangat sensitif dalam biologi molekuler yang disebut Real-Time Quantitative Polymerase Chain Reaction (RT-qPCR).
- Analisis dilakukan dengan menggunakan R.
- Jawaban dari analis data berdasarkan pengalaman pribadi mereka yang bekerja pada masalah kehidupan nyata di bidang analisis microarray, chemometrics, analisis spektometrik atau sama-sama sangat dihargai.
- Harap pertimbangkan untuk mendukung jawaban Anda dengan referensi sebanyak mungkin.
Jawaban:
Mengenai pertanyaan khusus Anda:
Tidak, tidak ada (setahu saya). Saya sangat percaya bahwa tidak ada nilai tunggal yang dapat Anda gunakan; tidak ada ambang ajaib persentase persentase yang ditangkap. Artikel Cangelosi dan Goriely: Retensi komponen dalam analisis komponen utama dengan aplikasi data microarray cDNA memberikan gambaran yang agak bagus tentang setengah lusin aturan standar praktis untuk mendeteksi jumlah komponen dalam sebuah penelitian. (Scree plot, Proportion of total variance dijelaskan, aturan Nilai eigen rata-rata, diagram nilai Log-eigen, dll.) Sebagai aturan praktis saya tidak akan sangat bergantung pada salah satu dari mereka.
Idealnya itu harus tergantung tetapi Anda harus berhati-hati bagaimana Anda mengucapkannya dan apa yang Anda maksudkan.
Sebagai contoh: Dalam Akustik ada gagasan Just Notable Perbedaan ( JND ). Asumsikan Anda menganalisis sampel akustik dan PC tertentu memiliki variasi skala fisik jauh di bawah ambang JND. Tidak ada yang bisa dengan mudah menyatakan bahwa untuk aplikasi Akustik Anda harus memasukkan PC itu. Anda akan menganalisis suara yang tidak terdengar. Mungkin ada beberapa alasan untuk memasukkan PC ini tetapi alasan-alasan ini perlu disampaikan bukan sebaliknya. Apakah mereka mirip dengan JND untuk analisis RT-qPCR?
Demikian pula, jika sebuah komponen terlihat seperti urutan ke-9 Legendre polinomial dan Anda memiliki bukti kuat bahwa sampel Anda terdiri dari benjolan Gaussian tunggal, Anda memiliki alasan kuat untuk meyakini bahwa Anda lagi memodelkan variasi yang tidak relevan. Apa yang ditunjukkan oleh mode variasi ortogonal ini? Apa yang "salah" dengan PC ke-3 dalam kasus Anda misalnya?
Fakta bahwa Anda mengatakan " 3 kelompok ini ternyata sangat relevan dengan masalah yang dipermasalahkan " bukanlah argumen yang kuat. Anda mungkin mengeruk data sederhana (yang merupakan hal buruk ). Ada teknik lain, misalnya. Isomaps dan embedding lokal-linear , yang juga keren, mengapa tidak menggunakannya? Mengapa Anda memilih PCA khusus?
Konsistensi temuan Anda dengan temuan lain lebih penting, terutama jika temuan ini dianggap mapan. Gali lebih dalam tentang ini. Cobalah untuk melihat apakah hasil Anda setuju dengan temuan PCA dari penelitian lain.
Secara umum orang tidak boleh melakukan itu. Namun jangan berpikir bahwa resensi buku Anda adalah bajingan atau semacamnya; 48% memang merupakan persentase kecil untuk dipertahankan tanpa menghadirkan pembenaran yang masuk akal.
sumber