Metode "A" menggambarkan sampel biologis menggunakan "sidik jari" multivarian yang terdiri dari sekitar 30 variabel berbeda. Variabel yang berbeda menunjukkan distribusi tipikal yang berbeda dan banyak dari mereka berkorelasi erat satu sama lain. Dari pengalaman sebelumnya diasumsikan bahwa kita tidak dapat mengubah banyak variabel menjadi distribusi normal.
Metode "B" dirancang untuk menjadi versi metode "A" yang ditingkatkan dan kami ingin membandingkan pengulangan kedua metode ini. Jika kita berurusan dengan variabel tunggal, kita akan melakukan analisis independen dari beberapa sampel dan menggunakan ANOVA untuk membandingkan variabilitas antar metode dengan metode. Tetapi di sini kita berhadapan dengan keluaran multivariat dan kami tidak ingin melakukan satu analisis per variabel. Apa pendekatan yang benar untuk pertanyaan ini?
Resolusi
Jawaban dengan gui11aume ini jawaban , memberikan informasi yang berguna dan berharga. Saya akan mengadaptasi "aplikasi hilir" dari jawaban gui11aume diikuti oleh 7 analisis satu arah seperti yang disarankan oleh AdamO.
Jawaban:
Ini mengingatkan saya pada diagnosa kanker, di mana tanda-tanda ekspresi gen lama digantikan oleh yang baru, yang tentu saja seharusnya lebih baik. Tetapi bagaimana cara menunjukkan bahwa mereka lebih baik?
Berikut adalah beberapa saran untuk membandingkan pengulangan metode.
1. Gunakan analisis co-inersia (CIA).n pengamatan. Pasangan pertama komponen utama harus sangat berkorelasi (jika metode benar-benar mengukur hal yang sama). Jika metode B lebih baik, varians residual harus lebih kecil daripada varians residual metode A. Dengan pendekatan ini Anda mengatasi kedua kesepakatan metode, dan ketidaksetujuannya, yang Anda artikan sebagai noise.
CIA harus lebih diiklankan, sayangnya itu tidak banyak digunakan (tidak ada halaman Wikipedia misalnya). CIA adalah metode dua tabel yang bekerja pada prinsip yang sama dengan analisis kanonik (CA), yaitu mencari pasangan skor linier dengan korelasi maksimum antara dua set pengukuran multi-dimensi. Keuntungannya dibandingkan CA adalah Anda dapat melakukannya bahkan jika Anda memiliki dimensi lebih dari pengamatan. Anda bisa mengukur kedua metode pada sampel yang sama untuk mendapatkan dua tabel digabungkan dari 30 kolom dan
2. Gunakan jarak .
Anda bisa menggunakan jarak Euclidean dalam 30 dimensi antara tes dan tes ulang untuk mengukur pengulangan suatu metode. Anda menghasilkan sampel skor itu untuk setiap metode dan Anda dapat membandingkan sampel dengan tes Wilcoxon.
3. Gunakan aplikasi hilir.
Anda mungkin mendapatkan sidik jari ini untuk mengambil keputusan, atau mengklasifikasikan pasien atau bahan biologis. Anda dapat menghitung perjanjian vs ketidaksepakatan antara tes dan pengujian ulang untuk kedua metode dan membandingkannya dengan tes Wilcoxon.
Metode 3 adalah yang paling sederhana, tetapi juga yang paling sederhana. Bahkan untuk input dimensi tinggi, keputusan biasanya cukup sederhana. Dan betapapun rumitnya masalah kita, ingatlah bahwa statistik adalah ilmu keputusan.
Mengenai pertanyaan di komentar Anda.
Pengurangan dimensi, bagaimanapun kuatnya, akan dikaitkan dengan hilangnya varian. Jika ada cara untuk mengubah sidik jari multivarian Anda menjadi skor tunggal yang menangkap hampir semua variansnya, maka tentu saja, inilah yang terbaik untuk dilakukan. Tapi mengapa multivarian sidik jari di tempat pertama?
Saya berasumsi dari konteks OP yang sidik jari adalah multivariat justru karena sulit untuk mengurangi dimensi yang lebih jauh tanpa kehilangan informasi. Dalam hal itu, pengulangan mereka pada skor tunggal tidak harus menjadi proksi yang baik untuk pengulangan keseluruhan, karena Anda dapat mengabaikan mayoritas varian (hampir 29/30 dalam kasus terburuk).
sumber
Saya berasumsi dari pertanyaan dan komentar Anda bahwa 30 variabel output tidak dapat (dengan mudah) atau tidak boleh diubah menjadi satu varian.
Satu ide untuk menangani data adalah Anda dapat melakukan regresi dan sebaliknya. Pengetahuan tambahan (mis. Varian pada set A sesuai dengan variate juga pada set B) dapat membantu membatasi model pemetaan dan / atau dengan interpretasi.XA(n×pA)↔XB(n×pB) XA(n×pA)↦XB(n×pB) i i
Jadi bagaimana dengan multi block PCA (atau -PLS) yang membawa ide ini lebih jauh? Untuk metode ini, kedua sidik jari multivarian untuk sampel yang sama (atau individu yang sama) dianalisis bersama sebagai variabel independen, dengan atau tanpa blok dependen ketiga.
R. Brereton: "Chemometrics for Pattern Recognition" membahas beberapa teknik di bab terakhir ("Membandingkan Pola yang Berbeda") dan googling akan mengarahkan Anda ke sejumlah makalah, juga perkenalan. Perhatikan bahwa situasi Anda terdengar mirip dengan masalah di mana misalnya pengukuran spektroskopi dan genetik dianalisis bersama (dua matriks dengan korespondensi baris-bijaksana sebagai lawan menganalisis misalnya rangkaian waktu spektrum di mana kubus data dianalisis).
Berikut makalah yang membahas analisis multi-blok: Sahar Hassani: Analisis data -omics: Interpretasi grafis- dan alat validasi dalam metode multi-blok .
Juga, mungkin ini adalah titik awal yang baik ke arah lain: Hoefsloot et.al., Analisis Data Multiset: Analisis Komponen Simultan ANOVA dan Metode Terkait, di: Komprehensif Chemometrics - Analisis Data Kimia dan Biokimia (Saya tidak memiliki akses ke sana , lihat saja abstraknya)
sumber
30 analisis satu arah tentu saja merupakan pilihan dan akan menjadi tipe analisis "tabel 2" yang ideal, di mana kinerja keseluruhan diringkas dengan cara yang logis. Mungkin saja bahwa Metode B menghasilkan 20 faktor pertama dengan presisi yang sedikit meningkat sedangkan 10 yang terakhir lebih bervariasi. Anda memiliki masalah penarikan kesimpulan menggunakan ruang yang dipesan sebagian: tentu saja jika semua 30 faktor lebih tepat dalam B, maka B adalah metode yang lebih baik. Tetapi ada area "abu-abu" dan dengan sejumlah besar faktor, hampir dijamin untuk muncul dalam praktik.
Jika tujuan dari penelitian ini adalah untuk mendarat pada analisis tunggal, penting untuk mempertimbangkan bobot setiap hasil dan aplikasi titik akhir mereka. Jika 30 variabel ini digunakan dalam klasifikasi, prediksi, dan / atau pengelompokan data pengamatan, maka saya ingin melihat validasi hasil ini dan perbandingan A / B dalam klasifikasi (menggunakan sesuatu seperti tabel stratifikasi risiko atau rata-rata persen bias) , prediksi (menggunakan MSE), dan pengelompokan (menggunakan sesuatu seperti cross validation). Ini adalah cara yang tepat untuk menangani area abu-abu di mana Anda tidak bisa mengatakan B lebih baik secara analitis, tetapi dalam praktiknya jauh lebih baik.
sumber
Saya akan mencoba ANOVA multivariat berdasarkan permutasi ( PERMANOVA ) tes appoach. Analisis ordinasi (berdasarkan hasil analisis panjang gradien) juga dapat membantu.
sumber
Jika Anda dapat mengasumsikan normalitas multivariat (yang Anda katakan tidak bisa), Anda dapat melakukan tes Hotelling T2 tentang persamaan vektor rata-rata untuk melihat apakah Anda dapat mengklaim perbedaan antara distribusi atau tidak. Namun meskipun Anda tidak dapat melakukan itu, Anda masih dapat secara teoritis membandingkan distribusi untuk melihat apakah mereka berbeda jauh. Bagilah ruang 30 dimensi menjadi kisi-kisi persegi panjang. Gunakan ini sebagai tempat sampah 30 dimensi. Hitung jumlah vektor yang jatuh ke setiap nampan dan terapkan uji chi square untuk melihat apakah distribusinya terlihat sama. Masalah dengan saran ini adalah bahwa hal itu membutuhkan pemilihan tempat sampah secara bijak untuk menutupi titik data dengan cara yang tepat. Juga kutukan dimensi membuatnya sulit untuk mengidentifikasi perbedaan antara distribusi multivariat tanpa memiliki jumlah titik yang sangat besar di setiap kelompok. Saya pikir saran yang diberikan gui11aume masuk akal. Saya tidak berpikir yang lain. Karena membandingkan distribusi tidak layak dalam 30 dimensi dengan sampel tipikal, beberapa bentuk perbandingan valid dari vektor rata-rata menurut saya cocok.
sumber