Bagaimana menilai pengulangan hasil multivarian dan spesifik metode?

8

Metode "A" menggambarkan sampel biologis menggunakan "sidik jari" multivarian yang terdiri dari sekitar 30 variabel berbeda. Variabel yang berbeda menunjukkan distribusi tipikal yang berbeda dan banyak dari mereka berkorelasi erat satu sama lain. Dari pengalaman sebelumnya diasumsikan bahwa kita tidak dapat mengubah banyak variabel menjadi distribusi normal.

Metode "B" dirancang untuk menjadi versi metode "A" yang ditingkatkan dan kami ingin membandingkan pengulangan kedua metode ini. Jika kita berurusan dengan variabel tunggal, kita akan melakukan analisis independen dari beberapa sampel dan menggunakan ANOVA untuk membandingkan variabilitas antar metode dengan metode. Tetapi di sini kita berhadapan dengan keluaran multivariat dan kami tidak ingin melakukan satu analisis per variabel. Apa pendekatan yang benar untuk pertanyaan ini?

Resolusi

Jawaban dengan gui11aume ini jawaban , memberikan informasi yang berguna dan berharga. Saya akan mengadaptasi "aplikasi hilir" dari jawaban gui11aume diikuti oleh 7 analisis satu arah seperti yang disarankan oleh AdamO.

David D
sumber
(Ini pendekatan saya. Tolong beri tahu saya seberapa sahnya itu.) Bagaimana dengan menggunakan metode reduksi dimensionalitas yang kuat untuk mengurangi data multivarian menjadi satu dimensi dan menganalisisnya?
David D
1
David, masalah ini kedengarannya seperti Anda ingin melakukan dekomposisi varian pada hasil multivarian tetapi judul tampaknya menunjukkan Anda mencari sesuatu yang lain. Bisakah Anda mengklarifikasi? Juga, dapatkah Anda mengatakan lebih banyak tentang data yang Anda analisis?
Makro
David, dapatkah Anda menjelaskan secara lebih eksplisit apa yang Anda maksud dengan "pengulangan"? Saya menduga itu sama dengan apa yang kita (bidang saya adalah analisis kemometrik dari set data spektroskopi [sampel biologis]) biasanya disebut stabilitas (dari sth. Wrt. Sth.), Misalnya: stabilitas prediksi atau parameter model (dua jenis yang sangat berbeda dari stabilitas!) wrt. untuk sampel baru / menukar 10% dari sampel, ...
cbeleites tidak senang dengan SX
1
Juga, apakah 30 variabel keluaran sama (secara teoritis) untuk kedua metode?
cbeleites tidak senang dengan SX
1
Wrt. untuk reduksi dimensionalitas Anda: Anda akan berisiko mengukur lebih banyak karakteristik metode reduksi dimensionalitas daripada inputnya. Tentu saja Anda akan kehilangan informasi yang ortogonal ke arah yang diambil oleh satu dimensi yang dipertahankan.
cbeleites tidak senang dengan SX

Jawaban:

7

Ini mengingatkan saya pada diagnosa kanker, di mana tanda-tanda ekspresi gen lama digantikan oleh yang baru, yang tentu saja seharusnya lebih baik. Tetapi bagaimana cara menunjukkan bahwa mereka lebih baik?

Berikut adalah beberapa saran untuk membandingkan pengulangan metode.

1. Gunakan analisis co-inersia (CIA).
CIA harus lebih diiklankan, sayangnya itu tidak banyak digunakan (tidak ada halaman Wikipedia misalnya). CIA adalah metode dua tabel yang bekerja pada prinsip yang sama dengan analisis kanonik (CA), yaitu mencari pasangan skor linier dengan korelasi maksimum antara dua set pengukuran multi-dimensi. Keuntungannya dibandingkan CA adalah Anda dapat melakukannya bahkan jika Anda memiliki dimensi lebih dari pengamatan. Anda bisa mengukur kedua metode pada sampel yang sama untuk mendapatkan dua tabel digabungkan dari 30 kolom dannpengamatan. Pasangan pertama komponen utama harus sangat berkorelasi (jika metode benar-benar mengukur hal yang sama). Jika metode B lebih baik, varians residual harus lebih kecil daripada varians residual metode A. Dengan pendekatan ini Anda mengatasi kedua kesepakatan metode, dan ketidaksetujuannya, yang Anda artikan sebagai noise.

2. Gunakan jarak .
Anda bisa menggunakan jarak Euclidean dalam 30 dimensi antara tes dan tes ulang untuk mengukur pengulangan suatu metode. Anda menghasilkan sampel skor itu untuk setiap metode dan Anda dapat membandingkan sampel dengan tes Wilcoxon.

3. Gunakan aplikasi hilir.
Anda mungkin mendapatkan sidik jari ini untuk mengambil keputusan, atau mengklasifikasikan pasien atau bahan biologis. Anda dapat menghitung perjanjian vs ketidaksepakatan antara tes dan pengujian ulang untuk kedua metode dan membandingkannya dengan tes Wilcoxon.

Metode 3 adalah yang paling sederhana, tetapi juga yang paling sederhana. Bahkan untuk input dimensi tinggi, keputusan biasanya cukup sederhana. Dan betapapun rumitnya masalah kita, ingatlah bahwa statistik adalah ilmu keputusan.

Mengenai pertanyaan di komentar Anda.

Bagaimana dengan menggunakan metode reduksi dimensi kuat untuk mengurangi data multivariat ke dimensi tunggal dan menganalisisnya?

Pengurangan dimensi, bagaimanapun kuatnya, akan dikaitkan dengan hilangnya varian. Jika ada cara untuk mengubah sidik jari multivarian Anda menjadi skor tunggal yang menangkap hampir semua variansnya, maka tentu saja, inilah yang terbaik untuk dilakukan. Tapi mengapa multivarian sidik jari di tempat pertama?

Saya berasumsi dari konteks OP yang sidik jari adalah multivariat justru karena sulit untuk mengurangi dimensi yang lebih jauh tanpa kehilangan informasi. Dalam hal itu, pengulangan mereka pada skor tunggal tidak harus menjadi proksi yang baik untuk pengulangan keseluruhan, karena Anda dapat mengabaikan mayoritas varian (hampir 29/30 dalam kasus terburuk).

gui11aume
sumber
1. Anda hampir benar tentang penerapan tes ini. 2. Mengenai jarak Mahalanobis, saya tidak mengerti bagaimana bisa digunakan untuk menilai pengulangan. Apakah Anda menyarankan untuk menghitung matriks kovarians untuk semua poin dalam semua metode BERSAMA dan kemudian membandingkan metode dengan sampel MD menggunakan matriks itu? 3. Aplikasi hilir memang pilihan yang berharga, namun itu tidak akan mengurangi dimensi t
David D
Mengenai poin 2. Anda benar bahwa sulit untuk menerapkan jarak Mahalanobis. Saya menghapusnya dari jawabannya.
gui11aume
@ gui11aume: input multivariat mungkin multivariat karena merupakan data yang diukur mentah, yaitu variate = saluran pengukuran (dari array sensor, spektrometer, ...). Dalam hal ini, sifat multivariat berasal dari sifat pengukuran (meskipun dari sudut pandang yang lain biasanya pengurangan dimensi tertentu sudah diterapkan dalam bentuk memilih ini sensor chip atau ini kisaran spektral tertentu)
cbeleites senang dengan SX
@ gui11aume: Gunakan juga pendekatan ke-3 Anda untuk membandingkan pengklasifikasi. Tetapi: Saya membaca dari pertanyaan dan komentar tentang pengurangan dimensi bahwa aplikasi hilir ini (yang sebenarnya merupakan pengurangan dimenasionalitas drastis) mungkin tidak tersedia (atau setidaknya 30 varian sendiri harus dibandingkan).
cbeleites tidak senang dengan SX
@ gui11aume: disctance mengukur kesamaan, tetapi IMHO Anda juga perlu memeriksa arah penyimpangan, yang hilang oleh jarak.
cbeleites tidak senang dengan SX
3

Saya berasumsi dari pertanyaan dan komentar Anda bahwa 30 variabel output tidak dapat (dengan mudah) atau tidak boleh diubah menjadi satu varian.

Satu ide untuk menangani data adalah Anda dapat melakukan regresi dan sebaliknya. Pengetahuan tambahan (mis. Varian pada set A sesuai dengan variate juga pada set B) dapat membantu membatasi model pemetaan dan / atau dengan interpretasi.XA(n×pA)XB(n×pB)XA(n×pA)XB(n×pB)ii

Jadi bagaimana dengan multi block PCA (atau -PLS) yang membawa ide ini lebih jauh? Untuk metode ini, kedua sidik jari multivarian untuk sampel yang sama (atau individu yang sama) dianalisis bersama sebagai variabel independen, dengan atau tanpa blok dependen ketiga.

R. Brereton: "Chemometrics for Pattern Recognition" membahas beberapa teknik di bab terakhir ("Membandingkan Pola yang Berbeda") dan googling akan mengarahkan Anda ke sejumlah makalah, juga perkenalan. Perhatikan bahwa situasi Anda terdengar mirip dengan masalah di mana misalnya pengukuran spektroskopi dan genetik dianalisis bersama (dua matriks dengan korespondensi baris-bijaksana sebagai lawan menganalisis misalnya rangkaian waktu spektrum di mana kubus data dianalisis).

Berikut makalah yang membahas analisis multi-blok: Sahar Hassani: Analisis data -omics: Interpretasi grafis- dan alat validasi dalam metode multi-blok .

Juga, mungkin ini adalah titik awal yang baik ke arah lain: Hoefsloot et.al., Analisis Data Multiset: Analisis Komponen Simultan ANOVA dan Metode Terkait, di: Komprehensif Chemometrics - Analisis Data Kimia dan Biokimia (Saya tidak memiliki akses ke sana , lihat saja abstraknya)

cbeleites tidak senang dengan SX
sumber
1

30 analisis satu arah tentu saja merupakan pilihan dan akan menjadi tipe analisis "tabel 2" yang ideal, di mana kinerja keseluruhan diringkas dengan cara yang logis. Mungkin saja bahwa Metode B menghasilkan 20 faktor pertama dengan presisi yang sedikit meningkat sedangkan 10 yang terakhir lebih bervariasi. Anda memiliki masalah penarikan kesimpulan menggunakan ruang yang dipesan sebagian: tentu saja jika semua 30 faktor lebih tepat dalam B, maka B adalah metode yang lebih baik. Tetapi ada area "abu-abu" dan dengan sejumlah besar faktor, hampir dijamin untuk muncul dalam praktik.

Jika tujuan dari penelitian ini adalah untuk mendarat pada analisis tunggal, penting untuk mempertimbangkan bobot setiap hasil dan aplikasi titik akhir mereka. Jika 30 variabel ini digunakan dalam klasifikasi, prediksi, dan / atau pengelompokan data pengamatan, maka saya ingin melihat validasi hasil ini dan perbandingan A / B dalam klasifikasi (menggunakan sesuatu seperti tabel stratifikasi risiko atau rata-rata persen bias) , prediksi (menggunakan MSE), dan pengelompokan (menggunakan sesuatu seperti cross validation). Ini adalah cara yang tepat untuk menangani area abu-abu di mana Anda tidak bisa mengatakan B lebih baik secara analitis, tetapi dalam praktiknya jauh lebih baik.

AdamO
sumber
1

Saya akan mencoba ANOVA multivariat berdasarkan permutasi ( PERMANOVA ) tes appoach. Analisis ordinasi (berdasarkan hasil analisis panjang gradien) juga dapat membantu.

AnastD
sumber
1
Dalam R ada fungsi adonis dalam paket Vegan yang melakukan ANOVA multivarian permutasional. Ini akan menghasilkan tes statistik untuk memberi tahu Anda apakah metode A berbeda dari metode B. Paket ini berasal dari ekologi tanaman tempat Anda menghitung banyak spesies (variabel) dalam plot kecil yang berbeda. Terkait dengan ini adalah AMOVA, analisis varians molekuler , di mana variabelnya adalah data molekuler. Untuk ini, Anda dapat menggunakan paket R ade4, tetapi ada perangkat lunak gratis dan daring lainnya yang dapat Anda temukan di tautan.
Jdub
0

Jika Anda dapat mengasumsikan normalitas multivariat (yang Anda katakan tidak bisa), Anda dapat melakukan tes Hotelling T2 tentang persamaan vektor rata-rata untuk melihat apakah Anda dapat mengklaim perbedaan antara distribusi atau tidak. Namun meskipun Anda tidak dapat melakukan itu, Anda masih dapat secara teoritis membandingkan distribusi untuk melihat apakah mereka berbeda jauh. Bagilah ruang 30 dimensi menjadi kisi-kisi persegi panjang. Gunakan ini sebagai tempat sampah 30 dimensi. Hitung jumlah vektor yang jatuh ke setiap nampan dan terapkan uji chi square untuk melihat apakah distribusinya terlihat sama. Masalah dengan saran ini adalah bahwa hal itu membutuhkan pemilihan tempat sampah secara bijak untuk menutupi titik data dengan cara yang tepat. Juga kutukan dimensi membuatnya sulit untuk mengidentifikasi perbedaan antara distribusi multivariat tanpa memiliki jumlah titik yang sangat besar di setiap kelompok. Saya pikir saran yang diberikan gui11aume masuk akal. Saya tidak berpikir yang lain. Karena membandingkan distribusi tidak layak dalam 30 dimensi dengan sampel tipikal, beberapa bentuk perbandingan valid dari vektor rata-rata menurut saya cocok.

Michael R. Chernick
sumber
1
Hai, Michael. Apakah Anda keberatan mengklarifikasi apa yang Anda sarankan tentang binning? Ini terdengar seperti Anda menyarankan Binning setiap dimensi secara terpisah dan kemudian mengelompokkan ke dalam tempat sampah. Tetapi, katakanlah kita memiliki dua nampan per dimensi, yaitu nampan. Itu tidak terdengar seperti kandidat yang baik untuk . Jadi, apa yang Anda sarankan? 230>109χ2
kardinal
juga, sesuai saran Anda, tidak jelas bagaimana binning harus dilakukan: haruskah setiap bin memiliki jumlah kasus yang sama, rentang yang sama, rentang log yang sama dll?
Boris Gorelik
@ kardinal Tidak apa yang saya katakan adalah untuk membangun tempat sampah berbentuk persegi panjang 30 dimensi. Saya melakukan tes chi-square biasa untuk membandingkan dua distribusi.
Michael R. Chernick
2
Setelah memberikan lebih banyak pemikiran ini, saya pikir rekomendasi saya tidak akan bekerja dalam dimensi tinggi karena (1) walaupun pilihan bin yang bijaksana praktis dalam dimensi 1, 2 dan mungkin 3, bagi saya sepertinya tidak mengidentifikasi bin seperti itu dalam 30 dimensi dapat dilakukan (2) karena kutukan dimensionalitas bahkan jika seleksi seperti itu dapat dicapai poin dalam 30 dimensi tersebar sedemikian rupa sehingga akan sulit untuk mendeteksi perbedaan antara distribusi tanpa jumlah poin yang sangat besar. Jadi kardinal membuat beberapa poin bagus.
Michael R. Chernick
1
Saya seharusnya lebih spesifik; dengan "aplikasi naif", saya maksudkan bahwa seseorang tidak bisa langsung menerapkan tes standar segera. Paling tidak beberapa penyesuaian untuk derajat kebebasan harus dilakukan, meskipun kadang-kadang menentukan apa derajat kebebasan seharusnya bukanlah masalah yang sepenuhnya mudah.
kardinal