Saya mencoba mencari informasi mengenai asumsi regresi PLS (tunggal ). Saya terutama tertarik pada perbandingan asumsi PLS sehubungan dengan orang-orang dari regresi OLS.
Saya telah membaca / membaca sekilas banyak literatur tentang topik PLS; makalah oleh Wold (Svante dan Herman), Abdi, dan banyak lainnya tetapi belum menemukan sumber yang memuaskan.
Wold et al. (2001) PLS-regresi: alat dasar chemometrics tidak menyebutkan asumsi PLS, tetapi hanya menyebutkan bahwa
- Xs tidak perlu independen,
- sistem adalah fungsi dari beberapa variabel laten yang mendasarinya,
- sistem harus menunjukkan homogenitas selama proses analitis, dan
- kesalahan pengukuran dalam dapat diterima.
Tidak disebutkan persyaratan apa pun dari data yang diamati, atau residual model. Apakah ada yang tahu sumber yang membahas semua ini? Mengingat matematika yang mendasarinya analog dengan PCA (dengan tujuan memaksimalkan kovarians antara dan ) adalah normalitas multivariat dari asumsi? Apakah residual model perlu menunjukkan homogenitas varians?
Saya juga percaya saya membaca di suatu tempat bahwa pengamatan tidak harus independen; apa artinya ini dalam hal studi pengukuran berulang?
Jawaban:
Secara umum, "asumsi" adalah sesuatu yang hanya dapat dimiliki oleh hasil teoretis (teorema).
Selain itu, hasil aktual dari regresi PLS tergantung pada berapa banyak komponen PLS yang termasuk dalam model, yang bertindak sebagai parameter regularisasi. Berbicara tentang asumsi apa pun hanya masuk akal jika prosedur untuk memilih parameter ini benar-benar ditentukan (dan biasanya tidak). Jadi saya tidak berpikir ada hasil optimal untuk PLS sama sekali, yang berarti bahwa regresi PLS tidak memiliki asumsi. Saya pikir hal yang sama berlaku untuk metode regresi lainnya seperti regresi komponen utama atau regresi ridge.
Pembaruan: Saya telah memperluas argumen ini dalam jawaban saya untuk Apa asumsi regresi ridge dan bagaimana mengujinya?
Tentu saja, masih ada aturan praktis yang mengatakan kapan regresi PLS mungkin berguna dan kapan tidak. Silakan lihat jawaban saya yang ditautkan di atas untuk beberapa diskusi; praktisi berpengalaman PLSR (saya bukan salah satu dari mereka) tentu bisa mengatakan lebih banyak tentang itu.
sumber
Rupanya, PLS tidak membuat asumsi "sulit" tentang distribusi bersama variabel Anda. Ini berarti Anda harus berhati-hati untuk memilih statistik uji yang sesuai (saya berasumsi kurangnya ketergantungan pada distribusi variabel mengklasifikasikan PLS sebagai teknik non-parametrik). Saran yang saya temukan untuk statistik yang sesuai adalah 1) menggunakan r-kuadrat untuk variabel laten dependen dan 2) metode resampling untuk menilai stabilitas estimasi.
Perbedaan utama antara OLS / MLS dan PLS adalah yang pertama biasanya menggunakan estimasi kemungkinan maksimum parameter populasi untuk memprediksi hubungan antar variabel, sedangkan PLS memperkirakan nilai variabel untuk populasi yang sebenarnya untuk memprediksi hubungan antara kelompok variabel (dengan mengaitkan kelompok prediktor / variabel respon dengan variabel laten).
Saya juga tertarik untuk menangani percobaan yang direplikasi / berulang, khususnya yang multifaktorial, namun saya tidak yakin bagaimana cara pendekatan ini menggunakan PLS.
Buku Pegangan Kotak Kuadrat Sebagian: Konsep, Metode dan Aplikasi (halaman 659, bagian 28.4)
Wold, H. 2006. Spesifikasi Prediktor. Ensiklopedia Ilmu Statistik. 9.
http://www.rug.nl/staff/tkdijkstra/latentvariablesandindices.pdf (halaman 4 & 5)
sumber