Perbedaan antara regresi PLS dan pemodelan jalur PLS. Kritik terhadap PLS

12

Pertanyaan ini ditanyakan di sini tetapi tidak ada yang memberikan jawaban yang baik. Jadi saya pikir ini ide yang bagus untuk membahasnya lagi dan saya juga ingin menambahkan lebih banyak komentar / pertanyaan.

  • Pertanyaan pertama adalah apa perbedaan antara "pemodelan jalur PLS" dan "regresi PLS"? Untuk membuatnya lebih umum, apakah pemodelan persamaan struktural (SEM), pemodelan jalur dan regresi? Untuk pemahaman saya, regresi lebih berfokus pada prediksi sedangkan fokus SEM adalah pada hubungan antara respons dan prediktor dan pemodelan jalur adalah kasus khusus SEM?

  • Pertanyaan kedua saya adalah seberapa tepercaya PLS? Baru-baru ini telah banyak dikritik seperti yang disorot dalam Rönkkö et al. 2016 dan Rönkkö et al. 2015 yang mengarah pada penolakan makalah berdasarkan PLS di jurnal tingkat tinggi seperti Journal of Operations Management ( berikut adalah catatan dari editor jurnal):

    Secara praktis kami menolak semua naskah berbasis PLS, karena kami telah menyimpulkan bahwa PLS telah tanpa kecuali pendekatan pemodelan yang salah dalam jenis model yang digunakan peneliti OM .

    Saya harus mencatat bidang saya adalah spektroskopi, bukan manajemen / psikologi atau statistik. Dalam makalah yang dihubungkan di atas penulis berbicara lebih banyak tentang PLS sebagai metode SEM, tetapi bagi saya, kritik mereka terlihat berlaku untuk regresi PLS juga.

Ress
sumber
Tautan Anda semuanya berada di belakang ruang bayar.
Jeremy Miles
kamu benar sekali! dan saya minta maaf, saya punya PDF tapi saya tidak yakin apakah saya bisa mengunggah atau membagikan Sains seharusnya gratis :)
Ress
Regresi PLS dijelaskan dan didiskusikan dengan cukup rinci dalam stats.stackexchange.com/questions/179733 . Sayangnya saya tahu apa-apa tentang "pemodelan jalur".
amoeba
Saya pikir "pemodelan jalur" hanyalah nama lain untuk SEM
rep_ho
Dari makalah 2016: "Sebagian besar teks pengantar tentang PLS mengabaikan tujuan dari bobot, dengan alasan bahwa PLS adalah SEM dan oleh karena itu harus memberikan keuntungan lebih dari regresi dengan komposit (misalnya, Gefen et al., 2011); namun, karya-karya tersebut sering tidak secara eksplisit menunjukkan bahwa PLS itu sendiri juga hanya regresi dengan komposit. " menyesatkan. Dorongan utama dari argumen yang saya dapat melihat apakah penulis menyatakan bahwa SEM harus menjadi konstruksi teoritis murni dan mereka telah meremehkan persamaan struktural yang diturunkan secara empiris. Tetapi PLS memang menghasilkan persamaan 'terstruktur' melalui kovarian.
ReneBt

Jawaban:

9

Pertanyaan pertama adalah apa perbedaan antara "pemodelan jalur PLS" dan "regresi PLS"?

Tidak ada, itu sinonim.

Untuk membuatnya lebih umum, apakah pemodelan persamaan struktural (SEM), pemodelan jalur dan regresi? Untuk pemahaman saya, regresi lebih berfokus pada prediksi sedangkan fokus SEM adalah pada hubungan antara respons dan prediktor dan pemodelan jalur adalah kasus khusus SEM?

SEM adalah bentuk regresi. Regresi adalah setiap metode yang menghubungkan variabel independen dan dependen dan mencakup metode yang menggunakan banyak variabel yang ditangani sebagai entitas terpisah. SEM secara khusus menggunakan hubungan matematika antara variabel untuk membatasi model akhir, dalam kasus PLS ini adalah kovarians. Pemahaman saya adalah bahwa pemodelan jalur adalah istilah khusus domain- (bukan milik saya, saya seorang spektroskopi seperti Anda).

Pertanyaan kedua saya adalah seberapa tepercaya PLS? Baru-baru ini telah banyak dikritik seperti yang disorot dalam Rönkkö et al. 2016 dan Rönkkö et al. 2015

Bantahan yang sangat baik ditemukan di Henseler et al. Keyakinan dan Realita Bersama 2013 Tentang PLS . Perhatian utama bagi Rönkkö et al. adalah bahwa PLS tidak berkinerja baik dalam beberapa situasi yang menganggap faktor laten yang umum. PLS sebenarnya dirancang untuk menangani banyak faktor laten, sebuah situasi yang jauh lebih umum di dunia nyata.

Bagaimana bisa dipercaya? Untuk spektroskopi, alat ini sangat bagus tetapi memiliki keterbatasan. Itu menjalankan risiko overfitting karena dapat membangun model kompleks yang menangkap kontribusi dari berbagai faktor mendasar. Untuk alasan ini perlu digunakan dengan hati-hati dan validasi eksternal yang tepat sangat penting, tetapi kemudian peringatan ini berlaku untuk semua alat bangunan model. Saya bekerja terutama pada dataset dunia nyata selama 2 dekade dan saya belum menemukan dataset eksperimental yang hanya memiliki satu faktor umum yang menopang variabel dependen (baik berdasarkan data maupun teori ilmiah).

ReneBt
sumber
1
+1 walaupun saya berharap jawaban ini memiliki detail lebih lanjut tentang Ronkko et al. vs Henseler et al. pertentangan. Saya sama sekali bukan seorang spektroskopi tetapi saya memiliki pemahaman yang relatif baik tentang PLS sebagai metode regularisasi untuk regresi linier (begitulah disajikan dalam The Elements of Statistics Learning oleh Hastie et al.). Saya pikir ini disebut PLS1 dalam chemometrics. Di sini "kinerja" berhubungan dengan kesalahan rekonstruksi, seseorang dapat menggunakan cross-validation untuk memilih kekuatan regularisasi, dll. Ini adalah pengaturan yang sangat akrab bagi siapa saja yang mengalami regresi ridge atau PCR atau hal-hal seperti itu.
amoeba
[lanjutan] Saya juga mengetahui PLS2 dengan banyak variabel dependen, tetapi saya tidak yakin seberapa sering ini digunakan. Pada saat yang sama, dari mencoba memahami apa yang Ronkko et al. maksudnya, tampaknya fokus "SEM" secara eksklusif pada hubungan beberapa X ke beberapa Y (apakah itu PLS2?) dan mungkin lebih pada menafsirkan hubungan antara X dan Y daripada prediksi Y seperti itu. Saya bahkan tidak yakin apa yang mereka maksud dengan "kinerja", dan saya tidak tahu apa yang mereka sukai daripada menggunakan PLS ketika mereka mengkritik PLS.
amoeba
Terima kasih ReneBT dan amuba. Saya memposting pertanyaan ini di Reddit di sini dan seseorang (soumya_ray) menjawab bahwa regresi dan SEM pada dasarnya berbeda. Dia tidak menjelaskan perbedaan teknis. Btw, jawabannya menentang apa yang Anda katakan (jawaban Anda masuk akal bagi saya).
Ress
Btw, saya melakukan pemilihan band menggunakan PLS. Saya mengonfirmasi pendapat Anda tentang kinerja PLS, sementara itu mungkin menghasilkan prediksi yang baik (baik pada pengujian dan kalibrasi) tetapi model ini bisa salah secara fundamental atau setidaknya sangat sulit untuk ditafsirkan karena memilih prediktor sebagai variabel penting yang tidak ada hubungannya dengan variabel respons.
Ress
Komentar lebih lanjut tentang isu-isu utama yang diangkat oleh penulis adalah "Algoritma PLS dengan demikian menghasilkan bobot yang meningkatkan korelasi antara komposit yang berdekatan dibandingkan dengan komposit berbobot unit yang digunakan sebagai titik awal dengan menggunakan korelasi dalam data, tetapi ini tidak tidak menjamin pencapaian global optimal ". Singkatnya, yang dimaksud adalah model hanya akan berlaku untuk populasi dengan struktur kovarian yang sama, ini tidak membuat PLS tidak valid, tetapi berarti bahwa seseorang harus membangun dan menggunakan model dengan hati-hati.
ReneBt