Apa yang "parsial" dalam metode kuadrat terkecil parsial?

Dalam regresi parsial kuadrat terkecil (PLSR) atau pemodelan persamaan struktural kuadrat terkecil parsial (PLS-SEM), apa merujuk istilah "parsial"?

multiple-regression least-squares terminology sem partial-least-squares Alph
sumber

Perhatikan bahwa Wold Jr. menganggap nama "partial least square" menyesatkan dan seharusnya disebut "proyeksi ke ruang laten".

Momo

@ Mama: Ya, saya sudah membaca tentang itu. Namun, bahkan jika PLS menyesatkan sampai taraf tertentu, "proyeksi ke ruang laten" bahkan kurang jelas, belum lagi kurangnya kenyamanan dalam menggunakan istilah dalam bentuk tertulis.

Aleksandr Blekh

Jawaban:

Saya ingin menjawab pertanyaan ini, sebagian besar didasarkan pada perspektif sejarah , yang cukup menarik. Herman Wold, yang menemukan pendekatan partial least square (PLS) , belum mulai menggunakan istilah PLS (atau bahkan menyebutkan istilah parsial ) segera. Selama periode awal (1966-1969), ia menyebut pendekatan ini sebagai NILES - singkatan dari istilah dan judul makalah awal tentang topik ini Estimasi Nonlinier oleh Prosedur Kuadrat Terkecil Iteratif , yang diterbitkan pada tahun 1966.

Seperti yang dapat kita lihat, prosedur yang nantinya akan disebut parsial, telah disebut sebagai iteratif , dengan fokus pada sifat iteratif dari prosedur estimasi bobot dan variabel laten (LVs). Istilah "kuadrat terkecil" berasal dari penggunaan regresi kuadrat terkecil (OLS) untuk memperkirakan parameter model yang tidak diketahui lainnya (Wold, 1980). Tampaknya istilah "parsial" berakar pada prosedur NILES, yang menerapkan "gagasan membagi parameter model menjadi himpunan bagian sehingga mereka dapat diperkirakan dalam bagian-bagian" (Sanchez, 2013, hlm. 216; penekanan tambang) .

Penggunaan pertama dari istilah PLS telah terjadi dalam makalah Prosedur estimasi parsial kuadrat terkecil Nonlinear , yang publikasi menandai periode berikutnya dari sejarah PLS - periode pemodelan NIPALS . 1970-an dan 1980-an menjadi periode pemodelan lunak , ketika, dipengaruhi oleh pendekatan LISREL Karl Joreskog ke SEM, Wold mengubah pendekatan NIPALS menjadi pemodelan lunak, yang pada dasarnya telah membentuk inti dari pendekatan PLS modern (istilah PLS menjadi arus utama pada akhir 1970-an). ). 1990-an, periode berikutnya dalam sejarah PLS, yang disebut Sanchez (2013) sebagai periode "gap", ditandai oleh menurunnya penggunaannya. Untungnya, mulai dari tahun 2000-an ( periode konsolidasi), PLS menikmati kembalinya sebagai pendekatan yang sangat populer untuk analisis SEM, terutama dalam ilmu sosial.

UPDATE (sebagai tanggapan atas komentar amuba):

Mungkin, kata-kata Sanchez tidak ideal dalam frasa yang saya kutip. Saya pikir "estimasi sebagian" berlaku untuk blok variabel laten . Wold (1980) menjelaskan konsep secara rinci.
Anda benar bahwa NIPALS pada awalnya dikembangkan untuk PCA. Kebingungan berasal dari kenyataan bahwa ada baik pendekatan PLS linier dan PLS nonlinier. Saya pikir Rosipal (2011) menjelaskan perbedaan dengan sangat baik (setidaknya, ini adalah penjelasan terbaik yang pernah saya lihat sejauh ini).

UPDATE 2 (klarifikasi lebih lanjut):

Menanggapi kekhawatiran, yang dinyatakan dalam jawaban amuba, saya ingin mengklarifikasi beberapa hal. Sepertinya saya bahwa kita perlu membedakan penggunaan kata "parsial" antara NIPALS dan PLS. Itu menciptakan dua pertanyaan terpisah tentang 1) arti "parsial" dalam NIPALS dan 2) arti "parsial" dalam PLS (itulah pertanyaan asli oleh Phil2014). Meskipun saya tidak yakin tentang yang pertama, saya dapat menawarkan klarifikasi lebih lanjut tentang yang pertama.

Menurut Wold, Sjöström dan Eriksson (2001),

"Parsial" dalam PLS menunjukkan bahwa ini adalah regresi parsial, karena ...

Dengan kata lain, "parsial" berasal dari fakta bahwa dekomposisi data oleh algoritma NIPALS untuk PLS mungkin tidak mencakup semua komponen , karenanya "parsial". Saya menduga bahwa alasan yang sama berlaku untuk NIPALS secara umum, jika memungkinkan untuk menggunakan algoritma pada data "parsial". Itu akan menjelaskan "P" di NIPALS.

Dalam hal menggunakan kata "nonlinear" dalam definisi NIPALS (jangan bingung dengan PLS nonlinear , yang mewakili varian nonlinier dari pendekatan PLS!), Saya pikir itu merujuk bukan pada algoritma itu sendiri , tetapi untuk model nonlinear , yang dapat berupa dianalisis, menggunakan NIPALS berbasis regresi linier.

UPDATE 3 (penjelasan Herman Wold):

Sementara makalah Herman Wold tahun 1969 tampaknya merupakan makalah yang paling awal tentang NIPALS, saya telah berhasil menemukan makalah yang paling awal tentang topik ini. Itu adalah sebuah makalah oleh Wold (1974), di mana "bapak" PLS menyajikan alasannya untuk menggunakan kata "parsial" dalam definisi NIPALS (hlm. 71):

3.1.4. Estimasi NIPALS: OLter berulang. Jika satu atau lebih variabel model laten, hubungan prediktor tidak hanya melibatkan parameter yang tidak diketahui, tetapi juga variabel yang tidak diketahui, dengan hasil bahwa masalah estimasi menjadi nonlinier. Seperti ditunjukkan dalam 3.1 (iii), NIPALS memecahkan masalah ini dengan prosedur berulang, katakan dengan langkah s = 1, 2, ... Setiap langkah s melibatkan sejumlah terbatas regresi OLS, satu untuk setiap hubungan prediktor model. Setiap regresi tersebut memberikan perkiraan proksi untuk sub-set parameter yang tidak diketahui dan variabel laten (maka nama kuadrat terkecil parsial ), dan perkiraan proksi ini digunakan pada langkah selanjutnya dari prosedur untuk menghitung perkiraan proksi baru.

Referensi

Rosipal, R. (2011). Kuadrat terkecil parsial nonlinier: Tinjauan umum. Dalam Lodhi H. dan Yamanishi Y. (Eds.), Chemoinformatics dan Perspektif Pembelajaran Mesin Lanjutan: Metode Komputasi Kompleks dan Teknik Kolaborasi , hal. 169-189. ACCM, IGI Global. Diperoleh dari http://aiolos.um.savba.sk/~roman/Papers/npls_book11.pdf

Sanchez, G. (2013). Pemodelan jalur PLS dengan R. Berkeley, CA: Edisi Trowchez. Diperoleh dari http://gastonsanchez.com/PLS_Path_Modeling_with_R.pdf

Wold, H. (1974). Aliran kausal dengan variabel laten: Parting cara dalam terang pemodelan NIPALS. Tinjauan Ekonomi Eropa, 5 , 67-86. Penerbitan Holland Utara.

Wold, H. (1980). Konstruksi model dan evaluasi ketika pengetahuan teoretis langka: Teori dan penerapan kuadrat terkecil parsial. Dalam J. Kmenta dan JB Ramsey (Eds.), Evaluasi model ekonometrik , hlm. 47-74. New York: Academic Press. Diperoleh dari http://www.nber.org/chapters/c11693

Wold, S., Sjöström, M., & Eriksson, L. (2001). PLS-regression: Alat dasar chemometrics. Chemometrics dan Sistem Laboratorium Cerdas, 58 , 109-130. doi: 10.1016 / S0169-7439 (01) 00155-1 Diperoleh dari http://www.libpls.net/publication/PLS_basic_2001.pdf

Aleksandr Blekh
sumber

@amoeba: Saya percaya bahwa makalah ini menjelaskan PLS berbeda dengan pendekatan lain dengan cara yang lebih teknis, yang baru saja Anda diskusikan. Namun, perhatikan bahwa penjelasan di atas difokuskan pada regresi PLS, sedangkan PLS mencakup beberapa kelas analisis sistem (lihat slide 10 dalam presentasi berikut). Catatan teknis pada slide 25-29 adalah IMHO juga membantu. Presentasi: plsmodeling.com/pls/pls-introduction .

Aleksandr Blekh

@ Aleksandr Blekh: Ini adalah referensi yang sangat bagus.

Alph

Wow, orang memberi nama pada periode sejarah PLS! Impresif.

Amuba kata Reinstate Monica

Serius meskipun, saya melihat ke dalam buku Sanchez'es, tetapi masih tidak mengerti apa yang harus dilakukan NIPALS dengan "gagasan membagi parameter model menjadi himpunan bagian sehingga mereka dapat diperkirakan di bagian" . NIPALS awalnya disarankan sebagai metode untuk menghitung komponen utama, bukan? Sederhana saja. Saya tidak melihat "pemisahan" dari parameter menjadi "himpunan bagian" di sana, jadi saya tidak tahu apa yang Sanchez bicarakan di sini. Ngomong-ngomong, saya juga tidak mengerti "nonlinear" di NIPALS. Pastinya PCA adalah teknik linier!

Amuba kata Reinstate Monica

@amoeba: Silakan lihat pembaruan saya untuk menanggapi komentar Anda. Semoga ini bisa membantu.

Aleksandr Blekh

Dalam eksposisi PLS modern tidak ada yang "parsial": PLS mencari kombinasi linier antara variabel dalam dan di antara variabel dalam yang memiliki kovarians maksimal. Ini adalah masalah vektor eigen yang mudah. Itu dia. Lihat Elemen Pembelajaran Statistik , Bagian 3.5.2, atau misalnya Rosipal & Krämer, 2005, Gambaran Umum dan Kemajuan-Kemajuan Baru-Baru Ini di Kotak Kuadrat Sebagian . $X$ $Y$

Namun, secara historis, seperti yang dijelaskan oleh @Aleksandr (+1), PLS diperkenalkan oleh Wold yang menggunakan algoritma NIPALS untuk mengimplementasikannya; NIPALS singkatan dari "kuadrat terkecil parsial nonlinier", jadi jelas P dalam PLS baru saja sampai di sana dari NIPALS.

Selain itu, NIPALS (seingat saya membaca di tempat lain) pada awalnya tidak dikembangkan untuk PLS; itu diperkenalkan untuk PCA. Sekarang, NIPALS untuk PCA adalah algoritma yang sangat sederhana. Saya bisa menyajikannya di sini. Biarkan menjadi matriks data terpusat dengan pengamatan dalam baris. Tujuannya adalah untuk menemukan sumbu utama pertama (vektor eigen dari matriks kovarians) dan komponen utama pertama (proyeksi dari data ke ). Kami menginisialisasi secara acak dan kemudian iterate langkah-langkah berikut hingga konvergensi: $\newcommand{\X}{\mathbf X}\X$ $\newcommand{\v}{\mathbf v}\v$ $\newcommand{\p}{\mathbf p}\p$ $\v$ $\p$

$\v = \X^\top \p (\p^\top \p)^{-1}$
Setelke . $\|\v\|$ $1$
$\p = \X \v (\v^\top \v)^{-1}$

Itu dia! Jadi pertanyaan sebenarnya adalah mengapa Wold menyebut algoritma ini "parsial"? Jawaban (seperti akhirnya saya mengerti setelah @Aleksandr membuat pembaruan ketiga) adalah bahwa Wold dilihat dan sebagai dua [set] parameter, bersama-sama pemodelan data matriks . Algoritme memperbarui parameter-parameter ini secara berurutan (langkah # 1 dan # 3), yaitu hanya memperbarui satu bagian dari parameter sekaligus! Karenanya "parsial". $\v$ $\p$ $\X$

(Mengapa dia menyebutnya "nonlinier" Saya masih tidak mengerti.)

Istilah ini sangat menyesatkan, karena jika ini "parsial" maka setiap algoritma maksimalisasi harapan juga "parsial" (pada kenyataannya, NIPALS dapat dilihat sebagai bentuk primitif EM, lihat Roweis 1998 ). Saya pikir PLS adalah kandidat yang bagus untuk kontes Term Machine yang Menyesatkan dalam Pembelajaran. Sayangnya, itu tidak mungkin berubah, terlepas dari upaya Wold Jr (lihat komentar @ Momo di atas).

amuba kata Reinstate Monica
sumber

Anda mungkin tertarik dengan UPDATE 2 jawaban saya dengan klarifikasi lebih lanjut.

Aleksandr Blekh

Terima kasih telah menjaga diskusi ini (untuk mencegah kesalahpahaman, saya harus mengatakan bahwa saya tidak mencoba mengkritik Anda dengan cara apa pun!). Sekarang, ke Update2 Anda. Menurut Anda mengapa kita harus membedakan arti "parsial" dalam PLS dan NIPALS? Ini kedengarannya aneh; PLS tumbuh dari karya NIPALS dan ini menunjukkan bahwa namanya hanyalah "niPaLS" yang disingkat. Ini tampaknya dikonfirmasi oleh Wold et al. Makalah 2001 yang Anda temukan: "Ini termasuk cara sederhana namun efisien untuk memperkirakan parameter dalam model ini yang disebut NIPALS [...]. Hal ini pada gilirannya, mengarah ke akronim PLS untuk model ini" .

Amuba kata Reinstate Monica

Temuan yang bagus! Tapi saya tidak berpikir bahwa 1974 adalah "makalah paling awal tentang NIPALS": ada makalah tahun 1969 dengan NIPALS dalam judul (lihat komentar saya sebelumnya). Namun demikian, kutipan ini benar-benar menjelaskan pertanyaan: jika kita membahas contoh NIPAL saya untuk PCA, maka Wold mengambil dan sebagai dua parameter yang menggambarkan dan istilah "parsial" mengacu pada setiap parameter diperbarui secara terpisah, yaitu hanya satu bagian dari parameter yang diperbarui sekaligus! Apakah ini juga cara Anda membacanya?

v

$\mathbf v$

p

$\mathbf p$

X

$\mathbf X$

Amuba kata Reinstate Monica

Bagus! Saya pikir pertanyaannya akhirnya dijawab dengan memuaskan. Dan saya akhirnya memutakhirkan jawaban Anda, +1 :-) Saya mengedit jawaban saya untuk memasukkan pemahaman baru ini. Mengenai jawaban Anda: ketika Anda menjelaskan kata "sebagian" di Pembaruan 1 dan Pembaruan 2, apakah Anda benar-benar bermaksud hal yang sama seperti yang kami sepakati sekarang? Bagi saya sepertinya jawaban Anda saat ini mengandung beberapa interpretasi yang berbeda ...

amoeba berkata Reinstate Monica

Saya tidak tahu! Mungkin itu benar. Bisakah Anda menguraikan "model nonlinear" apa yang dapat dianalisis menggunakan NIPALS dan bagaimana? Di sisi lain, itu mungkin topik yang sama sekali berbeda. Saya kira intinya adalah bahwa Wold mengembangkan NIPALS bukan untuk menghitung PCA untuk kepentingannya sendiri, tetapi memiliki beberapa aplikasi tertentu dalam pikiran, di mana ia harus berurusan dengan masalah nonlinier dan melinearisasi mereka entah bagaimana, mengurangi ke PCA? Saat ini orang-orang menyajikan NIPAL sebagai algoritma sederhana untuk menghitung vektor singular terkemuka, tetapi mungkin Wold dari 1969 tidak akan setuju dengan pandangan ini sama sekali!

Amuba kata Reinstate Monica