Bagaimana cara menghitung interval kepercayaan pada koefisien regresi dalam PLS?

10

Model yang mendasari PLS adalah bahwa matriks X dan n vektor y terkait dengan X = T P + E , y = T q + f , di mana T adalah matriks laten n × k , dan E , f adalah istilah kebisingan (misalnya X , y terpusat).n×mXny

X=TP+E,
y=Tq+f,
Tn×kE,fX,y

PLS menghasilkan perkiraan , dan 'jalan pintas' vektor koefisien regresi, ß sehingga y ~ X β . Saya ingin mencari distribusi β bawah beberapa asumsi penyederhanaan, yang mungkin harus meliputi berikut ini:T,P,qβ^yXβ^β^

  1. Modelnya benar, yaitu untuk T , P , q yang tidak diketahui ;X=TP+E,y=Tq+fT,P,q
  2. Jumlah faktor laten, , diketahui, dan digunakan dalam algoritma PLS;k
  3. Istilah kesalahan aktual adalah nol rata-rata normal dengan varian yang diketahui;

Pertanyaan ini agak tidak terdefinisi karena ada sejumlah varian dari algoritma 'the' PLS, tetapi saya akan menerima hasil untuk salah satu dari mereka. Saya juga akan menerima petunjuk tentang cara untuk memperkirakan distribusi β melalui misalnya bootstrap, tapi mungkin itu adalah pertanyaan terpisah.β^

shabbychef
sumber

Jawaban:

9

Apakah Anda tahu artikel ini: PLS-regresi: alat dasar kemometrik ? Penurunan SE dan CI untuk parameter PLS dijelaskan pada §3.11.

Saya biasanya mengandalkan Bootstrap untuk menghitung CI, seperti yang disarankan dalam misalnya, Abdi, H. Regresi kuadrat terkecil parsial dan proyeksi pada regresi struktur laten (Regresi PLS) . Saya ingat ada solusi teoretis yang dibahas dalam Tenenhaus M. (1998) La régress PLS: Théorie et pratique (Technip), tetapi saya tidak dapat memeriksa sekarang karena saya tidak memiliki buku itu. Untuk saat ini, ada beberapa paket R yang berguna, seperti plsRglm .

PS Saya baru saja menemukan artikel Nicole Krämer , merujuk pada paket R plsdof .

chl
sumber
2

Saya menemukan sebuah makalah oleh Reiss, et. Al. , Perhitungan interval kepercayaan kuadrat terkecil sebagian untuk prediksi kualitas akhir industri , di mana muncul kutipan:

Prediksi PLS harus disertai dengan interval kepercayaan online untuk menunjukkan keakuratan prediksi. Perumusan interval kepercayaan untuk prediksi PLS adalah bidang studi yang belum menyimpulkan "standar emas".

Makalah ini berisi referensi ke 'survei yang sangat baik dari pekerjaan semacam itu', Standar kesalahan prediksi untuk PLS multi-jalur , oleh Faber dan Bro, dan makalah oleh Faber dan Kowalski, Perbanyakan kesalahan pengukuran untuk validasi prediksi yang diperoleh dengan regresi komponen utama dan kuadrat terkecil parsial . Saya akan meringkas hasil ini saat tersedia ...

shabbychef
sumber
(+1) Senang tahu, terima kasih. Saya harus melihat lagi dalam karya Michel Tenenhaus - saya akan memberi tahu Anda jika saya menemukan hal yang menarik.
chl