Apa urutan lag?

9

Misalkan saya memiliki data longitudinal dari bentuk (Saya memiliki beberapa pengamatan, ini hanya bentuk yang tunggal). Saya tertarik pada pembatasan . tidak dibatasi setara dengan mengambil dengan . $\mathbf Y = (Y_1, \ldots, Y_J) \sim \mathcal N(\mu, \Sigma)$ $\Sigma$ $\Sigma$

Y_{j} = α_{j} + \sum_{ℓ = 1}^{j - 1} ϕ_{ℓ j} Y_{j - ℓ} + ε_{j}

$Y_j = \alpha_j + \sum_{\ell = 1} ^ {j - 1} \phi_{\ell j} Y_{j-\ell} + \varepsilon_j$

ε_{j} \sim N (0, σ_{j})

$\varepsilon_j \sim N(0, \sigma_j)$

Ini biasanya tidak dilakukan karena memerlukan estimasi parameter kovarian . Sebuah model adalah "lag- " jika kita mengambil yaitu kita hanya menggunakan sebelumnya istilah untuk memprediksi dari riwayat. $O(J^2)$ $k$

Y_{j} = α_{j} + \sum_{ℓ = 1}^{k} ϕ_{ℓ j} Y_{j - ℓ} + ε_{j},

$Y_j = \alpha_j + \sum_{\ell = 1} ^ k \phi_{\ell j} Y_{j - \ell} + \varepsilon_j,$

k

$k$

Y_{j}

$Y_j$

Yang benar-benar ingin saya lakukan adalah menggunakan semacam ide penyusutan untuk menghapus beberapa , seperti LASSO. Tapi masalahnya, saya juga ingin metode yang saya gunakan untuk memilih model yang lag- untuk beberapa ; Saya ingin menghukum keterlambatan pesanan lebih tinggi dari keterlambatan pemesanan lebih rendah. Saya pikir ini adalah sesuatu yang ingin kami lakukan mengingat prediktor sangat berkorelasi. $\phi_{\ell j}$ $k$ $k$

Masalah tambahan adalah bahwa jika (katakanlah) menyusut ke Saya juga ingin jika menyusut ke , yaitu jeda yang sama digunakan di semua distribusi kondisional. $\phi_{35}$ $0$ $\phi_{36}$ $0$

Saya bisa berspekulasi tentang ini, tetapi saya tidak ingin menemukan kembali rodanya. Apakah ada teknik LASSO yang dirancang untuk mengatasi masalah seperti ini? Apakah saya lebih baik hanya melakukan sesuatu yang sama sekali berbeda, seperti memasukkan lag order secara bertahap? Karena ruang model saya kecil, saya bahkan dapat menggunakan penalti untuk masalah ini. $L_0$

feature-selection lasso shrinkage orang
sumber

2

Anda dapat melakukan validasi silang berulang kali dari k = 0 hingga apa pun maksimumnya, dan plot kinerjanya terhadap k. Karena model ini sedang diuji pada data yang belum pernah dilihat sebelumnya, tidak ada jaminan model yang rumit akan berkinerja lebih baik, dan memang Anda akan melihat penurunan kinerja jika model menjadi terlalu rumit karena overfitting. Secara pribadi saya pikir ini lebih aman dan lebih mudah dibenarkan daripada memiliki faktor penalti yang sewenang-wenang, tetapi jarak tempuh Anda dapat bervariasi.

Saya juga tidak benar-benar mengikuti cara memesan Lasso menjawab pertanyaan. Tampaknya terlalu membatasi, itu benar-benar memaksa pemesanan koefisien. Sedangkan pertanyaan awal mungkin berakhir untuk beberapa data memiliki solusi di mana tidak benar-benar berkurang dengan l. $\phi_{lj}$

Nir Friedman
sumber

Untuk menambahkan LaTeX ke pertanyaan Anda, sertakan ekspresi antara tanda dolar ($).

Patrick Coulombe

1

(1) Dari model itu sendiri, tidak jelas bahwa koefisien pemesanan diinginkan, tetapi secara substansial itu masuk akal. Dalam uji klinis tindakan berulang, misalnya, tidak ada alasan substantif untuk mengharapkan bahwa gangguan kecil untuk secara stokastik mempengaruhi lebih dari gangguan kecil . LASSO yang dipesan membuat penggunaan pengetahuan apriori ini lebih baik, dengan risiko kecil bahwa itu mungkin tidak benar.

Y_{j - 2}

$Y_{j-2}$

Y_{j}

$Y_j$

Y_{j - 1}

$Y_{j-1}$

pria

(2) Secara umum, saya tidak akan menggunakan strategi CV ini setidaknya sebagian karena terlalu dogmatis. Saya bisa mendapatkan prediksi yang lebih baik dengan secara bijaksana mengecilkan lag, daripada membuangnya sepenuhnya.

pria

Nir, komentar bermanfaat tentang LASSO yang dipesan. Saya telah mengedit jawaban saya untuk menjadi sedikit lebih komprehensif. Terima kasih!

Sean Easter

Terima kasih, Sean. Guy, kurasa itu tidak terlalu dogmatis. Anda tidak mengatur ak di atas batu, tetapi membiarkannya bervariasi. Pilihannya adalah pada awal overfitting. Saya juga sangat tidak setuju dengan pernyataan Anda tentang seharusnya pengetahuan apriori. Sesuatu yang tampak masuk akal dan mengetahui hal itu sama sekali berbeda. Saya harus mengakui bahwa tampaknya ada penolakan dalam statistik tradisional untuk melewati validasi yang tidak pernah saya mengerti. Saya akan memilih efisiensi prediksi di luar data sampel daripada menambahkan asumsi setiap hari.

Nir Friedman

2

$\beta_{1...j}$ $|\beta_1| \geq |\beta_2|...\geq|\beta_j|$

Ini mencapai tujuan kedua dari koefisien zeroing out untuk lag tingkat tinggi, tetapi lebih ketat daripada pembatasan tunggal untuk memilih model lag lebih rendah. Dan seperti yang ditunjukkan orang lain, ini adalah pembatasan berat yang bisa sangat sulit untuk dibenarkan.

Setelah menghilangkan peringatan, makalah ini menyajikan hasil metode pada data time series nyata dan disimulasikan, dan algoritma detail untuk menemukan koefisien. Kesimpulannya menyebutkan paket R, tetapi makalah ini agak baru dan pencarian pada CRAN untuk "memerintahkan LASSO" muncul kosong, jadi saya menduga paket tersebut masih dalam pengembangan.

Makalah ini juga menawarkan pendekatan umum di mana dua parameter regularisasi "mendorong nyaris monotonisitas." (Lihat hal. 6.) Dengan kata lain, seseorang harus dapat menyetel parameter untuk memungkinkan pemesanan yang santai. Sayangnya, tidak ada contoh atau perbandingan metode santai yang diberikan. Tetapi, penulis menulis bahwa menerapkan perubahan ini adalah masalah sederhana untuk mengganti satu algoritma dengan yang lain, jadi orang berharap ini akan menjadi bagian dari paket R yang akan datang.

Sean Easter
sumber

Terima kasih, ini sangat menarik bahwa ini adalah ide terbaru. Saya benar-benar muncul dengan ide yang sama membahas masalah dengan seorang teman ketika saya mengajukan pertanyaan 9 bulan yang lalu, tetapi tidak pernah menyelidikinya secara mendalam! Saya hanya berasumsi bahwa idenya bukan novel itu, atau bahwa orang lain sudah menulis makalah tentang itu.

pria

Selamat datang! Saya terkejut bahwa itu sendiri begitu baru.

Sean Easter

1

Penalti LASSO bersarang ( pdf ) dapat digunakan tetapi tidak ada paket R untuk itu.

pengguna53874
sumber

1

Saat ini, ini lebih merupakan komentar daripada jawaban. Bisakah Anda sedikit mengembangkannya, mungkin dengan mendiskusikan penalti LASSO yang bersarang, dll?

gung - Reinstate Monica

0

Saya tahu Anda menulisnya sebagai premis, tetapi saya tidak akan menggunakan LASSO yang dipesan tanpa benar-benar yakin bahwa ini adalah hal yang diperlukan, karena asumsi dari LASSO yang dipesan tidak secara langsung sesuai untuk prediksi deret waktu. Sebagai contoh tandingan, pertimbangkan kasus di mana Anda memiliki waktu tunda, katakanlah, sepuluh langkah waktu antara pengukuran dan target. Jelas, batasan LASSO yang dipesan tidak dapat menangani efek seperti itu tanpa menghubungkan omong kosong dengan sembilan parameter pertama.

$\lambda$ $\lambda$ $\lambda=0$

$\lambda$

Davidhigh
sumber

Saya jelas tidak akan tertarik pada kendala pada urutan koefisien jika saya tidak memiliki alasan apriori yang kuat untuk mempercayainya. Untuk model yang saya duga kemungkinan, heuristically yang dipesan LASSO harus lebih efisien. Memiliki koefisien lag-10 dengan 9 lainnya menjadi 0 tidak masuk akal dalam pengaturan substantif saya . Ini adalah masalah yang telah dikerjakan oleh rekan-rekan saya (susut berdasarkan pesanan pada keterlambatan), tetapi mereka menggunakan gagasan Bayesuan dan karenanya tidak akan mempertimbangkan LASSO (non-Bayesian).

pria

Ok, sepertinya kamu tahu apa yang kamu lakukan. Tetapi ingat bahwa LASSO yang dipesan lebih dibatasi dengan kuat daripada pernyataan "sekali nol - selalu nol" Anda. Atau, Anda juga dapat mempertimbangkan model di mana parameter masuk dengan cara multiplikasi. Kemudian, kepentingan relatif dapat tumbuh atau menurun sampai koefisien menjadi nol.

davidhigh

Apa urutan lag?

Jawaban: