KURANG yang memungkinkan diskontinuitas

14
  • Apakah ada teknik pemodelan seperti LOESS yang memungkinkan nol, satu, atau lebih diskontinuitas, di mana waktu diskontinuitas tidak diketahui apriori?
  • Jika ada teknik, apakah ada implementasi yang ada di R?
Jeromy Anglim
sumber
1
diskontinuitas pada nilai-x yang diketahui, atau pada nilai-x yang tidak diketahui? (diketahui x cukup mudah)
Glen_b -Reinstate Monica
@ Glen Saya memperbarui pertanyaan: Saya tertarik dengan situasi di mana waktu diskontinuitas tidak diketahui apriori.
Jeromy Anglim
Ini mungkin pertanyaan yang bisa diperdebatkan / bodoh, tetapi Anda mengatakan "waktu": apakah ini untuk digunakan dengan deret waktu? Saya percaya sebagian besar jawaban di bawah mengasumsikan ini ("changepoint, dll"), meskipun LOESS dapat diterapkan dalam situasi non-time-series, dengan diskontinuitas. Kupikir.
Wayne

Jawaban:

15

Kedengarannya seperti Anda ingin melakukan beberapa perubahan changepoint diikuti oleh perataan independen dalam setiap segmen. (Deteksi bisa online atau tidak, tetapi aplikasi Anda tidak mungkin online.) Ada banyak literatur tentang ini; Pencarian internet berbuah.

  • DA Stephens menulis pengantar yang berguna untuk deteksi changepoint Bayesian pada tahun 1994 (App. Stat. 43 # 1 hal 159-178: JSTOR ).
  • Baru-baru ini Paul Fearnhead telah melakukan pekerjaan yang baik (mis., Bayesian inference yang tepat dan efisien untuk beberapa masalah changepoint , Stat Comput (2006) 16: 203-213: PDF Gratis ).
  • Algoritma rekursif ada, berdasarkan analisis yang indah oleh D Barry & JA Hartigan
    • Model Partisi Produk untuk Model Change Point, Ann. Stat. 20: 260-279: JSTOR ;
    • Analisis Bayesian untuk Masalah Change Point, JASA 88: 309-319: JSTOR .
  • Salah satu implementasi dari algoritma Barry & Hartigan didokumentasikan dalam O. Seidou & TBMJ Ourda, Deteksi Multiple Changepoint Detection-based di Multivariat Linear Regression dan Aplikasi untuk aliran sungai, Water Res. Res., 2006: PDF gratis .

Saya belum mencari-cari implementasi R (saya telah membuat kode di Mathematica beberapa waktu lalu) tetapi akan sangat menghargai referensi jika Anda menemukannya.

whuber
sumber
3
Saya menemukan paket bcp R jstatsoft.org/v23/i03/paper yang mengimplementasikan algoritma Barry & Hartigan
Jeromy Anglim
@Jeromy: Terima kasih atas paket R dan untuk memasukkan tautan ke referensi.
whuber
7

lakukan dengan regresi garis terputus koencker, lihat halaman 18 dari sketsa ini

http://cran.r-project.org/web/packages/quantreg/vignettes/rq.pdf

Menanggapi komentar terakhir Whuber:

Pengukur ini didefinisikan seperti ini.

, x ( i )x ( i - 1 )xR ,x(i)x(i1)i

,ei:=yiβix(i)β0

, z - = maks ( - z , 0 ) ,z+=max(z,0)z=max(z,0)

, λ 0τ(0,1)λ0

min.βRn|τ,λi=1nτei++i=1n(1τ)ei+λi=2n|βiβi1|

memberikan kuantil yang diinginkan (yaitu dalam contoh, τ = 0,9 ). λ mengarahkan jumlah breakpoint: untuk λ besar estimator ini menyusut menjadi tidak ada break point (sesuai dengan estimator regresi kuantil linier klasikla).ττ=0.9λλ

Quantile Smoothing Splines Roger Koenker, Pin Ng, Stephen Portnoy Biometrika, Vol. 81, No. 4 (Desember, 1994), hlm. 673-680

PS: ada kertas kerja acess terbuka dengan nama yang sama oleh orang yang sama tapi itu bukan hal yang sama.

pengguna603
sumber
Itu ide yang rapi: terima kasih untuk referensi. Namun, residu untuk kecocokan tertentu terlihat sangat buruk, yang membuat saya bertanya-tanya seberapa baik itu mengidentifikasi titik temu potensial.
whuber
whuber: saya tidak tahu seberapa jauh Anda terbiasa dengan teori regresi kuantil. Baris-baris ini memiliki keunggulan utama dibandingkan splines: mereka tidak menganggap distribusi kesalahan (yaitu mereka tidak menganggap residu sebagai Gaussian).
user603
@ kwak Ini terlihat menarik. Tidak menganggap distribusi kesalahan normal akan berguna untuk salah satu aplikasi saya.
Jeromy Anglim
Memang, apa yang Anda dapatkan dari perkiraan ini adalah kuantil kondisi aktual yang sebenarnya: singkatnya, ini adalah untuk splines / LOESS-regresi apa boxplots adalah untuk pasangan (mean, sd): pandangan yang jauh lebih kaya dari data Anda. Mereka juga mempertahankan validitas di sana dalam konteks non gaussian (seperti kesalahan asimetris, ...).
user603
@ kwak: Residunya sangat berkorelasi dengan koordinat x. Sebagai contoh, ada jangka panjang residual negatif positif atau kecil. Apakah mereka memiliki distribusi Gaussian atau tidak, maka, tidak penting (dan juga tidak relevan dalam analisis eksplorasi): korelasi ini menunjukkan bahwa kecocokannya buruk.
whuber
6

Berikut adalah beberapa metode dan paket R terkait untuk mengatasi masalah ini

Estimasi panjang gelombang wavelet dalam regresi memungkinkan untuk ketidaktepatan. Anda dapat menggunakan paket wavethresh di R.

Banyak metode berbasis pohon (tidak jauh dari gagasan wavelet) berguna ketika Anda memiliki diskrititas. Maka paket treethresh, paket pohon!

Dalam berbagai metode " kemungkinan maksimum lokal " ... antara lain: Karya Pozhel dan Spokoiny: Penimbangan bobot adaptif (pengemasan paket) Pekerjaan oleh Catherine Loader: package locfit

Saya kira setiap kernel lebih lancar dengan bandwidth yang bervariasi secara lokal , tetapi saya tidak tahu paket R untuk itu.

catatan: Saya tidak benar-benar mendapatkan apa perbedaan antara LOESS dan regresi ... apakah ini gagasan bahwa dalam alrgoritma LOESS harus "on line"?

robin girard
sumber
1
RE LOESS: Mungkin terminologi saya kurang tepat. Dengan LOESS saya mengacu pada model yang memprediksi Y dari X menggunakan beberapa bentuk pas kurva lokal. misalnya, seperti yang terlihat di sebagian besar grafik ini: google.com/...
Jeromy Anglim
2

Seharusnya dimungkinkan untuk membuat kode solusi dalam R menggunakan fungsi regresi non-linear nls, b splines (fungsi bs dalam paket spline, misalnya) dan fungsi ifelse.

Andrew Robinson
sumber