Menghaluskan - kapan menggunakannya dan kapan tidak?

18

Ada posting yang cukup lama di blog William Briggs yang melihat perangkap data smoothing dan membawa data yang dihaluskan melalui analisis. Argumen kuncinya adalah:

Jika, pada saat kegilaan, Anda melakukan data deret waktu yang lancar dan Anda menggunakannya sebagai input untuk analisis lain, Anda secara dramatis meningkatkan kemungkinan menipu diri sendiri! Ini karena smoothing menginduksi sinyal palsu - sinyal yang terlihat nyata untuk metode analitik lainnya. Tidak peduli apa pun Anda akan terlalu yakin dengan hasil akhir Anda!

Namun, saya berjuang untuk menemukan diskusi yang komprehensif tentang kapan harus lancar dan kapan tidak.

Apakah hanya disukai saat dihaluskan saat menggunakan data yang dihaluskan itu sebagai masukan untuk analisis lain atau apakah ada situasi lain saat penghalusan tidak disarankan? Sebaliknya, adakah situasi di mana perataan disarankan?

NickB2014
sumber
1
Sebagian besar aplikasi analisis deret waktu adalah semacam perataan, bahkan ketika tidak digambarkan seperti itu. Smoothing dapat digunakan sebagai perangkat eksplorasi atau ringkasan - di beberapa bidang, yang bahkan merupakan metode utama atau hanya digunakan - atau untuk menghapus fitur daripada dianggap sebagai gangguan atau kepentingan sekunder untuk beberapa tujuan.
Nick Cox
4
Penafian: Saya belum membaca seluruh posting blog yang dikutip. Saya tidak dapat melewati kesalahan ketik dasar ("seri waktu", "Monte Carol") dan nada serta gayanya tidak menarik. Tetapi saya tidak akan menyarankan untuk mencoba mempelajari prinsip-prinsip analisis deret waktu, atau statistik secara umum, melalui blog siapa pun.
Nick Cox
@NickCox Setuju, dan terutama bukan dari blog yang tampaknya memiliki kapak untuk digiling.
Hong Ooi
@ Longooi Ya! Saya menghapus beberapa frasa pilihan dari draf komentar saya yang mungkin kelihatannya tidak kurang dari blog itu sendiri.
Nick Cox
1
Saya akan mengambil semua yang ditulis Briggs dengan sebutir garam.
Momo

Jawaban:

16

Exponential Smoothing adalah teknik klasik yang digunakan dalam peramalan deret waktu nonkausa. Selama Anda hanya menggunakannya dalam peramalan langsung dan tidak menggunakan in-sample smoothed fit sebagai input untuk data mining atau algoritma statistik lainnya, kritik Briggs tidak berlaku. (Oleh karena itu, saya ragu untuk menggunakannya "untuk menghasilkan data yang dihaluskan untuk presentasi", seperti yang dikatakan Wikipedia - ini mungkin menyesatkan, dengan menyembunyikan variabilitas yang dihaluskan.)

Berikut ini adalah pengantar buku teks untuk Penghalusan Eksponensial.

Dan di sini ada artikel ulasan (10 tahun, tapi masih relevan).


EDIT: tampaknya ada beberapa keraguan tentang validitas kritik Briggs, mungkin agak dipengaruhi oleh kemasannya . Saya sepenuhnya setuju bahwa nada Briggs bisa kasar. Namun, saya ingin mengilustrasikan mengapa saya pikir dia ada benarnya.

Di bawah, saya mensimulasikan 10.000 pasang deret waktu, masing-masing dari 100 pengamatan. Semua seri white noise, tanpa korelasi apa pun. Jadi menjalankan uji korelasi standar harus menghasilkan nilai p yang terdistribusi secara seragam pada [0,1]. Seperti halnya (histogram di sebelah kiri di bawah).

Namun, anggaplah kita pertama memuluskan setiap seri dan menerapkan uji korelasi pada data yang dihaluskan . Sesuatu yang mengejutkan muncul: karena kami telah menghapus banyak variabilitas dari data, kami mendapatkan nilai p yang terlalu kecil . Tes korelasi kami sangat berat sebelah. Jadi kita akan terlalu yakin ada hubungan antara seri asli, yang dikatakan Briggs.

Pertanyaannya benar-benar tergantung pada apakah kita menggunakan data yang dihaluskan untuk peramalan, di mana kasus smoothing valid, atau apakah kita memasukkannya sebagai input dalam beberapa algoritma analitik, di mana kasus menghapus variabilitas akan mensimulasikan kepastian yang lebih tinggi dalam data kita daripada yang dibenarkan. Kepastian yang tidak beralasan dalam data input ini berlaku hingga hasil akhir dan perlu dipertanggungjawabkan, jika tidak semua kesimpulan akan terlalu pasti. (Dan tentu saja kita juga akan mendapatkan interval prediksi terlalu kecil jika kita menggunakan model berdasarkan "kepastian yang meningkat" untuk perkiraan.)

n.series <- 1e4
n.time <- 1e2

p.corr <- p.corr.smoothed <- rep(NA,n.series)
set.seed(1)
for ( ii in 1:n.series ) {
    A <- rnorm(n.time)
    B <- rnorm(n.time)
    p.corr[ii] <- cor.test(A,B)$p.value
	p.corr.smoothed[ii] <- cor.test(lowess(A)$y,lowess(B)$y)$p.value
}

par(mfrow=c(1,2))
hist(p.corr,col="grey",xlab="",main="p values\nunsmoothed data")
hist(p.corr.smoothed,col="grey",xlab="",main="p values\nsmoothed data")

nilai p

S. Kolassa - Reinstate Monica
sumber
1
Saya akan menganggapnya sebagai aksiomatis untuk analisis deret waktu yang baik bahwa tidak ada kelancaran yang ditampilkan tanpa data mentah ditampilkan juga.
Nick Cox
1

Mengklaim bahwa smoothing tidak tepat untuk analisis pemodelan mengutuknya memiliki kesalahan kuadrat rata-rata yang lebih tinggi daripada yang mungkin terjadi. Mean square error atau MSE dapat didekomposisi menjadi tiga istilah, kuadrat dari nilai yang disebut `` bias '', varian, dan beberapa kesalahan tak tereduksi. (Ini ditunjukkan dalam kutipan di bawah ini.) Model yang dihaluskan secara berlebihan memiliki bias yang tinggi, bahkan jika mereka memiliki varian rendah, dan model yang terlalu kasar memiliki varian tinggi, dan bias rendah.

Tidak ada yang filosofis tentang ini sama sekali. Ini adalah karakterisasi matematika. Itu tidak tergantung pada karakter kebisingan atau karakter sistem.

Lihat:

http://scott.fortmann-roe.com/docs/BiasVariance.html

https://galton.uchicago.edu/~lafferty/pdf/nonparam.pdf

http://www.inf.ed.ac.uk/teaching/courses/mlsc/Notes/Lecture4/BiasVariance.pdf (Ini memiliki turunan dari dekomposisi.)

http://www.cs.columbia.edu/~blei/fogm/2015F/notes/regularized-regress.pdf (Blei melakukan hal yang sama dengan cara yang berbeda, dan membawa apa yang terjadi ketika seseorang mencoba untuk memprediksi.)

Statistik klasik hampir selalu menekankan pada perkiraan yang tidak bias. Pada tahun 1955, ahli statistik Charles Stein dari Stanford menunjukkan bahwa ada kombinasi dari penaksir yang tidak bias yang memiliki MSE yang lebih rendah untuk kasus-kasus khusus yang penting, terutama yang disebut JAMES-STEIN ESTIMATORS. Bradley Efron menulis teks yang sangat mudah didekati tentang revolusi ini dalam wawasan: http://statweb.stanford.edu/~ckirby/brad/other/Article1977.pdf

Jan Galkowski
sumber