Apa masalah dengan menggunakan R-squared dalam model deret waktu?

12

Saya telah membaca bahwa menggunakan R-squared untuk deret waktu tidak tepat karena dalam konteks deret waktu (saya tahu bahwa ada konteks lain) R-squared tidak lagi unik. Kenapa ini? Saya mencoba mencari ini, tetapi saya tidak menemukan apa pun. Biasanya saya tidak menempatkan banyak nilai dalam R-squared (atau Disesuaikan R-Squared) ketika saya mengevaluasi model saya, tetapi banyak rekan saya (yaitu Jurusan Bisnis) benar-benar jatuh cinta dengan R-Squared dan saya ingin dapat menjelaskan kepada mereka mengapa R-Squared di tidak sesuai dalam konteks deret waktu.

mmmmmmmmmm
sumber
3
Pencarian Google: "regresi palsu dalam ekonometrik". Atau periksa kertas Granger dan Newbold . Orang lain mungkin memberikan lebih banyak detail dalam jawaban.
Graeme Walsh
@Richard Hardy dapatkah Anda menjelaskan lebih lanjut tentang "Jika kami mengambil sampel R2 sebagai ukuran dari jumlah penduduknya, itu akan dirinci dalam rangkaian waktu terintegrasi.".
Siddharth Krishnamurthy

Jawaban:

18

Beberapa aspek masalah:

Jika seseorang memberi kita vektor angka dan matriks angka yang sesuai , kita tidak perlu tahu apa hubungan di antara mereka untuk mengeksekusi beberapa estimasi aljabar, memperlakukan sebagai variabel dependen. Aljabar akan menghasilkan, terlepas dari apakah angka-angka ini mewakili cross-sectional atau seri waktu atau data panel, atau apakah matriks berisi nilai-nilai lag dari dll. yXyXy

Definisi mendasar dari koefisien determinasi adalahR2

R2=1SSresSStot

di mana adalah jumlah residu kuadrat dari beberapa prosedur estimasi, dan adalah jumlah deviasi kuadrat dari variabel dependen dari mean sampel.SSresSStot

Menggabungkan, akan selalu dihitung secara unik, untuk sampel data tertentu, formulasi spesifik hubungan antara variabel, dan prosedur estimasi tertentu, hanya tunduk pada kondisi bahwa prosedur estimasi sedemikian rupa sehingga memberikan estimasi titik dari jumlah yang tidak diketahui yang terlibat (dan karenanya estimasi titik variabel dependen, dan karenanya estimasi titik residu). Jika salah satu dari ketiga aspek ini berubah, nilai aritmatika secara umum akan berubah -tapi ini berlaku untuk semua jenis data, bukan hanya deret waktu.R2R2

Jadi masalah dengan dan time-series, bukan apakah itu "unik" atau tidak (karena sebagian besar prosedur estimasi untuk data time-series menyediakan estimasi titik). Masalahnya adalah apakah kerangka spesifikasi seri waktu "biasa" secara teknis ramah untuk , dan apakah menyediakan beberapa informasi yang berguna. R2R2R2

Interpretasi sebagai "proporsi varians variabel dependen dijelaskan" tergantung kritis pada residu yang menambahkan hingga nol. Dalam konteks regresi linier (pada data apa pun jenisnya), dan estimasi Ordinary Least Squares, ini dijamin hanya jika spesifikasi menyertakan istilah konstan dalam matriks regressor ("drift" dalam terminologi seri waktu). Dalam model deret waktu autoregresif, penyimpangan dalam banyak kasus tidak termasuk. R2

Secara lebih umum, ketika kita dihadapkan dengan data deret waktu, "secara otomatis" kita mulai berpikir tentang bagaimana deret waktu akan berkembang ke masa depan. Jadi kita cenderung untuk mengevaluasi model deret waktu lebih didasarkan pada seberapa baik ia memprediksi nilai masa depan , daripada seberapa baik itu cocok dengan nilai masa lalu . Tetapi terutama mencerminkan yang terakhir, bukan yang pertama. Fakta yang terkenal bahwa adalah tidak berkurang dalam jumlah regressor berarti bahwa kita dapat memperoleh kesesuaian yang sempurna dengan terus menambahkan regressor ( setiap regressor, yaitu seri angka apa pun, mungkin secara konseptual sama sekali tidak terkait dengan variabel dependen) . Pengalaman menunjukkan bahwa pas yang didapat dengan demikian, juga akan memberi kepalangR2R2 prediksi di luar sampel.

Secara intuitif, ini mungkin pertukaran kontra-intuitif terjadi karena dengan menangkap seluruh variabilitas variabel dependen ke dalam persamaan yang diperkirakan, kami mengubah variabilitas tidak sistematis menjadi sistematis, sehubungan dengan prediksi (di sini, "tidak sistematis" harus dipahami relatif terhadap pengetahuan kita. -Dari sudut pandang filosofis yang murni deterministik, tidak ada yang namanya "variabilitas tidak sistematis". Namun sejauh pengetahuan kita yang terbatas memaksa kita untuk memperlakukan beberapa variabilitas sebagai "tidak sistematis", maka upaya untuk mengubahnya menjadi sistematis komponen, membawa bencana prediksi).

Sebenarnya ini mungkin cara yang paling meyakinkan untuk menunjukkan kepada seseorang mengapa tidak boleh menjadi alat diagnostik / evaluasi utama ketika berhadapan dengan deret waktu: tingkatkan jumlah regresi hingga ke titik di mana . Kemudian ambil persamaan estimasi dan cobalah untuk memprediksi nilai masa depan dari variabel dependen.R 21R2R21

Alecos Papadopoulos
sumber
Penjelasan yang baik tetapi mengapa ini ditambahkan sebagai output standar dari perangkat lunak dalam paket statistik
@Brijesh Regresi-tradisi, saya akan mengatakan.
Alecos Papadopoulos
R2