Regresi biasa vs regresi ketika variabel dibedakan

13

Saya hanya mencoba memahami apa hubungan antara regresi berganda / sederhana normal vs regresi berganda / sederhana ketika variabel-variabel berbeda.

Sebagai contoh, saya menganalisis hubungan antara saldo deposito ( YT ) harga pasar vs ( RT ) Jika saya menjalankan regresi linier sederhana, korelasi negatif dan cukup signifikan (sekitar -.74) Namun, jika saya mengambil log dan perbedaan variabel dependen dan perbedaan variabel independen, jadi persamaan saya sekarang dln(YT) yang mundur dengandR(T) , korelasi saya dan R ^ 2 tidak signifikan sama sekali (R2=.004 ).

Saya hanya ingin tahu apakah rendah ini R2berarti apa-apa? Apakah itu berarti model saya tidak cocok, atau apakah saya mengabaikan R2 ketika saya melihat data yang berbeda? Saya tahu dari data ada korelasi yang signifikan antara dua variabel asli, namun untuk model saya, saya perlu melihat variabel yang berbeda, jadi hanya ingin tahu bagaimana caranya.

alex
sumber

Jawaban:

16

Versi sederhana adalah bahwa setiap dua variabel yang cenderung berubah dalam satu arah dari waktu ke waktu akan tampak berkorelasi, apakah ada hubungan di antara mereka atau tidak. Pertimbangkan variabel-variabel berikut:

set.seed(1)
time = seq(from=1, to=100, by=1)
x  = .5 + .3*time +        rnorm(100)
y1 =  3 + .3*time +        rnorm(100)
y2 =  7 + .1*time + .8*x + rnorm(100)

hanyalah fungsi waktu, seperti halnya y 1 . y 2 adalah fungsi dari kedua waktu dan x . Intinya adalah mengenali dari kode bahwa benar-benar ada hubungan antara x dan y 2 , dan bahwa tidak ada hubungan antara x dan y 1 . Sekarang lihat gambar berikut, ketiga garis terlihat sangat mirip, bukan?xy1y2xxy2xy1

masukkan deskripsi gambar di sini

R2xy1R2xy2xy1xy2, jadi bagaimana kita membedakan yang nyata dari penampilan belaka? Di situlah perbedaan masuk. Untuk setiap dua variabel, karena keduanya cenderung naik seiring waktu, itu tidak terlalu informatif, tetapi mengingat bahwa satu naik dengan jumlah tertentu, apakah itu memberi tahu kita berapa banyak yang lain naik? Perbedaan memungkinkan kita untuk menjawab pertanyaan itu. Perhatikan dua gambar berikut, scatterplots yang saya buat setelah membedakan ketiga variabel.

masukkan deskripsi gambar di sini

masukkan deskripsi gambar di sini

xy2R2=.43xy1R2=.07R2

Beberapa poin lain: Dalam gambar, saya menekankan bahwa ini adalah perubahan simultan. Tidak ada yang salah dengan itu, dan itu mengikuti dari cara saya mengatur masalah, tetapi biasanya orang tertarik pada efek di beberapa lag. (Yaitu, perubahan dalam satu hal pada satu titik waktu menyebabkan perubahan pada hal lain nanti.) Kedua, Anda menyebutkan mengambil log dari salah satu seri Anda. Mengambil log cukup dengan mengalihkan data Anda dari level ke kurs. Dan dengan demikian, ketika Anda berbeda, Anda melihat perubahan tingkat daripada perubahan tingkat. Itu sangat umum, tetapi saya tidak memasukkan elemen itu dalam demonstrasi saya; itu ortogonal dengan masalah yang saya diskusikan. Terakhir, saya ingin mengakui bahwa data deret waktu sering lebih rumit daripada demonstrasi saya.

gung - Pasang kembali Monica
sumber
10

@ung menawarkan jawaban yang bagus, tapi saya ingin menawarkan beberapa peringatan atas apa yang Anda sarankan.

Pembedaan sebagian besar digunakan untuk memerangi masalah unit root, misalnya, ketika prosesnya adalah AR (1) dengan koefisien korelasi 1. Pembedaan dapat digunakan secara efektif untuk menghilangkan tren waktu linier ketika istilah kesalahannya adalah white noise (dalam khususnya, tidak menunjukkan korelasi serial), seperti yang ditunjukkan @ung di atas. Tetapi, jika istilah kesalahan memiliki korelasi serial dengan koefisien korelasi kurang dari 1 dalam nilai absolut, menggunakan differencing untuk menghapus tren waktu linier menghasilkan kesalahan dengan struktur yang sangat rumit. Sulit untuk mendapatkan kesalahan standar yang akurat dan membuat kesimpulan yang valid dalam kasus ini.

Sebagai hasilnya, yang terbaik adalah menguji unit root terlebih dahulu dan, jika terdeteksi, untuk memperbaikinya melalui differencing. Selanjutnya, periksa tren waktu linier. Perbaiki masalah ini dengan menurunkan harga. Tanpa melakukan yang terakhir, Anda terbuka untuk masalah tipe variabel yang dihilangkan yang menggambarkan @gung dengan baik.

Charlie
sumber
1
+1 Ini adalah pelengkap yang bagus untuk jawaban saya. Saya mencoba menjaga jawaban saya sederhana dan intuitif. Namun, memang benar bahwa ada lebih banyak kerumitan daripada yang saya bahas, dan itu bisa sangat penting. Saya seharusnya mengakui hal itu di paragraf terakhir saya. Terima kasih telah membuat saya jujur.
gung - Reinstate Monica
1

Ketika tujuannya adalah untuk membentuk / mengidentifikasi hubungan antara dua seri atau lebih, orang mungkin perlu menyaring variabel X stasioner untuk mengubahnya menjadi noise. Ini adalah proses dua langkah, perbedaan yang diperlukan dan struktur ARMA. Untuk mempertahankan objektivitas dan untuk menghindari Spesifikasi Model Bias kita tidak boleh mengasumsikan filter tetapi membangun filter yang menggunakan sifat autokorelasi dari seri X stasioner. Kemudian seseorang mengambil seri Y dan menerapkan operator yang diperlukan untuk membuatnya stasioner dan kemudian menerapkan filter yang dikembangkan sebelumnya ke Y stasioner. Prosedur ini memiliki satu dan hanya satu tujuan dan itu adalah untuk mengidentifikasi hubungan antara Y dan X. Seseorang tidak boleh langsung mengambil kesimpulan tentang operator yang diperlukan yang berbeda, filter ARMA dan hubungan antara variabel kecuali satu adalah seorang ahli ekonometrik yang mengetahui model sebelum mereka mengamati data atau jika Anda berbicara langsung kepada yang maha kuasa. Analisis yang cermat mengenai normalitas persyaratan kesalahan diperlukan untuk meyakini setiap uji statistik yang dapat dihitung. Perhitungan uji F / uji T diperlukan tetapi tidak cukup. Singkatnya saya sarankan agar Anda mengejar subjek "Cara Mengidentifikasi Model Fungsi Transfer". Orang lain dan saya telah membahas masalah ini beberapa kali. Jika mau, Anda dapat membaca beberapa jawaban atas pertanyaan yang memiliki tag "seri waktu" yang menyertainya. Seperti kata Yogi "Kamu bisa banyak mengamati dengan hanya membaca / menonton". Terkadang jawaban yang bagus dan sederhana dapat membuat Anda tersesat dan berpotensi terlalu rumit / jawaban konservatif seperti milik saya mungkin mengharuskan Anda untuk mengembangkan pemahaman yang lebih baik tentang pemodelan data deret waktu. Seperti yang pernah dikatakan, "Toto, kita tidak berada di Kansas (yaitu data cross-sectional) lagi!"

IrishStat
sumber