Jika Anda menjalankan regresi OLS pada data cross sectional, haruskah Anda menguji autokorelasi dalam residu?

8

Saya memiliki serangkaian pengamatan, tidak tergantung waktu. Saya bertanya-tanya apakah saya harus menjalankan tes autokorelasi? Menurut saya itu tidak masuk akal, karena tidak ada komponen waktu dalam data saya. Namun, saya benar-benar mencoba uji LM korelasi serial, dan ini menunjukkan autokorelasi kuat dari residu. Apakah itu masuk akal? Yang saya pikirkan adalah bahwa saya benar-benar dapat mengatur ulang pengamatan dalam dataset saya dalam urutan yang memungkinkan, dan ini akan mengubah autokorelasi dalam residu. Jadi pertanyaannya adalah - haruskah saya peduli sama sekali tentang autokorelasi dalam kasus ini? Dan haruskah saya menggunakan Newey-West untuk menyesuaikan SE untuk itu jika tes menunjukkan begitu? Terima kasih!

pengguna28479
sumber
2
Anda mengatakan dengan benar bahwa tanpa komponen waktu, residu Anda tidak dapat dihubungkan secara seri. Jadi tes untuk korelasi serial dalam kasus ini tidak valid. Kekhawatiran yang paling umum dalam data penampang adalah heteroskedastisitas atau korelasi spasial (misalnya tingkat kejahatan di kota A mempengaruhi tingkat kejahatan di kota B), tetapi keduanya mudah dikoreksi dengan opsi yang kuat dan klaster di Stata.
Andy
Mari kita coba ulangi ini tanpa menggunakan istilah korelasi seri atau autokorelasi. Variabel dependen dari model regresi memiliki matriks varians bersyarat, yaitu bersyarat pada variabel independen. Kami berharap bahwa elemen diagonal dari matriks, yaitu varian bersyarat dari elemen y, akan menjadi nol. Jika modelnya adalah cross-sectional, dapatkah kita menyimpulkan bahwa elemen off-diagonal, yaitu kovarian dari pasangan elemen y, harus nol? Tentunya tidak adanya interpretasi deret waktu tidak menghilangkan kemungkinan ini, meskipun mungkin membuatnya lebih kecil kemungkinannya?
Adam Bailey
... Salah satu contoh seperti yang disarankan Andy adalah kovarian antara unsur-unsur yang berhubungan secara spasial. Contoh non-spasial yang mungkin adalah di mana variabel dependen adalah GNP di negara yang berbeda (pada saat yang sama), di mana dua negara yang berjauhan mungkin memiliki hubungan dagang yang erat (misalnya karena alasan historis) yang menghasilkan kovarians tidak nol.
Adam Bailey
Ketika data Anda memiliki cluster, ketergantungan cross-sectional adalah mungkin. Anda dapat menyesuaikan SE seperti yang disarankan @Andy. Satu komentar tentang SE cluster-robust adalah bahwa SE kuat jika setiap cluster dalam data kecil dan ada banyak cluster yang diamati. Namun, jika Anda memiliki beberapa kluster besar, klaster robust SE tidak valid. Memang, dalam kasus cluster besar, OLS yang dikumpulkan bisa tidak konsisten. Anda dapat merujuk Andrews (2005, Econometrica) untuk referensi.
semibruin

Jawaban:

11

Perbedaan sejati antara data, adalah apakah ada, atau tidak, urutan alami dari mereka yang sesuai dengan struktur dunia nyata, dan relevan dengan masalah yang dihadapi.

Tentu saja, "keteraturan alami" yang paling jelas (dan tidak dapat dibantah) adalah dari waktu, dan karenanya dikotomi yang biasa adalah "cross-sectional / time series". Tetapi seperti yang ditunjukkan dalam komentar, kita mungkin memiliki data seri non-waktu yang memiliki tata ruang alami . Dalam kasus seperti itu, semua konsep dan alat yang dikembangkan dalam konteks analisis deret waktu berlaku di sini dengan sama baiknya, karena Anda seharusnya menyadari bahwa ada penataan ruang yang bermakna, dan tidak hanya melestarikannya, tetapi juga memeriksa apa implikasinya bagi serangkaian istilah kesalahan, antara lain yang terkait dengan keseluruhan model (seperti adanya tren, yang akan membuat data tidak stasioneritas misalnya).

Sebagai contoh (kasar), asumsikan bahwa Anda mengumpulkan data tentang jumlah mobil yang berhenti di berbagai tempat perhentian di sepanjang jalan raya, pada hari tertentu (itulah variabel dependen). Para regressor Anda mengukur berbagai fasilitas / layanan yang ditawarkan oleh masing-masing pemberhentian, dan mungkin hal-hal lain seperti jarak dari pintu keluar / pintu masuk jalan raya. Pendirian ini secara alami dipesan di sepanjang jalan raya ...

Tetapi apakah ini penting? Haruskah kita mempertahankan pemesanan, dan bahkan bertanya-tanya apakah istilah kesalahan itu berkorelasi otomatis? Tentu saja : asumsikan bahwa beberapa fasilitas / layanan pada pendirian No 1 pada kenyataannya tidak berfungsi selama hari tertentu ini (acara ini akan ditangkap oleh istilah kesalahan). Mobil yang ingin menggunakan fasilitas / layanan khusus ini akan berhenti, karena mereka tidak tahu tentang masalahnya. Tetapi mereka akan mencari tahu tentang masalahnya, dan karena itu , mereka juga akan berhenti di pendirian berikutnya , No 2, di mana, jikaapa yang mereka inginkan ditawarkan, mereka akan menerima layanan dan mereka tidak akan berhenti di pendirian No 3 - tetapi ada kemungkinan bahwa pendirian No 2 akan tampak mahal, dan mereka akan, setelah semua, coba juga pendirian No 3: Ini berarti bahwa variabel dependen dari tiga perusahaan mungkin tidak independen, yang setara dengan mengatakan bahwa ada kemungkinan korelasi dari tiga istilah kesalahan yang sesuai, dan tidak "sama", tetapi tergantung pada posisi masing-masing.

Jadi penataan ruang harus dilestarikan, dan tes untuk autokorelasi harus dilaksanakan - dan itu akan bermakna.

Jika di sisi lain tidak ada "alami" dan pemesanan bermakna tampaknya hadir untuk set data tertentu, maka kemungkinan korelasi antara pengamatan tidak boleh ditetapkan sebagai "autokorelasi" karena akan menyesatkan, dan alat yang khusus dikembangkan untuk dipesan data tidak dapat diterapkan. Tetapi korelasi mungkin ada, meskipun dalam kasus seperti itu, agak sulit untuk mendeteksi dan memperkirakannya.

Alecos Papadopoulos
sumber