Model linier Heteroscedasticity

Saya memiliki model linier berikut:

Residual model linier Distribusi pengamatan

Untuk mengatasi heteroscedasticity residual, saya telah mencoba menerapkan transformasi log pada variabel dependen sebagai tetapi saya masih melihat efek fan out yang sama pada residual. Nilai-nilai DV relatif kecil sehingga penambahan konstan +1 sebelum mengambil log mungkin tidak sesuai dalam kasus ini. $\log(Y + 1)$

> summary(Y)
Min.   :-0.0005647  
1st Qu.: 0.0001066  
Median : 0.0003060  
Mean   : 0.0004617  
3rd Qu.: 0.0006333  
Max.   : 0.0105730  
NA's   :30.0000000

Bagaimana saya bisa mengubah variabel untuk meningkatkan kesalahan prediksi dan varians, terutama untuk nilai-nilai pas paling kanan?

regression data-transformation linear-model heteroscedasticity Robert Kubrick
sumber

Jawaban:

Apa tujuanmu? Kita tahu bahwa heteroskedastisitas tidak membiaskan estimasi koefisien kami; itu hanya membuat kesalahan standar kami salah. Oleh karena itu, jika Anda hanya peduli tentang kesesuaian model, maka heteroskedastisitas tidak masalah.

Anda bisa mendapatkan model yang lebih efisien ( yaitu , satu dengan kesalahan standar yang lebih kecil) jika Anda menggunakan kuadrat terkecil tertimbang. Dalam hal ini, Anda perlu memperkirakan varians untuk setiap pengamatan dan bobot masing-masing pengamatan dengan kebalikan dari varians observasi-spesifik (dalam kasus weightsargumen untuk lm). Prosedur estimasi ini mengubah estimasi Anda.

Atau, untuk memperbaiki kesalahan standar untuk heteroskedastisitas tanpa mengubah perkiraan Anda, Anda dapat menggunakan kesalahan standar yang kuat. Untuk Raplikasi, lihat paket sandwich.

Menggunakan transformasi log bisa menjadi pendekatan yang baik untuk mengoreksi heteroskedastisitas, tetapi hanya jika semua nilai Anda positif dan model baru memberikan interpretasi yang wajar relatif terhadap pertanyaan yang Anda tanyakan.

Charlie
sumber

Tujuan utama saya adalah mengurangi kesalahan. Saya harus melihat ke dalam kuadrat terkecil tertimbang, tetapi saya mendapat kesan bahwa transformasi DV adalah langkah yang tepat, mengingat seberapa teratur varians residual meningkat untuk nilai pas yang lebih tinggi.

Robert Kubrick

Apa maksudmu "mengurangi kesalahan"? Kesalahan rata-rata adalah 0. Bahkan melihat di plot Anda, di jendela mana pun yang Anda pilih, rata-rata adalah 0.

Charlie

Maksud saya meningkatkan prediksi model, yaitu mengurangi kesalahan absolut dan varians kesalahan keseluruhan, terutama untuk nilai-nilai yang lebih tinggi.

Robert Kubrick

Misalkan Anda dapat mentransformasikan sedemikian rupa sehingga mengurangi heteroskedastisitas. Jika Anda ingin memprediksi , Anda harus menerapkan kebalikan dari transformasi itu, mengembalikan masalah heteroskedastisitas. Transformasi baik-baik saja jika semua yang Anda pedulikan adalah koefisien, tetapi tidak akan membantu Anda jika Anda mencoba memprediksi .

y

$y$

y

$y$

y

$y$

Charlie

Saya menduga bahwa Anda tidak ingin untuk memprediksi berubah , kan? Secara efektif, transformasi Anda harus memperkecil jarak antara pada skala asli Anda. Anda membuat interval prediksi pada skala yang diubah yang memiliki lebar yang sama di seluruh nilai-nilai ditransformasikan , tetapi ketika Anda membatalkan transformasi, interval prediksi akan diperluas ke skala asli .

y

$y$

y

$y$

y

$y$

y

$y$

Charlie

Anda ingin mencoba transformasi Box-Cox . Ini adalah versi dari transformasi kekuatan:

y \mapsto {\begin{array}{rcl} \frac{y^{λ} - 1}{λ (\dot{y})^{λ - 1}}, & λ \neq 0 \\ \dot{y} \ln y, & λ = 0 \end{array}

$y \mapsto \left\{ \begin{eqnarray} \frac{y^\lambda-1}{\lambda (\dot y)^{\lambda-1}}, & \lambda \neq 0 \\ \dot y \ln y, & \lambda = 0 \end{eqnarray} \right.$ di mana adalah rata-rata geometrik data. Ketika digunakan sebagai transformasi dari variabel respon, peran nominalnya adalah untuk membuat data lebih dekat dengan distribusi normal, dan kemiringan adalah alasan utama mengapa data tersebut terlihat tidak normal. Perasaan saya dengan sebar Anda adalah bahwa ia perlu diterapkan pada (sebagian) variabel penjelas dan respons.

\dot{y}

$\dot y$

Beberapa diskusi sebelumnya termasuk Apa transformasi normalisasi yang biasa digunakan di luar yang umum seperti akar kuadrat, log, dll? dan Bagaimana saya harus mengubah data non-negatif termasuk nol? . Anda dapat menemukan kode R berikut. Cara mencari prosedur statistik di R?

Ahli ekonometrika berhenti mengkhawatirkan heteroskedastisitas setelah karya mani Halbert White (1980) tentang pengaturan prosedur inferensial yang kuat untuk heteroskedastisitas (yang sebenarnya hanya menceritakan kembali kisah sebelumnya oleh ahli statistik F. Eicker (1967)). Lihat halaman Wikipedia yang baru saja saya tulis ulang.

Tugas
sumber

Terima kasih, pada titik ini saya sedang berdebat apakah akan menerapkan transformasi daya atau menggunakan regresi yang kuat untuk mengurangi kesalahan dan meningkatkan interval prediksi. Saya bertanya-tanya bagaimana kedua teknik ini dibandingkan. Juga jika saya menggunakan transformasi, saya perlu mengubah nilai prediksi. Itu tidak terlihat seperti formula yang jelas, bukan?

Robert Kubrick

Jika dengan regresi yang kuat, maksud Anda kesalahan standar yang kuat seperti yang dijelaskan oleh @StasK, itu tidak mengubah residu / kesalahan sama sekali. Koefisiennya persis sama dengan OLS, memberikan residu yang persis sama. Kesalahan standar dari koefisien berubah dan biasanya lebih besar dari OLS SE. Interval prediksi ditingkatkan karena Anda sekarang menggunakan kesalahan standar yang benar untuk koefisien Anda (meskipun mereka cenderung lebih besar dibandingkan dengan yang dari OLS). Jika tujuan Anda adalah untuk memprediksi , Anda harus tetap menggunakan model linier dan menggunakan teknik yang saya sebutkan dalam jawaban saya.

y

$y$

Charlie

@Charlie maksud saya en.wikipedia.org/wiki/Robust_regress . Saya baru dalam hal ini, tetapi saya memahami regresi yang kuat mengubah teknik estimasi, oleh karena itu residu harus berbeda.

Robert Kubrick

Benar, itu adalah metode yang berbeda dan mengubah perkiraan Anda. Saya pikir regresi yang kuat lebih cocok untuk kasus dengan pencilan. Bergantung pada versi regresi kuat mana yang Anda putuskan untuk digunakan dan kumpulan data khusus Anda, Anda bisa mendapatkan interval kepercayaan yang lebih luas relatif terhadap OLS.

Charlie

Ada solusi yang sangat sederhana untuk masalah heteroskedastisitas yang terkait dengan variabel dependen dalam data deret waktu. Saya tidak tahu apakah ini berlaku untuk variabel dependen Anda. Anggap saja, alih-alih menggunakan Y nominal, ubahlah ke% perubahan Y dari periode saat ini selama periode sebelumnya. Sebagai contoh, katakanlah nominal Y Anda adalah PDB sebesar $ 14 triliun pada periode terkini. Sebagai gantinya, hitung perubahan dalam PDB selama periode terbaru (katakanlah 2,5%).

Serangkaian waktu nominal selalu tumbuh dan selalu heteroskedastik (varian kesalahan tumbuh seiring waktu karena nilainya tumbuh). Serial% perubahan biasanya homoskedastik karena variabel dependennya cukup stasioner.

Sympa
sumber

Nilai saya gunakan adalah deret waktu% perubahan dari periode sebelumnya.

Y

$Y$

Robert Kubrick

Ini mengejutkan. Biasanya,% variabel perubahan tidak heteroskedastik. Saya bertanya-tanya apakah residunya kurang heteroskedastik daripada yang kita pikirkan. Dan, bahwa masalah yang mendasarinya adalah salah satu outlier. Saya melihat 4 atau 5 pengamatan dalam kisaran 0,15% yang jika dihapus akan membuat keseluruhan grafik menjadi kurang heteroskedastik. Juga, seperti yang disebutkan orang lain heteroskedastisitas tidak akan merusak koefisien regresi Anda, tetapi hanya interval kepercayaan Anda dan kesalahan standar yang terkait. Namun, melihat grafik Anda, sepertinya CI mungkin tidak terlalu terpengaruh. Dan, masih bisa bermanfaat.

Sympa