Di sini salah tafsir dari asumsi normalitas dalam regresi linier dibahas (bahwa 'normalitas' merujuk X dan / atau Y daripada residual), dan poster bertanya apakah mungkin untuk memiliki X dan Y yang terdistribusi secara tidak normal. dan masih memiliki residu terdistribusi normal.
Pertanyaan saya adalah: apakah X yang didistribusikan secara normal dan Y lebih mungkin menghasilkan residu yang terdistribusi secara normal? Ada banyak posting terkait tetapi saya tidak percaya ada orang yang menanyakan pertanyaan ini secara khusus.
Saya menyadari ini mungkin titik sepele jika hanya ada satu regresi untuk dilakukan, tetapi kurang begitu jika ada beberapa tes. Jadi katakan saya memiliki 100 variabel X yang semuanya memiliki kemiringan yang sama dan saya ingin menguji semuanya. Jika saya mengubah semuanya menjadi distribusi normal, mungkinkah saya memiliki lebih sedikit variabel X yang perlu diperiksa ulang (dengan transformasi yang berbeda / tidak ada) karena residu yang terdistribusi tidak normal atau akankah transformasi pra-regresi benar-benar arbitrer?
Jawaban:
Tidak . Sisa adalah nilai-nilai tergantung pada X (dikurangi rata-rata prediksi Y pada setiap titik di X ). Anda dapat mengubah X cara apapun yang Anda inginkan ( X + 10 , X - 1 / 5 , X / π ) dan Y nilai-nilai yang bersesuaian dengan X nilai pada titik tertentu di X tidak akan berubah. Dengan demikian, distribusi bersyarat Y (yaitu, Y | XY X Y X X X+ 10 X- 1 / 5 X/ π Y X X Y Y| X ) akan tetap sama. Artinya, itu akan normal atau tidak, sama seperti sebelumnya. (Untuk memahami topik ini lebih lengkap, mungkin bisa membantu Anda membaca jawaban saya di sini: Bagaimana jika residu terdistribusi secara normal, tetapi Y tidak? )
Apa yang berubah dapat melakukan (tergantung pada sifat dari transformasi data yang Anda gunakan) adalah mengubah hubungan fungsional antara X dan Y . Dengan perubahan non-linear di X (mis., Untuk menghilangkan kemiringan) model yang ditentukan sebelumnya akan menjadi salah spesifikasi. Transformasi X non-linear sering digunakan untuk linierisasi hubungan antara X dan Y , untuk membuat hubungan lebih ditafsirkan, atau untuk menjawab pertanyaan teoretis yang berbeda.X X Y X X X Y
Untuk lebih lanjut tentang bagaimana transformasi non-linear dapat mengubah model dan pertanyaan-pertanyaan yang dijawab oleh model (dengan penekanan pada transformasi log), ini dapat membantu Anda untuk membaca utas CV yang luar biasa ini:
R
Dalam plot, kita melihat bahwa kedua marginal tampak cukup normal, dan distribusi bersama terlihat normal bivariat. Meskipun demikian, keseragaman residu muncul dalam plot qq-nya; kedua ekornya jatuh terlalu cepat relatif terhadap distribusi normal (sebagaimana memang harus terjadi).
sumber
Jawaban singkatnya adalah dalam Teori Regresi Sederhana klasik, X ditetapkan dan diasumsikan diketahui (lihat, misalnya, http://www.theanalysisfactor.com/the-distribution-of-independent-variables-in-regress-models-2/ ), bahkan tanpa kesalahan pengukuran apa pun, beta Terkecil-kuadrat Anda mungkin bias dan bahkan tidak konsisten (lihat https://www.google.com/url?sa=t&source=web&rct=j&ei=Bd3sU4_kHfPjsATAm4LADA&url=https://files.nyu) .edu / mrg217 / publik / measurement_handouts.pdf & cd = 2 & ved = 0CCMQFjAB & usg = AFQjCNF_pZvocW1SzInQPYpQTifUsQ36kQ & sig2 = 4lAnOQO23FIZbZ7323jOz ).
Sehubungan dengan membuat X variabel, Wikipedia pada teorema Gauss-Markov menyatakan secara singkat, mengutip:
"Dalam sebagian besar perawatan OLS, data X diasumsikan diperbaiki. Asumsi ini dianggap tidak sesuai untuk ilmu pengetahuan noneksperimental yang dominan seperti ekonometrik. [2] Sebaliknya, asumsi teorema Gauss-Markov dinyatakan bersyarat pada X "
yang saya baca sebagai transformasi besar yang tidak menarik dari sains ke seni, atau seni / sains.
sumber