Mengapa diagnostik didasarkan pada residu?

11

Dalam regresi linier sederhana seseorang sering ingin memverifikasi apakah asumsi tertentu dipenuhi untuk dapat melakukan inferensi (misalnya residu terdistribusi normal).

Apakah masuk akal untuk memeriksa asumsi dengan memeriksa apakah nilai yang dipasang terdistribusi secara normal?

bdeonovic
sumber

Jawaban:

19

Mengapa diagnostik didasarkan pada residu?

Karena banyak asumsi berkaitan dengan distribusi bersyarat , bukan distribusi tanpa syarat. Itu setara dengan asumsi kesalahan, yang kami perkirakan berdasarkan residu.Y

Dalam regresi linier sederhana seseorang sering ingin memverifikasi apakah asumsi tertentu dipenuhi untuk dapat melakukan inferensi (misalnya residu terdistribusi normal).

Asumsi normalitas aktual bukan tentang residual tetapi tentang istilah kesalahan. Hal terdekat dengan yang Anda miliki adalah residu, itulah sebabnya kami memeriksanya.

Apakah masuk akal untuk memeriksa memeriksa asumsi dengan memeriksa apakah nilai yang dipasang terdistribusi secara normal?

Tidak. Distribusi nilai yang dipasang tergantung pada pola . Itu tidak memberi tahu Anda banyak tentang asumsi.x

Sebagai contoh, saya hanya menjalankan regresi pada data yang disimulasikan, yang semua anggapannya ditentukan dengan benar. Misalnya, normalitas kesalahan terpenuhi. Inilah yang terjadi ketika kami mencoba memeriksa normalitas nilai yang dipasang:

diagnosa normalitas pada pemasangan

x

yxxy

diagnostik normalitas pada nilai-y mentah

y

Yyyx


Apa asumsinya, bagaimana kita memeriksanya dan kapan kita perlu membuatnya?

  • x

  • E(Y)xx

  • Var(Y|x)xxx

  • Independensi bersyarat / independensi kesalahan. Bentuk-bentuk tertentu dari ketergantungan dapat diperiksa (misalnya, korelasi serial). Jika Anda tidak dapat mengantisipasi bentuk ketergantungan, ini agak sulit untuk diperiksa.

  • Y

(Sebenarnya ada beberapa asumsi lain yang belum saya sebutkan, seperti kesalahan aditif, bahwa kesalahan memiliki rata-rata nol, dan sebagainya.)

Jika Anda hanya tertarik untuk memperkirakan kecocokan dari garis kuadrat terkecil dan tidak mengatakan kesalahan standar, Anda tidak perlu membuat sebagian besar asumsi ini. Sebagai contoh, distribusi kesalahan mempengaruhi inferensi (tes dan interval), dan itu dapat mempengaruhi efisiensi estimasi, tetapi garis LS masih linier paling baik misalnya; jadi kecuali distribusinya sangat tidak normal sehingga semua estimator linier buruk, itu tidak selalu menjadi masalah jika asumsi tentang istilah kesalahan tidak berlaku.

Glen_b -Reinstate Monica
sumber
Saya menambahkan beberapa diagram ke jawaban saya.
Glen_b -Reinstate Monica
2
Ini jawaban yang bagus. Jika Anda menginginkan lebih, saya mencakup wilayah yang agak mirip di sini: Bagaimana jika residu terdistribusi normal tetapi Y tidak?
gung - Reinstate Monica
@ung, aku menendang diriku sendiri karena tidak menghubungkannya dulu.
Glen_b -Reinstate Monica
1
@ Glen: Disposisi yang sangat bagus. Saya memiliki kebingungan yang sama untuk waktu yang lama berkat perlakuan yang tidak begitu baik dari topik di buku pelajaran dan hampir di banyak sumber daya di internet. Di sisi lain distribusi Y tanpa syarat hampir selalu diperiksa untuk menyimpulkan model untuk distribusi bersyarat, terutama dalam konteks deret waktu. Apakah ada alasan teoretis di baliknya? Saya mencoba mengajukannya sebagai pertanyaan tetapi saya pikir tidak dapat mengutarakannya dengan benar: stats.stackexchange.com/questions/74886/…
Cagdas Ozgenc
@CagdasOzgenc Satu-satunya alasan yang dapat saya pikirkan untuk melakukannya adalah karena itu mudah dilakukan sebelum Anda memiliki model. Jawaban yang Anda miliki pada pertanyaan tertaut itu tampak seperti jawaban yang bagus untuk saya ketika dikirim.
Glen_b -Reinstate Monica