Saya melihat beberapa masalah, dan dalam beberapa, untuk menguji koefisien, kadang-kadang saya melihat orang menggunakan distribusi Student, dan kadang-kadang saya melihat distribusi Normal. Apa aturannya?
10
Saya melihat beberapa masalah, dan dalam beberapa, untuk menguji koefisien, kadang-kadang saya melihat orang menggunakan distribusi Student, dan kadang-kadang saya melihat distribusi Normal. Apa aturannya?
Jawaban:
Distribusi normal adalah distribusi sampel besar dalam banyak masalah statistik bermakna yang melibatkan beberapa versi dari Teorema Batas Pusat: Anda memiliki (kurang-lebih) informasi independen yang ditambahkan untuk sampai pada jawabannya. Jika estimasi parameter normal asimptotik, fungsinya juga akan normal asimptotik (dalam kasus reguler).
Di sisi lain, distribusi Student diturunkan dalam kondisi yang lebih ketat dari kesalahan regresi normal iid. Jika Anda dapat membeli asumsi ini, Anda dapat membeli distribusi yang digunakan untuk menguji hipotesis dalam regresi linier. Penggunaan distribusi ini memberikan interval kepercayaan yang lebih luas daripada penggunaan distribusi normal. Arti substantif dari itu adalah bahwa dalam sampel kecil, Anda perlu memperkirakan ukuran ketidakpastian Anda, kesalahan kuadrat rata-rata regresi, atau standar deviasi residual, . (Dalam sampel besar, Anda agak memiliki informasi sebanyak jika Anda mengetahuinya, sehingga distribusi merosot ke distribusi normal.)t σ tt t σ t
Ada beberapa kesempatan dalam regresi linier, bahkan dengan sampel terbatas, di mana distribusi Siswa tidak dapat dibenarkan. Mereka terkait dengan pelanggaran kondisi orde kedua pada kesalahan regresi; yaitu, bahwa mereka (1) varians konstan, dan (2) independen. Jika asumsi ini dilanggar, dan Anda memperbaiki kesalahan standar Anda menggunakan estimator Eicker / White untuk heteroskedastik, tetapi residual independen; atau penduga Newey-West untuk kesalahan yang berhubungan secara seri, atau kesalahan standar yang dikelompokkanuntuk data berkorelasi-cluster, tidak ada cara Anda dapat menarik pembenaran yang masuk akal untuk distribusi Siswa. Namun, dengan menggunakan versi yang sesuai dari argumen normalitas asimptotik (array traingular dan semacamnya), Anda dapat membenarkan perkiraan normal (walaupun Anda harus ingat bahwa interval kepercayaan diri Anda kemungkinan besar akan terlalu sempit).
sumber
Saya suka representasi distribusi t siswa sebagai campuran dari distribusi normal dan distribusi gamma:
Perhatikan bahwa rata-rata distribusi gamma adalah dan varians dari distribusi ini adalah . Jadi kita dapat melihat distribusi-t sebagai generalisasi asumsi varian konstan ke asumsi varian "mirip". pada dasarnya mengontrol seberapa mirip kita membiarkan varians untuk menjadi. Anda juga melihat ini sebagai regresi "acak tertimbang", karena kita dapat menggunakan integral di atas sebagai representasi "variabel tersembunyi" sebagai berikut:E[ρ|ν]=1 V[ρ|ν]=2ν ν
Di mana dan semua variabel independen. Sebenarnya ini pada dasarnya hanya definisi dari distribusi-t, sepertiei∼N(0,σ2) ρi∼Gamma(ν2,ν2) Gamma(ν2,ν2)∼1νχ2ν
Anda dapat melihat mengapa hasil ini membuat distribusi t siswa "kuat" dibandingkan dengan normal karena kesalahan besar dapat terjadi karena nilai atau karena nilai . Sekarang karena adalah umum untuk semua pengamatan, tetapi adalah spesifik untuk yang ke-1, hal umum "akal sehat" untuk menyimpulkan adalah bahwa outlier memberikan bukti untuk kecil . Selain itu, jika Anda melakukan regresi linier , Anda akan menemukan bahwa adalah bobot untuk pengamatan ke-i, dengan asumsi bahwa diketahui .:σ 2 ρ i σ 2 ρ i ρ i μ i = x T i β ρ i ρ iyi−μi σ2 ρi σ2 ρi ρi μi=xTiβ ρi ρi
Jadi pencilan merupakan bukti untuk kecil yang berarti pengamatan ke-i berkurang. Selain itu, "outlier" kecil - pengamatan yang diprediksi / dipasang jauh lebih baik daripada yang lain - merupakan bukti untuk . Karenanya pengamatan ini akan diberikan bobot lebih dalam regresi. Ini sejalan dengan apa yang akan dilakukan secara intuitif dengan pencilan atau titik data yang baik.ρ iρi ρi
Perhatikan bahwa tidak ada "aturan" untuk memutuskan hal-hal ini, meskipun tanggapan saya dan orang lain terhadap pertanyaan ini mungkin berguna untuk menemukan beberapa tes yang dapat Anda lakukan di sepanjang jalur varian terbatas (siswa t adalah varian tak terbatas untuk derajat kebebasan kurang dari atau sama dengan ke dua).
sumber