Mengapa distribusi T digunakan untuk pengujian hipotesis koefisien regresi linier?

16

Dalam praktiknya, menggunakan uji-T standar untuk memeriksa signifikansi koefisien regresi linier adalah praktik umum. Mekanisme perhitungannya masuk akal bagi saya.

Mengapa distribusi-T dapat digunakan untuk memodelkan statistik uji standar yang digunakan dalam pengujian hipotesis regresi linier? Statistik uji standar yang saya maksud di sini:

T0=β^β0SE(β^)
Nate Parke
sumber
Jawaban lengkap dan lengkap untuk pertanyaan ini akan cukup panjang, saya yakin. Jadi, sementara Anda menunggu seseorang untuk mengatasi ini, Anda bisa mendapatkan ide yang cukup bagus tentang mengapa hal ini terjadi dengan melihat beberapa catatan yang saya temukan online di sini: onlinecourses.science.psu.edu/stat501/node/297 . Perhatikan secara spesifik bahwa . t(np)2=F(1,np)
StatsStudent
1
Saya tidak percaya ini bukan duplikat, namun semua upvotes (baik pada pertanyaan dan jawaban) ... Bagaimana dengan ini ? Atau mungkin itu bukan duplikat, yang berarti masih ada (atau masih ada sampai hari ini) topik super-dasar yang belum dibahas selama hampir tujuh tahun keberadaan Cross Validated ... Wow ...
Richard Hardy
@ Richard Hardy Hmm, itu terdengar seperti duplikat. Sementara itu lebih verbose, pertanyaannya adalah khusus: "Bagaimana saya bisa membuktikan bahwa untuk β i , β i - β iβ^i"β^iβisβ^itnk
Firebug

Jawaban:

25

Untuk memahami mengapa kita menggunakan t-distribusi, Anda perlu tahu apa adalah distribusi yang mendasari β dan dari jumlah sisa kuadrat ( R S S ) sebagai dua put bersama-sama ini akan memberi Anda t-distribusi.β^RSS

Bagian mudah adalah distribusi β yang merupakan distribusi normal - untuk melihat catatan ini bahwa β = ( X T X ) - 1 X T Y sehingga merupakan fungsi linier dari Y di mana Y ~ N ( X β , σ 2 I n ) . Akibatnya ia juga terdistribusi normal, β ~ N ( β , σ 2 ( X T X ) -β^β^(XTX)1XTYYYN(Xβ,σ2In)- beritahu saya jika Anda membutuhkan bantuan berasal distribusi β .β^N(β,σ2(XTX)1)β^

Selain itu, , di mana n adalah jumlah pengamatan dan p adalah jumlah parameter yang digunakan dalam regresi Anda. Buktinya sedikit lebih terlibat, tetapi juga langsung diturunkan (lihat buktinya di sini. Mengapa RSS didistribusikan chi square kali np? ).RSSσ2χnp2np

Sampai titik ini saya telah dianggap segalanya dalam matriks / vektor notasi, tapi mari kita untuk digunakan kesederhanaan β i dan menggunakan distribusi normal yang akan memberi kita: β i - β iβ^i

β^iβiσ(XTX)ii1N(0,1)

Selain itu, dari distribusi chi-squared dari kita memiliki bahwa: ( n - p ) s 2RSS

(np)s2σ2χnp2

Ini hanyalah penataan ulang dari ekspresi chi-squared pertama dan tidak bergantung pada . Selain itu, kami mendefinisikan s 2 = R S SN(0,1) , yang merupakan penaksir tidak bias untukσ2. Dengan definisi definisitn-pbahwa membagi distribusi normal dengan chi-kuadrat independen (lebih dari derajat kebebasannya) memberi Anda distribusi-t (untuk buktinya lihat:Normal dibagi dengans2=RSSnpσ2tnp memberi Anda distribusi-t - buktiχ2(s)/s) Anda mendapatkan bahwa:

β^iβis(XTX)ii1tnp

s(XTX)ii1=SE(β^i)

Beri tahu saya jika ini masuk akal.

francium87d
sumber
what a great answer! could you please explain why
β^iβiσ(XTX)ii1N(0,1)
?
KingDingeling
4

The answer is actually very simple: you use t-distribution because it was pretty much designed specifically for this purpose.

Ok, the nuance here is that it wasn't designed specifically for the linear regression. Gosset came up with distribution of sample that was drawn from the population. For instance, you draw a sample x1,x2,,xn, and calculate its mean x¯=i=1nxi/n. What is the distribution of a sample mean x¯?

If you knew the true (population) standard deviation σ, then you'd say that the variable ξ=(x¯μ)n/σ is from the standard normal distribution N(0,1). The trouble's that you usually do not know σ, and can only estimate it σ^. So, Gosset figured out the distribution when you substitute σ with σ^ in the denominator, and the distribution is now called after his pseduonym "Student t".

The technicalities of linear regression lead to a situation where we can estimate the standard error σ^β of the coefficient estimate β^, but we do not know the true σ, therefore Student t distribution is applied here too.

Aksakal
sumber