Dalam praktiknya, menggunakan uji-T standar untuk memeriksa signifikansi koefisien regresi linier adalah praktik umum. Mekanisme perhitungannya masuk akal bagi saya.
Mengapa distribusi-T dapat digunakan untuk memodelkan statistik uji standar yang digunakan dalam pengujian hipotesis regresi linier? Statistik uji standar yang saya maksud di sini:
regression
hypothesis-testing
linear-model
t-distribution
Nate Parke
sumber
sumber
Jawaban:
Untuk memahami mengapa kita menggunakan t-distribusi, Anda perlu tahu apa adalah distribusi yang mendasari β dan dari jumlah sisa kuadrat ( R S S ) sebagai dua put bersama-sama ini akan memberi Anda t-distribusi.βˆ RSS
Bagian mudah adalah distribusi β yang merupakan distribusi normal - untuk melihat catatan ini bahwa β = ( X T X ) - 1 X T Y sehingga merupakan fungsi linier dari Y di mana Y ~ N ( X β , σ 2 I n ) . Akibatnya ia juga terdistribusi normal, β ~ N ( β , σ 2 ( X T X ) -βˆ βˆ (XTX)−1XTY Y Y∼N(Xβ,σ2In) - beritahu saya jika Anda membutuhkan bantuan berasal distribusi β .βˆ∼N(β,σ2(XTX)−1) βˆ
Selain itu, , di mana n adalah jumlah pengamatan dan p adalah jumlah parameter yang digunakan dalam regresi Anda. Buktinya sedikit lebih terlibat, tetapi juga langsung diturunkan (lihat buktinya di sini. Mengapa RSS didistribusikan chi square kali np? ).RSS∼σ2χ2n−p n p
Sampai titik ini saya telah dianggap segalanya dalam matriks / vektor notasi, tapi mari kita untuk digunakan kesederhanaan β i dan menggunakan distribusi normal yang akan memberi kita: β i - β iβˆi
Selain itu, dari distribusi chi-squared dari kita memiliki bahwa: ( n - p ) s 2RSS
Ini hanyalah penataan ulang dari ekspresi chi-squared pertama dan tidak bergantung pada . Selain itu, kami mendefinisikan s 2 = R S SN(0,1) , yang merupakan penaksir tidak bias untukσ2. Dengan definisi definisitn-pbahwa membagi distribusi normal dengan chi-kuadrat independen (lebih dari derajat kebebasannya) memberi Anda distribusi-t (untuk buktinya lihat:Normal dibagi dengan√s2=RSSn−p σ2 tn−p memberi Anda distribusi-t - buktiχ2(s)/s−−−−−−√ ) Anda mendapatkan bahwa:
Beri tahu saya jika ini masuk akal.
sumber
The answer is actually very simple: you use t-distribution because it was pretty much designed specifically for this purpose.
Ok, the nuance here is that it wasn't designed specifically for the linear regression. Gosset came up with distribution of sample that was drawn from the population. For instance, you draw a samplex1,x2,…,xn , and calculate its mean x¯=∑ni=1xi/n . What is the distribution of a sample mean x¯ ?
If you knew the true (population) standard deviationσ , then you'd say that the variable ξ=(x¯−μ)n−−√/σ is from the standard normal distribution N(0,1) . The trouble's that you usually do not know σ , and can only estimate it σ^ . So, Gosset figured out the distribution when you substitute σ with σ^ in the denominator, and the distribution is now called after his pseduonym "Student t".
The technicalities of linear regression lead to a situation where we can estimate the standard errorσ^β of the coefficient estimate β^ , but we do not know the true σ , therefore Student t distribution is applied here too.
sumber