Memahami uji-t untuk regresi linier

17

Saya mencoba mencari cara untuk melakukan beberapa pengujian hipotesis pada regresi linier (hipotesis nol menjadi tidak ada korelasi). Setiap panduan dan halaman tentang subjek yang saya temui tampaknya menggunakan uji-t. Tapi saya tidak mengerti apa arti uji-t untuk regresi linier sebenarnya. Uji-t, kecuali saya memiliki pemahaman yang salah atau model mental, digunakan untuk membandingkan dua populasi. Tetapi regressor dan regressand bukan sampel dari populasi yang sama, dan bahkan mungkin bukan dari unit yang sama, jadi tidak masuk akal untuk membandingkannya.

Jadi, ketika menggunakan uji-t pada regresi linier, apa yang sebenarnya kita lakukan?

jaymmer - Pasang kembali Monica
sumber

Jawaban:

37

Anda mungkin berpikir tentang dua sampel uji t karena itu sering merupakan tempat pertama distribusi t muncul. Tapi sebenarnya semua uji t berarti bahwa distribusi referensi untuk statistik uji adalah distribusi t . Jika ZN(0,1) dan S2χd2 dengan Z dan S2 independen, maka

ZS2/dtd
menurut definisi. Saya menulis ini untuk menekankan bahwadistribusithanya nama yang diberikan kepada distribusi rasio ini karena muncul banyak, dan segala bentuk ini akan memilikidistribusit. Untuk uji dua sampel, rasio ini muncul karena di bawah nol perbedaan dalam mean adalah Gaussian nol-rata dan estimasi varians untuk Gaussi independen adalah independenχ2(independensi dapat ditunjukkan melaluiteorema Basu yang menggunakan fakta bahwa estimasi varians standar dalam sampel Gaussian adalah tambahan untuk rata-rata populasi, sedangkan rata-rata sampel lengkap dan cukup untuk jumlah yang sama).

Dengan regresi linier pada dasarnya kita mendapatkan hal yang sama. Dalam bentuk . Misalkan S 2 j = ( X T X ) - 1 j j dan menganggap prediktor X adalah non-acak. Jika kita tahu σ 2 kita akan memiliki β j - 0β^N(β,σ2(XTX)1)Sj2=(XTX)jj1Xσ2 bawah nolH0:βj=0sehingga kita benar-benar memiliki tes Z. Tapi setelah kami memperkirakanσ2kita berakhir denganχ2variabel acak yang, di bawah asumsi normalitas kami, ternyata menjadi independen dari kami statistik β jdan kemudian kita mendapatkantdistribusi.

β^j0σSjN(0,1)
H0:βj=0σ2χ2β^jt

Inilah detailnya: asumsikan . Membiarkan H = X ( X T X ) - 1 X T menjadi matriks topi yang kita miliki e 2 = ( I - H ) y 2 = y T ( I - H ) y . H adalah idempoten sehingga kami memiliki hasil yang sangat bagus yN(Xβ,σ2I)H=X(XTX)1XT

e2=(IH)y2=yT(IH)y.
H dengan parameter non-sentralitas δ = β T X T ( I - H ) X β = β T ( X T X - X T X ) β = 0 , jadi sebenarnya ini adalah pusat χ 2 dengan n - p
yT(IH)y/σ2χnp2(δ)
δ=βTXT(IH)Xβ=βT(XTXXTX)β=0χ2npderajat kebebasan (ini adalah kasus khusus teorema Cochran ). Saya menggunakan untuk menunjukkan jumlah kolom X , jadi jika satu kolom X memberikan intersep maka kita akan memiliki p - 1 prediktor non-intersep. Beberapa penulis menggunakan p untuk menjadi jumlah prediktor yang tidak mencegat jadi terkadang Anda mungkin melihat sesuatu seperti n - p - 1 dalam derajat kebebasan di sana, tetapi semuanya adalah hal yang sama.pXXp1pnp1

Hasil ini adalah bahwa , sehingga σ 2 : = 1E(eTe/σ2)=npbekerja dengan baik sebagai pendugaσ2.σ^2:=1npeTeσ2

Ini berarti bahwa β j adalah rasio dari Gaussian standar ke chi kuadrat dibagi dengan derajat kebebasannya. Untuk menyelesaikan ini, kita perlu menunjukkan independensi dan kita dapat menggunakan hasil berikut:

β^jσ^Sj=β^jSjeTe/(np)=β^jσSjeTeσ2(np)

ZNk(μ,Σ)ABRl×kRm×kAZBZAΣBT=0

We have β^=(XTX)1XTy and e=(IH)y where yN(Xβ,σ2I). This means

(XTX)1XTσ2I(IH)T=σ2((XTX)1XT(XTX)1XTX(XTX)1XT)=0
so β^e, and therefore β^eTe.

The upshot is we now know

β^jσ^Sjtnp
as desired (under all of the above assumptions).

Here's the proof of that result. Let C=(AB) be the (l+m)×k matrix formed by stacking A on top of B. Then

CZ=(AZBZ)N((AμBμ),CΣCT)
where
CΣCT=(AB)Σ(ATBT)=(AΣATAΣBTBΣATBΣBT).
CZ is a multivariate Gaussian and it is a well-known result that two components of a multivariate Gaussian are independent if and only if they are uncorrelated, so the condition AΣBT=0 turns out to be exactly equivalent to the components AZ and BZ in CZ being uncorrelated.

jld
sumber
3
+1 always enjoy reading your answer.
Haitao Du
9

@Chaconne's answer is great. But here is a much shorter nonmathematical version!

Since the goal is to compute a P value, you first need to define a null hypothesis. Almost always, that is that the slope is actually horizontal so the numerical value for the slope (beta) is 0.0.

The slope fit from your data is not 0.0. Is that discrepancy due to random chance or due to the null hypothesis being wrong? You can't ever answer that for sure, but a P value is one way to sort-of-kind-of get at an answer.

The regression program reports a standard error of the slope. Compute the t ratio as the slope divided by its standard error. Actually, it is (slope minus null hypothesis slope) divided by the standard error, but the null hypothesis slope is nearly always zero.

Now you have a t ratio. The number of degrees of freedom (df) equals the number of data points minus the number of parameters fit by the regression (two for linear regression).

With those values (t and df) you can determine the P value with an online calculator or table.

It is essentially a one-sample t-test, comparing an observed computed value (the slope) with a hypothetical value (the null hypothesis).

Harvey Motulsky
sumber
4
The real question is why this is "essentially a one-sample t-test", and I don't see how it can become clear from your answer...
amoeba says Reinstate Monica