Mengapa distribusi T digunakan untuk pengujian hipotesis koefisien regresi linier?

16

Dalam praktiknya, menggunakan uji-T standar untuk memeriksa signifikansi koefisien regresi linier adalah praktik umum. Mekanisme perhitungannya masuk akal bagi saya.

Mengapa distribusi-T dapat digunakan untuk memodelkan statistik uji standar yang digunakan dalam pengujian hipotesis regresi linier? Statistik uji standar yang saya maksud di sini:

T_{0} = \frac{\hat{β} - β_{0}}{S E (\hat{β})}

$T_{0} = \frac{\widehat{\beta} - \beta_{0}}{SE(\widehat{\beta})}$

regression hypothesis-testing linear-model t-distribution Nate Parke
sumber

Jawaban lengkap dan lengkap untuk pertanyaan ini akan cukup panjang, saya yakin. Jadi, sementara Anda menunggu seseorang untuk mengatasi ini, Anda bisa mendapatkan ide yang cukup bagus tentang mengapa hal ini terjadi dengan melihat beberapa catatan yang saya temukan online di sini: onlinecourses.science.psu.edu/stat501/node/297 . Perhatikan secara spesifik bahwa

.

t_{(n - p)}^{2} = F_{(1, n - p)}

$t^2_{(n−p)}=F_{(1,n−p)}$

StatsStudent

1

Saya tidak percaya ini bukan duplikat, namun semua upvotes (baik pada pertanyaan dan jawaban) ... Bagaimana dengan ini ? Atau mungkin itu bukan duplikat, yang berarti masih ada (atau masih ada sampai hari ini) topik super-dasar yang belum dibahas selama hampir tujuh tahun keberadaan Cross Validated ... Wow ...

Richard Hardy

@ Richard Hardy Hmm, itu terdengar seperti duplikat. Sementara itu lebih verbose, pertanyaannya adalah khusus: "Bagaimana saya bisa membuktikan bahwa untuk , $\hat\beta_i$ " $\frac{\hat{\beta}_i - \beta_i} {s_{\hat{\beta}_i}} \sim t_{n-k}$

Firebug

25

Untuk memahami mengapa kita menggunakan t-distribusi, Anda perlu tahu apa adalah distribusi yang mendasari dan dari jumlah sisa kuadrat ( ) sebagai dua put bersama-sama ini akan memberi Anda t-distribusi. $\widehat{\beta}$ $RSS$

Bagian mudah adalah distribusi yang merupakan distribusi normal - untuk melihat catatan ini bahwa = sehingga merupakan fungsi linier dari di mana . Akibatnya ia juga terdistribusi $\widehat{\beta}$ $\widehat{\beta}$ $(X^{T}X)^{-1}X^{T}Y$ $Y$ $Y\sim N(X\beta, \sigma^{2}I_{n})$ - beritahu saya jika Anda membutuhkan bantuan berasal distribusi . $\widehat{\beta} \sim N(\beta, \sigma^{2}(X^{T}X)^{-1})$ $\widehat{\beta}$

Selain itu, , di mana adalah jumlah pengamatan dan adalah jumlah parameter yang digunakan dalam regresi Anda. Buktinya sedikit lebih terlibat, tetapi juga langsung diturunkan (lihat buktinya di sini. Mengapa RSS didistribusikan chi square kali np? ). $RSS \sim \sigma^{2}\chi^{2}_{n-p}$ $n$ $p$

Sampai titik ini saya telah dianggap segalanya dalam matriks / vektor notasi, tapi mari kita untuk digunakan kesederhanaan dan menggunakan distribusi normal yang akan memberi $\widehat{\beta}_{i}$

\frac{{\hat{β}}_{i} - β_{i}}{σ \sqrt{(X^{T} X)_{i i}^{- 1}}} \sim N (0, 1)

$\begin{equation} \frac{\widehat{\beta}_{i}-\beta_{i}}{\sigma\sqrt{(X^{T}X)^{-1}_{ii}}} \sim N(0,1) \end{equation}$

Selain itu, dari distribusi chi-squared dari kita memiliki bahwa: $RSS$

\frac{(n - p) s^{2}}{σ^{2}} \sim χ_{n - p}^{2}

$\begin{equation} \frac{(n-p)s^{2}}{\sigma^{2}} \sim \chi^{2}_{n-p} \end{equation}$

Ini hanyalah penataan ulang dari ekspresi chi-squared pertama dan tidak bergantung pada . Selain itu, kami mendefinisikan $N(0,1)$ , yang merupakan penaksir tidak bias untuk. Dengan definisi definisibahwa membagi distribusi normal dengan chi-kuadrat independen (lebih dari derajat kebebasannya) memberi Anda distribusi-t (untuk buktinya lihat:Normal dibagi dengan $s^{2}=\frac{RSS}{n-p}$ $\sigma^{2}$ $t_{n-p}$ memberi Anda distribusi-t - bukti $\sqrt{\chi^2(s)/s}$ ) Anda mendapatkan bahwa:

\frac{{\hat{β}}_{i} - β_{i}}{s \sqrt{(X^{T} X)_{i i}^{- 1}}} \sim t_{n - p}

$\begin{equation} \frac{\widehat{\beta}_{i}-\beta_{i}}{s\sqrt{(X^{T}X)^{-1}_{ii}}} \sim t_{n-p} \end{equation}$

$s\sqrt{(X^{T}X)^{-1}_{ii}}=SE(\widehat{\beta}_{i})$

Beri tahu saya jika ini masuk akal.

francium87d
sumber

what a great answer! could you please explain why

\frac{{\hat{β}}_{i} - β_{i}}{σ \sqrt{(X^{T} X)_{i i}^{- 1}}} \sim N (0, 1)

$\begin{equation} \frac{\widehat{\beta}_{i}-\beta_{i}}{\sigma\sqrt{(X^{T}X)^{-1}_{ii}}} \sim N(0,1) \end{equation}$ ?

KingDingeling

4

The answer is actually very simple: you use t-distribution because it was pretty much designed specifically for this purpose.

Ok, the nuance here is that it wasn't designed specifically for the linear regression. Gosset came up with distribution of sample that was drawn from the population. For instance, you draw a sample $x_1,x_2,\dots,x_n$ , and calculate its mean $\bar x=\sum_{i=1}^n x_i/n$ . What is the distribution of a sample mean $\bar x$ ?

If you knew the true (population) standard deviation $\sigma$ , then you'd say that the variable $\xi=(\bar x-\mu)\sqrt n/\sigma$ is from the standard normal distribution $\mathcal N(0,1)$ . The trouble's that you usually do not know $\sigma$ , and can only estimate it $\hat\sigma$ . So, Gosset figured out the distribution when you substitute $\sigma$ with $\hat\sigma$ in the denominator, and the distribution is now called after his pseduonym "Student t".

The technicalities of linear regression lead to a situation where we can estimate the standard error $\hat\sigma_\beta$ of the coefficient estimate $\hat\beta$ , but we do not know the true $\sigma$ , therefore Student t distribution is applied here too.

Aksakal
sumber

Mengapa distribusi T digunakan untuk pengujian hipotesis koefisien regresi linier?

Jawaban: