Apa perbedaan antara standardisasi dan studentisasi?

21

Apakah itu dalam varian standardisasi diketahui sementara dalam siswaisasi itu tidak diketahui dan karenanya diperkirakan? Terima kasih.

standardization 58485362
sumber

2

Anda mungkin ingin memperjelas konteks pertanyaan Anda. Standardisasi seperti apa, jenis mahasiswaisasi apa? Untuk apa nilai-nilai ini digunakan?

russellpierce

3

Jika Anda bertanya tentang residu , maka terminologinya tidak (ahem) standar . Penulis yang berbeda menggunakan nama yang berbeda untuk hal yang sama, dan kadang-kadang - dan yang paling membingungkan, nama yang sama untuk hal yang berbeda. Ada yang saya sebut (i) residu berskala ( , disebut residu terstandarisasi oleh beberapa penulis); (ii) residual pelajar secara internal (disebut standar oleh beberapa penulis / paket, dipelajarkan oleh orang lain); (iii) studentized eksternal / studentized dihapus residual

(y - {\hat{y}}_{i}) / s

$(y-\hat{y}_i)/s$

Glen_b -Reinstate Monica

20

Rekap pendek. Diberikan model , di mana adalah , dan , di mana adalah "topi matriks". Residual adalah Varians populasi tidak diketahui dan dapat diperkirakan oleh , kesalahan kuadrat rata-rata. $y=X\beta+\varepsilon$ $X$ $n\times p$ $\hat\beta=(X'X)^{-1}X'y$ $\hat y=X\hat\beta=X(X'X)^{-1}X'y=Hy$ $H=X(X'X)^{-1}X'$

e = y - \hat{y} = y - H y = (I - H) y

$e=y-\hat y=y-Hy=(I-H)y$

σ^{2}

$\sigma^2$

M S E

$MSE$

Residual semistudentisasi didefinisikan sebagai tetapi, karena varian residu bergantung pada dan , varians perkiraan mereka adalah: mana adalah elemen diagonal ke- dari matriks topi.

e_{i}^{*} = \frac{e_{i}}{\sqrt{M S E}}

$e_i^*=\frac{e_i}{\sqrt{MSE}}$

σ^{2}

$\sigma^2$

X

$X$

\hat{V} (e_{i}) = M S E (1 - h_{i i})

$\widehat V(e_i)=MSE(1-h_{ii})$

h_{i i}

$h_{ii}$

i

$i$

Residual terstandarisasi , juga disebut residual yang internal , adalah:

r_{i} = \frac{e_{i}}{\sqrt{M S E (1 - h_{i i})}}

$r_i=\frac{e_i}{\sqrt{MSE(1-h_{ii})}}$

Namun dan tunggal tidak independen, jadi tidak dapat memiliki distribusi . Prosedurnya adalah untuk menghapus observasi ke- , menyesuaikan fungsi regresi dengan observasi tersisa , dan mendapatkan yang baru yang dapat dilambangkan dengan . Perbedaannya: disebut residual yang dihapus . Ekspresi setara yang tidak memerlukan perhitungan ulang adalah: Menandakan dan dengan dan $e_i$ $MSE$ $r_i$ $t$ $i$ $n-1$ $\hat y$ $\hat y_{i(i)}$

d_{i} = y_{i} - {\hat{y}}_{i (i)}

$d_i=y_i-\hat y_{i(i)}$

d_{i} = \frac{e_{i}}{1 - h_{i i}}

$d_i=\frac{e_i}{1-h_{ii}}$

X

$X$

M S E

$MSE$

X_{(i)}

$X_{(i)}$

M S E_{(i)}

$MSE_{(i)}$ , karena mereka tidak bergantung pada observasi ke- , kita mendapatkan: The disebut residu yang untuk siswa (dihapus) , atau secara eksternal residual studentized .

i

$i$

t_{i} = \frac{d_{i}}{\sqrt{\frac{M S E_{(i)}}{1 - h_{i i}}}} = \frac{e_{i}}{\sqrt{M S E_{(i)} (1 - h_{i i})}} \sim t_{n - p - 1}

$t_i=\frac{d_i}{\sqrt{\frac{MSE_{(i)}}{1-h_{ii}}}} =\frac{e_i}{\sqrt{MSE_{(i)}(1-h_{ii})}}\sim t_{n-p-1}$

t_{i}

$t_i$

Lihat Kutner et al., Model Statistik Linier Terapan , Bab 10.

Sunting: Saya harus mengatakan bahwa jawaban oleh rpierce sempurna. Saya berpikir bahwa OP adalah tentang residu terstandarisasi dan terstandarisasi (dan membaginya dengan deviasi standar populasi untuk mendapatkan residu terstandarisasi tampak aneh bagi saya, tentu saja), tetapi saya salah. Saya berharap jawaban saya dapat membantu seseorang bahkan jika PL.

Sergio
sumber

2

... dan jawaban ini benar dalam mendefinisikan residu siswa dari persamaan regresi. Tidak ada definisi residu standar yang sesuai. Kerangka regresi tampaknya tidak berlaku untuk pertanyaan yang diajukan. Tetapi ini masih merupakan kontribusi yang berharga; +1

russellpierce

2

@Rpierce, Anda benar: begitu saya membaca "studentization", saya membaca "residuals" juga, tetapi mereka hanya ada di pikiran saya ;-) Maaf. Saya perhatikan pengawasan saya hanya setelah klik terakhir.

Sergio

9

Dalam ilmu-ilmu sosial itu biasanya mengatakan bahwa skor Studentizated menggunakan / Gosset ini perhitungan Mahasiswa untuk memperkirakan varians populasi / standar deviasi dari sampel varians / standar deviasi ( ). Sebaliknya, skor standar (kata benda, tipe statistik tertentu, skor Z) dikatakan menggunakan deviasi standar populasi? ( ). $s$ $\sigma$

Namun, tampaknya ada beberapa perbedaan terminologis lintas bidang (silakan lihat komentar pada jawaban ini). Karena itu, kita harus berhati-hati dalam membuat perbedaan ini. Terlebih lagi, nilai-nilai siswa jarang disebut demikian dan orang biasanya melihat nilai-nilai 'pelajar' dalam konteks regresi. @Sergio memberikan perincian tentang jenis residu yang dihapus yang telah diubah menjadi mahasiswa dalam jawabannya.

russellpierce
sumber

2

Wikipedia menambahkan, "Istilah ini juga digunakan untuk standarisasi statistik tingkat tinggi oleh statistik lain dengan derajat yang sama: misalnya, perkiraan momen pusat ketiga akan distandarisasi dengan membagi dengan kubus dari standar deviasi sampel. "

Nick Stauner

2

Saya pikir akan lebih aman untuk mengatakan bahwa Studentization adalah bentuk standardisasi yang tersedia jika varians populasi tidak diketahui. Ini mengambil bentuk titik terminologi teknis dan pembedaan daripada pernyataan yang menyesatkan tentang istilah yang lebih umum digunakan secara luas.

Nick Stauner

2

σ

$\sigma$

2

@Nick Itu terdengar seperti resolusi yang baik, mengingat bahwa berbagai otoritas memang menggunakan "standardisasi" secara luas tetapi tidak ada (AFAIK) yang pernah menggunakan "studentize" dalam arti yang luas.

whuber

2

@rpierce Buku kedua (Freedman, Pisani, dan Purves) telah ada selama sekitar 40 tahun, melalui lima edisi (sebagian besar tidak berubah), dan mulai hidup sebagai teks untuk kursus statistik intro UC Berkeley. Ini mencakup hampir semua bidang yang mungkin, bukan hanya kesehatan masyarakat. Di sisi lain, salah satu kekuatannya adalah untuk menghindari penekanan pada perbedaan kecil, tidak berarti, atau terlalu teknis, jadi meskipun ini adalah panduan yang baik untuk statistik secara umum, itu tidak dapat diandalkan untuk menyelesaikan masalah misterius.

whuber

3

Saya sangat terlambat menjawab pertanyaan ini !!. Tetapi tidak dapat menemukan jawabannya dalam bahasa yang sangat sederhana sehingga upaya sederhana untuk menjawab ini.

Mengapa kami melakukan standarisasi? Bayangkan Anda memiliki dua model - satu memprediksi kegilaan dari jumlah waktu yang dihabiskan untuk mempelajari statistik sementara yang lain memprediksi log (kegilaan) dengan jumlah waktu pada statistik.

akan sulit untuk memahami residu keduanya di unit yang berbeda. Jadi kami membakukan mereka (teori yang sama dengan Z-score)

Residu terstandarisasi: - Ketika residu dibagi dengan estimasi deviasi standar. Secara umum jika nilai absolut> 3 maka itu menjadi perhatian.

Kami menggunakan ini untuk menyelidiki outlier dalam model.

Residual Pelajar: Kami menggunakan ini untuk mempelajari stabilitas model.

Prosesnya sederhana. Kami menghapus setiap kasus uji dari model dan mencari nilai prediksi baru. Perbedaan antara nilai baru dan nilai pengamatan asli dapat distandarisasi dengan membagi kesalahan standar. nilai ini adalah Residual Pelajar

Untuk info lebih lanjut temukan statika menggunakan R - http://www.statisticshell.com/html/dsur.html

NBhoyar
sumber

1

Wikipedia memiliki tinjauan yang baik di https://en.wikipedia.org/wiki/Normalization_(statistics) :

$\frac{X - \mu}{\sigma}$

$\frac{X - \overline{X}}{s}$

asmaier
sumber

Apa perbedaan antara standardisasi dan studentisasi?

Jawaban: