Tes statistik umum sebagai model linier

22

(PEMBARUAN: Saya mempelajari lebih dalam tentang ini dan memposting hasilnya di sini )

Daftar tes statistik bernama sangat besar. Banyak tes umum mengandalkan inferensi dari model linier sederhana, misalnya uji satu sampel hanya y = β + ε yang diuji terhadap model nol y = μ + ε yaitu β = μ di mana μ adalah beberapa nol nilai - biasanya μ = 0.

Saya menemukan ini menjadi sedikit lebih instruktif untuk tujuan pengajaran daripada model pembelajaran hafalan bernama, kapan harus menggunakannya, dan asumsi mereka seolah-olah mereka tidak ada hubungannya dengan satu sama lain. Pendekatan yang dipromosikan tidak mempromosikan pemahaman. Namun, saya tidak dapat menemukan sumber yang bagus untuk mengumpulkan ini. Saya lebih tertarik pada kesetaraan antara model yang mendasarinya daripada metode inferensi dari mereka. Meskipun, sejauh yang saya bisa lihat, uji rasio kemungkinan pada semua model linier ini menghasilkan hasil yang sama dengan inferensi "klasik".

Berikut adalah persamaan yang telah saya pelajari sejauh ini, dengan mengabaikan istilah kesalahan dan dengan asumsi bahwa semua hipotesis nol adalah tidak adanya efek:εN(0,σ2)

Uji satu sampel: .y=β0H0:β0=0

Uji-berpasangan-sampel: y2-y1=β0H0:β0=0

Ini identik dengan uji-satu sampel pada perbedaan berpasangan.

Uji-t dua sampel: y=β1xsaya+β0H0:β1=0

di mana x adalah indikator (0 atau 1).

Korelasi Pearson: y=β1x+β0H0:β1=0

Perhatikan kemiripan dengan uji-t dua sampel yang hanya regresi pada sumbu x biner.

Korelasi Spearman: rSebuahnk(y)=β1rSebuahnk(x)+β0H0:β1=0

Ini identik dengan korelasi Pearson pada pangkat-bertransformasi x dan y.

ANOVA satu arah: y=β1x1+β2x2+β3x3+...H0:β1,β2,β3,...=β

di mana adalah indikator yang memilih relevan (satu adalah 1; yang lain adalah 0). Model ini mungkin bisa ditulis dalam bentuk matriks sebagai sebagai .xsayaβxY=βX

ANOVA dua arah: y=β1X1+β2X2+β3X1X2H0:β3=0

untuk dua faktor dua tingkat. Di sini adalah vektor beta di mana seseorang dipilih oleh vektor indikator . The ditampilkan di sini adalah efek interaksi.βsayaXsayaH0

Bisakah kita menambahkan lebih banyak "tes bernama" ke daftar model linier ini? Misalnya, regresi multivariat, tes "non-parametrik" lainnya, tes binomial, atau RM-ANOVA?

PEMBARUAN: pertanyaan telah diajukan dan dijawab tentang ANOVA dan uji-t sebagai model linier di SO. Lihat pertanyaan ini dan tandai pertanyaan terkait .

Jonas Lindeløv
sumber
1
Saya pikir perbandingan ini tepat tetapi pada beberapa titik ada juga perbedaan yang halus. Misalnya, ambil ANOVA satu arah: di mana regresi linier akan memberi Anda koefisien dan dalam kebanyakan paket perangkat lunak, signifikansi per koefisien dengan uji Wald (yang mungkin tidak sesuai), ANOVA akan memberikan nilai-p tunggal yang menunjukkan apakah ada salah satu koefisien secara signifikan berbeda dari nol. Uji Likelihood Ratio antara model nol dan model regresi yang menarik mungkin lebih sebanding. Karena itu, saya tidak akan sepenuhnya menyamakan tes / model ini.
IWS
Poin bagus; Saya memperbarui pertanyaan, dengan mengatakan bahwa "Saya lebih tertarik pada kesetaraan antara model-model yang mendasarinya daripada metode inferensi dari mereka." Tes rasio kemungkinan pada ANOVA satu arah dan istilah interaksi menghasilkan nilai-p yang identik dengan analisis "klasik" sejauh pengujian saya berjalan.
Jonas Lindeløv
1
Cukup adil, tetapi disamping kesimpulan, perlu dicatat bahwa model regresi juga memberikan fleksibilitas tambahan ketika menangani non-linearitas (walaupun transformasi mungkin juga diuji dengan 'tes bernama' ini, splines adalah masalah yang berbeda) atau menangani heteroskedastisitas, bahkan tidak menyebutkan keluarga model umum yang juga menangani variabel dependen tidak kontinu. Meskipun demikian, saya dapat melihat menjelaskan tes yang disebut sebagai variasi restriktif dari model regresi untuk tujuan pengajaran dapat memiliki manfaat, sehingga +1
IWS
1
Apakah korelasi peringkat Spearman benar-benar model linier?
Martin Dietz
1
@ MartinDietz: Ya, setelah mengubah peringkat x dan y, itu linear. Kode R:x = rnorm(100); y = rnorm(100); summary(lm(rank(x) ~ rank(y))); cor.test(x, y, method='spearman')
Jonas Lindeløv

Jawaban:

6

Bukan daftar lengkap tetapi jika Anda memasukkan model linier umum , cakupan masalah ini menjadi jauh lebih besar.

Contohnya:

E[logit(hal)|t]=β0+β1tH0:β1=0

hal×k

E[log(μ)]=β0+βsaya.+β.j+γsayajsaya,j>1H0:γsayaj=0,saya,j>1

Juga uji-t untuk varian yang tidak sama didekati dengan baik dengan menggunakan estimasi kesalahan kuat Huber White.

AdamO
sumber