Kontradiksi signifikansi dalam regresi linier: uji-t signifikan untuk koefisien vs statistik F keseluruhan tidak signifikan

35

Saya menyesuaikan model regresi linier berganda antara 4 variabel kategori (dengan masing-masing 4 level) dan output numerik. Dataset saya memiliki 43 pengamatan.

Regresi memberi saya nilai- $p$ berikut dari uji- $t$ untuk setiap koefisien kemiringan: $.15, .67, .27, .02$ . Dengan demikian, koefisien untuk prediktor ke-4 signifikan pada tingkat kepercayaan $\alpha = .05$ .

Di sisi lain, regresi memberi saya nilai- $p$ dari keseluruhan uji- $F$ dari hipotesis nol bahwa semua koefisien kemiringan saya sama dengan nol. Untuk dataset saya, nilai- $p$ ini adalah $.11$ .

Pertanyaan saya: bagaimana saya harus menginterpretasikan hasil ini? Nilai- $p$ mana yang harus saya gunakan dan mengapa? Apakah koefisien untuk variabel ke-4 berbeda secara signifikan dari $0$ pada tingkat kepercayaan $\alpha = .05$ ?

Saya telah melihat pertanyaan yang terkait, $F$ dan $t$ statistik regresi sebuah , tapi ada situasi sebaliknya: tinggi $t$ -test $p$ -values dan rendah $F$ -test $p$ -nilai. Sejujurnya, saya tidak begitu mengerti mengapa kita perlu uji- $F$ selain uji- $t$ untuk melihat apakah koefisien regresi linier berbeda secara signifikan dari nol.

regression hypothesis-testing multiple-comparisons multiple-regression t-test Leo
sumber

2

Jika Anda memiliki 4 variabel kategori dengan masing-masing 4 level, Anda harus memiliki 3 * 4 = 12 koefisien untuk variabel independen Anda (ditambah intersep) ...

boscovich

@andrea: Saya telah memutuskan untuk memperlakukan mereka sebagai variabel numerik.

Leo

4

0,02 hampir tidak signifikan (terutama jika Anda mempertimbangkan fakta bahwa Anda memiliki lima tes total) dan 0,11 tidak terlalu tinggi. Interpretasi yang baik adalah bahwa dengan kekuatan yang lebih besar, uji-F keseluruhan juga akan signifikan (dan mungkin koefisien pertama juga). Interpretasi yang lebih konservatif adalah bahwa Anda seharusnya tidak memiliki banyak kepercayaan pada salah satu hasil ini (termasuk koefisien dengan nilai 0,02 p). Either way, Anda tidak harus membaca terlalu banyak perbedaan antara 0,02 dan 0,11.

Gala

3

Untuk diskusi tentang kasus yang berlawanan, Anda juga dapat melihat di sini: bagaimana regresi menjadi signifikan namun semua prediktor tidak signifikan , di samping pertanyaan yang terkait di atas.

gung - Reinstate Monica

37

Saya tidak yakin bahwa multikolinearitas adalah apa yang terjadi di sini. Tentu saja bisa , tetapi dari informasi yang diberikan saya tidak dapat menyimpulkan itu, dan saya tidak ingin memulai dari sana. Dugaan pertama saya adalah bahwa ini mungkin masalah perbandingan multipel. Artinya, jika Anda menjalankan tes yang cukup, sesuatu akan muncul, bahkan jika tidak ada apa pun di sana.

Salah satu masalah yang saya bahas adalah bahwa masalah beberapa perbandingan selalu dibahas dalam hal memeriksa banyak perbandingan berpasangan — misalnya, menjalankan uji-t pada setiap pasangan level yang unik. (Untuk perawatan lucu dari beberapa perbandingan, lihat di sini .) Ini membuat orang terkesan bahwa itu adalah satu-satunya tempat masalah ini muncul. Tetapi ini sama sekali tidak benar — masalah banyak perbandingan muncul di mana - mana. Misalnya, jika Anda menjalankan regresi dengan 4 variabel penjelas, masalah yang sama ada. Dalam percobaan yang dirancang dengan baik, IV dapat menjadi ortogonal, tetapi orang secara rutin khawatir tentang menggunakan koreksi Bonferroni pada set a-priori, kontras ortogonal, dan tidak berpikir dua kali tentang anova faktorial. Bagi saya, ini tidak konsisten.

Tes F global adalah apa yang disebut tes 'simultan'. Ini memeriksa untuk melihat apakah semua prediktor Anda tidak terkait dengan variabel respons. Tes simultan memberikan beberapa perlindungan terhadap masalah beberapa perbandingan tanpa harus menempuh rute Bonferroni yang kehilangan daya. Sayangnya, interpretasi saya tentang apa yang Anda laporkan adalah bahwa Anda memiliki temuan nol.

$p$ $.11$

gung - Reinstate Monica
sumber

24

Saya ingin menyarankan bahwa fenomena ini (dari tes keseluruhan yang tidak signifikan meskipun ada variabel individu yang signifikan) dapat dipahami sebagai semacam "efek penutupan" agregat dan bahwa meskipun dapat muncul dari variabel penjelas multikolinier, ia tidak perlu melakukan itu sama sekali. Ini juga ternyata bukan disebabkan oleh beberapa penyesuaian perbandingan. Dengan demikian jawaban ini menambahkan beberapa kualifikasi untuk jawaban yang sudah muncul, yang sebaliknya menyarankan bahwa multikolinieritas atau beberapa perbandingan harus dipandang sebagai biang keladinya.

Untuk menetapkan masuk akalnya pernyataan-pernyataan ini, mari kita buat kumpulan variabel ortogonal yang sempurna - sama non-collinear mungkin - dan variabel dependen yang secara eksplisit ditentukan semata-mata oleh penjelasan pertama (ditambah sejumlah kesalahan acak yang baik) independen dari yang lain). Dalam Rhal ini dapat dilakukan (direproduksi, jika Anda ingin bereksperimen) sebagai

set.seed(17)
p <- 5 # Number of explanatory variables
x <- as.matrix(do.call(expand.grid, lapply(as.list(1:p), function(i) c(-1,1))))
y <- x[,1] + rnorm(2^p, mean=0, sd=2)

Tidak penting bahwa variabel penjelas adalah biner; yang penting adalah ortogonalitas mereka, yang dapat kita periksa untuk memastikan kode berfungsi seperti yang diharapkan, yang dapat dilakukan dengan memeriksa korelasi mereka. Memang, matriks korelasi itu menarik : koefisien kecil menyarankan ytidak ada hubungannya dengan salah satu variabel kecuali yang pertama (yang oleh desain) dan nol off-diagonal mengkonfirmasi ortogonalitas dari variabel penjelas:

> cor(cbind(x,y))
     Var1  Var2  Var3   Var4  Var5      y
Var1 1.00 0.000 0.000  0.000  0.00  0.486
Var2 0.00 1.000 0.000  0.000  0.00  0.088
Var3 0.00 0.000 1.000  0.000  0.00  0.044
Var4 0.00 0.000 0.000  1.000  0.00 -0.014
Var5 0.00 0.000 0.000  0.000  1.00 -0.167
y    0.49 0.088 0.044 -0.014 -0.17  1.000

Mari kita jalankan serangkaian regresi , hanya menggunakan variabel pertama, lalu dua yang pertama, dan seterusnya. Untuk singkatnya dan perbandingan mudah, di masing-masing saya hanya menunjukkan garis untuk variabel pertama dan uji F keseluruhan:

>temp <- sapply(1:p, function(i) print(summary(lm(y ~ x[, 1:i]))))

#              Estimate Std. Error t value Pr(>|t|)   
1  x[, 1:i]       0.898      0.294    3.05   0.0048 **
F-statistic: 9.29 on 1 and 30 DF,  p-value: 0.00478 

2  x[, 1:i]Var1    0.898      0.298    3.01   0.0053 **
F-statistic: 4.68 on 2 and 29 DF,  p-value: 0.0173 

3  x[, 1:i]Var1   0.8975     0.3029    2.96   0.0062 **
F-statistic: 3.05 on 3 and 28 DF,  p-value: 0.0451 

4  x[, 1:i]Var1   0.8975     0.3084    2.91   0.0072 **
F-statistic: 2.21 on 4 and 27 DF,  p-value: 0.095 

5  x[, 1:i]Var1   0.8975     0.3084    2.91   0.0073 **
F-statistic: 1.96 on 5 and 26 DF,  p-value: 0.118

Lihatlah bagaimana (a) signifikansi variabel pertama nyaris tidak berubah, (a ') variabel pertama tetap signifikan (p <0,05) bahkan ketika menyesuaikan untuk beberapa perbandingan ( misalnya , menerapkan Bonferroni dengan mengalikan nilai p-nominal dengan jumlah variabel penjelas), (b) koefisien variabel pertama hampir tidak berubah, tetapi (c) signifikansi keseluruhan tumbuh secara eksponensial, dengan cepat menggelembung ke tingkat yang tidak signifikan.

Saya menafsirkan ini sebagai menunjukkan bahwa termasuk variabel penjelas yang sebagian besar independen dari variabel dependen dapat "menutupi" nilai p keseluruhan regresi. Ketika variabel baru ortogonal dengan yang sudah ada dan ke variabel dependen, mereka tidak akan mengubah nilai-p individu. (Perubahan kecil yang terlihat di sini adalah karena kesalahan acak ditambahkan y, secara tidak sengaja, sedikit berkorelasi dengan semua variabel lainnya.) Satu pelajaran untuk menarik dari ini adalah bahwa kekikiran berharga : menggunakan beberapa variabel yang diperlukan dapat memperkuat signifikansi hasil.

Saya tidak mengatakan bahwa ini perlu terjadi untuk dataset dalam pertanyaan, tentang yang sedikit yang telah diungkapkan. Tetapi pengetahuan bahwa efek masking ini dapat terjadi harus menginformasikan interpretasi kami tentang hasil serta strategi kami untuk pemilihan variabel dan pembangunan model.

whuber
sumber

+1, saya setuju dengan analisis ini. FWIW, ini adalah penjelasan yang saya mengisyaratkan (mungkin tidak baik) dalam diskusi saya tentang kekuatan dalam jawaban saya untuk pertanyaan lain . Saya punya 1 pertanyaan tentang versi Anda di sini, mengapa Anda menggunakan 32 sebagai rata-rata istilah kesalahan Anda? Apakah itu salah ketik, atau penting dalam beberapa hal?

gung - Reinstate Monica

@ung Di mana Anda melihat 32? Jika Anda merujuk rnorm(2^p, sd=2), harap dicatat bahwa argumen pertama adalah jumlah istilah, bukan mean. Rata-rata secara default adalah nol dan karena itu belum ditentukan secara eksplisit.

whuber

rnorm()

N (μ, σ)

$\mathcal N(\mu, \sigma)$

@ung saya berterima kasih atas kesempatan untuk mengklarifikasi kode dan karena itu telah mengedit baris yang menyinggung.

whuber

11

Anda sering mengalami hal ini ketika Anda memiliki tingkat kolinearitas yang tinggi di antara variabel penjelas Anda. ANOVA F adalah tes bersama bahwa semua regressor secara bersama - sama tidak informatif. Ketika X Anda berisi informasi serupa, model tidak dapat menghubungkan kekuatan penjelas dengan satu regresi atau yang lain, tetapi kombinasi mereka dapat menjelaskan banyak variasi dalam variabel respons.

$x_{1}$ $y$

Dimitriy V. Masterov
sumber

Jika collinearity adalah masalah, maka Anda akan memiliki kesalahan standar yang tinggi dan mungkin koefisien yang sangat besar, bahkan mungkin dengan tanda-tanda yang salah. Untuk memastikan bahwa inilah yang terjadi, hitung varians inflation factor (VIFs) setelah regresi Anda. Aturan praktis yang masuk akal adalah bahwa collinearity adalah masalah jika VIF terbesar lebih besar dari 10. Jika demikian, Anda benar-benar memiliki dua opsi di sini. Pertama adalah menentukan kembali model untuk mengurangi ketergantungan linear dekat dengan menjatuhkan beberapa variabel Anda. Yang kedua adalah untuk mendapatkan sampel yang lebih besar dan / atau lebih baik (kurang homogen).

Dimitriy V. Masterov

1

(+1) Penjelasan ini bagus, tetapi tidak perlu menghubungkan fenomena ini dengan multikolinieritas: perbedaan utama adalah antara informatif bersama dan informatif secara individual. Termasuk tambahan yang tidak berkorelasi (yang menghindari multikolinieritas) menurunkan yang pertama sementara meninggalkan yang terakhir tidak berubah.

whuber

Kontradiksi signifikansi dalam regresi linier: uji-t signifikan untuk koefisien vs statistik F keseluruhan tidak signifikan

Jawaban: