Mengapa pernah menggunakan F-statistik?

Di sini saya berasumsi Anda bermaksud membandingkan beberapa tes berdasarkan nilai p minimum dengan uji F keseluruhan.

Dengan memilih nilai p terkecil dan membandingkannya dengan tingkat signifikansi tertentu , nilai p Anda tidak lagi memiliki arti yang sama seperti yang akan dilakukan untuk pengujian tunggal. Akibatnya Anda menguji semua variabel individu (dan jika ada yang mengarah ke penolakan, Anda menyimpulkan setidaknya satu dari prediktor memiliki efek pada respons). Tingkat kesalahan tipe I keseluruhan jauh lebih tinggi daripada tes tunggal. (Masalah pengujian berganda .) $\alpha$
Jika Anda mengurangi tingkat signifikansi Anda pada tes individu, sehingga Anda membuat kesalahan tipe I lebih sedikit (untuk membuatnya lebih sebanding dengan tes keseluruhan pada tingkat signifikansi ), Anda cenderung menemukan efek signifikan (Anda menyerah daya dengan mengurangi tingkat kesalahan tipe I). $\alpha$
Bahkan jika Anda tidak memperhitungkan pengujian berganda dengan menggeser tingkat signifikansi, statistik univariat dapat dengan mudah semuanya menjadi tidak signifikan ketika ada hubungan bersama yang jelas yang melibatkan keduanya.

Ini sebuah contoh. Pertama, beberapa data:

y:
 4.941, 4.459, 4.116, 3.759, 5.171, 5.101, 5.454, 5.277, 5.402, 
 4.68, 3.433, 5.508, 4.122, 3.355, 3.622, 4.45, 4.872, 4.202, 
 5.276, 4.415, 5.311, 4.105, 3.282, 4.152, 5.416, 4.615, 3.804, 
 5.299, 4.603, 4.868

x1:
 42.305, 16.828, 46.515, 32.567, 40.827, 45.755, 34.227, 43.799, 
 54.659, 34.991, 15.134, 29.115, 20.617, 1.252, 25.844, 19.563, 
 21.53, 22.989, 38.993, 44.955, 30.799, 32.639, 8.707, 46.945, 
 38.992, 25.717, 40.875, 26.049, 36.121, 39.868

x2:
 24.279, 8.844, 27.888, 19.099, 23.732, 28.648, 19.26, 26.578, 
 32.764, 21.302, 8.583, 17.026, 12.047, 0.085, 16.636, 10.021, 
 12.487, 13.745, 23.557, 26.67, 19.881, 20.23, 4.377, 27.865, 
 23.359, 15.006, 25.909, 14.772, 21.5, 23.002

Output regresi (dari R :)

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  3.47760    0.32703  10.634 3.74e-11 
x1           0.14999    0.09194   1.631    0.114    
x2          -0.19524    0.14741  -1.324    0.196    
---    
Residual standard error: 0.5884 on 27 degrees of freedom
Multiple R-squared:  0.3167,    Adjusted R-squared:  0.2661 
F-statistic: 6.257 on 2 and 27 DF,  p-value: 0.005851

Nilai p terkecil adalah 0,114 - Anda tidak akan menolak hipotesis nol tidak ada hubungan bahkan pada tingkat signifikansi 10%, tetapi keseluruhan regresi akan mengarah pada penolakan bahkan jika tingkat signifikansi Anda adalah 1%. Ini bahkan tanpa berurusan dengan masalah pengujian ganda.

Ini juga tidak membantu untuk menjalankan regresi terpisah dan memeriksa nilai-p di sana, karena (dalam contoh berbeda dengan yang di atas) sangat mungkin untuk tidak ada hubungan dalam regresi univariat sementara ada hubungan yang kuat dalam regresi bivariat .

Glen_b -Reinstate Monica
sumber

Jawaban bagus. Yang relevan dengan poin terakhir adalah: stats.stackexchange.com/q/33888/1934 dan juga stats.stackexchange.com/q/73869/1934 . Juga terkait dengan contoh: stats.stackexchange.com/q/14500/1934

Wolfgang

Mengapa pernah menggunakan F-statistik?

Jawaban: