Saya punya pertanyaan tentang bagaimana seorang ahli statistik biasanya menafsirkan output anova. Katakanlah saya memiliki output anova dari R.
> summary(fitted_data)
Call:
lm(formula = V1 ~ V2)
Residuals:
Min 1Q Median 3Q Max
-2.74004 -0.33827 0.04062 0.44064 1.22737
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.11405 0.32089 6.588 1.3e-09 ***
V2 0.03883 0.01277 3.040 0.00292 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.6231 on 118 degrees of freedom
Multiple R-squared: 0.07262, Adjusted R-squared: 0.06476
F-statistic: 9.24 on 1 and 118 DF, p-value: 0.002917
> anova(fit)
Analysis of Variance Table
Response: V1
Df Sum Sq Mean Sq F value Pr(>F)
V2 1 3.588 3.5878 9.2402 0.002917 **
Residuals 118 45.818 0.3883
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Dari penjelasan di atas, saya kira nilai paling penting adalah Pr (> F), bukan? Jadi Pr ini, kurang dari 0,05 (tingkat 95%). Bagaimana seharusnya saya "menjelaskan" ini? Apakah saya menjelaskannya dalam "asosiasi", yaitu, V2 dan V1 terkait (atau tidak)? atau dalam hal "signifikansi"? Saya selalu merasa bahwa saya tidak dapat mengerti ketika orang mengatakan "Nilai ini penting ....". Jadi apa yang "signifikan"? Apakah ada bentuk penjelasan yang lebih intuitif? seperti "Saya 95% yakin bahwa ....".
Juga, apakah nilai Pr satu-satunya informasi penting? atau dapatkah saya juga melihat residu dan sisa output untuk "menjelaskan" hasilnya? Terima kasih
sumber
fitted_data
Jawaban:
Bukan untuk ku. Gagasan bahwa ukuran nilai-p adalah hal yang paling penting dalam ANOVA adalah meresap tetapi saya pikir hampir seluruhnya salah arah. Sebagai permulaan, nilai-p adalah kuantitas acak (lebih banyak ketika nol adalah benar, ketika terdistribusi secara seragam antara 0 dan 1). Karena nilai p yang lebih rendah mungkin tidak terlalu informatif dalam kasus apa pun, tetapi bahkan di luar masalah ukuran nilai p, hal-hal seperti ukuran efek umumnya jauh lebih penting.
Anda mungkin ingin membaca sedikit
Cohen, J. (1990). Hal-hal yang telah saya pelajari (sejauh ini), American Psychologist 45, 1304-1312.
Cohen, J. (1994). Bumi itu bulat (p <.05). Psikolog Amerika, 49, 997-1003.
http://www.ncbi.nlm.nih.gov/pmc/articles/PMC1119478/
http://www.biostat.jhsph.edu/~cfrangak/cominte/goodmanvalues.pdf
http://en.wikipedia.org/wiki/Statribution_hypothesis_testing#Ongoing_Controversy
-
Saya tidak benar-benar mengatasi menafsirkan output ketika nilai-p di bawah iniα . Tanpa mengatakan secara tepat hipotesis apa yang sedang dipertimbangkan, menyebutkan "signifikansi" tampaknya tidak ada artinya. Dalam pengertian itu, maka akan lebih baik untuk menyebutkan kesimpulan yang dihasilkan dari penolakan nol.
Dalam kasus yang Anda sajikan, sulit untuk menafsirkan tanpa konteks (saya bahkan tidak tahu apakah V2 kategoris atau kontinu), tetapi jika V2 kontinu, saya mungkin mengatakan sesuatu tentang menyimpulkan ada hubungan antara V1 dan V2. Jika V2 adalah kategori (0-1), saya mungkin mengatakan sesuatu tentang perbedaan dalam mean V1 untuk dua kategori, dan seterusnya.
Sekarang beberapa hal yang TIDAK boleh dikatakan:
Jangan pernah memanggil p <0,05 "signifikan pada tingkat 95%". Itu salah. Tidak juga seharusnya Anda menyebutnya 95% apa pun.
Tidak pernah mengatakan itu. Itu salah.
sumber
Potongan output yang mungkin saya lihat pada awalnya adalah ini:
Ini memberi tahu Anda model keseluruhan signifikan (F (1,118) = 9,24, p = 0,003) Dan V1 terhitung sekitar 7% dari varians dalam V2.
Ukuran efek (0,039) memberi tahu Anda bahwa jika V2 meningkat sebesar 1, model Anda memperkirakan V1 akan meningkat (hubungan positif) dengan ~ .04). Kesalahan standar pada estimasi tersebut (0,013) menunjukkan bahwa (secara kasar), interval kepercayaan 95% dari efeknya adalah CI95 = [.0135, .064] (yaitu,
.039- 1.96*.013
untuk.039+ 1.96*.013
)Interval kepercayaan tidak termasuk nol, yang bercanda (sebagaimana mestinya) dengan nilai-p.
Jika Anda menginginkan output anova (seperti yang Anda sebutkan), Anda perlu meminta itu (bukan ringkasan regresi, yang
summary()
memberikannya).anova
(), atau, daricar
paket,Anova
akan memberi Anda ini. Tergantung pada tujuan Anda, Anda mungkin lebih suka keluaran default Anova mobil, yang memberikan efek dari setiap variabel di ANOVA Anda seolah-olah dimasukkan terakhir, yang disebut " jumlah kuadrat tipe III ".Jika kita beralih ke contoh bawaan menggunakan
mtcars
dataset Rs mil mobil per galon dan data lain seperti berat dan ukuran mesin, Anda dapat menghasilkan contoh Anova:Ini menunjukkan bahwa berat kendaraan dan jumlah silinder adalah faktor signifikan dalam kendaraan yang dicapai mil per galon. Tentu saja semua variabel ini dikacaukan dalam dataset mobil, menunjukkan kita benar-benar membutuhkan teori konsumsi bahan bakar untuk membuat kemajuan di sini.
sumber