Anova dari interpretasi output R

8

Saya punya pertanyaan tentang bagaimana seorang ahli statistik biasanya menafsirkan output anova. Katakanlah saya memiliki output anova dari R.

> summary(fitted_data)

Call:
lm(formula = V1 ~ V2)

Residuals:
     Min       1Q   Median       3Q      Max 
-2.74004 -0.33827  0.04062  0.44064  1.22737 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  2.11405    0.32089   6.588  1.3e-09 ***
V2           0.03883    0.01277   3.040  0.00292 ** 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

Residual standard error: 0.6231 on 118 degrees of freedom
Multiple R-squared: 0.07262,    Adjusted R-squared: 0.06476 
F-statistic:  9.24 on 1 and 118 DF,  p-value: 0.002917 

> anova(fit)
Analysis of Variance Table

Response: V1
           Df Sum Sq Mean Sq F value   Pr(>F)   
V2          1  3.588  3.5878  9.2402 0.002917 **
Residuals 118 45.818  0.3883                    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

Dari penjelasan di atas, saya kira nilai paling penting adalah Pr (> F), bukan? Jadi Pr ini, kurang dari 0,05 (tingkat 95%). Bagaimana seharusnya saya "menjelaskan" ini? Apakah saya menjelaskannya dalam "asosiasi", yaitu, V2 dan V1 terkait (atau tidak)? atau dalam hal "signifikansi"? Saya selalu merasa bahwa saya tidak dapat mengerti ketika orang mengatakan "Nilai ini penting ....". Jadi apa yang "signifikan"? Apakah ada bentuk penjelasan yang lebih intuitif? seperti "Saya 95% yakin bahwa ....".

Juga, apakah nilai Pr satu-satunya informasi penting? atau dapatkah saya juga melihat residu dan sisa output untuk "menjelaskan" hasilnya? Terima kasih

dorothy
sumber
Tolong tunjukkan lebih lanjut tentang model Andafitted_data
Stéphane Laurent
Jawaban atas pertanyaan ini (murah hati) tidak lengkap. Lihat sebaliknya, stats.stackexchange.com/questions/12398/ ... ... atau pertanyaan / jawaban terkait lainnya.
michael

Jawaban:

2

Dari penjelasan di atas, saya kira nilai paling penting adalah Pr (> F), bukan?

Bukan untuk ku. Gagasan bahwa ukuran nilai-p adalah hal yang paling penting dalam ANOVA adalah meresap tetapi saya pikir hampir seluruhnya salah arah. Sebagai permulaan, nilai-p adalah kuantitas acak (lebih banyak ketika nol adalah benar, ketika terdistribusi secara seragam antara 0 dan 1). Karena nilai p yang lebih rendah mungkin tidak terlalu informatif dalam kasus apa pun, tetapi bahkan di luar masalah ukuran nilai p, hal-hal seperti ukuran efek umumnya jauh lebih penting.

Anda mungkin ingin membaca sedikit

Cohen, J. (1990). Hal-hal yang telah saya pelajari (sejauh ini), American Psychologist 45, 1304-1312.

Cohen, J. (1994). Bumi itu bulat (p <.05). Psikolog Amerika, 49, 997-1003.

http://www.ncbi.nlm.nih.gov/pmc/articles/PMC1119478/

http://www.biostat.jhsph.edu/~cfrangak/cominte/goodmanvalues.pdf

http://en.wikipedia.org/wiki/Statribution_hypothesis_testing#Ongoing_Controversy

-

Saya tidak benar-benar mengatasi menafsirkan output ketika nilai-p di bawah ini α. Tanpa mengatakan secara tepat hipotesis apa yang sedang dipertimbangkan, menyebutkan "signifikansi" tampaknya tidak ada artinya. Dalam pengertian itu, maka akan lebih baik untuk menyebutkan kesimpulan yang dihasilkan dari penolakan nol.

Dalam kasus yang Anda sajikan, sulit untuk menafsirkan tanpa konteks (saya bahkan tidak tahu apakah V2 kategoris atau kontinu), tetapi jika V2 kontinu, saya mungkin mengatakan sesuatu tentang menyimpulkan ada hubungan antara V1 dan V2. Jika V2 adalah kategori (0-1), saya mungkin mengatakan sesuatu tentang perbedaan dalam mean V1 untuk dua kategori, dan seterusnya.

Sekarang beberapa hal yang TIDAK boleh dikatakan:

kurang dari 0,05 (tingkat 95%)

Jangan pernah memanggil p <0,05 "signifikan pada tingkat 95%". Itu salah. Tidak juga seharusnya Anda menyebutnya 95% apa pun.

seperti "Saya 95% yakin bahwa ....".

Tidak pernah mengatakan itu. Itu salah.

Glen_b -Reinstate Monica
sumber
hai terima kasih. Saya akan melihat artikel-artikel ini untuk memahami nilai-p lebih lanjut. Jika nilai-p tidak dapat "dipercaya", menurut Anda, parameter mana yang harus memberi tahu kita lebih banyak tentang hubungan antara V1 dan V2? R-kuadrat?
dorothy
> Jika nilai-p tidak dapat "dipercaya" --- Saya tidak akan secara otomatis mengatakan itu. Saya pikir Anda sudah melangkah terlalu jauh. Bukannya mereka tidak bisa 'dipercaya' (meskipun jika Anda salah menggunakannya, mereka akan menyesatkan Anda). Lebih dari itu - dan tes hipotesis lebih umum - tidak sering memberi tahu Anda apa yang Anda inginkan. Ukuran efek dan interval kepercayaan lebih relevan.R2belum tentu ukuran yang sangat membantu juga.
Glen_b -Reinstate Monica
Singkatnya - p-values ​​memberi tahu Anda sesuatu - itu tidak, menurut saya, umumnya 'paling penting'.
Glen_b -Reinstate Monica
Oh oke. Saya akan melihat lebih banyak dalam interval garis kepercayaan dan efek ukuran untuk menjelaskan hasilnya. Terima kasih banyak.
dorothy
1
Yang penting sebagian besar tergantung pada apa yang Anda minati. Bagi saya biasanya koefisien dan kesalahan standar mereka, dan kadang-kadang s. Terkadang nilai-p menarik bagi saya juga. Tapi lain kali saya tertarik pada bagian tertentu dari output.
Glen_b -Reinstate Monica
1

Potongan output yang mungkin saya lihat pada awalnya adalah ini:

Multiple R-squared: 0.073,    Adjusted R-squared: 0.065
F-statistic:  9.24 on 1 and 118 DF,  p-value: 0.003

Ini memberi tahu Anda model keseluruhan signifikan (F (1,118) = 9,24, p = 0,003) Dan V1 terhitung sekitar 7% dari varians dalam V2.

Ukuran efek (0,039) memberi tahu Anda bahwa jika V2 meningkat sebesar 1, model Anda memperkirakan V1 akan meningkat (hubungan positif) dengan ~ .04). Kesalahan standar pada estimasi tersebut (0,013) menunjukkan bahwa (secara kasar), interval kepercayaan 95% dari efeknya adalah CI95 = [.0135, .064] (yaitu, .039- 1.96*.013untuk .039+ 1.96*.013)

Interval kepercayaan tidak termasuk nol, yang bercanda (sebagaimana mestinya) dengan nilai-p.

Jika Anda menginginkan output anova (seperti yang Anda sebutkan), Anda perlu meminta itu (bukan ringkasan regresi, yang summary()memberikannya).

anova(), atau, dari carpaket, Anovaakan memberi Anda ini. Tergantung pada tujuan Anda, Anda mungkin lebih suka keluaran default Anova mobil, yang memberikan efek dari setiap variabel di ANOVA Anda seolah-olah dimasukkan terakhir, yang disebut " jumlah kuadrat tipe III ".

Jika kita beralih ke contoh bawaan menggunakan mtcarsdataset Rs mil mobil per galon dan data lain seperti berat dan ukuran mesin, Anda dapat menghasilkan contoh Anova:

m1 = lm(mpg ~ wt + disp + cyl+gear+am, data = mtcars);
Anova(m1)
| | Jumlah Sq | Df | Nilai F | Pr (> F) |
|: --------- | ------: | -: | -------: | -------: |
| wt | 58.02 | 1 | 8.27 | 0,01 * |
| disp | 1,53 | 1 | 0,22 | 0,64 |
| cyl | 57.59 | 1 | 8.21 | 0,01 * |
| gigi | 6.02 | 1 | 0,86 | 0,36 |
| pagi | 3.44 | 1 | 0,49 | 0,49 |
| Residual | 182.41 | 26 | | |

Ini menunjukkan bahwa berat kendaraan dan jumlah silinder adalah faktor signifikan dalam kendaraan yang dicapai mil per galon. Tentu saja semua variabel ini dikacaukan dalam dataset mobil, menunjukkan kita benar-benar membutuhkan teori konsumsi bahan bakar untuk membuat kemajuan di sini.

tim
sumber