Pertanyaan apa yang dijawab ANOVA?

10

Saya ingin belajar ANOVA. Sebelum saya mulai mempelajari bagaimana algoritme bekerja (perhitungan apa yang harus dilakukan) dan mengapa itu bekerja, pertama-tama saya ingin tahu masalah apa yang sebenarnya kami selesaikan dengan ANOVA, atau jawaban apa yang kami coba jawab. Dengan kata lain: Apa input dan apa output dari algoritma?

Saya mengerti apa yang kami gunakan sebagai input. Kami memiliki serangkaian angka. Setiap angka dilengkapi dengan nilai-nilai dari satu atau lebih variabel kategori (juga dikenal sebagai "faktor"). Sebagai contoh:

+------------+------------+-------+
|   factor 1 |   factor 2 | value |
+------------+------------+-------+
|     "A"    |     "a"    |  1.0  |
|     "A"    |     "a"    |  2.4  |
|     "A"    |     "b"    |  0.3  |
|     "A"    |     "b"    |  7.4  |
|     "B"    |     "a"    |  1.2  |
|     "B"    |     "a"    |  8.4  |
|     "B"    |     "b"    |  0.4  |
|     "B"    |     "b"    |  7.2  |
+------------+------------+-------+

Apakah benar mengatakan bahwa ANOVA menghitung nilai-p dari hipotesis nol yang menyatakan bahwa tidak ada pengaruh faktor-faktor terhadap nilai rata-rata dari nilai-nilai itu? Dengan kata lain, kami memberikan data yang diberikan di atas ke algoritma dan sebagai hasilnya kami mendapatkan nilai p dari hipotesis nol?

Jika demikian, ukuran apa yang sebenarnya kita gunakan untuk menghitung nilai-p. Misalnya kita dapat mengatakan bahwa, dengan hipotesis nol M dapat setinggi yang diamati (atau bahkan lebih tinggi) hanya secara kebetulan dalam 1% kasus. Apa itu M?

Bukankah kita juga menyelidiki faktor-faktor dalam ANOVA secara terpisah? Bisakah ANOVA mengatakan bahwa factor_1 memiliki efek tetapi factor_2 tidak? Dapatkah ANOVA mengatakan, bahwa untuk nilai faktor tertentu yang sesuai dengan nilai "A", "B" dan "C" secara statistik tidak dapat dibedakan (memiliki rata-rata yang sama, misalnya) tetapi nilai "D" berpengaruh?

Roma
sumber

Jawaban:

6

ANOVA adalah singkatan dari "Analysis of Variance". Agak tidak mengejutkan, ia menganalisis varian.

Mari kita sedikit lebih eksplisit. Pengamatan Anda akan menunjukkan beberapa variasi. Jika Anda mengelompokkan pengamatan Anda dengan faktor 1 Anda, varians dalam kelompok yang ditentukan oleh faktor 1 akan lebih kecil dari varians keseluruhan. Faktor 1 "menjelaskan perbedaan".

Namun, ini tidak cukup untuk menyimpulkan bahwa faktor 1 sebenarnya memiliki hubungan dengan pengamatan Anda ... karena pengelompokan oleh apa pun akan "menjelaskan" varians. Hal yang baik adalah bahwa kita tahu berapa banyak varians akan dijelaskan di bawah hipotesis nol bahwa faktor Anda, sebenarnya, tidak ada hubungannya dengan pengamatan Anda. Jumlah varian yang dijelaskan di bawah nol dijelaskan oleh distribusiF

Dengan demikian, strategi dalam ANOVA adalah untuk memperkirakan varians keseluruhan dan varians dalam-kelompok (menggunakan jumlah kuadrat) dan mengambil rasio dari estimasi varians ini. Rasio ini adalah statistikKami kemudian membandingkan statistik ini dengan nilai kritis dari distribusi dalam tes satu sisi, menghasilkan nilai Anda . Jumlah level faktor masuk ke dalam satu parameter distribusi (lebih banyak level faktor akan menjelaskan lebih banyak varians di bawah hipotesis nol), dan jumlah pengamatan dan jumlah level masuk ke yang lain. Pertanyaan sebelumnya ini mungkin bermanfaat.FFp FFpF

(Mengapa tes satu sisi? Karena, seperti di atas, pengelompokan apa pun akan menjelaskan beberapa perbedaan, jadi masuk akal untuk memeriksa apakah faktor Anda menjelaskan sejumlah besar perbedaan.)

Bagian "Contoh Memotivasi" pada entri Wikipedia memberikan beberapa ilustrasi yang sangat bagus tentang faktor-faktor yang menjelaskan sangat sedikit, sebagian, dan banyak variasi keseluruhan.

ANOVA dua arah dan interaksi, seperti dalam contoh Anda, serta ANCOVA, kemudian hanya generalisasi pada tema ini. Dalam setiap kasus, kami menyelidiki apakah menambahkan beberapa variabel penjelas menjelaskan sejumlah besar varians.

Setelah kami memiliki uji keseluruhan yang signifikan , kami dapat memeriksa apakah pengamatan tingkat faktor tertentu berbeda secara signifikan dari yang lain dalam tes post-hoc . Misalnya, D mungkin berbeda dari A, B dan C, tetapi itu mungkin tidak berbeda secara signifikan satu sama lain. Anda biasanya akan menggunakan uji untuk ini. Pertanyaan sebelumnya ini mungkin bermanfaat, juga pertanyaan ini .tFt

Stephan Kolassa
sumber
Jadi, kami menggunakan semua angka untuk menghitung keseluruhan varians , lalu kami menghitung varians untuk setiap grup dan akhirnya kami menggabungkan semua varians ini (mungkin juga dengan ukuran grup) untuk mendapatkan "ukuran": . Kemudian kita menghitung probabilitas M menjadi sebesar atau bahkan lebih besar dengan asumsi bahwa hipotesis nol itu benar. v i M = M ( V , v 1 , v 2 , . . . , V k , n 1 , n 2 , . . . , N k )VviM=M(V,v1,v2,...,vk,n1,n2,...,nk)
Roman
Persis. adalah statistik Anda . Berikut adalah rumus sebenarnya. FMF
Stephan Kolassa
Sejujurnya saya masih agak bingung. Sejauh yang saya dapatkan, ANOVA mengembalikan nilai-p dari hipotesis-nol. Tetapi di sisi lain, dari "Contoh Memotivasi" dari Wikipedia orang dapat menyimpulkan bahwa ANOVA memberi kita faktor terbaik (atau kombinasi faktor), yang "menjelaskan" data yang terbaik. Jadi, dalam contoh ANOVA mengatakan bahwa berkembang biak adalah faktor terbaik untuk menjelaskan berat anjing.
Roman
1
"Terbaik" dimuat. Ini menyimpang ke wilayah stepwise-model-selection-on-p-values, dan itu bermasalah. Jangan terlalu banyak membaca contoh yang memotivasi. Hal terbaik tentang itu adalah penggambaran varian yang dijelaskan (nol, sedikit, banyak). Lebih baik turun dan membaca tentang bagaimana statistik dihitung berdasarkan jumlah kuadrat, dan ingat bahwa jumlah kuadrat tersebut hanyalah perkiraan varians. F
Stephan Kolassa