Perbedaan antara analisis regresi dan analisis varians?

21

Saya belajar sekarang tentang analisis regresi dan analisis varians.

Dalam analisis regresi, Anda memiliki satu variabel tetap dan Anda ingin tahu bagaimana variabel berjalan dengan variabel lainnya.

Dalam analisis ragam yang ingin Anda ketahui misalnya: Jika makanan hewani spesifik ini memengaruhi berat hewan ... JADI satu var yang tetap dan pengaruhnya pada yang lain ...

Apakah itu benar atau salah, tolong bantu saya ...

Le Max
sumber

Jawaban:

25

Misalkan set data Anda terdiri dari set untuk dan Anda ingin melihat ketergantungan pada .(xi,yi)i=1,,nyx

Misalkan Anda menemukan nilai dan dari dan yang meminimalkan jumlah sisa kuadrat Lalu Anda mengambil menjadi diprediksi -nilai untuk setiap (tidak harus sudah diamati) -nilai. Itu regresi linier. β αβ n Σ i=1(yi-(α+βxi))2. Y = α + β xyxα^β^αβ

i=1n(yi(α+βxi))2.
y^=α^+β^xyx

Sekarang pertimbangkan untuk mendekomposisi jumlah kuadrat dengan derajat kebebasan, menjadi bagian "yang dijelaskan" dan "tidak dijelaskan": masing-masing dengan dan derajat kebebasan. Itu analisis varian, dan orang kemudian mempertimbangkan hal-hal seperti F-statistik Ini n-1 n Σ i = 1 ( ( α + β x i ) - ˉ y ) 2 menjelaskan+ n Σ i = 1 ( y i - ( α + β x i ) ) 2 dijelaskan. 1n-2F= n i =

saya=1n(ysaya-y¯)2dimana y¯=y1++ynn
n-1
saya=1n((α^+β^xsaya)-y¯)2dijelaskan + saya=1n(ysaya-(α^+β^xsaya))2tidak dijelaskan.
1n-2
F=saya=1n((α^+β^xsaya)-y¯)2/1saya=1n(ysaya-(α^+β^xsaya))2/(n-2).
Statistik-F menguji hipotesis nol .β=0

Orang sering kali pertama kali menemukan istilah "analisis varian" ketika prediktornya kategorikal, sehingga Anda pas dengan model mana mengidentifikasi kategori mana yang merupakan nilai prediktor. Jika ada kategori, Anda akan mendapatkan derajat kebebasan dalam pembilang dalam statistik-F, dan biasanya derajat kebebasan dalam penyebut. Tetapi perbedaan antara regresi dan analisis varians masih sama untuk model semacam ini.

y=α+βsaya
sayakk-1n-k

Beberapa poin tambahan:

  • Untuk beberapa matematikawan, akun di atas dapat membuatnya tampak bahwa seluruh bidang hanya apa yang terlihat di atas, sehingga mungkin tampak misterius bahwa regresi dan analisis varian adalah area penelitian aktif. Ada banyak hal yang tidak cocok dengan jawaban yang sesuai untuk posting di sini.
  • Ada kesalahan yang populer dan menggoda, yaitu disebut "linear" karena grafik adalah garis. Itu salah. Salah satu jawaban saya sebelumnya menjelaskan mengapa itu masih disebut "regresi linear" ketika Anda memasang polinomial melalui kuadrat terkecil.y=α+βx
Michael Hardy
sumber
5
@MichaelHardy Sedangkan dekomposisi varian menjadi komponen dalam regresi sering disebut sebagai analisis tabel varians. Bukan itu yang biasa disebut oleh para ahli statistik oleh ANOVA. Metode 1) regresi linier, 2) analisis varians dan 3) analisis kovarians adalah kategori di bawah judul umum dari model linier umum, regresi linier melibatkan kovariat kontinu, ANOVA hanya mencakup kelompok diskrit dan ANCOVA adalah kombinasi antara kovariat kontinu dan kelompok diskrit.
Michael R. Chernick
1
Secara informal seseorang kadang berbicara seperti itu, dan jawaban saya tidak mengatakan itu, tetapi orang harus tahu bahwa (1) estimasi kuadrat terkecil dari koefisien dilakukan dalam salah satu dari dua masalah (prediktor kontinu atau kategoris) dan dekomposisi jumlah kotak dengan derajat kebebasan yang sesuai --- tabel anova --- juga dilakukan di salah satu dari dua masalah.
Michael Hardy
5
Dengan konsesi itu maka Anda harus mengakui bahwa tidak ada yang salah dengan jawaban saya. Juga istilah ANOVA, ANCOVA dan regresi bukan istilah informal. Mereka sangat formal dan tidak benar untuk memberi tahu OP bahwa ANOVA adalah dekomposisi varians dalam regresi. Fakta bahwa prosedur statistik yang seseorang bernama anova dapat melakukan model linear apa pun tidak membuktikan apa-apa. Dalam SAS proc reg hanya berurusan dengan regresi, proc anova hanya berurusan dengan analisis varians seperti yang saya definisikan dan proc glm adalah yang melakukan keduanya.
Michael R. Chernick
1
.... dan dalam R, "lm (....)" memberikan koefisien regresi di kedua situasi, dan "anova (lm (....))" memberikan dekomposisi jumlah kuadrat dan derajat kebebasan, dalam kedua situasi. Sejauh "harus mengakui", saya telah memberikan beberapa komentar lebih lanjut di bawah jawaban Anda. Tentu saja jika Anda akan menyebutkan regresi logistik, akan lebih jelas jika Anda mengatakan bahwa begitu Anda tidak berbicara tentang regresi linier, kata "regresi" adalah istilah yang sangat luas yang dapat mencakup banyak hal.
Michael Hardy
@MichaelHardy Jangan ragu untuk mengomentari pertanyaan saya yang diajukan di situs stats.SE. Saya pikir jawaban Anda dan jawaban saya untuk pertanyaan ini sama benarnya. Saya tentu saja keberatan dengan jawaban saya yang diturunkan pendapatnya. Saya ingin mendapatkan pendapat orang lain di komunitas statistik tentang ini.
Michael R. Chernick
5

Perbedaan utama adalah variabel respons. Sementara regresi logistik berkaitan dengan respons biner dalam analisis regresi linier dan juga regresi nonlinier, variabel responsnya kontinu. Anda memiliki variabel (alias kovariat) yang memiliki hubungan fungsional dengan variabel respons kontinu. Dalam analisis varian responnya kontinu tetapi termasuk dalam beberapa kategori yang berbeda (misalnya kelompok perlakuan dan kelompok kontrol). Dalam analisis varians Anda mencari perbedaan dalam respon rata-rata antar kelompok. Dalam regresi linier, Anda melihat bagaimana respons berubah ketika kovariat berubah. Cara lain untuk melihat perbedaannya adalah dengan mengatakan bahwa dalam regresi kovariat bersifat kontinu sedangkan dalam analisis ragam mereka merupakan kelompok kelompok yang berbeda.

Michael R. Chernick
sumber
6
Saya telah mengambil pertanyaan yang berarti perbedaan antara regresi linier dan analisis varians; membawa regresi logistik tampaknya jauh dari topik. Namun, kalimat terakhir Anda salah. Analisis varian dapat dilakukan terlepas dari apakah prediktornya diskrit atau kontinu.
Michael Hardy
1
Memang ada prediktor dalam analisis varian. Dalam contoh Anda, prediktor bersifat kategoris, tetapi tidak harus begitu. Analisis varians tidak hanya mempertimbangkan masalah yang melibatkan "kelompok diskrit".
Michael Hardy
3
@MichaelHardy Saya mengambil langkah mundur karena ketika saya memeriksa ensiklopedia statistik saya, saya menemukan referensi untuk analisis varians dalam hal penguraian varians dalam model linear umum. Tetapi istilah ini memiliki dua makna dan cukup sering ANOVA dibedakan dari ANCOVA dan regresi seperti yang saya jelaskan. Jadi OP harus menyadari kedua istilah yang mengacu pada kesimpulan tentang komponen varians dalam model linier umum dan yang mengacu pada subkelas model linier yang hanya melibatkan kelompok diskrit.
Michael R. Chernick
2
Saya menganggap penggunaan yang Anda gunakan sebagai informal. Tampaknya aneh lagi regresi logistik tanpa mengatakan itu hanya salah satu dari berbagai "regresi", ketika istilah yang digunakan dalam arti luas memperkirakan nilai rata-rata atau diperkirakan satu variabel diberi lain, dan kemudian membedakan bahwa dari analisis varian . Tetapi pertanyaan tentang perbedaan antara model regresi linier dan analisis varian tampaknya merupakan pertanyaan yang lebih masuk akal. Tetapi sering ada ketidakpastian tentang apa yang dimaksudkan oleh poster aslinya.
Michael Hardy
7
Apa pun niat Anda mungkin, saya menemukan komentar " Saya memiliki gelar PhD dalam statistik, ... " tidak sesuai. Pertama-tama, itu tidak menyelesaikan masalah yang ada. Memohon kepada otoritas adalah pendekatan yang sering digunakan, tetapi sangat salah arah untuk membuktikan sesuatu. Menarik ke otoritas Anda sendiri bahkan lebih bermasalah. Ini juga dapat diartikan sebagai menunjukkan (secara tidak sengaja atau tidak) kurangnya rasa hormat terhadap @MichaelHardy (pribadi yang Anda tuju), yang juga memiliki gelar PhD dalam statistik dari program yang sangat terkemuka.
kardinal
2

Analisis varians (ANOVA) adalah badan metode statistik untuk menganalisis pengamatan yang dianggap dari struktur

pyi=β1xi1+β2xi2++βpxip+ei, i=1(1)n , yang merupakan kombinasi linear dari jumlah yang tidak diketahui ditambah kesalahan dan { } diketahui koefisien konstan dengan rv { } tidak berkorelasi dan memiliki rata-rata yang sama dan varians (tidak diketahui) .halβ1,β2,...,βhale1,e2,...,enxsayajesaya0σ2

yaitu Dimana D adalah matriks dispersi atau matriks varians-kovarians.E(yn×1)=Xβ,D(y)=σ2sayan

, di mana koefisien { } adalah nilai dari variabel penghitung atau variabel indikator yang merujuk pada ada atau tidak adanya efek { } dalam kondisi di mana pengamatan dilakukan: { } adalah berapa kali terjadi pada observasi ke-i , dan ini biasanya atau . Secara umum, dalam analisis varian semua faktor diperlakukan secara kualitatif.xsayajβjxsayajβj01

Jika { } adalah nilai yang diambil dalam pengamatan bukan oleh variabel penghitung tetapi oleh variabel kontinu seperti = waktu, = suhu, , dll, maka kami memiliki kasus dari * analisis regresi. Secara umum, dalam analisis regresi, semua faktor bersifat kuantitatif dan diperlakukan secara kuantitatif.xsayajtTt2,e-T

Terutama, keduanya adalah dua jenis Analisis.

Argha
sumber
Apa yang dimaksud dengan notasi ? saya=1(1)n
1
saya=1(1)n berartisaya=1,2,...,n
Argha
-1

Dalam analisis regresi, Anda memiliki satu variabel tetap dan Anda ingin tahu bagaimana variabel berjalan dengan variabel lainnya.

Dalam analisis varian Anda ingin tahu misalnya: Jika makanan hewani spesifik ini memengaruhi berat hewan ... JADI satu var yang tetap dan pengaruhnya pada yang lain.

Aiza
sumber
1
Halo Aiza, selamat datang di SE. Anda perlu mengedit ini untuk memberikan lebih banyak konteks dan memperjelas apa sebenarnya pertanyaan itu.
Berhenti Menutup Pertanyaan dengan Cepat,