Tampaknya sumber yang memiliki reputasi baik menyatakan bahwa variabel dependen harus didistribusikan secara normal:
Asumsi model: terdistribusi secara normal, kesalahan terdistribusi normal, , dan independen, dan diperbaiki, dan varians konstan .e i ∼ N ( 0 , σ 2 ) X σ 2
Kedua, analisis regresi linier mengharuskan semua variabel normal multivariat.
Ini sesuai ketika variabel respons memiliki distribusi normal
Adakah penjelasan yang baik tentang bagaimana atau mengapa kesalahpahaman ini menyebar? Apakah asalnya diketahui?
X <- runif(n=100)
laluY <- 3 + .5*X + rnorm(n=100, mean = 0, sd = .1)
mainkan dengan histogram untuk meyakinkan diri sendiri bahwa X atau Y tidak terdistribusi secara normal. Kemudiansummary(lm(Y ~ X))
, dan perhatikan sangat dekat dengan seberapa dekat intersep ke 3, dan kemiringan X adalah 0,5. Asumsinya adalah bahwa kesalahan terdistribusi secara normal.Jawaban:
'Y harus didistribusikan secara normal'
harus?
Dalam kasus yang Anda sebutkan itu adalah bahasa yang ceroboh (disingkat 'kesalahan dalam Y harus didistribusikan secara normal' ), tetapi mereka tidak benar-benar (sangat) mengatakan bahwa responsnya harus didistribusikan secara normal, atau setidaknya sepertinya tidak saya bahwa kata-kata mereka dimaksudkan seperti itu.
Materi kursus Penn State
berbicara tentang "variabel kontinu "Y , tetapi juga tentang " " seperti dalam mana kita dapat menganggap , yang disebut amoeba dalam komentar 'conditional', biasanya didistribusikan,Yi E(Yi)=β0+β1xi Yi
Artikel menggunakan dan secara bergantian. Di seluruh artikel kita berbicara tentang 'distribusi Y', misalnya:Y Yi
ketika menjelaskan beberapa varian GLM (regresi logistik biner),
dalam beberapa definisi
namun pada titik lain mereka juga merujuk ke alih-alih :Yi Y
Halaman websolusi statistik
adalah deskripsi yang sangat singkat, disederhanakan, bergaya. Saya tidak yakin Anda harus menganggap ini serius. Sebagai contoh, ini berbicara tentang
sehingga bukan hanya variabel respon,
dan juga deskripsi 'multivarian' tidak jelas. Saya tidak yakin bagaimana menafsirkannya.
Artikel wikipedia
memiliki konteks tambahan yang dijelaskan dalam tanda kurung:
Ini 'tidak ada nilai nol tetap' tampaknya menunjuk pada kasus bahwa kombinasi linear ketika memiliki domain tak hingga (dari minus tak terhingga ke plus tak terhingga) sedangkan sering banyak variabel memiliki beberapa nilai batas hingga (seperti jumlah yang tidak memungkinkan nilai negatif).y+ϵ ϵ∼N(0,σ)
Baris tertentu telah ditambahkan pada 8 Maret 2012 , tetapi perhatikan bahwa baris pertama artikel Wikipedia masih berbunyi "generalisasi yang fleksibel dari regresi linier biasa yang memungkinkan untuk variabel respon yang memiliki model distribusi kesalahan selain dari distribusi normal" dan tidak sangat (tidak di mana-mana) salah.
Kesimpulan
Jadi, berdasarkan tiga contoh ini (yang memang bisa menghasilkan kesalahpahaman, atau setidaknya bisa disalahpahami) saya tidak akan mengatakan bahwa "kesalahpahaman ini telah menyebar" . Atau setidaknya tidak bagi saya bahwa maksud dari ketiga contoh tersebut adalah untuk berpendapat bahwa Y harus didistribusikan secara normal (walaupun saya ingat masalah ini telah muncul sebelumnya di sini di stackexchange, pertukaran antara kesalahan yang didistribusikan secara normal dan variabel respon yang didistribusikan secara normal mudah dibuat).
Jadi, asumsi bahwa 'Y harus didistribusikan secara normal' bagi saya tampaknya bukan seperti kepercayaan / kesalahpahaman yang tersebar luas (seperti dalam sesuatu yang menyebar seperti ikan herring merah), tetapi lebih seperti kesalahan umum (yang tidak menyebar tetapi dibuat secara independen setiap kali ).
Komentar tambahan
Contoh kesalahan pada situs web ini adalah dalam pertanyaan berikut
Bagaimana jika residu terdistribusi normal, tetapi y tidak?
Saya akan menganggap ini sebagai pertanyaan pemula. Itu tidak hadir dalam bahan-bahan seperti materi kursus Penn State, situs web Wikipedia, dan baru-baru ini dicatat dalam komentar buku 'Memperluas Regresi Linier dengan R'.
Para penulis karya-karya itu benar memahami materi. Memang, mereka menggunakan frasa seperti 'Y harus berdistribusi normal', tetapi berdasarkan konteks dan rumus yang digunakan Anda dapat melihat bahwa mereka semua berarti 'Y, tergantung pada X, harus terdistribusi secara normal' dan bukan 'marginal Y harus didistribusikan secara normal '. Mereka tidak salah memahami gagasan itu sendiri, dan setidaknya gagasan itu tidak tersebar luas di antara para ahli statistik dan orang-orang yang menulis buku dan materi pelajaran lainnya. Tetapi salah membaca kata-kata ambigu mereka memang dapat menyebabkan kesalahpahaman.
sumber
Kami biasanya mengajarkan versi statistik yang "disederhanakan" kepada mahasiswa sarjana dalam banyak disiplin ilmu. Saya dalam psikologi, dan ketika saya mencoba memberi tahu para mahasiswa bahwa nilai- p adalah "probabilitas data — atau lebih banyak data ekstrem — mengingat bahwa hipotesis nol itu benar," kolega memberi tahu saya bahwa saya membahas lebih detail daripada yang saya butuhkan. menutupi. Bahwa saya membuatnya lebih sulit daripada seharusnya, dll. Karena siswa di kelas memiliki berbagai kenyamanan (atau ketiadaan) dengan statistik, instruktur umumnya tetap sederhana: "Kami menganggapnya sebagai temuan yang andal jika p <.05, "misalnya, alih-alih memberi mereka definisi aktual dari nilai- p .
Saya pikir di sinilah penjelasan mengapa kesalahpahaman telah menyebar. Misalnya, Anda dapat menulis model sebagai:
Ini dapat ditulis ulang sebagai:
Yang berarti bahwa "Y, tergantung pada X, biasanya terdistribusi dengan rata-rata nilai yang diprediksi dan beberapa varian."
Ini sulit untuk dijelaskan, sehingga orang yang menggunakan steno mungkin hanya mengatakan: "Y harus didistribusikan secara normal." Atau ketika itu dijelaskan kepada mereka pada awalnya, orang-orang salah memahami bagian bersyarat — karena, jujur, membingungkan.
Jadi dalam upaya untuk tidak membuat hal-hal menjadi sangat rumit, instruktur hanya menyederhanakan apa yang mereka katakan agar tidak terlalu membingungkan kebanyakan siswa. Dan kemudian orang melanjutkan pendidikan statistik mereka atau praktik statistik dengan kesalahpahaman itu. Saya sendiri tidak sepenuhnya memahami konsep itu sampai saya mulai melakukan pemodelan Bayesian di Stan, yang mengharuskan Anda untuk menulis asumsi Anda dengan cara ini:
Juga, dalam banyak paket statistik dengan GUI (melihat Anda, SPSS), lebih mudah untuk memeriksa apakah distribusi marjinal terdistribusi secara normal (histogram sederhana) daripada memeriksa apakah residu terdistribusi normal (jalankan regresi, simpan residu, jalankan histogram pada residu tersebut).
Dengan demikian, saya pikir kesalahpahaman ini terutama disebabkan oleh instruktur yang mencoba untuk mengurangi detail untuk menjaga siswa dari kebingungan, asli — dan dapat dimengerti — kebingungan di antara orang-orang yang mempelajarinya dengan cara yang benar, dan keduanya diperkuat dengan kemudahan memeriksa normalitas marjinal di sekolah. sebagian besar paket statistik yang mudah digunakan.
sumber
Analisis regresi sulit bagi pemula karena ada hasil yang berbeda yang tersirat oleh asumsi awal yang berbeda. Asumsi awal yang lebih lemah dapat membenarkan beberapa hasil, tetapi Anda bisa mendapatkan hasil yang lebih kuat ketika Anda menambahkan asumsi yang lebih kuat. Orang-orang yang tidak terbiasa dengan derivasi matematis lengkap dari hasil seringkali dapat salah memahami asumsi yang dibutuhkan untuk suatu hasil, baik dengan menempatkan model mereka terlalu lemah untuk mendapatkan hasil yang diperlukan, atau mengajukan beberapa asumsi yang tidak perlu dengan keyakinan bahwa ini diperlukan untuk suatu hasil. .
Meskipun dimungkinkan untuk menambahkan asumsi yang lebih kuat untuk mendapatkan hasil tambahan, analisis regresi berkaitan dengan distribusi bersyarat dari vektor respons. Jika suatu model melampaui ini maka ia memasuki wilayah analisis multivariat, dan bukan semata-mata (hanya) model regresi. Masalah ini semakin rumit oleh fakta bahwa itu adalah umum untuk merujuk hasil distribusi dalam regresi tanpa selalu berhati-hati untuk menentukan bahwa mereka adalah distribusi bersyarat (diberikan variabel penjelas dalam matriks desain). Dalam kasus di mana model melampaui distribusi bersyarat (dengan mengasumsikan distribusi marjinal untuk vektor penjelas) pengguna harus berhati-hati untuk menentukan perbedaan ini; sayangnya orang tidak selalu berhati-hati dengan ini.
Model regresi linier homoskedastik: Titik awal paling awal yang biasanya digunakan adalah untuk mengasumsikan bentuk model dan dua momen kesalahan pertama tanpa asumsi normalitas sama sekali:
Pengaturan ini cukup untuk memungkinkan Anda mendapatkan estimator OLS untuk koefisien, estimator yang tidak bias untuk varians kesalahan, residual, dan momen semua jumlah acak ini (tergantung pada variabel penjelas dalam matriks desain). Itu tidak memungkinkan Anda untuk mendapatkan distribusi bersyarat penuh dari jumlah-jumlah ini, tetapi ia memungkinkan untuk menarik bagi distribusi asimptotik jika besar dan beberapa asumsi tambahan ditempatkan pada perilaku membatasi . Untuk melangkah lebih jauh adalah umum untuk mengasumsikan bentuk distribusi spesifik untuk vektor kesalahan.xn x
Kesalahan normal: Sebagian besar perawatan model regresi linier homoskedastik mengasumsikan bahwa vektor kesalahan terdistribusi normal, yang dikombinasikan dengan asumsi saat memberikan:
Asumsi tambahan ini cukup untuk memastikan bahwa penaksir OLS untuk koefisien adalah MLE untuk model, dan itu juga berarti bahwa penaksir koefisien dan residu terdistribusi secara normal dan penaksir untuk varian kesalahan memiliki distribusi chi-squared berskala (semua tergantung pada variabel penjelas dalam matriks desain). Ini juga memastikan bahwa vektor respons terdistribusi normal dengan syarat. Ini memberikan hasil distribusi tergantung pada variabel penjelas dalam analisis, yang memungkinkan pembangunan interval kepercayaan dan tes hipotesis. Jika analis ingin membuat temuan tentang distribusi marginal dari respons, mereka perlu melangkah lebih jauh dan mengasumsikan distribusi untuk variabel penjelas dalam model.
Variabel penjelas bersama-normal: Beberapa perawatan model regresi linier homoscedastic melangkah lebih jauh dari perawatan standar, dan tidak mengkondisikan pada variabel penjelas tetap. (Bisa dibilang ini adalah transisi keluar dari pemodelan regresi dan menjadi analisis multivariat.) Model yang paling umum mengasumsikan bahwa vektor penjelas adalah vektor acak gabungan normal-normal IID. Membiarkan menjadi th vektor jelas (yang th baris dari matriks desain) yang kita miliki: i iX(i) i i
Asumsi tambahan ini cukup untuk memastikan bahwa vektor respon terdistribusi secara normal. Ini adalah asumsi yang kuat dan biasanya tidak dikenakan dalam kebanyakan masalah. Sebagaimana dinyatakan, ini mengambil model di luar wilayah pemodelan regresi dan menjadi analisis multivariat.
sumber