Apa asumsi biasa untuk regresi linier?
Apakah mereka termasuk:
- hubungan linear antara variabel independen dan dependen
- kesalahan independen
- distribusi kesalahan normal
- homoseksualitas
Apakah ada yang lain?
regression
assumptions
tony
sumber
sumber
Jawaban:
Jawabannya sangat bergantung pada bagaimana Anda mendefinisikan lengkap dan biasa. Misalkan kita menulis model regresi linier dengan cara berikut:
di mana adalah vektor variabel prediktor, adalah parameter yang menarik, adalah variabel respons, dan adalah gangguan. Salah satu perkiraan yang mungkin dari adalah perkiraan kuadrat terkecil:xi β yi ui β β^=argminβ∑(yi−xiβ)2=(∑xix′i)−1∑xiyi.
Sekarang hampir semua buku teks berurusan dengan asumsi ketika perkiraan ini memiliki sifat yang diinginkan, seperti ketidakberpihakan, konsistensi, efisiensi, beberapa sifat distribusi, dll.β^
Masing-masing properti ini memerlukan asumsi tertentu, yang tidak sama. Jadi pertanyaan yang lebih baik adalah menanyakan asumsi yang dibutuhkan untuk properti yang diinginkan dari estimasi LS.
Properti yang saya sebutkan di atas memerlukan beberapa model probabilitas untuk regresi. Dan di sini kita memiliki situasi di mana model yang berbeda digunakan dalam bidang terapan yang berbeda.
Kasus sederhana adalah memperlakukan sebagai variabel acak independen, dengan menjadi non-acak. Saya tidak suka kata biasa, tetapi kita dapat mengatakan bahwa ini adalah kasus yang biasa di sebagian besar bidang yang diterapkan (sejauh yang saya tahu).yi xi
Berikut adalah daftar beberapa sifat perkiraan statistik yang diinginkan:
Adanya
Properti keberadaan mungkin tampak aneh, tetapi sangat penting. Dalam definisi kita membalikkan matriksβ^ ∑xix′i.
Tidak dijamin bahwa kebalikan dari matriks ini ada untuk semua varian yang mungkin dari . Jadi kami segera mendapatkan asumsi pertama kami:xi
Matriks harus memiliki peringkat penuh, yaitu tidak dapat dibalik.∑xix′i
Ketidakcocokan
Kami memiliki jikaEβ^=(∑xix′i)−1(∑xiEyi)=β, Eyi=xiβ.
Kami mungkin menganggapnya sebagai asumsi kedua, tetapi kami mungkin telah menyatakannya langsung, karena ini adalah salah satu cara alami untuk mendefinisikan hubungan linier.
Perhatikan bahwa untuk mendapatkan kami hanya mensyaratkan bahwa untuk semua , dan adalah konstanta. Properti kemerdekaan tidak diperlukan.Eyi=xiβ i xi
Konsistensi
Untuk mendapatkan asumsi konsistensi, kita perlu menyatakan dengan lebih jelas apa yang dimaksud dengan . Untuk urutan variabel acak kami memiliki mode konvergensi yang berbeda: dalam probabilitas, hampir pasti, dalam distribusi dan -th sense sense. Misalkan kita ingin mendapatkan konvergensi dalam probabilitas. Kita dapat menggunakan hukum jumlah besar, atau langsung menggunakan ketidaksetaraan Chebyshev multivarian (menggunakan fakta bahwa ):→ p Eβ^=β
(Varian ketidaksetaraan ini datang langsung dari penerapan ketidaksetaraan Markov ke , mencatat bahwa .)∥β^−β∥2 E∥β^−β∥2=TrVar(β^)
Karena konvergensi dalam probabilitas berarti bahwa istilah sebelah kiri harus lenyap untuk setiap sebagai , kita memerlukan sebagai . Ini sangat masuk akal karena dengan lebih banyak data presisi yang kami perkirakan akan meningkat.ε>0 n→∞ Var(β^)→0 n→∞ β
Kami memilikiVar(β^)=(∑xix′i)−1(∑i∑jxix′jCov(yi,yj))(∑xix′i)−1.
Independensi memastikan bahwa , oleh karena itu ungkapan disederhanakan menjadiCov(yi,yj)=0 Var(β^)=(∑xix′i)−1(∑ixix′iVar(yi))(∑xix′i)−1.
Sekarang asumsikan , laluVar(yi)=const Var(β^)=(∑xix′i)−1Var(yi).
Sekarang jika kita juga mengharuskan dibatasi untuk setiap , kita segera mendapatkan1n∑xix′i n Var(β)→0 as n→∞.
Jadi untuk mendapatkan konsistensi kami berasumsi bahwa tidak ada autokorelasi ( ), varians adalah konstan, dan tidak tumbuh terlalu banyak. Asumsi pertama puas jika berasal dari sampel independen.Cov(yi,yj)=0 Var(yi) xi yi
Efisiensi
Hasil klasiknya adalah teorema Gauss-Markov . Kondisi untuk itu adalah persis dua kondisi pertama untuk konsistensi dan kondisi untuk ketidakberpihakan.
Sifat distribusi
Jika normal, kami segera mendapatkan bahwa adalah normal, karena merupakan kombinasi linear dari variabel acak normal. Jika kita mengasumsikan asumsi sebelumnya yaitu independensi, tidak berkorelasi dan varians konstan kita dapatkan bahwa mana .yi β^ β^∼N(β,σ2(∑xix′i)−1) Var(yi)=σ2
Jika tidak normal, tetapi independen, kita bisa mendapatkan perkiraan distribusi berkat teorema limit pusat. Untuk ini kita perlu berasumsi bahwa untuk beberapa matriks . Varians konstan untuk normalitas asimptotik tidak diperlukan jika kita mengasumsikan bahwayi β^ limn→∞1n∑xix′i→A A limn→∞1n∑xix′iVar(yi)→B.
Perhatikan bahwa dengan varians konstan , kita mendapati bahwa . Teorema batas pusat kemudian memberi kita hasil berikut:y B=σ2A
Jadi dari sini kita melihat bahwa independensi dan varian konstan untuk dan asumsi tertentu untuk memberi kita banyak properti yang berguna untuk estimasi LS .yi xi β^
Masalahnya adalah asumsi-asumsi ini bisa santai. Sebagai contoh, kami mengharuskan bukan variabel acak. Asumsi ini tidak layak dalam aplikasi ekonometrik. Jika kita membiarkan menjadi acak, kita bisa mendapatkan hasil yang serupa jika menggunakan ekspektasi bersyarat dan memperhitungkan keacakan dari . Asumsi independensi juga bisa santai. Kami sudah menunjukkan bahwa kadang-kadang hanya ketidakcocokan diperlukan. Bahkan ini dapat lebih santai dan masih mungkin untuk menunjukkan bahwa perkiraan LS akan konsisten dan asimptoticaly normal. Lihat misalnya buku White untuk lebih jelasnya.xi xi xi
sumber
Ada sejumlah jawaban bagus di sini. Terpikir oleh saya bahwa ada satu asumsi yang belum dinyatakan (setidaknya tidak secara eksplisit). Secara khusus, model regresi mengasumsikan bahwa (nilai-nilai variabel penjelas / prediktor Anda) adalah tetap dan diketahui , dan bahwa semua ketidakpastian dalam situasi ada dalam variabelSelain itu, ketidakpastian ini diasumsikan hanya sebagai kesalahan pengambilan sampel .X Y
Berikut adalah dua cara untuk memikirkan hal ini: Jika Anda sedang membangun model penjelas (memodelkan hasil eksperimen), Anda tahu persis apa level variabel independen, karena Anda memanipulasi / mengelolanya. Selain itu, Anda memutuskan level apa itu sebelum Anda mulai mengumpulkan data. Jadi, Anda mengkonseptualisasikan semua ketidakpastian dalam hubungan yang ada dalam respons. Di sisi lain, jika Anda membangun model prediktif, memang benar bahwa situasinya berbeda, tetapi Anda masih memperlakukan prediktor seolah-olah mereka diperbaiki dan diketahui, karena, di masa depan, ketika Anda menggunakan model untuk membuat prediksi tentang nilai kemungkinan , Anda akan memiliki vektor,y x , dan model ini dirancang untuk memperlakukan nilai-nilai itu seolah-olah mereka benar. Artinya, Anda akan menganggap ketidakpastian sebagai nilai tidak diketahui . y
Asumsi-asumsi ini dapat dilihat dalam persamaan untuk model regresi prototipikal: Model dengan ketidakpastian (mungkin karena kesalahan pengukuran) di juga mungkin memiliki proses menghasilkan data yang sama, tetapi model tersebut yang diperkirakan akan terlihat seperti ini: mana merupakan kesalahan pengukuran acak. (Situasi seperti yang terakhir menyebabkan kesalahan pada model variabel ; hasil dasarnya adalah jika ada kesalahan pengukuran di , maka naif
Salah satu konsekuensi praktis dari asinsetri intrinsik dalam asumsi tipikal adalah bahwa kemunduran pada berbeda dari kemunduran pada . (Lihat jawaban saya di sini: Apa perbedaan antara melakukan regresi linier pada y dengan x versus x dengan y? Untuk diskusi yang lebih rinci tentang fakta ini.)y x x y
sumber
Asumsi model regresi linier klasik meliputi:
Meskipun jawaban di sini sudah memberikan gambaran yang baik tentang asumsi OLS klasik, Anda dapat menemukan deskripsi yang lebih komprehensif tentang asumsi model regresi linier klasik di sini:
https://economictheoryblog.com/2015/04/04/ols_assumptions/
Selain itu, artikel tersebut menjelaskan konsekuensi jika seseorang melanggar asumsi tertentu.
sumber
Asumsi yang berbeda dapat digunakan untuk membenarkan OLS
Apa yang menyebabkannya ?!
Jawabannya adalah bahwa set asumsi yang agak berbeda dapat digunakan untuk membenarkan penggunaan estimasi kuadrat terkecil (OLS). OLS adalah alat seperti palu: Anda dapat menggunakan palu pada kuku tetapi Anda juga dapat menggunakannya pada pasak, untuk memecah es, dll ...
Dua kategori besar asumsi adalah yang berlaku untuk sampel kecil dan yang bergantung pada sampel besar sehingga teorema batas pusat dapat diterapkan.
1. Asumsi sampel kecil
Asumsi sampel kecil seperti yang dibahas dalam Hayashi (2000) adalah:
Di bawah (1) - (4), teorema Gauss-Markov berlaku, dan estimator kuadrat terkecil biasa adalah estimator tidak bias linear terbaik.
Selanjutnya asumsi istilah kesalahan normal memungkinkan pengujian hipotesis . Jika istilah kesalahan normal bersyarat, distribusi estimator OLS juga bersyarat normal.
Poin penting lainnya adalah bahwa dengan normalitas, penaksir OLS juga merupakan penaksir kemungkinan maksimum .
2. Asumsi sampel besar
Asumsi-asumsi ini dapat dimodifikasi / dilonggarkan jika kita memiliki sampel yang cukup besar sehingga kita dapat bersandar pada hukum angka besar (untuk konsistensi penduga OLS) dan teorema batas pusat (sehingga distribusi pengambilan sampel penduga OLS menyatu dengan distribusi normal dan kita bisa melakukan pengujian hipotesis, bicara tentang nilai-p dll ...).
Hayashi adalah seorang ahli ekonomi makro dan asumsi sampel besarnya diformulasikan dengan konteks deret waktu:
Anda dapat menemukan versi yang lebih kuat dari asumsi ini, misalnya, bahwa istilah kesalahan independen.
Asumsi sampel besar yang tepat membawa Anda ke distribusi sampel estimator OLS yang normal asimptotik .
Referensi
Hayashi, Fumio, 2000, Ekonometrika
sumber
Ini semua tentang apa yang ingin Anda lakukan dengan model Anda. Bayangkan jika kesalahan Anda condong positif / tidak normal. Jika Anda ingin membuat interval prediksi, Anda bisa melakukan lebih baik daripada menggunakan distribusi-t. Jika varians Anda lebih kecil pada nilai prediksi yang lebih kecil, sekali lagi, Anda akan membuat interval prediksi yang terlalu besar.
Lebih baik untuk memahami mengapa asumsi itu ada.
sumber
Diagram berikut menunjukkan asumsi mana yang diperlukan untuk mendapatkan implikasi mana dalam skenario terbatas dan asimptotik.
Saya pikir penting untuk memikirkan tidak hanya apa asumsi itu, tetapi apa implikasi dari asumsi itu. Misalnya, jika Anda hanya peduli memiliki koefisien yang tidak bias, maka Anda tidak perlu homoskedastisitas.
sumber
Berikut ini adalah asumsi analisis Regresi Linier.
Spesifikasi yang benar . Bentuk fungsional linier ditentukan dengan benar.
Eksogenitas yang ketat . Kesalahan dalam regresi harus bersyarat rata-rata nol.
Tidak ada multikolinieritas . Semua regresi dalam X harus bebas linear.
Homoscedasticity yang berarti bahwa istilah kesalahan memiliki varians yang sama dalam setiap pengamatan.
Tidak ada autokorelasi : kesalahan tidak berkorelasi di antara pengamatan.
Normalitas. Kadang-kadang juga diasumsikan bahwa kesalahan memiliki distribusi normal tergantung pada regressor.
Pengamatan Iid : independen dari, dan memiliki distribusi yang sama dengan, untuk semua .(xi,yi) (xj,yj) i≠j
Untuk informasi lebih lanjut, kunjungi halaman ini .
sumber
Tidak ada yang namanya daftar tunggal asumsi, akan ada setidaknya 2: satu untuk diperbaiki dan satu untuk matriks desain acak. Plus, Anda mungkin ingin melihat asumsi untuk regresi deret waktu (lihat hal.13)
Kasus ketika desain matriks yang tetap bisa menjadi salah satu yang paling umum, dan asumsi yang sering dinyatakan sebagai teorema Gauss-Markov . Desain tetap berarti bahwa Anda benar-benar mengendalikan para pelanggar. Misalnya, Anda melakukan percobaan dan dapat mengatur parameter seperti suhu, tekanan, dll. Lihat juga hal.13 di sini .X
Sayangnya, dalam ilmu sosial seperti ekonomi Anda jarang dapat mengontrol parameter percobaan. Biasanya, Anda mengamati apa yang terjadi dalam ekonomi, mencatat metrik lingkungan, lalu mundur. Ternyata itu adalah situasi yang sangat berbeda dan lebih sulit, yang disebut desain acak . Dalam hal ini teorema Gauss-Markov dimodifikasi juga lihat hal.12 di sini . Anda dapat melihat bagaimana kondisi sekarang dinyatakan dalam probabilitas kondisional , yang bukan merupakan perubahan tidak berbahaya.
Dalam ekonometrika, asumsi memiliki nama:
Perhatikan bahwa saya tidak pernah menyebut normalitas. Itu bukan asumsi standar. Ini sering digunakan dalam kursus regresi intro karena membuat beberapa derivasi lebih mudah, tetapi tidak diperlukan untuk regresi untuk bekerja dan memiliki sifat yang bagus.
sumber
Asumsi linearitas adalah bahwa model linier dalam parameter. Tidak masalah untuk memiliki model regresi dengan efek kuadrat atau urutan yang lebih tinggi selama fungsi daya dari variabel independen adalah bagian dari model aditif linier. Jika model tidak mengandung syarat tatanan yang lebih tinggi ketika seharusnya, maka kurangnya kecocokan akan terlihat jelas dalam plot residu. Namun, model regresi standar tidak memasukkan model di mana variabel independen dinaikkan ke kekuatan parameter (meskipun ada pendekatan lain yang dapat digunakan untuk mengevaluasi model tersebut). Model semacam itu mengandung parameter non-linear.
sumber
Koefisien regresi kuadrat terkecil menyediakan cara untuk merangkum tren urutan pertama dalam jenis data apa pun. Jawaban @mpiktas adalah perawatan menyeluruh dari kondisi di mana kuadrat terkecil semakin optimal. Saya ingin pergi ke arah lain dan menunjukkan kasus paling umum ketika kotak paling tidak bekerja. Mari kita lihat formulasi paling umum dari persamaan kuadrat-terkecil:
Itu hanya model linier untuk rata-rata kondisional dari respons.
Catatan Saya telah menolak istilah kesalahan. Jika Anda ingin merangkum ketidakpastian , maka Anda harus mengajukan banding ke teorema limit pusat. Kelas yang paling umum dari penduga kuadrat kuadrat bertemu menjadi normal ketika kondisi Lindeberg terpenuhi : dididihkan, kondisi Lindeberg untuk kuadrat terkecil mensyaratkan bahwa fraksi residu kuadrat terbesar dengan jumlah jumlah residu kuadrat harus pergi ke 0 sebagai . Jika desain Anda akan terus mengambil sampel residu yang lebih besar dan lebih besar, maka percobaan "mati di air".β n→∞
Ketika kondisi Lindeberg terpenuhi, parameter regresi didefinisikan dengan baik, dan estimator adalah estimator yang tidak bias yang memiliki distribusi perkiraan yang diketahui. Pengukur yang lebih efisien mungkin ada. Dalam kasus lain heteroskedastisitas, atau data berkorelasi, biasanya penduga tertimbang lebih efisien . Itu sebabnya saya tidak akan pernah menganjurkan menggunakan metode naif ketika yang lebih baik tersedia. Tetapi mereka sering tidak!β β^
sumber