Apa perlunya asumsi dalam regresi linier?

15

Dalam regresi linier, kami membuat asumsi berikut

  • Mean dari respon, E(Yi) , pada setiap set nilai prediktor, (x1i,x2i,) , adalah fungsi Linear dari prediktor.
  • Kesalahan, εi , adalah Independen.
  • Kesalahan, εi , pada setiap rangkaian nilai prediktor, (x1i,x2i,) , terdistribusi secara normal.
  • Kesalahan, εi , pada setiap set nilai prediktor, (x1i,x2i,) , memiliki varians yang Sama (dilambangkan σ2 ).
  • Salah satu cara kita dapat menyelesaikan regresi linier adalah melalui persamaan normal, yang dapat kita tulis sebagai

    θ=(XTX)1XTY

    Dari sudut pandang matematika, persamaan di atas hanya perlu XTX untuk dapat dibalik. Jadi, mengapa kita membutuhkan asumsi-asumsi ini? Saya bertanya kepada beberapa rekan dan mereka menyebutkan bahwa itu untuk mendapatkan hasil yang baik dan persamaan normal adalah algoritma untuk mencapainya. Tetapi dalam kasus itu, bagaimana asumsi ini membantu? Bagaimana menjunjung tinggi mereka membantu dalam mendapatkan model yang lebih baik?

    Jam Budak
    sumber
    2
    Distribusi normal diperlukan untuk menghitung interval kepercayaan koefisien menggunakan rumus biasa. Rumus perhitungan CI lainnya (saya pikir itu Putih) memungkinkan distribusi tidak normal.
    keiv.fly
    Anda tidak selalu membutuhkan asumsi tersebut agar model itu berfungsi. Dalam jaringan saraf Anda memiliki regresi linier di dalam dan mereka meminimalkan rmse seperti rumus yang Anda berikan, tetapi kemungkinan besar tidak ada asumsi yang berlaku. Tidak ada distribusi normal, tidak ada varians yang sama, tidak ada fungsi linier, bahkan kesalahan dapat bergantung.
    keiv.fly
    1
    @Alexis Variabel independen yang iid jelas bukan asumsi (dan variabel dependen menjadi iid juga bukan asumsi - bayangkan jika kita berasumsi bahwa responsnya iid maka tidak ada gunanya melakukan apa pun selain memperkirakan nilai tengah). Dan "tidak ada variabel yang dihilangkan" tidak benar-benar asumsi tambahan meskipun ada baiknya untuk menghindari variabel yang dihapus - asumsi pertama yang tercantum adalah yang benar-benar menangani hal itu.
    Dason
    1
    @ Alasan saya pikir tautan saya memberikan contoh yang cukup kuat tentang "tidak ada variabel yang dihilangkan" yang diperlukan untuk interpretasi yang valid. Saya juga berpikir iid (tergantung pada prediktor, ya) diperlukan, dengan jalan acak memberikan contoh yang sangat baik tentang di mana estimasi non-iid dapat gagal (pernah menggunakan hanya memperkirakan rata-rata).
    Alexis

    Jawaban:

    19

    Anda benar - Anda tidak perlu memenuhi asumsi ini agar sesuai dengan garis kuadrat terkecil ke poin. Anda perlu asumsi-asumsi ini untuk menafsirkan hasil. Misalnya, dengan asumsi tidak ada hubungan antara input dan Y , berapakah probabilitas mendapatkan koefisien β 1 setidaknya sama besar seperti apa yang kita lihat dari regresi?X1Yβ1

    rinspy
    sumber
    17

    Coba citra kuartet Anscombe dari Wikipedia untuk mendapatkan ide dari beberapa masalah potensial dengan menafsirkan regresi linier ketika beberapa asumsi-asumsi yang jelas palsu: sebagian besar statistik deskriptif dasar yang sama di keempat (dan individu nilai-nilai identik dalam semua kecuali bagian kanan bawah) xi

    https://upload.wikimedia.org/wikipedia/commons/thumb/e/ec/Anscombe%27s_quartet_3.svg/1280px-Anscombe%27s_quartet_3.svg.png

    Henry
    sumber
    Saya membuat ilustrasi berikut Anscombe yang menunjukkan apa yang tampak seperti asumsi variabel yang dihilangkan . Masih mengerjakan ilustrasi mirip Anscombe tentang pelanggaran asumsi iid .
    Alexis
    3

    Anda tidak perlu asumsi-asumsi itu agar sesuai dengan model linier. Namun, estimasi parameter Anda mungkin bias atau tidak memiliki varian minimum. Melanggar asumsi akan membuat diri Anda lebih sulit dalam menafsirkan hasil regresi, misalnya, membangun interval kepercayaan.

    Halo Dunia
    sumber
    1

    Ok, jawabannya sejauh ini seperti ini: Jika kita melanggar asumsi maka hal buruk bisa terjadi. Saya percaya bahwa arah yang menarik adalah: Ketika semua asumsi yang kita butuhkan (sebenarnya sedikit berbeda dari yang di atas) terpenuhi, mengapa dan bagaimana kita dapat yakin bahwa regresi linier adalah model terbaik?

    p(yi|xi)E[Yi|Xi=xi]xi

    Fabian Werner
    sumber
    0

    Dua asumsi utama adalah

    1. Independensi pengamatan
    2. Berarti tidak terkait dengan varians

    Lihat Diskusi dalam buku Julian Faraway .

    Jika keduanya benar, secara mengejutkan OLS tahan terhadap pelanggaran dalam asumsi lain yang telah Anda daftarkan.

    astaines
    sumber