Apa kesalahpahaman paling umum tentang regresi linier?

70

Saya ingin tahu, bagi Anda yang memiliki pengalaman luas berkolaborasi dengan peneliti lain, apa beberapa kesalahpahaman paling umum tentang regresi linier yang Anda temui?

Saya pikir bisa menjadi latihan yang berguna untuk memikirkan kesalahpahaman umum sebelumnya

  1. Mengantisipasi kesalahan orang dan mampu mengartikulasikan mengapa beberapa kesalahpahaman salah

  2. Sadarilah jika saya sendiri menyimpan beberapa kesalahpahaman!

Beberapa hal dasar yang dapat saya pikirkan:

Variabel independen / tergantung harus didistribusikan secara normal

Variabel harus distandarisasi untuk interpretasi yang akurat

Ada yang lain

Semua tanggapan diterima.

ST21
sumber
5
Ini mungkin harus menjadi CW, karena mengundang daftar kemungkinan & akan sulit untuk mengatakan bahwa seseorang secara objektif adalah 'jawaban yang benar'.
gung - Reinstate Monica
Banyak orang yang saya kenal masih bersikeras untuk melakukan linearisasi pada data mereka dan membiarkannya, bahkan ketika lingkungan komputasi yang mereka gunakan memiliki dukungan yang baik untuk regresi nonlinier. (Linearisasi ini tentu saja berguna sebagai titik awal untuk kecocokan nonlinier, tetapi orang-orang ini bahkan tidak menyadarinya.)
JM bukan ahli statistik
1
@ungung: Apakah Komunitas Wiki masih berarti? CW sebagian besar jaringannya sudah usang , tidak pernah benar-benar memberikan marginal, pertanyaan besar daftar pertanyaan keluar dari kartu penjara gratis, atau merampok orang-orang dari reputasi yang mungkin mereka dapatkan jika pertanyaan itu pada topik di tempat pertama. Satu-satunya cara Anda bahkan dapat mengajukan pertanyaan lagi adalah jika Anda meminta moderator untuk melakukannya.
Robert Harvey
1
Jika Tuhan membuat dunia linear, tidak akan ada regresi nonlinier.
Mark L. Stone
1
@RobertHarvey: Ya, itu adalah masih sangat banyak hal pada CrossValidated (menurut saya, sayangnya). Kami telah melakukan beberapa diskusi Meta panas tentang hal itu ( misalnya yang ini ), tetapi status quo saat ini adalah bahwa status CW diberlakukan pada semua pertanyaan berbasis opini atau daftar besar yang dianggap pada topik cukup untuk tetap terbuka.
Amoeba berkata Reinstate Monica

Jawaban:

38

Premis salah: A berarti bahwa tidak ada hubungan yang kuat antara DV dan IV. β^0
Hubungan fungsional non-linear berlimpah, namun data yang dihasilkan oleh banyak hubungan seperti itu sering menghasilkan hampir nol lereng jika orang menganggap hubungan itu harus linier, atau bahkan sekitar linier.

Terkait, dalam premis lain yang salah, para peneliti sering berasumsi — mungkin karena banyak buku ajar regresi pengantar mengajarkan — bahwa satu "tes untuk non-linearitas" dengan membangun serangkaian regresi DV ke ekspansi polinomial IV (mis. , diikuti oleh , diikuti olehYβ0+βXX+εYβ0+βXX+βX2X2+εYβ0+βXX+βX2X2+βX3X3+ε, dll.). Sama seperti garis lurus tidak dapat dengan baik mewakili hubungan fungsional non-linear antara DV dan IV, parabola juga tidak dapat mewakili secara harfiah jumlah tak terbatas dari hubungan nonlinear (misalnya sinusoids, cycloids, fungsi langkah, efek saturasi, kurva-s, dll. Ad infinitum ). Sebagai gantinya, seseorang dapat mengambil pendekatan regresi yang tidak mengasumsikan bentuk fungsional tertentu (mis. Running line smoothers, GAMs, dll.).

Sebuah premis palsu ketiga adalah bahwa peningkatan jumlah perkiraan parameter tentu menghasilkan hilangnya kekuatan statistik. Ini mungkin salah ketika hubungan sebenarnya adalah non-linier dan membutuhkan beberapa parameter untuk memperkirakan (misalnya fungsi "tongkat patah" tidak hanya memerlukan persyaratan intersep dan kemiringan garis lurus, tetapi membutuhkan titik di mana kemiringan berubah dan berapa banyak perubahan lereng oleh Estimasi juga): residu dari model yang tidak ditentukan spesifik (misalnya garis lurus) dapat tumbuh cukup besar (relatif terhadap hubungan fungsional yang ditentukan dengan tepat) yang menghasilkan probabilitas penolakan yang lebih rendah dan interval kepercayaan yang lebih luas dan interval prediksi (selain estimasi yang bias) .

Alexis
sumber
4
(+1) Quibbles: (1) Saya tidak berpikir bahkan teks pengantar menyiratkan bahwa semua kurva adalah fungsi polinomial, melainkan bahwa mereka dapat didekati dengan cukup baik pada rentang yang diberikan oleh fungsi polinomial. Jadi mereka jatuh ke dalam kelas "pendekatan regresi yang tidak mengasumsikan bentuk fungsional tertentu", diatur oleh "hiperparameter" yang menentukan kerendahan hati: rentang untuk loess, the no. simpul untuk regresi pada basis spline, derajat untuk regresi berdasarkan polinomial. (Saya tidak mengibarkan bendera untuk polinomial - sudah diketahui bahwa mereka cenderung menggapai-gapai di ujung lebih dari yang kita inginkan -, ...
Scortchi - Reinstate Monica
2
... hanya memberi mereka hak mereka.) (2) Sinusoid mungkin cocok dengan itu, dalam kerangka model linier; efek saturasi menggunakan model non-linear (hiperbola persegi panjang, katakanlah); & c. Tentu saja Anda tidak mengatakan sebaliknya, tetapi mungkin perlu menunjukkan bahwa jika Anda tahu ada siklus, atau asimtot, menerapkan kendala tersebut dalam model Anda akan sangat membantu.
Scortchi
2
@Scortchi Saya sangat setuju! (Memang, mengingat jumlah polinomial yang tak terbatas , fungsi apa pun dapat diwakili dengan sempurna.) Bertujuan ringkas. :)
Alexis
2
@Alexis Cobalah mendekati fungsi basis 13 Conway dengan polinomial. :)
Rahasia Solomonoff
1
Atau ...χQ
S. Kolassa - Reinstate Monica
22

Sangat umum untuk mengasumsikan bahwa hanya data yang mengalami kesalahan pengukuran (atau setidaknya, bahwa ini adalah satu-satunya kesalahan yang akan kita pertimbangkan). Tapi ini mengabaikan kemungkinan - dan konsekuensi - kesalahan dalam pengukuran . Ini mungkin sangat akut dalam studi observasional di mana variabel tidak berada di bawah kontrol eksperimental.yxx

Pengenceran regresi atau redaman regresi adalah fenomena yang diakui oleh Spearman (1904) di mana kemiringan regresi yang diperkirakan dalam regresi linier sederhana bias menjadi nol dengan adanya kesalahan pengukuran pada variabel independen. Misalkan kemiringan sebenarnya positif - efek jittering titik 'koordinat (mungkin paling mudah divisualisasikan sebagai "noda" titik secara horizontal) adalah membuat garis regresi kurang curam. Secara intuitif, titik denganbesarsekarang lebih cenderung demikian karena kesalahan pengukuran positif, sedangkan nilailebih cenderung mencerminkan nilaisebenarnya (bebas kesalahan), dan karenanya lebih rendah dari garis sebenarnya akan menjadi untuk yang diamatixxyxx .

Dalam model yang lebih kompleks, kesalahan pengukuran dalam variabel dapat menghasilkan efek yang lebih rumit pada estimasi parameter. Ada kesalahan dalam model variabel yang memperhitungkan kesalahan tersebut. Spearman menyarankan faktor koreksi untuk menghilangkan koefisien korelasi bivariat dan faktor koreksi lainnya telah dikembangkan untuk situasi yang lebih canggih. Namun, koreksi semacam itu bisa sulit - terutama dalam kasus multivariat dan di hadapan pembaur - dan mungkin kontroversial apakah koreksi tersebut merupakan peningkatan yang murni, lihat misalnya Smith dan Phillips (1996).x

Jadi saya kira ini adalah dua kesalahpahaman untuk harga satu - di satu sisi itu adalah kesalahan untuk berpikir bahwa cara kita menulis berarti "semua kesalahan ada di " dan mengabaikan sangat kemungkinan nyata secara fisik kesalahan pengukuran dalam variabel independen. Di sisi lain, mungkin tidak disarankan untuk secara membabi buta menerapkan "koreksi" untuk kesalahan pengukuran dalam semua situasi seperti respon spontan (meskipun mungkin merupakan ide yang baik untuk mengambil langkah-langkah untuk mengurangi kesalahan pengukuran di tempat pertama) .y=Xβ+εy

(Saya mungkin juga harus menghubungkan ke beberapa model kesalahan-dalam-variabel umum lainnya, dalam urutan yang semakin umum: regresi ortogonal , regresi Deming , dan total kuadrat terkecil .)

Referensi

Silverfish
sumber
Pada catatan itu: ini adalah salah satu alasan penggunaan teknik yang disebut "total kuadrat" atau "regresi ortogonal" (tergantung pada referensi yang Anda baca); itu secara signifikan lebih rumit daripada kuadrat terkecil, tetapi layak dilakukan jika semua poin Anda terkontaminasi dengan kesalahan.
JM bukan ahli statistik
@ JM Terima kasih - ya, sebenarnya saya awalnya bermaksud memasukkan tautan ke TLS, tetapi terganggu oleh artikel Smith dan Phillips!
Silverfish,
2
+1 Tambahan yang bagus untuk topik ini. Saya sering mempertimbangkan model EIV dalam pekerjaan saya. Namun, terlepas dari kompleksitas atau ketergantungan pada pengetahuan tentang "kesalahan rasio" mereka, ada masalah yang lebih konseptual untuk dipertimbangkan: Banyak regresi, terutama dalam belajar diawasi atau prediksi, ingin berhubungan diamati prediktor untuk diamati hasil. Model EIV, di sisi lain, berupaya mengidentifikasi hubungan yang mendasari antara prediktor rata - rata dan respons rata - rata ... pertanyaan yang sedikit berbeda.
2
Jadi, apa yang akan disebut "pengenceran" dari regresi "benar" (dalam konteks ilmiah) akan disebut "tidak adanya utilitas prediktif" atau sesuatu seperti itu dalam konteks prediksi.
21

Ada beberapa kesalahpahaman standar yang berlaku dalam konteks ini serta konteks statistik lainnya: misalnya, makna nilai- , salah menyimpulkan kausalitas, dll. p

Beberapa kesalahpahaman yang menurut saya khusus untuk regresi berganda adalah:

  1. Berpikir bahwa variabel dengan koefisien estimasi yang lebih besar dan / atau nilai lebih rendah 'lebih penting'. p
  2. Berpikir bahwa menambahkan lebih banyak variabel ke model membuat Anda 'lebih dekat dengan kebenaran'. Misalnya, kemiringan dari regresi pada mungkin bukan hubungan langsung yang benar antara dan , tetapi jika saya menambahkan variabel , koefisien itu akan menjadi representasi yang lebih baik dari hubungan yang sebenarnya, dan jika saya menambahkan , itu akan menjadi lebih baik dari itu. YXXYZ1,,Z5Z6,,Z20
gung - Pasang kembali Monica
sumber
12
Barang bagus. Jawaban ini mungkin lebih bermanfaat jika menjelaskan mengapa keduanya salah dan apa yang harus dilakukan?
DW
14

Saya akan mengatakan yang pertama yang Anda daftarkan mungkin yang paling umum - dan mungkin yang paling banyak diajarkan dengan cara itu - dari hal-hal yang jelas-jelas salah, tetapi di sini ada beberapa yang kurang jelas dalam beberapa situasi ( apakah mereka benar-benar berlaku) tetapi mungkin berdampak lebih banyak analisis, dan mungkin lebih serius. Ini sering tidak pernah disebutkan ketika subjek regresi diperkenalkan.

  • Memperlakukan sebagai sampel acak dari populasi set pengamatan yang tidak mungkin dekat dengan yang representatif (apalagi sampel acak). [Beberapa penelitian malah bisa dilihat sebagai sesuatu yang lebih dekat dengan sampel kenyamanan]

  • Dengan data pengamatan, mengabaikan konsekuensinya dengan mengabaikan pendorong penting dari proses yang tentu saja akan membiaskan estimasi koefisien dari variabel yang dimasukkan (dalam banyak kasus, bahkan untuk kemungkinan mengubah tanda mereka), tanpa upaya untuk mempertimbangkan cara berurusan. dengan mereka (apakah karena ketidaktahuan masalah atau hanya tidak menyadari bahwa apa pun dapat dilakukan). [Beberapa area penelitian memiliki masalah ini lebih banyak daripada yang lain, apakah karena jenis data yang dikumpulkan atau karena orang-orang di beberapa area aplikasi lebih mungkin telah diajarkan tentang masalah ini.]

  • Regresi palsu (kebanyakan dengan data yang dikumpulkan dari waktu ke waktu). [Bahkan ketika orang-orang menyadari hal itu terjadi, ada kesalahpahaman umum yang lain bahwa hanya membedakan dengan yang diam saja sudah cukup untuk sepenuhnya menghindari masalah.]

Ada banyak orang lain yang bisa disebutkan tentu saja (memperlakukan sebagai data independen yang hampir pasti akan berkorelasi seri atau bahkan mungkin tentang yang umum, misalnya).

Anda mungkin memperhatikan bahwa studi observasi dari data yang dikumpulkan dari waktu ke waktu dapat terkena semua ini sekaligus ... namun studi semacam itu sangat umum di banyak bidang penelitian di mana regresi adalah alat standar. Bagaimana mereka bisa mempublikasikan tanpa peninjau tunggal atau editor mengetahui tentang setidaknya satu dari mereka dan setidaknya memerlukan beberapa tingkat penafian dalam kesimpulan terus membuat saya khawatir.

Statistik penuh dengan masalah hasil yang tidak dapat direproduksi ketika berhadapan dengan eksperimen yang dikontrol dengan cukup hati-hati (bila dikombinasikan dengan analisis yang mungkin tidak dikontrol dengan hati-hati), sehingga begitu satu langkah di luar batas itu, seberapa besar situasi reproduktifitas yang harus dihadapi?

Glen_b
sumber
6
Terkait erat dengan beberapa poin Anda mungkin gagasan bahwa "hanya data yang mengalami kesalahan pengukuran" (atau setidaknya, "ini adalah satu-satunya kesalahan yang akan kami pertimbangkan"). Tidak yakin apakah hal itu pantas dilakukan di sini, tetapi tentu sangat umum untuk mengabaikan kemungkinan - dan konsekuensi - kesalahan acak dalam variabel . yx
Silverfish
2
@Silverfish Saya total setuju dengan Anda.
Mark L. Stone
@Silverfish itu CW sehingga Anda harus merasa bebas untuk mengedit dengan tambahan yang sesuai seperti itu.
Glen_b
@Silverfish ada alasan saya belum menambahkannya sendiri ketika Anda menyebutkannya ... Saya pikir itu mungkin bernilai jawaban baru
Glen_b
12

Saya mungkin tidak akan menyebut kesalahpahaman ini, tetapi mungkin titik-titik umum kebingungan / hang-up dan, dalam beberapa kasus, masalah yang mungkin tidak disadari oleh para peneliti.

  • Multikolinieritas (termasuk kasus lebih banyak variabel daripada titik data)
  • Heteroskedastisitas
  • Apakah nilai-nilai variabel independen tunduk pada kebisingan
  • Bagaimana penskalaan (atau tidak penskalaan) mempengaruhi interpretasi koefisien
  • Cara memperlakukan data dari berbagai subjek
  • Bagaimana cara menangani korelasi serial (misalnya deret waktu)

Di sisi kesalahpahaman:

  • Apa yang dimaksud dengan linearitas (misal adalah nonlinear wrt , tetapi linear wrt the weight).y=ax2+bx+cx
  • 'Regresi' itu berarti kuadrat terkecil biasa atau regresi linier
  • Bobot rendah / tinggi itu tentu menyiratkan hubungan yang lemah / kuat dengan variabel dependen
  • Ketergantungan itu antara variabel dependen dan independen tentu dapat dikurangi menjadi dependensi berpasangan.
  • Kebaikan yang tinggi pada set pelatihan menyiratkan model yang baik (yaitu mengabaikan overfitting)
pengguna20160
sumber
7

Dalam pengalaman saya, siswa sering mengadopsi pandangan bahwa kesalahan kuadrat (atau regresi OLS) adalah hal yang secara inheren sesuai, akurat, dan secara keseluruhan baik untuk digunakan, atau bahkan tanpa alternatif. Saya sering melihat OLS diiklankan bersama dengan pernyataan bahwa "memberikan bobot yang lebih besar untuk pengamatan yang lebih ekstrim / menyimpang", dan sebagian besar waktu setidaknya tersirat bahwa ini adalah properti yang diinginkan. Gagasan ini dapat dimodifikasi kemudian, ketika pengobatan outlier dan pendekatan yang kuat diperkenalkan, tetapi pada saat itu kerusakan dilakukan. Dapat diperdebatkan, penggunaan luas kesalahan kuadrat secara historis lebih berkaitan dengan kenyamanan matematika mereka daripada dengan beberapa hukum alam tentang biaya kesalahan dunia nyata.

Secara keseluruhan, penekanan yang lebih besar dapat ditempatkan pada pemahaman bahwa pilihan fungsi kesalahan agak arbitrer. Idealnya, setiap pilihan penalti dalam suatu algoritma harus dipandu oleh fungsi biaya dunia nyata terkait yang terkait dengan kesalahan potensial (yaitu, menggunakan kerangka kerja pengambilan keputusan). Mengapa tidak menetapkan prinsip ini terlebih dahulu, dan kemudian melihat seberapa baik yang dapat kita lakukan?

Benedict MJG
sumber
2
Pilihannya juga tergantung pada aplikasi. OLS berguna untuk aljabar, sumbu y cocok tetapi kurang begitu untuk aplikasi geometris, di mana kuadrat terkecil total (atau fungsi biaya lain berdasarkan jarak ortogonal) lebih masuk akal.
Willie Wheeler
4

Kesalahpahaman umum lainnya adalah bahwa istilah kesalahan (atau gangguan dalam bahasa ekonometrik) dan residu adalah hal yang sama.

Istilah kesalahan adalah variabel acak dalam model sebenarnya atau proses menghasilkan data , dan sering diasumsikan mengikuti distribusi tertentu, sedangkan residu adalah penyimpangan dari data yang diamati dari model yang dipasang. Dengan demikian, residual dapat dianggap sebagai estimasi kesalahan.

Robert Long
sumber
Saya yakin orang akan tertarik pada penjelasan mengapa ini penting, atau dalam kasus apa.
rolando2
4

Kesalahpahaman paling umum yang saya temui adalah bahwa regresi linier mengasumsikan normalitas kesalahan. Tidak. Normalitas berguna dalam kaitannya dengan beberapa aspek regresi linier misalnya sifat sampel kecil seperti batas kepercayaan koefisien. Bahkan untuk hal-hal ini ada nilai asimptotik yang tersedia untuk distribusi tidak normal.

Yang paling umum kedua adalah sekelompok kebingungan berkaitan dengan endogenitas, misalnya tidak berhati-hati dengan loop umpan balik. Jika ada loop umpan balik dari Y kembali ke X itu adalah masalah.

Aksakal
sumber
4

Kesalahan yang saya buat adalah mengasumsikan simetri X dan Y di OLS. Sebagai contoh, jika saya mengasumsikan hubungan linear dengan a dan b yang diberikan oleh perangkat lunak saya menggunakan OLS, maka saya percaya bahwa dengan menganggap X sebagai fungsi Y akan memberikan menggunakan OLS koefisien: itu salah.

Y=aX+b
X=1aYba

Mungkin ini juga terkait dengan perbedaan antara OLS dan total kuadrat terkecil atau komponen utama pertama.

Jf Parmentier
sumber
3

Yang sering saya lihat adalah kesalahpahaman tentang penerapan regresi linier dalam kasus penggunaan tertentu, dalam praktiknya.

Misalnya, katakanlah bahwa variabel yang kami minati adalah jumlah sesuatu (contoh: pengunjung di situs web) atau rasio sesuatu (contoh: tingkat konversi). Dalam kasus seperti itu, variabel dapat dimodelkan lebih baik dengan menggunakan fungsi tautan seperti Poisson (hitungan), Beta (rasio) dll. Jadi menggunakan model umum dengan fungsi tautan yang lebih tepat lebih cocok. Tetapi hanya karena variabelnya tidak kategorikal, saya telah melihat orang-orang mulai dengan regresi linier sederhana (fungsi tautan = identitas). Bahkan jika kita mengabaikan implikasi akurasi, asumsi pemodelan adalah masalah di sini.

hssay
sumber
2

Inilah yang menurut saya sering dilupakan oleh para peneliti:

  • Interaksi variabel: peneliti sering melihat beta terisolasi dari prediktor individual, dan seringkali bahkan tidak menentukan istilah interaksi. Tetapi di dunia nyata segala sesuatu berinteraksi. Tanpa spesifikasi yang tepat dari semua istilah interaksi yang mungkin, Anda tidak tahu bagaimana "prediksi" Anda terlibat bersama dalam membentuk suatu hasil. Dan jika Anda ingin rajin dan menentukan semua interaksi, jumlah prediktor akan meledak. Dari perhitungan saya, Anda hanya dapat menyelidiki 4 variabel dan interaksinya dengan 100 subjek. Jika Anda menambahkan satu variabel lagi, Anda bisa mengenakannya dengan sangat mudah.
pengguna4534898
sumber
0

Kesalahpahaman umum lainnya adalah bahwa estimasi (nilai pas) tidak invarian dengan transformasi, misalnya

f(y^i)f(yi)^
secara umum, di mana , nilai regresi dipasang berdasarkan pada estimasi koefisien regresi Anda.y^i=xiTβ^

Jika ini yang Anda inginkan untuk fungsi monoton belum tentu linier, maka yang Anda inginkan adalah regresi kuantil.f()

Kesetaraan di atas berlaku dalam regresi linier untuk fungsi-fungsi linier tetapi fungsi-fungsi non-linear (mis. ) ini tidak akan berlaku. Namun, ini akan berlaku untuk fungsi monotonik dalam regresi kuantil.log()

Ini muncul sepanjang waktu ketika Anda melakukan transformasi log dari data Anda, cocok dengan regresi linier, kemudian eksponensial nilai pas dan orang-orang membacanya sebagai regresi. Ini bukan berarti, ini adalah median (jika semuanya benar-benar terdistribusi secara normal).

Lucas Roberts
sumber