Saya ingin tahu, bagi Anda yang memiliki pengalaman luas berkolaborasi dengan peneliti lain, apa beberapa kesalahpahaman paling umum tentang regresi linier yang Anda temui?
Saya pikir bisa menjadi latihan yang berguna untuk memikirkan kesalahpahaman umum sebelumnya
Mengantisipasi kesalahan orang dan mampu mengartikulasikan mengapa beberapa kesalahpahaman salah
Sadarilah jika saya sendiri menyimpan beberapa kesalahpahaman!
Beberapa hal dasar yang dapat saya pikirkan:
Variabel independen / tergantung harus didistribusikan secara normal
Variabel harus distandarisasi untuk interpretasi yang akurat
Ada yang lain
Semua tanggapan diterima.
Jawaban:
Premis salah: A berarti bahwa tidak ada hubungan yang kuat antara DV dan IV.β^≈0
Hubungan fungsional non-linear berlimpah, namun data yang dihasilkan oleh banyak hubungan seperti itu sering menghasilkan hampir nol lereng jika orang menganggap hubungan itu harus linier, atau bahkan sekitar linier.
Terkait, dalam premis lain yang salah, para peneliti sering berasumsi — mungkin karena banyak buku ajar regresi pengantar mengajarkan — bahwa satu "tes untuk non-linearitas" dengan membangun serangkaian regresi DV ke ekspansi polinomial IV (mis. , diikuti oleh , diikuti olehY∼β0+βXX+ε Y∼β0+βXX+βX2X2+ε Y∼β0+βXX+βX2X2+βX3X3+ε , dll.). Sama seperti garis lurus tidak dapat dengan baik mewakili hubungan fungsional non-linear antara DV dan IV, parabola juga tidak dapat mewakili secara harfiah jumlah tak terbatas dari hubungan nonlinear (misalnya sinusoids, cycloids, fungsi langkah, efek saturasi, kurva-s, dll. Ad infinitum ). Sebagai gantinya, seseorang dapat mengambil pendekatan regresi yang tidak mengasumsikan bentuk fungsional tertentu (mis. Running line smoothers, GAMs, dll.).
Sebuah premis palsu ketiga adalah bahwa peningkatan jumlah perkiraan parameter tentu menghasilkan hilangnya kekuatan statistik. Ini mungkin salah ketika hubungan sebenarnya adalah non-linier dan membutuhkan beberapa parameter untuk memperkirakan (misalnya fungsi "tongkat patah" tidak hanya memerlukan persyaratan intersep dan kemiringan garis lurus, tetapi membutuhkan titik di mana kemiringan berubah dan berapa banyak perubahan lereng oleh Estimasi juga): residu dari model yang tidak ditentukan spesifik (misalnya garis lurus) dapat tumbuh cukup besar (relatif terhadap hubungan fungsional yang ditentukan dengan tepat) yang menghasilkan probabilitas penolakan yang lebih rendah dan interval kepercayaan yang lebih luas dan interval prediksi (selain estimasi yang bias) .
sumber
Sangat umum untuk mengasumsikan bahwa hanya data yang mengalami kesalahan pengukuran (atau setidaknya, bahwa ini adalah satu-satunya kesalahan yang akan kita pertimbangkan). Tapi ini mengabaikan kemungkinan - dan konsekuensi - kesalahan dalam pengukuran . Ini mungkin sangat akut dalam studi observasional di mana variabel tidak berada di bawah kontrol eksperimental.y x x
Pengenceran regresi atau redaman regresi adalah fenomena yang diakui oleh Spearman (1904) di mana kemiringan regresi yang diperkirakan dalam regresi linier sederhana bias menjadi nol dengan adanya kesalahan pengukuran pada variabel independen. Misalkan kemiringan sebenarnya positif - efek jittering titik 'koordinat (mungkin paling mudah divisualisasikan sebagai "noda" titik secara horizontal) adalah membuat garis regresi kurang curam. Secara intuitif, titik denganbesarsekarang lebih cenderung demikian karena kesalahan pengukuran positif, sedangkan nilailebih cenderung mencerminkan nilaisebenarnya (bebas kesalahan), dan karenanya lebih rendah dari garis sebenarnya akan menjadi untuk yang diamatix x y x x .
Dalam model yang lebih kompleks, kesalahan pengukuran dalam variabel dapat menghasilkan efek yang lebih rumit pada estimasi parameter. Ada kesalahan dalam model variabel yang memperhitungkan kesalahan tersebut. Spearman menyarankan faktor koreksi untuk menghilangkan koefisien korelasi bivariat dan faktor koreksi lainnya telah dikembangkan untuk situasi yang lebih canggih. Namun, koreksi semacam itu bisa sulit - terutama dalam kasus multivariat dan di hadapan pembaur - dan mungkin kontroversial apakah koreksi tersebut merupakan peningkatan yang murni, lihat misalnya Smith dan Phillips (1996).x
Jadi saya kira ini adalah dua kesalahpahaman untuk harga satu - di satu sisi itu adalah kesalahan untuk berpikir bahwa cara kita menulis berarti "semua kesalahan ada di " dan mengabaikan sangat kemungkinan nyata secara fisik kesalahan pengukuran dalam variabel independen. Di sisi lain, mungkin tidak disarankan untuk secara membabi buta menerapkan "koreksi" untuk kesalahan pengukuran dalam semua situasi seperti respon spontan (meskipun mungkin merupakan ide yang baik untuk mengambil langkah-langkah untuk mengurangi kesalahan pengukuran di tempat pertama) .y=Xβ+ε y
(Saya mungkin juga harus menghubungkan ke beberapa model kesalahan-dalam-variabel umum lainnya, dalam urutan yang semakin umum: regresi ortogonal , regresi Deming , dan total kuadrat terkecil .)
Referensi
Smith, GD, & Phillips, AN (1996). " Inflasi dalam epidemiologi: 'bukti dan pengukuran hubungan antara dua hal' ditinjau kembali ". British Medical Journal , 312 (7047), 1659–1661.
Spearman, C. (1904). "Bukti dan pengukuran hubungan antara dua hal." American Journal of Psychology 15 : 72–101.
sumber
Ada beberapa kesalahpahaman standar yang berlaku dalam konteks ini serta konteks statistik lainnya: misalnya, makna nilai- , salah menyimpulkan kausalitas, dll.p
Beberapa kesalahpahaman yang menurut saya khusus untuk regresi berganda adalah:
sumber
Saya akan mengatakan yang pertama yang Anda daftarkan mungkin yang paling umum - dan mungkin yang paling banyak diajarkan dengan cara itu - dari hal-hal yang jelas-jelas salah, tetapi di sini ada beberapa yang kurang jelas dalam beberapa situasi ( apakah mereka benar-benar berlaku) tetapi mungkin berdampak lebih banyak analisis, dan mungkin lebih serius. Ini sering tidak pernah disebutkan ketika subjek regresi diperkenalkan.
Memperlakukan sebagai sampel acak dari populasi set pengamatan yang tidak mungkin dekat dengan yang representatif (apalagi sampel acak). [Beberapa penelitian malah bisa dilihat sebagai sesuatu yang lebih dekat dengan sampel kenyamanan]
Dengan data pengamatan, mengabaikan konsekuensinya dengan mengabaikan pendorong penting dari proses yang tentu saja akan membiaskan estimasi koefisien dari variabel yang dimasukkan (dalam banyak kasus, bahkan untuk kemungkinan mengubah tanda mereka), tanpa upaya untuk mempertimbangkan cara berurusan. dengan mereka (apakah karena ketidaktahuan masalah atau hanya tidak menyadari bahwa apa pun dapat dilakukan). [Beberapa area penelitian memiliki masalah ini lebih banyak daripada yang lain, apakah karena jenis data yang dikumpulkan atau karena orang-orang di beberapa area aplikasi lebih mungkin telah diajarkan tentang masalah ini.]
Regresi palsu (kebanyakan dengan data yang dikumpulkan dari waktu ke waktu). [Bahkan ketika orang-orang menyadari hal itu terjadi, ada kesalahpahaman umum yang lain bahwa hanya membedakan dengan yang diam saja sudah cukup untuk sepenuhnya menghindari masalah.]
Ada banyak orang lain yang bisa disebutkan tentu saja (memperlakukan sebagai data independen yang hampir pasti akan berkorelasi seri atau bahkan mungkin tentang yang umum, misalnya).
Anda mungkin memperhatikan bahwa studi observasi dari data yang dikumpulkan dari waktu ke waktu dapat terkena semua ini sekaligus ... namun studi semacam itu sangat umum di banyak bidang penelitian di mana regresi adalah alat standar. Bagaimana mereka bisa mempublikasikan tanpa peninjau tunggal atau editor mengetahui tentang setidaknya satu dari mereka dan setidaknya memerlukan beberapa tingkat penafian dalam kesimpulan terus membuat saya khawatir.
Statistik penuh dengan masalah hasil yang tidak dapat direproduksi ketika berhadapan dengan eksperimen yang dikontrol dengan cukup hati-hati (bila dikombinasikan dengan analisis yang mungkin tidak dikontrol dengan hati-hati), sehingga begitu satu langkah di luar batas itu, seberapa besar situasi reproduktifitas yang harus dihadapi?
sumber
Saya mungkin tidak akan menyebut kesalahpahaman ini, tetapi mungkin titik-titik umum kebingungan / hang-up dan, dalam beberapa kasus, masalah yang mungkin tidak disadari oleh para peneliti.
Di sisi kesalahpahaman:
sumber
Dalam pengalaman saya, siswa sering mengadopsi pandangan bahwa kesalahan kuadrat (atau regresi OLS) adalah hal yang secara inheren sesuai, akurat, dan secara keseluruhan baik untuk digunakan, atau bahkan tanpa alternatif. Saya sering melihat OLS diiklankan bersama dengan pernyataan bahwa "memberikan bobot yang lebih besar untuk pengamatan yang lebih ekstrim / menyimpang", dan sebagian besar waktu setidaknya tersirat bahwa ini adalah properti yang diinginkan. Gagasan ini dapat dimodifikasi kemudian, ketika pengobatan outlier dan pendekatan yang kuat diperkenalkan, tetapi pada saat itu kerusakan dilakukan. Dapat diperdebatkan, penggunaan luas kesalahan kuadrat secara historis lebih berkaitan dengan kenyamanan matematika mereka daripada dengan beberapa hukum alam tentang biaya kesalahan dunia nyata.
Secara keseluruhan, penekanan yang lebih besar dapat ditempatkan pada pemahaman bahwa pilihan fungsi kesalahan agak arbitrer. Idealnya, setiap pilihan penalti dalam suatu algoritma harus dipandu oleh fungsi biaya dunia nyata terkait yang terkait dengan kesalahan potensial (yaitu, menggunakan kerangka kerja pengambilan keputusan). Mengapa tidak menetapkan prinsip ini terlebih dahulu, dan kemudian melihat seberapa baik yang dapat kita lakukan?
sumber
Kesalahpahaman umum lainnya adalah bahwa istilah kesalahan (atau gangguan dalam bahasa ekonometrik) dan residu adalah hal yang sama.
Istilah kesalahan adalah variabel acak dalam model sebenarnya atau proses menghasilkan data , dan sering diasumsikan mengikuti distribusi tertentu, sedangkan residu adalah penyimpangan dari data yang diamati dari model yang dipasang. Dengan demikian, residual dapat dianggap sebagai estimasi kesalahan.
sumber
Kesalahpahaman paling umum yang saya temui adalah bahwa regresi linier mengasumsikan normalitas kesalahan. Tidak. Normalitas berguna dalam kaitannya dengan beberapa aspek regresi linier misalnya sifat sampel kecil seperti batas kepercayaan koefisien. Bahkan untuk hal-hal ini ada nilai asimptotik yang tersedia untuk distribusi tidak normal.
Yang paling umum kedua adalah sekelompok kebingungan berkaitan dengan endogenitas, misalnya tidak berhati-hati dengan loop umpan balik. Jika ada loop umpan balik dari Y kembali ke X itu adalah masalah.
sumber
Kesalahan yang saya buat adalah mengasumsikan simetri X dan Y di OLS. Sebagai contoh, jika saya mengasumsikan hubungan linear dengan a dan b yang diberikan oleh perangkat lunak saya menggunakan OLS, maka saya percaya bahwa dengan menganggap X sebagai fungsi Y akan memberikan menggunakan OLS koefisien: itu salah.
Mungkin ini juga terkait dengan perbedaan antara OLS dan total kuadrat terkecil atau komponen utama pertama.
sumber
Yang sering saya lihat adalah kesalahpahaman tentang penerapan regresi linier dalam kasus penggunaan tertentu, dalam praktiknya.
Misalnya, katakanlah bahwa variabel yang kami minati adalah jumlah sesuatu (contoh: pengunjung di situs web) atau rasio sesuatu (contoh: tingkat konversi). Dalam kasus seperti itu, variabel dapat dimodelkan lebih baik dengan menggunakan fungsi tautan seperti Poisson (hitungan), Beta (rasio) dll. Jadi menggunakan model umum dengan fungsi tautan yang lebih tepat lebih cocok. Tetapi hanya karena variabelnya tidak kategorikal, saya telah melihat orang-orang mulai dengan regresi linier sederhana (fungsi tautan = identitas). Bahkan jika kita mengabaikan implikasi akurasi, asumsi pemodelan adalah masalah di sini.
sumber
Inilah yang menurut saya sering dilupakan oleh para peneliti:
sumber
Kesalahpahaman umum lainnya adalah bahwa estimasi (nilai pas) tidak invarian dengan transformasi, misalnya
Jika ini yang Anda inginkan untuk fungsi monoton belum tentu linier, maka yang Anda inginkan adalah regresi kuantil.f(⋅)
Kesetaraan di atas berlaku dalam regresi linier untuk fungsi-fungsi linier tetapi fungsi-fungsi non-linear (mis. ) ini tidak akan berlaku. Namun, ini akan berlaku untuk fungsi monotonik dalam regresi kuantil.log(⋅)
Ini muncul sepanjang waktu ketika Anda melakukan transformasi log dari data Anda, cocok dengan regresi linier, kemudian eksponensial nilai pas dan orang-orang membacanya sebagai regresi. Ini bukan berarti, ini adalah median (jika semuanya benar-benar terdistribusi secara normal).
sumber