Kapan model linier yang tidak tepat menjadi sangat cantik?

9

Pertanyaan:

  • Apakah model linier yang tidak tepat digunakan dalam praktik atau apakah mereka semacam keingintahuan dijelaskan dari waktu ke waktu dalam jurnal ilmiah? Jika demikian, di bidang apa mereka digunakan?
  • Apakah ada contoh model lainnya?
  • Akhirnya, apakah kesalahan standar, -values, dll. Diambil dari OLS untuk model seperti itu benar, atau haruskah mereka diperbaiki entah bagaimana?R 2pR2

Latar Belakang: Model linier yang tidak tepat dijelaskan dari waktu ke waktu dalam literatur. Secara umum, model tersebut dapat digambarkan sebagai

y=a+biwixi+ε

apa yang membuat mereka berbeda dari regresi adalah bahwa s' yang tidak koefisien diperkirakan dalam model, tetapi bobot yangwj

  • sama untuk setiap variabel ( regresi unit-weighted ),wi=1
  • berdasarkan korelasi (Dana dan Dawes, 2004),wi=ρ(y,xi)
  • dipilih secara acak (Dawes, 1979),
  • 1 untuk variabel yang berhubungan negatif dengan , untuk variabel yang berhubungan positif dengan (Wainer, 1976).1 yy1y

Juga umum untuk menggunakan semacam penskalaan fitur, seperti mengubah variabel menjadi skor- . Jadi, model semacam ini dapat disederhanakan untuk regresi linier univariatZ

y=a+bv+ε

di mana , dan dapat diperkirakan dengan menggunakan regresi OLS.v=wix

Referensi:
Dawes, Robyn M. (1979). Keindahan yang kuat dari model linier yang tidak tepat dalam pengambilan keputusan . Psikolog Amerika, 34, 571-582.

Graefe, A. (2015). Meningkatkan prakiraan menggunakan prediktor yang sama bobotnya . Jurnal Penelitian Bisnis, 68 (8), 1792-1799.

Wainer, Howard (1976). Estimasi koefisien dalam model linier: Itu tidak membuat tidak pernah lupakan . Buletin Psikologis 83 (2), 213.

Dana, J. dan Dawes, RM (2004). Keunggulan Alternatif Sederhana untuk Regresi untuk Prediksi Ilmu Sosial . Jurnal Statistik Pendidikan dan Perilaku, 29 (3), 317-331.

Tim
sumber
3
Dalam hal apa statistik yang berasal dari model-model ini "tidak benar"?
whuber
1
Ketika s pra-ditentukan & diperkirakan, ini adalah reduksi data hanya dilakukan pada prediktor - cukup umum dalam berbagai bentuk (lihat misalnya Glasgow Coma Scale & the Charlson Co-morbiditas Index) - yang tidak akan mempengaruhi validitas inferensi dalam kerangka kerja OLS yang biasa. Ketika digunakan untuk menentukan , kesalahan standar & c. akan keluar, ke arah optimis saya akan berpikir. b y w iwibywi
Scortchi
1
Itu bukan komentar yang diinformasikan - koran masih ada di tumpukan "untuk membaca" saya. Saya hanya bertanya-tanya: - "mengapa 'tidak pantas'?". Bukan hal yang aneh bagi seorang prediktor untuk menjadi kombinasi linear dari variabel-variabel lain - rata-rata beberapa pengukuran, skor komponen utama, prediksi dari regresi lain, level dari deret waktu yang dihaluskan secara eksponensial, atau nilai yang dihitung dari suatu yang sudah mapan. atau indeks ad hoc. Tidak mengestimasi bobot dari respons, memberikan derajat kebebasan yang tinggi, membantu menghindari pemasangan berlebihan dengan ukuran sampel yang lebih kecil.
Scortchi
1
Dalam eg Beddhu (2000), "Skala komorbiditas sederhana memprediksi hasil klinis dan biaya pada pasien dialisis" Am. J. Med., 108 , 8 model persamaan memiliki bentuk yang sama seperti milik Anda di mana didefinisikan sebagai variabel indikator untuk diabetes, limfoma, & c., & ditentukan sebelumnya. Saya kira apa yang saya katakan adalah bahwa perbedaan antara model regresi "tidak tepat" & "tepat" tampaknya bertumpu pada gagasan seperangkat diberikan Tuhan , untuk masing-masing model "tepat" akan memperkirakan koefisien . w i x ixiwixi
Scortchi
4
Ketika , & jika diestimasikan dari data yang sama dengan model yang cocok, itu akan menjadi ketel ikan yang sangat berbeda. ρwi=ρ(y,xi)ρ
Scortchi

Jawaban:

1

Akibatnya, menurut saya ini adalah bermacam-macam struktur kovarian yang diasumsikan. Dengan kata lain, ini adalah jenis pemodelan Bayesian sebelumnya.

Ini memperoleh ketahanan dari prosedur MLR biasa karena jumlah parameter ( df) berkurang, dan memperkenalkan ketidakakuratan karena bias variabel yang dihilangkan , OVB. Karena OVB, lereng diratakan,, koefisien determinasi dikurangi .| ß | < | β | R 2 < R 2|β^|<|β|R^2<R2

Pengalaman pribadi saya adalah bahwa keunggulan pendekatan Bayesian adalah menggunakan pemodelan yang lebih baik; mengubah parameter, menggunakan norma lain, dan / atau menggunakan metode nonlinier. Yaitu, begitu fisika masalah dan metodenya dieksplorasi dan dikoordinasikan dengan benar, statistik F, koefisien determinasi, dll. Lebih baik meningkatkan daripada menurunkan.

Carl
sumber