Apa artinya linear dalam regresi linier?

11

Dalam R, jika saya menulis

lm(a ~ b + c + b*c) 

apakah ini masih merupakan regresi linier?

Bagaimana melakukan regresi jenis lain dalam R? Saya sangat menghargai rekomendasi untuk buku teks atau tutorial?

suprvisr
sumber
Saya mencoba menulis ulang sedikit pertanyaan Anda. Saya khawatir sepertinya Anda mengajukan dua pertanyaan yang sangat berbeda. Untuk yang kedua, banyak sumber daya tersedia di situs ini, tetapi juga pada CRAN .
chl
@ chl, ya, terima kasih, saya tidak jelas. Pertanyaan saya benar-benar ini: Jika saya menulis LM dalam R apakah R memahaminya sebagai linier selalu atau mencoba agar sesuai dengan model apa pun, tidak harus regresi linier tetapi regresi apa pun?
suprvisr
Tidak, lm()singkatan dari regresi linier. Model Anda mencakup tiga parameter (minus intersep) untuk b,, cdan interaksinya b:c, yang merupakan singkatan b + c + b:catau b*csingkatnya (R mengikuti notasi Wilkinson untuk model statistik). Menyesuaikan Model Linear Umum (yaitu, di mana fungsi tautan bukan identitas, seperti halnya untuk model linier yang dinyatakan di atas) diminta melalui glm().
chl

Jawaban:

24

Linear mengacu pada hubungan antara parameter yang Anda (misalnya, ) dan hasilnya (misalnya, ). Karenanya, linier, tetapi tidak. Model linier berarti bahwa estimasi Anda terhadap vektor parameter Anda dapat ditulis , di mana adalah bobot yang ditentukan oleh prosedur estimasi Anda. Model linear dapat diselesaikan secara aljabar dalam bentuk tertutup, sementara banyak model non-linear perlu diselesaikan dengan maksimalisasi numerik menggunakan komputer.y i y = e x β + ε y = e β x + ε β = Σ i w i y i { w i }βyiy=exβ+ϵy=eβx+ϵβ^=iwiyi{wi}

Charlie
sumber
6
+1 Secara khusus, dalam "model linier" variabel dependen adalah fungsi linier dari parameter tetapi tidak harus dari data. y
whuber
1 adalah linear? sungguh - satu dengan kekuatan x?
suprvisr
2
Ya, karena bukan kuantitas minat (yang Anda optimalkan) tetapi . Dengan demikian, linear dalam . β βxββ
bayerj
+1, tetapi jawaban ini dapat ditingkatkan dengan mengomentari rumus dalam pertanyaan.
naught101
1
Saya perhatikan, setelah membaca kedua, bahwa bagian kedua dari jawaban ini membingungkan "model linier" dengan "penaksir linier." Kedua konsep itu terpisah dan berbeda. Model nonlinier sering memiliki penduga linier dan model linier dapat memiliki penduga nonlinier (pertimbangkan GLMs, misalnya).
whuber
5

Posting ini di minitab.com memberikan penjelasan yang sangat jelas:

  • Sebuah model linear ketika dapat ditulis dalam format ini:
    • Response = constant + parameter * predictor + ... + parameter * predictor
      • Yaitu, ketika setiap istilah (dalam model) adalah konstanta atau produk dari parameter dan variabel prediktor.
    • Jadi keduanya adalah model linier:
      • Y=B0+B1X1 (Ini adalah garis lurus)
      • Y=B0+B1X12 (Ini adalah kurva)
  • Jika model tidak dapat diekspresikan menggunakan format di atas, itu adalah non-linear.
    • Contoh model non-linear:
      • X B 1 1Y=B0+X1B1
      • Y=B0cos(B1X1)
Patrick Ng
sumber
4

Saya akan berhati-hati dalam menanyakan ini sebagai pertanyaan "R linear regression" versus pertanyaan "linear regression". Rumus dalam R memiliki aturan yang mungkin Anda sadari atau tidak. Sebagai contoh:

http://wiener.math.csi.cuny.edu/st/stRmanual/ModelFormula.html

Dengan asumsi Anda bertanya apakah persamaan berikut ini linier:

a = coeff0 + (coeff1 * b) + (coeff2 * c) + (coeff3 * (b*c))

Jawabannya adalah ya, jika Anda mengumpulkan variabel independen baru seperti:

newv = b * c

Mengganti persamaan newv di atas ke dalam persamaan asli mungkin terlihat seperti apa yang Anda harapkan dari persamaan linear:

a = coeff0 + (coeff1 * b) + (coeff2 * c) + (coeff3 * newv)

Sejauh referensi, Google "regresi", atau apa pun yang Anda pikir mungkin bekerja untuk Anda.

bill_080
sumber
Bagaimana mengubah nama sesuatu menjadi linier? Saya tidak mengerti, jika identitas newv = b * c berlaku, itu tidak linear sama sekali. Saya bingung.
bayerj
@bayer: newv adalah variabel baru. Persamaan baru adalah fungsi linier dari tiga variabel (b, c, newv), di mana koefisien memberikan hubungan linier. Tidak ada persamaan yang merupakan kombinasi linear dari hanya dua variabel.
bill_080
@bayer Lihat balasannya oleh @Charlie. Dalam contoh ini, kedua model linier (apakah R memandangnya demikian atau tidak) karena keduanya amerupakan fungsi linier dari empat koefisien.
whuber
terima kasih, masuk akal ... bisakah saya cukup menambahkan variabel baru menjadi b * c untuk setiap kasus dalam database (medis) dan kemudian memperlakukannya sebagai regresi linier?
suprvisr
2

Anda dapat menuliskan regresi linier sebagai persamaan matriks (linear).

[a1a2a3a4a5...an]=[b1c1b1c1b2c2b2c2b3c3b3c3b4c4b4c4b5c5b5c5...bncnbncn]×[αbαcαbc]+[ϵ1ϵ2ϵ3ϵ4ϵ5...ϵn]

atau jika Anda menciutkan ini:

a=αbb+αcc+αbcbc+ϵ

Regresi linier ini setara dengan menemukan kombinasi linier vektor , dan yang paling dekat dengan vektor .bcbca

(Ini juga memiliki interpretasi geometris sebagai menemukan proyeksi pada rentang vektor , dan . Untuk masalah dengan dua vektor kolom dengan tiga pengukuran ini masih dapat digambar sebagai angka misalnya seperti yang ditunjukkan di sini: http://www.math.brown.edu/~banchoff/gc/linalg/linalg.html )abcbc


Memahami konsep ini juga penting dalam regresi non-linear. Misalnya, lebih mudah untuk menyelesaikan daripada karena parameterisasi pertama memungkinkan untuk memecahkan dan koefisien dengan teknik untuk regresi linear. y = u ( e c ( t - v ) + e d ( t - v ) ) a by=aect+bedty=u(ec(tv)+ed(tv))ab

Sextus Empiricus
sumber
Saya merasa ini adalah jawaban terbaik, karena menjawab pertanyaan Mengapa bukan hanya Apa. Menjawab dengan "Apa" tidak mengarah pada intuisi yang lebih baik.
Hexatonic