Mengapa mempelajari Regresi Linier?

13

Diberikan dua variabel acak dan η kita dapat menghitung "koefisien korelasi" c mereka , dan membentuk garis paling cocok antara dua variabel acak ini. Pertanyaan saya adalah mengapa?ξηc

1) Ada variabel acak, dan η yang bergantung pada kemungkinan terburuk, yaitu ξ = f ( η ) dan meskipun ini c = 0 . Jika seseorang hanya berpikir sepanjang regresi linier, maka ia akan sepenuhnya buta akan hal ini.ξηξ=f(η)c=0

2) Mengapa linear khusus? Ada jenis hubungan lain yang bisa ada antara variabel acak. Kenapa melajang yang satu dari yang lainnya?

Nicolas Bourbaki
sumber
18
Ini seperti bertanya mengapa Anda memiliki obeng ketika terkadang Anda menemukan paku.
Sycorax berkata Reinstate Monica
6
Anda juga tampaknya mengasumsikan premis bahwa ada orang-orang di luar sana yang hanya peduli tentang regresi linier: "Jika seseorang hanya berpikir sepanjang regresi linier", "Mengapa lajang itu satu dari yang lain ". Bagi saya ini terasa seperti kesalahan besar, tentu saja tidak masuk akal jika hanya menggunakan satu alat atau perspektif saja.
Matthew Drury
7
Linear "khusus" sebenarnya lebih tentang kombinasi linear dari fungsi basis , yang sebenarnya cukup umum.
GeoMatt22
2
@MatthewDrury Tidak ada kata sandi, dan saya tidak berasumsi apa-apa, saya hanya mengajukan pertanyaan dengan menggunakan pemikiran patologis-ekstrem untuk menggambarkan titik lemah dalam metode ini. Mengapa Anda berasumsi bahwa saya menganggap itu? Regresi adalah topik yang sangat besar bagi ahli statistik. Saya tidak mengerti apa yang istimewa tentang itu sehingga banyak dipelajari.
Nicolas Bourbaki
8
Bagi mereka yang turun keras pada pertanyaan ini: Saya pikir Anda sudah lupa ketika Anda pertama kali belajar tentang regresi linier dan diberi tahu "salah satu asumsi adalah bahwa efek linear". Anda berpikir sendiri "tetapi efeknya tidak pernah linear!". Sangat mungkin, setelah banyak merenung, Anda meyakinkan diri sendiri bahwa meskipun demikian, regresi linier masih merupakan alat mendasar untuk dipahami dan digunakan. Sekarang, atur ulang diri Anda untuk kembali sebelum menyelesaikan perenungan itu. Saya pikir itu adalah pertanyaan yang bagus bahwa setiap siswa statistik harus menghabiskan banyak waktu untuk mempertimbangkan.
Cliff AB

Jawaban:

9

Saya setuju tidak semua hubungan itu sendiri secara linear, tetapi cukup banyak hubungan yang dapat diperkirakan secara linear. Kami telah melihat banyak kasus dalam matematika seperti seri Taylor atau seri Fourier dll. Poin kunci di sini adalah, geomatt22 mengatakan dalam komentar, Anda secara umum dapat mengubah data nonlinier dan menerapkan beberapa jenis transformasi dengan fungsi dasar dan membuat linierisasi. hubungan. Alasan universitas hanya membahas 'model regresi linier berganda' (termasuk model regresi sederhana) adalah karena mereka merupakan bahan pembangun bagi model tingkat yang lebih maju yang juga linier.

Secara matematis, selama Anda dapat membuktikan bahwa pendekatan linier tertentu padat di ruang Hilbert, maka Anda akan dapat menggunakan pendekatan tersebut untuk mewakili fungsi dalam ruang.

Daeyoung Lim
sumber
2
Persis. Tidak ada orang lain yang menyebutkannya, tetapi seperti jawaban ini mengatakan, secara umum, Anda selalu dapat menerapkan transformasi pada variabel Anda untuk membuat linierisasi hubungan. Lebih lanjut: a) mudah untuk menemukan maxima global untuk regresi linier dan b) banyak model lain, termasuk jaringan saraf, lebih mudah dipahami jika Anda mengetahui regresi logistik yang didasarkan pada regresi linier.
Ricardo Cruz
7

Model yang Anda maksudkan, regresi linier sederhana, alias "garis paling cocok" (saya bingung model dan metode estimasi di sini), diakui sangat sederhana (seperti namanya). Kenapa mempelajarinya? Saya bisa melihat banyak alasan. Berikut ini saya berasumsi bahwa konsep variabel acak telah setidaknya diperkenalkan secara informal, karena Anda menyebutkannya dalam pertanyaan Anda.

  1. pedagogis: tentu saja, bagi Anda jelas bahwa variabel acak bernilai nyata dengan momen urutan kedua hingga membentuk ruang Hilbert. Mungkin sudah jelas ketika Anda pertama kali mempelajari teori probabilitas. Tetapi statistik tidak hanya diajarkan kepada siswa matematika: ada masyarakat yang lebih luas, dari fisika ke ekonomi, ke ilmu komputer, ke ilmu sosial, dll. Para siswa ini mungkin menemukan statistik di awal masa studi mereka. Mereka mungkin atau mungkin tidak dikeluarkan ke aljabar linier, dan bahkan dalam kasus pertama, mereka mungkin tidak melihatnya dari sudut pandang yang lebih abstrak dari kursus matematika. Untuk siswa ini, konsep mendekati variabel acak dengan variabel acak lainnya tidak begitu langsung. Bahkan sifat dasar dari model linear sederhana, yaitu fakta bahwa kesalahan dan prediktor adalah variabel acak ortogonal, terkadang mengejutkan bagi mereka. Fakta bahwa Anda dapat mendefinisikan "sudut" antara variabel acak (objek "jahat"! Fungsi terukur dari ruang probabilitas ke ruang terukur) mungkin jelas bagi Anda, tetapi tidak harus bagi mahasiswa baru. Jadi, jika studi ruang vektor dimulai dengan bidang Euclidean yang bagus, tidakkah masuk akal untuk memulai studi model statistik dengan yang paling sederhana?
  2. ξ=β0+i=1Nβiηi+ϵξ=i=0Nβiϕ(ηi)+ϵ
  3. praktis : ada banyak aplikasi sukses regresi linier sederhana. Hukum Okun di bidang ekonomi, hukum Hooke , hukum Ohm dan hukum Charles dalam fisika, hubungan antara tekanan darah sistolik dan usia dalam pengobatan (saya tidak tahu jika memiliki nama!) Merupakan contoh dari regresi linier sederhana, dengan berbagai tingkat ketepatan.
DeltaIV
sumber
4

Alasan selanjutnya adalah cara regresi yang indah memberikan perlakuan terpadu teknik seperti ANOVA. Bagi saya, perawatan 'dasar' ANOVA yang biasa tampaknya cukup tidak jelas, namun perawatan berbasis regresi sangat jelas. Saya menduga ini ada hubungannya dengan cara model regresi membuat secara eksplisit beberapa asumsi bahwa dalam perawatan 'dasar' diam-diam dan tidak diteliti. Selain itu, kejelasan konseptual yang ditawarkan oleh perspektif pemersatu tersebut disertai dengan manfaat praktis yang sama ketika tiba saatnya untuk menerapkan metode dalam perangkat lunak statistik.

Prinsip ini tidak hanya berlaku untuk ANOVA, tetapi juga untuk ekstensi seperti splines kubik terbatas - yang secara khusus menjawab pertanyaan kedua Anda.

David C. Norris
sumber
3

Popularitas Regresi Linier sebagian disebabkan oleh interpretabilitasnya - yaitu, orang-orang non-teknis dapat memahami koefisien parameter hanya dengan sedikit penjelasan. Ini menambah banyak nilai dalam situasi bisnis, di mana pengguna akhir dari output atau prediksi mungkin tidak memiliki pemahaman yang mendalam tentang matematika / statistik.

Ya, ada asumsi dan batasan dengan teknik ini (seperti dengan semua pendekatan), dan mungkin tidak memberikan yang paling cocok dalam banyak kasus. Tetapi Regresi Linier sangat kuat, dan sering dapat berkinerja cukup baik bahkan ketika asumsi dilanggar.

Untuk alasan ini, sangat layak untuk dipelajari.

B. Frost
sumber
-2

Sesuatu mungkin tidak terkait secara langsung.

Jika Anda memiliki dua seri x dan y bahwa cHaiv(x,y)=0, dan jika Anda curiga ada hubungan di antara keduanya x dan y. Anda bisa membuat plot antaray dan x untuk memeriksa hubungan mereka.

Zhu Jinxuan
sumber