Diberikan dua variabel acak dan η kita dapat menghitung "koefisien korelasi" c mereka , dan membentuk garis paling cocok antara dua variabel acak ini. Pertanyaan saya adalah mengapa?
1) Ada variabel acak, dan η yang bergantung pada kemungkinan terburuk, yaitu ξ = f ( η ) dan meskipun ini c = 0 . Jika seseorang hanya berpikir sepanjang regresi linier, maka ia akan sepenuhnya buta akan hal ini.
2) Mengapa linear khusus? Ada jenis hubungan lain yang bisa ada antara variabel acak. Kenapa melajang yang satu dari yang lainnya?
regression
Nicolas Bourbaki
sumber
sumber
Jawaban:
Saya setuju tidak semua hubungan itu sendiri secara linear, tetapi cukup banyak hubungan yang dapat diperkirakan secara linear. Kami telah melihat banyak kasus dalam matematika seperti seri Taylor atau seri Fourier dll. Poin kunci di sini adalah, geomatt22 mengatakan dalam komentar, Anda secara umum dapat mengubah data nonlinier dan menerapkan beberapa jenis transformasi dengan fungsi dasar dan membuat linierisasi. hubungan. Alasan universitas hanya membahas 'model regresi linier berganda' (termasuk model regresi sederhana) adalah karena mereka merupakan bahan pembangun bagi model tingkat yang lebih maju yang juga linier.
Secara matematis, selama Anda dapat membuktikan bahwa pendekatan linier tertentu padat di ruang Hilbert, maka Anda akan dapat menggunakan pendekatan tersebut untuk mewakili fungsi dalam ruang.
sumber
Model yang Anda maksudkan, regresi linier sederhana, alias "garis paling cocok" (saya bingung model dan metode estimasi di sini), diakui sangat sederhana (seperti namanya). Kenapa mempelajarinya? Saya bisa melihat banyak alasan. Berikut ini saya berasumsi bahwa konsep variabel acak telah setidaknya diperkenalkan secara informal, karena Anda menyebutkannya dalam pertanyaan Anda.
sumber
Alasan selanjutnya adalah cara regresi yang indah memberikan perlakuan terpadu teknik seperti ANOVA. Bagi saya, perawatan 'dasar' ANOVA yang biasa tampaknya cukup tidak jelas, namun perawatan berbasis regresi sangat jelas. Saya menduga ini ada hubungannya dengan cara model regresi membuat secara eksplisit beberapa asumsi bahwa dalam perawatan 'dasar' diam-diam dan tidak diteliti. Selain itu, kejelasan konseptual yang ditawarkan oleh perspektif pemersatu tersebut disertai dengan manfaat praktis yang sama ketika tiba saatnya untuk menerapkan metode dalam perangkat lunak statistik.
Prinsip ini tidak hanya berlaku untuk ANOVA, tetapi juga untuk ekstensi seperti splines kubik terbatas - yang secara khusus menjawab pertanyaan kedua Anda.
sumber
Popularitas Regresi Linier sebagian disebabkan oleh interpretabilitasnya - yaitu, orang-orang non-teknis dapat memahami koefisien parameter hanya dengan sedikit penjelasan. Ini menambah banyak nilai dalam situasi bisnis, di mana pengguna akhir dari output atau prediksi mungkin tidak memiliki pemahaman yang mendalam tentang matematika / statistik.
Ya, ada asumsi dan batasan dengan teknik ini (seperti dengan semua pendekatan), dan mungkin tidak memberikan yang paling cocok dalam banyak kasus. Tetapi Regresi Linier sangat kuat, dan sering dapat berkinerja cukup baik bahkan ketika asumsi dilanggar.
Untuk alasan ini, sangat layak untuk dipelajari.
sumber
Sesuatu mungkin tidak terkait secara langsung.
Jika Anda memiliki dua serix dan y bahwa c o v ( x , y) = 0 , dan jika Anda curiga ada hubungan di antara keduanya x dan y . Anda bisa membuat plot antaray dan x untuk memeriksa hubungan mereka.
sumber