Saya benar-benar buta dan berasal dari latar belakang pemrograman.
Apa yang saya coba lakukan adalah mempelajari pembelajaran mesin, dan untuk melakukan ini, pertama-tama saya perlu belajar tentang regresi linier. Semua penjelasan di internet saya temukan tentang subjek ini, plot data terlebih dahulu. Saya mencari penjelasan praktis tentang regresi linier yang tidak bergantung pada grafik dan plot.
Inilah pemahaman saya tentang tujuan regresi linier sederhana:
Regresi linier sederhana sedang mencoba untuk menemukan formula yang pernah Anda berikan X
kepadanya, akan memberi Anda estimasi terdekatY
.
Jadi, seperti yang saya pahami, apa yang perlu dilakukan adalah membandingkan prediktornya (misalnya luas rumah dengan kaki persegi) dengan variabel independen (harga). Dalam contoh saya, Anda mungkin dapat membuat cara non-visual untuk mendapatkan formula terbaik untuk menghitung harga rumah dari wilayahnya. Misalnya, mungkin Anda akan mendapatkan luas dan harga 1000 rumah di suatu lingkungan, dan membagi harga ke daerah tersebut? Hasilnya (setidaknya di Iran tempat saya tinggal) akan memiliki varian yang sangat diabaikan. Jadi Anda mungkin akan mendapatkan sesuatu seperti ini:
Price = 2333 Rials * Area of the house
Tentu saja, Anda kemudian harus melalui semua 1000 rumah di set data Anda, letakkan area dalam rumus di atas, bandingkan perkiraan dengan harga riil, hasil persegi (saya kira untuk mencegah varians dari membatalkan satu sama lain) dan kemudian mendapatkan nomor, lalu terus bermain-main dengan 2333
untuk mengurangi kesalahan.
Tentu saja, ini adalah opsi brute force di mana mungkin perlu waktu lama untuk menghitung kesalahan dan sampai pada pilihan terbaik, tetapi Anda mengerti apa yang saya katakan? Saya tidak mengatakan apa-apa tentang grafik, atau garis, atau poin pada plot, atau cara terbaik untuk menyesuaikan garis dengan data yang ada.
Jadi, mengapa Anda membutuhkan sebaran plot dan aljabar linier untuk ini? Apakah tidak ada cara non-visual?
Pertama, apakah saya benar dalam asumsi saya? Jika tidak, saya ingin dikoreksi. Apakah saya atau tidak, apakah ada cara untuk menghasilkan formula tanpa bermain-main dengan aljabar linier?
Saya akan sangat menghargainya jika saya bisa mendapatkan contoh dengan penjelasannya, sehingga saya bisa melakukannya bersama dengan teks untuk menguji pemahaman saya.
sumber
Jawaban:
Ya Anda ke dalamnya. Anda harus terus bermain-main dengan 2333 sampai Anda menemukan yang tepat yang meminimalkan kesalahan. Tetapi ada cara matematika untuk menemukan yang "benar". Sebut saja nomor itu . E , jumlah kesalahan kuadrat (SSE) adalah fungsi dari β karena untuk setiap pilihan ββ E β β dapat menghitung jumlah setiap estimasi mati, kuadratkan, dan jumlah mereka bersama-sama.
apa yang meminimalkan jumlah total kesalahan kuadrat? Ini hanya masalah kalkulus. Ambil turunan dari E oleh β dan set sama dengan nol. Ini memberikan persamaan untuk β . Periksa turunan kedua positif untuk mengetahui bahwa itu adalah minimium. Dengan demikian Anda mendapatkan persamaan untuk β yang meminimalkan kesalahan.β E β β β
Jika Anda menurunkannya dengan cara ini, Anda akan mendapatkan sebagai penjumlahan. Jika Anda menuliskan bentuk aljabar linier dari perkiraan Anda akan melihat bahwa ini adalah hal yang sama.β
Sunting: Berikut ini tautan ke beberapa catatan dengan derivasi jenis ini. Matematika menjadi sedikit berantakan, tetapi pada intinya itu hanya masalah kalkulus.
sumber
Pemahaman Anda dekat, tetapi membutuhkan beberapa ekstensi: Regresi linier sederhana sedang mencoba menemukan formula yang pernah Anda berikan
X
kepadanya, akan memberi Anda estimasi terdekatY
berdasarkan pada hubungan linear antaraX
danY
.Contoh harga rumah Anda, ketika diperpanjang sedikit, menunjukkan mengapa Anda berakhir dengan plot pencar dan sejenisnya. Pertama, hanya membagi harga berdasarkan area tidak berfungsi dalam kasus lain, seperti harga tanah di kota asal saya, di mana peraturan tentang konstruksi berarti bahwa hanya memiliki sebidang tanah di mana Anda dapat membangun rumah memiliki nilai tinggi. Jadi harga tanah tidak hanya sebanding dengan daerah. Setiap peningkatan bidang bidang mungkin memberikan peningkatan yang sama dalam nilai bidang, tetapi jika Anda pergi jauh ke bidang (mitos) bidang 0 masih akan ada harga yang terkait jelas yang mewakili nilai hanya memiliki sebidang tanah yang disetujui untuk bangunan.
Itu masih merupakan hubungan linier antara area dan nilai, tetapi ada intersep dalam relasinya, yang mewakili nilai hanya memiliki parsel. Namun yang membuat hubungan ini linear adalah bahwa perubahan nilai per unit berubah dalam area, kemiringan atau koefisien regresi, selalu sama terlepas dari besarnya area atau nilai.
Jadi katakan bahwa Anda sudah tahu entah bagaimana intersep dan kemiringan yang menghubungkan area parsel dengan nilai, dan Anda membandingkan nilai dari hubungan linier itu dengan nilai aktual yang diwakili oleh penjualan baru-baru ini. Anda akan menemukan bahwa nilai-nilai yang diprediksi dan aktual jarang jika pernah bersamaan. Perbedaan ini merepresentasikan kesalahan dalam model Anda, dan menghasilkan sebaran nilai di sekitar relasi yang diprediksi. Anda mendapatkan sebaran sebaran poin yang berkerumun di sekitar prediksi hubungan garis lurus Anda antara area dan nilai.
Pada sebagian besar contoh praktis Anda belum tahu intersep dan kemiringan, jadi Anda harus mencoba memperkirakannya dari data. Itulah yang coba dilakukan oleh regresi linier.
Anda mungkin lebih baik memikirkan regresi linier dan pemodelan terkait dari perspektif estimasi kemungkinan maksimum , yang merupakan pencarian untuk nilai parameter tertentu dalam model Anda yang membuat data paling mungkin. Ini mirip dengan pendekatan "kekuatan kasar" yang Anda usulkan dalam pertanyaan Anda, tetapi dengan ukuran yang agak berbeda dari apa yang Anda coba optimalkan. Dengan metode komputasi modern dan desain pola pencarian yang cerdas, dapat dilakukan dengan cukup cepat.
Estimasi kemungkinan maksimum dapat dikonseptualisasikan dengan cara yang tidak memerlukan plot grafis dan mirip dengan cara yang sudah Anda pikirkan. Dalam kasus regresi linier, baik standar kuadrat-terkecil dan kemungkinan maksimum memberikan estimasi yang sama untuk intersep dan kemiringan.
Berpikir dalam hal kemungkinan maksimum memiliki keuntungan tambahan yang meluas lebih baik ke situasi lain di mana tidak ada hubungan linear yang ketat. Contoh yang baik adalah regresi logistik di mana Anda mencoba memperkirakan probabilitas suatu peristiwa yang terjadi berdasarkan variabel prediktor. Itu dapat dicapai dengan kemungkinan maksimum, tetapi tidak seperti regresi linear standar, tidak ada persamaan sederhana yang menghasilkan intersep dan kemiringan dalam regresi logistik.
sumber
Pertama-tama, pujian saya. Sulit bagi semua orang untuk berjuang dengan statistik (saya adalah seorang dokter, sehingga Anda dapat menebak betapa sulitnya bagi saya) ...
Saya bisa mengusulkan bukan penjelasan visual untuk regresi linier , tetapi sesuatu yang sangat dekat: penjelasan sentuhan untuk regresi linier .
Bayangkan Anda memasuki kamar dari pintu. Ruangan itu kurang lebih berbentuk bujur sangkar, dan pintunya berada di sudut kiri bawah. Anda ingin menuju kamar sebelah, yang pintunya Anda harapkan ada di sudut kanan atas, kurang lebih. Bayangkan Anda tidak tahu persis di mana pintu sebelah (pernah!), Tetapi ada beberapa orang yang tersebar di ruangan itu, dan mereka dapat memberi tahu Anda ke mana harus pergi. Mereka juga tidak dapat melihat, tetapi mereka dapat memberi tahu Anda apa yang ada di dekat mereka. Jalur terakhir yang akan Anda ambil untuk mencapai pintu berikutnya, dipandu oleh orang-orang ini, analog dengan garis regresi, yang meminimalkan jarak antara orang-orang ini, dan membawa Anda ke pintu, dekat dengan (jika tidak pada) jalur yang benar.
sumber
Hal yang sama terjadi ketika kita memiliki lebih banyak titik, tersebar di seluruh ruang: garis regresi menemukan jalannya dengan meminimalkan jarak kuadratnya ke setiap titik. Jadi garis tersebut tepat melewati pusat awan titik-titik yang tersebar di ruang angkasa. Alih-alih menghubungkan dua titik, Anda dapat menganggapnya sebagai menghubungkan titik-titik pusat yang tidak terbatas jumlahnya.
Gelman, A., & Park, DK (2012). Membagi alat prediksi di kuartal atas atau ketiga dan kuartal bawah atau ketiga. The American Statistician, 62 (4), 1-8.
sumber
Jawaban singkatnya adalah ya. Garis apa yang paling baik melewati tengah semua titik yang terdiri dari keseluruhan atau hanya permukaan pesawat terbang atau lembing? Gambar itu; di kepala Anda atau pada gambar. Anda mencari dan pada garis soliter dari mana setiap titik (yang menarik, apakah Anda plot mereka atau tidak) yang akan berkontribusi terhadap total (antara poin) penyimpangan dari garis itu. Jika Anda melakukannya dengan mata, secara implisit dengan akal sehat, Anda akan memperkirakan (sangat baik) hasil perhitungan matematis. Untuk itu ada formula yang mengganggu mata dan mungkin tidak masuk akal. Dalam masalah formal yang serupa dalam bidang teknik dan sains, para pencerai-berai masih mengundang penilaian awal dengan mata, tetapi di arena-arena itu orang seharusnya memunculkan kemungkinan "tes" bahwa sebuah garis adalah garis. Itu menurun dari sana. Namun, Anda tampaknya mencoba mengajarkan mesin untuk mengukur (akibatnya) mete dan batas dari (a) kandang yang cukup besar dan (b) ternak yang tersebar di dalamnya. Jika Anda memberi mesin Anda jumlah gambar (grafis, aljabar) dari real estat dan penghuninya, ia harus dapat mengetahui (garis tengah membagi gumpalan menjadi dua, menghitung descatter menjadi satu garis) apa yang Anda inginkan. Buku teks statistik apa pun yang layak (mintalah guru atau profesor menyebutkan lebih dari satu) harus menguraikan seluruh titik regresi linier di tempat pertama, dan bagaimana melakukannya dalam kasus yang paling sederhana (mulai dari kasus yang tidak sederhana). Sejumlah pretzel kemudian, Anda akan mendapatkannya. Jika Anda memberi mesin Anda jumlah gambar (grafis, aljabar) dari real estat dan penghuninya, ia harus dapat mengetahui (garis tengah membagi gumpalan menjadi dua, menghitung descatter menjadi satu garis) apa yang Anda inginkan. Buku teks statistik apa pun yang layak (mintalah guru atau profesor menyebutkan lebih dari satu) harus menguraikan seluruh titik regresi linier di tempat pertama, dan bagaimana melakukannya dalam kasus yang paling sederhana (mulai dari kasus yang tidak sederhana). Sejumlah pretzel kemudian, Anda akan mendapatkannya. Jika Anda memberi mesin Anda jumlah gambar (grafis, aljabar) dari real estat dan penghuninya, ia harus dapat mengetahui (garis tengah membagi gumpalan menjadi dua, menghitung descatter menjadi satu garis) apa yang Anda inginkan. Buku teks statistik apa pun yang layak (mintalah guru atau profesor menyebutkan lebih dari satu) harus menguraikan seluruh titik regresi linier di tempat pertama, dan bagaimana melakukannya dalam kasus yang paling sederhana (mulai dari kasus yang tidak sederhana). Sejumlah pretzel kemudian, Anda akan mendapatkannya. Buku teks statistik apa pun yang layak (mintalah guru atau profesor menyebutkan lebih dari satu) harus menguraikan seluruh titik regresi linier di tempat pertama, dan bagaimana melakukannya dalam kasus yang paling sederhana (mulai dari kasus yang tidak sederhana). Sejumlah pretzel kemudian, Anda akan mendapatkannya. Buku teks statistik apa pun yang layak (mintalah guru atau profesor menyebutkan lebih dari satu) harus menguraikan seluruh titik regresi linier di tempat pertama, dan bagaimana melakukannya dalam kasus yang paling sederhana (mulai dari kasus yang tidak sederhana). Sejumlah pretzel kemudian, Anda akan mendapatkannya.
Dalam re: komentar Silverfish ke supra posting saya (sepertinya tidak ada cara sederhana selain ini untuk menambahkan komentar pada komentar itu), ya, OP itu buta, belajar mesin pembelajaran, dan meminta kepraktisan tanpa plot atau grafik, tapi saya berasumsi bahwa ia mampu membedakan "memvisualisasikan" dari "penglihatan", memvisualisasikan dan memiliki gambar yang benar-benar ada di kepalanya, dan memiliki gagasan dasar tentang segala macam benda fisik dalam benda-benda dunia di sekitarnya (rumah, antara lain), sehingga ia masih bisa " menggambar "baik secara matematis maupun sebaliknya di kepalanya, dan mungkin bisa menempatkan kemiripan yang baik dari 2D dan 3D ke kertas. Berbagai buku dan teks lain saat ini tersedia dalam huruf Braille fisik maupun suara elektronik di komputer sendiri (seperti untuk forum, kamus, dll.), dan banyak sekolah untuk tunanetra memiliki kurikulum yang cukup lengkap. Alih-alih pesawat atau lembing, sofa atau tongkat tidak selalu lebih tepat, dan teks statistik mungkin tersedia. Dia kurang peduli tentang bagaimana mesin dapat belajar merencanakan dan membuat grafik atau menghitung regresi, kemudian untuk bagaimana mesin mungkin belajar untuk melakukan sesuatu yang setara (dan lebih mendasar) untuk memahami regresi (apakah mesin mungkin menampilkannya, bereaksi padanya, ikuti itu, hindari, atau apa pun). Dorongan penting (seperti untuk siswa tunanetra maupun untuk melihat) masih bagaimana memvisualisasikan apa yang bisa non-visual (seperti konsep linearitas daripada contoh garis yang ditarik, sejak sebelum Euclid dan Pythagoras), dan bagaimana memvisualisasikan tujuan dasar dari jenis linearitas khusus (regresi, yang titik dasarnya paling cocok untuk paling tidak penyimpangan, sejak awal dalam matematika dan statistik). Keluaran regresi Lineprinter dari Fortran hampir tidak "visual" sampai berasimilasi secara mental, tetapi bahkan titik dasar regresi adalah imajiner (garis yang tidak ada di sana sampai dibuat untuk suatu tujuan).
sumber
draw
atauvisualize
. Ini hanya masalah menggunakan konsep untuk mendapatkan visualisasi, bukan sebaliknya. Saya telah menemukan bahwa ini terjadi di banyak tempat dalam matematika. Untuk menjelaskan subjek yang sulit, biasanya bentuk dan gambar digunakan, daripada menghubungkan perhitungan dengan konsep yang akan diketahui pelajar dari kehidupan nyata.Alasan mengapa plot secara universal digunakan untuk memperkenalkan regresi sederhana - respons yang diprediksi oleh satu prediktor - adalah bahwa plot membantu pemahaman.
Namun, saya percaya saya bisa memberikan sesuatu dari rasa yang mungkin bisa membantu dalam memahami apa yang terjadi. Dalam hal ini saya sebagian besar akan fokus pada upaya untuk menyampaikan beberapa pemahaman yang mereka berikan, yang dapat membantu dengan beberapa aspek lain yang biasanya akan Anda temui dalam membaca tentang regresi. Jadi jawaban ini terutama akan membahas aspek tertentu dari posting Anda.
Bayangkan Anda duduk di depan meja persegi panjang besar seperti meja kantor sederhana, yang panjang lengannya penuh (mungkin 1,8 meter), mungkin sekitar setengah lebarnya.
Anda duduk di depan meja dalam posisi yang biasa, di tengah satu sisi yang panjang. Di atas meja ini sejumlah besar paku (dengan kepala yang cukup halus) telah dipalu ke permukaan atas sehingga masing-masing menyembul sedikit (cukup untuk merasakan di mana mereka berada, dan cukup untuk mengikat tali pada mereka atau menempelkan karet gelang) ).
Kuku-kuku ini berada pada jarak yang berbeda-beda dari tepi meja Anda, sedemikian rupa sehingga ke salah satu ujungnya (katakanlah ujung kiri) mereka biasanya lebih dekat ke tepi meja Anda dan kemudian ketika Anda bergerak ke ujung yang lain kuku-kepala cenderung lebih jauh dari tepi Anda.
Lebih jauh bayangkan bahwa akan berguna untuk memiliki rasa seberapa jauh rata-rata kuku dari tepi Anda pada posisi apa pun di sepanjang tepi Anda.
Pilih tempat di sepanjang tepi meja Anda dan letakkan tangan Anda di sana, lalu raih ke depan tepat di seberang meja, seret dengan lembut tangan Anda langsung kembali ke arah Anda, lalu menjauh lagi, gerakkan tangan Anda maju dan mundur di atas kepala paku. Anda menjumpai beberapa lusin gundukan dari paku-paku ini - paku dalam lebar tangan Anda yang sempit (saat bergerak langsung menjauhi tepi Anda, pada jarak konstan dari ujung kiri meja), bagian, atau potongan, kira-kira selebar sepuluh cm .
Idenya adalah untuk mencari tahu jarak rata-rata ke kuku dari tepi meja Anda di bagian kecil itu. Secara intuitif itu hanya bagian tengah gundukan yang kita tekan tetapi jika kita mengukur setiap jarak ke paku pada bagian meja selebar tangan, kita bisa menghitung rata-rata dengan mudah.
Sebagai contoh, kita dapat menggunakan T-square yang kepalanya meluncur di sepanjang tepi meja dan yang porosnya mengarah ke sisi lain meja, tetapi tepat di atas meja sehingga kita tidak mengenai paku saat slide itu meluncur ke kiri. atau kanan - ketika kita melewati paku yang diberikan kita bisa mendapatkan jaraknya di sepanjang poros T-square.
Jadi pada perkembangan tempat-tempat di sepanjang tepi kami, kami mengulangi latihan ini untuk menemukan semua paku di strip selebar berjalan menuju dan menjauh dari kami dan menemukan jarak rata-rata mereka. Mungkin kita membagi meja menjadi strip selebar tangan di sepanjang tepi kita (sehingga setiap paku ditemukan tepat di satu strip).
Sekarang bayangkan ada yang mengatakan 21 strip seperti itu, yang pertama di tepi kiri dan yang terakhir di tepi kanan. Berarti semakin jauh dari tepi meja kami saat kami maju melintasi strip.
Ini berarti membentuk estimator regresi nonparametrik sederhana dari ekspektasi y (jarak-jauh kami) yang diberikan x (jarak di sepanjang tepi kami dari ujung kiri), yaitu, E (y | x). Secara khusus, ini adalah estimator regresi nonparametrik biner, juga disebut regressogram
Jika strip tersebut berarti meningkat secara teratur - yaitu, rata-rata biasanya meningkat sekitar jumlah yang sama per strip ketika kami bergerak melintasi strip - maka kita bisa lebih baik memperkirakan fungsi regresi kita dengan mengasumsikan bahwa nilai yang diharapkan dari y adalah linier fungsi x - yaitu bahwa nilai yang diharapkan dari y yang diberikan x adalah konstanta ditambah kelipatan x. Di sini konstanta mewakili di mana kuku cenderung berada ketika kita di x adalah nol (seringkali kita mungkin menempatkan ini di ujung kiri ekstrim tetapi tidak harus), dan kelipatan x tertentu adalah seberapa cepat rata-rata rata-rata berubah saat kita bergerak dengan satu sentimeter (katakanlah) ke kanan.
Tetapi bagaimana menemukan fungsi linier seperti itu?
Bayangkan kita melilitkan satu karet gelang di atas masing-masing kepala kuku, dan menempelkannya pada sebuah tongkat tipis panjang yang terletak tepat di atas meja, di atas kuku, sehingga ia berada di suatu tempat dekat "tengah" dari setiap pita yang telah kita buat. untuk.
Kami menempelkan pita sedemikian rupa sehingga mereka hanya meregangkan arah ke arah dan menjauh dari kami (tidak ke kiri atau kanan) - ke kiri sendiri mereka akan menarik sehingga membuat arah peregangan pada sudut kanan dengan tongkat, tetapi di sini kita mencegahnya, sehingga arah peregangan mereka tetap hanya pada arah menuju atau menjauh dari ujung meja kita. Sekarang kita membiarkan tongkat mengendap saat pita menariknya ke arah masing-masing kuku, dengan kuku yang lebih jauh (dengan karet gelang yang diregangkan) menarik secara bersamaan lebih keras daripada kuku yang dekat dengan tongkat.
Maka hasil gabungan dari semua pita yang menarik tongkat adalah (idealnya, setidaknya) menarik tongkat untuk meminimalkan jumlah panjang kuadrat dari pita karet yang diregangkan; dalam arah itu secara langsung di seberang meja, jarak dari tepi meja ke tongkat pada posisi x mana pun akan menjadi estimasi nilai y yang diharapkan dari x yang diberikan.
Ini pada dasarnya adalah estimasi regresi linier.
Sekarang, bayangkan bahwa alih-alih paku, kita memiliki banyak buah (seperti apel kecil mungkin) yang tergantung di pohon besar dan kami ingin menemukan jarak rata-rata buah di atas tanah karena bervariasi dengan posisi di tanah. Bayangkan bahwa dalam hal ini ketinggian di atas tanah menjadi lebih besar saat kita maju dan sedikit lebih besar saat kita bergerak ke kanan, lagi secara teratur, sehingga setiap langkah maju biasanya mengubah tinggi rata-rata sekitar jumlah yang sama, dan setiap langkah ke hak juga akan mengubah rata-rata dengan jumlah yang kira-kira konstan (tetapi jumlah rata-rata stepping-right ini berbeda dengan jumlah perubahan step-forward).
Jika kita meminimalkan jumlah jarak vertikal kuadrat dari buah ke lembaran datar tipis (mungkin lembaran tipis plastik sangat kaku) untuk mengetahui bagaimana perubahan rata-rata tinggi ketika kita bergerak maju atau melangkah ke kanan, itu akan menjadi regresi linier dengan dua prediktor - regresi berganda.
Ini adalah satu-satunya dua kasus yang plotnya dapat membantu memahami (mereka dapat menunjukkan dengan cepat apa yang baru saja saya jelaskan panjang lebar, tetapi mudah-mudahan Anda tahu memiliki dasar untuk mengkonseptualisasikan ide yang sama). Di luar dua kasus paling sederhana itu, kita hanya memiliki matematika saja.
Sekarang ambil contoh harga rumah Anda; Anda dapat mewakili area setiap rumah dengan jarak di sepanjang tepi meja Anda - mewakili ukuran rumah terbesar sebagai posisi di dekat tepi kanan, setiap ukuran rumah lainnya akan berada beberapa posisi lebih jauh ke kiri di mana sejumlah sentimeter tertentu akan mewakili beberapa jumlah meter persegi. Sekarang jaraknya merupakan harga jual. Merupakan rumah paling mahal karena jarak tertentu di dekat ujung meja terjauh (seperti biasa, ujung terjauh dari kursi Anda), dan setiap sentimeter yang bergeser akan mewakili sejumlah Rial.
Untuk saat ini bayangkan bahwa kami memilih representasi sehingga tepi kiri meja sesuai dengan luas rumah nol dan tepi dekat dengan harga rumah 0. Kami kemudian memasang paku untuk setiap rumah.
Kami mungkin tidak akan memiliki paku di dekat ujung kiri tepi kami (mereka mungkin sebagian besar ke arah kanan dan jauh dari kami) karena ini tidak selalu merupakan pilihan skala yang baik tetapi pilihan Anda dari model tanpa-penyadapan membuat ini cara yang lebih baik untuk membahasnya.
Sekarang dalam model Anda, Anda memaksa tongkat untuk melewati lingkaran tali di sudut kiri dekat meja - sehingga memaksa model yang dipasang memiliki harga nol untuk area nol, yang mungkin tampak alami - tetapi bayangkan jika ada beberapa komponen harga yang cukup konstan yang mempengaruhi setiap penjualan. Maka masuk akal jika intersepnya berbeda dari nol.
Bagaimanapun, dengan penambahan loop itu, latihan karet gelang yang sama seperti sebelumnya akan menemukan estimasi kuadrat terkecil dari garis.
sumber
Pernahkah Anda menemui jenis pemanggang yang sering Anda dapatkan di hotel. Anda menaruh roti pada sabuk konveyor di satu ujung dan keluar sebagai roti panggang di ujung lainnya. Sayangnya, di pemanggang roti di hotel murah ini, pemanas semua dipindahkan ke ketinggian acak dan jarak dari pintu masuk ke pemanggang roti. Anda tidak dapat memindahkan pemanas atau membengkokkan jalur sabuk (yang lurus, omong-omong (di sinilah bit linear masuk), tetapi Anda dapat mengubah HEIGHT dan TILT sabuk.
Mengingat posisi semua pemanas, regresi linier akan memberi tahu Anda ketinggian dan sudut yang tepat untuk menempatkan sabuk untuk mendapatkan panas terbanyak secara keseluruhan. Ini karena regresi linier akan meminimalkan jarak rata-rata antara roti bakar dan pemanas.
Pekerjaan liburan pertama saya adalah melakukan regresi linier dengan tangan. Pria yang mengatakan kamu tidak ingin melakukan itu adalah BENAR !!!
sumber
Penjelasan favorit saya tentang regresi linier adalah geometris, tetapi tidak visual. Itu memperlakukan set data sebagai satu titik dalam ruang dimensi tinggi, daripada memecahnya menjadi awan titik dalam ruang dua dimensi.
sumber
@Chris Rackauckas dan jawaban @ EDM sangat tepat. Ada banyak cara untuk mendekati regresi linier sederhana yang tidak memerlukan plot atau penjelasan visual dari estimasi kuadrat terkecil biasa, dan mereka memberikan penjelasan yang sangat solid tentang apa yang sebenarnya terjadi ketika Anda menjalankan OLS.
Saya dapat menambahkan bahwa menggunakan scatterplots sebagai alat instruksi untuk mempelajari segala jenis prosedur pemodelan baru, apakah itu model parametrik sekolah lama, materi pembelajaran mesin canggih, atau algoritma bayesian, grafik dapat membantu mengurangi waktu yang diperlukan untuk mempelajari apa yang khusus Algoritma tidak.
Grafik juga sangat penting untuk analisis data eksplorasi ketika Anda pertama kali mulai bekerja dengan dataset baru. Saya memiliki situasi di mana saya mengumpulkan banyak data, menyusun teorinya, merencanakan model saya dengan hati-hati, dan kemudian menjalankannya, hanya untuk berakhir dengan hasil yang pada dasarnya tidak memiliki kekuatan prediksi. Merencanakan hubungan bivariat dapat menghilangkan beberapa dugaan: dalam contoh Anda, ada kemungkinan bahwa harga rumah terkait linier dengan area, tetapi mungkin hubungannya tidak linier. Scatterplots membantu Anda memutuskan apakah Anda memerlukan istilah urutan lebih tinggi dalam regresi Anda, atau jika Anda ingin menggunakan metode yang berbeda dari regresi linier, atau jika Anda ingin menggunakan semacam metode nonparametrik.
sumber
Google untuk Kuartet Anscombe.
Ini menunjukkan 4 set data yang pada pemeriksaan numerik tidak menunjukkan banyak perbedaan.
Namun, saat membuat plot pencar visual, perbedaannya menjadi terlihat secara dramatis.
Ini memberikan pandangan yang cukup jelas mengapa Anda harus selalu memplot data Anda, regresi atau tidak ada regresi :-)
sumber
Kami ingin memiliki solusi yang meminimalkan perbedaan antara nilai yang diprediksi dan yang sebenarnya.
Jika kita mengasumsikan bahwa distribusi kesalahan terdistribusi secara normal ternyata ada solusi analitik untuk masalah minimisasi ini. Jumlah kuadrat perbedaan adalah nilai terbaik untuk diminimalkan agar paling cocok. Tetapi normalitas tidak diperlukan dalam kasus umum.
Sebenarnya tidak ada yang lebih dari itu.
Saat ini dibiarkan lebih sebagai bantuan pemahaman tetapi tidak perlu harus memahami regresi linier benar-benar.
EDIT: mengganti asumsi normalitas kesalahan dengan daftar yang benar tetapi kurang ringkas. Normalitas diperlukan untuk memiliki solusi analitis dan dapat diasumsikan untuk banyak kasus praktis dan dalam hal itu jumlah kuadrat optimal tidak hanya untuk estimator linier dan memaksimalkan kemungkinan juga.
Jika lebih jauh asumsi normalitas distribusi kesalahan berlaku maka Jumlah Kuadrat optimal di antara estimator linier dan non-linier dan memaksimalkan kemungkinan.
sumber