Dapatkah regresi linier sederhana dilakukan tanpa menggunakan plot dan aljabar linier?

47

Saya benar-benar buta dan berasal dari latar belakang pemrograman.

Apa yang saya coba lakukan adalah mempelajari pembelajaran mesin, dan untuk melakukan ini, pertama-tama saya perlu belajar tentang regresi linier. Semua penjelasan di internet saya temukan tentang subjek ini, plot data terlebih dahulu. Saya mencari penjelasan praktis tentang regresi linier yang tidak bergantung pada grafik dan plot.

Inilah pemahaman saya tentang tujuan regresi linier sederhana:

Regresi linier sederhana sedang mencoba untuk menemukan formula yang pernah Anda berikan Xkepadanya, akan memberi Anda estimasi terdekatY .

Jadi, seperti yang saya pahami, apa yang perlu dilakukan adalah membandingkan prediktornya (misalnya luas rumah dengan kaki persegi) dengan variabel independen (harga). Dalam contoh saya, Anda mungkin dapat membuat cara non-visual untuk mendapatkan formula terbaik untuk menghitung harga rumah dari wilayahnya. Misalnya, mungkin Anda akan mendapatkan luas dan harga 1000 rumah di suatu lingkungan, dan membagi harga ke daerah tersebut? Hasilnya (setidaknya di Iran tempat saya tinggal) akan memiliki varian yang sangat diabaikan. Jadi Anda mungkin akan mendapatkan sesuatu seperti ini:

Price = 2333 Rials * Area of the house

Tentu saja, Anda kemudian harus melalui semua 1000 rumah di set data Anda, letakkan area dalam rumus di atas, bandingkan perkiraan dengan harga riil, hasil persegi (saya kira untuk mencegah varians dari membatalkan satu sama lain) dan kemudian mendapatkan nomor, lalu terus bermain-main dengan 2333untuk mengurangi kesalahan.

Tentu saja, ini adalah opsi brute force di mana mungkin perlu waktu lama untuk menghitung kesalahan dan sampai pada pilihan terbaik, tetapi Anda mengerti apa yang saya katakan? Saya tidak mengatakan apa-apa tentang grafik, atau garis, atau poin pada plot, atau cara terbaik untuk menyesuaikan garis dengan data yang ada.

Jadi, mengapa Anda membutuhkan sebaran plot dan aljabar linier untuk ini? Apakah tidak ada cara non-visual?

Pertama, apakah saya benar dalam asumsi saya? Jika tidak, saya ingin dikoreksi. Apakah saya atau tidak, apakah ada cara untuk menghasilkan formula tanpa bermain-main dengan aljabar linier?

Saya akan sangat menghargainya jika saya bisa mendapatkan contoh dengan penjelasannya, sehingga saya bisa melakukannya bersama dengan teks untuk menguji pemahaman saya.

Parham Doustdar
sumber
2
Tetapi apakah Anda memiliki imajinasi spasial yang dapat mengambil alih visi? Jika ya, saya kira sebar sebaran bisa dibayangkan. Saya ragu bahwa esensi regresi dapat ditangkap oleh pemikiran proposisional (seperti verbal) semata-mata.
ttnphns
3
Apa latar belakang matematika Anda? Halaman Wikipedia yang disebut Regresi Linier Sederhana sebagian besar berupa teks, dan menurut saya adalah deskripsi yang cukup jelas dalam paragraf pertama. Bagaimana artikel itu dibandingkan dengan tingkat detail yang Anda cari?
shadowtalker
3
Saya akan terus memikirkannya, melihat apakah saya bisa muncul, tetapi langsung saja, berpikir tentang regresi sebagai penyelesaian persamaan yang tidak memiliki solusi. Semua titik data Anda akan diprediksi secara keliru oleh regressor Anda (area rumah). Anda mencari persamaan yang membuat kesalahan Anda dapat ditoleransi mungkin.
Antoni Parellada
8
pertanyaan yang sangat bagus, kita perlu berpikir lebih banyak tentang menjelaskan konsep kita kepada para penyandang cacat
Aksakal
4
Anda tidak perlu menggunakan plot. Memang, untuk regresi linier berganda (regresi dengan banyak prediktor) Anda tidak dapat memplot ruang dimensi. Namun, aljabar linier masih berfungsi. Semua rumus aljabar linier yang terlibat dalam regresi linier dapat dikurangi menjadi operasi pada angka skalar sederhana. Anda tidak akan mau melakukannya dengan tangan jika Anda menghargai kewarasan Anda. hal+1
dugaan

Jawaban:

17

Ya Anda ke dalamnya. Anda harus terus bermain-main dengan 2333 sampai Anda menemukan yang tepat yang meminimalkan kesalahan. Tetapi ada cara matematika untuk menemukan yang "benar". Sebut saja nomor itu . E , jumlah kesalahan kuadrat (SSE) adalah fungsi dari β karena untuk setiap pilihan ββEββ dapat menghitung jumlah setiap estimasi mati, kuadratkan, dan jumlah mereka bersama-sama.

apa yang meminimalkan jumlah total kesalahan kuadrat? Ini hanya masalah kalkulus. Ambil turunan dari E oleh β dan set sama dengan nol. Ini memberikan persamaan untuk β . Periksa turunan kedua positif untuk mengetahui bahwa itu adalah minimium. Dengan demikian Anda mendapatkan persamaan untuk β yang meminimalkan kesalahan.βEβββ

Jika Anda menurunkannya dengan cara ini, Anda akan mendapatkan sebagai penjumlahan. Jika Anda menuliskan bentuk aljabar linier dari perkiraan Anda akan melihat bahwa ini adalah hal yang sama.β

Sunting: Berikut ini tautan ke beberapa catatan dengan derivasi jenis ini. Matematika menjadi sedikit berantakan, tetapi pada intinya itu hanya masalah kalkulus.

Chris Rackauckas
sumber
YA TUHAN. Akhirnya! Cara non-linear-aljabar untuk menghitung ini. Konsep yang Anda bicarakan dalam jawaban Anda ada di luar kepala saya, tetapi saya pasti akan melihat turunannya dalam upaya untuk memahami garis pemikiran ini dengan lebih baik.
Parham Doustdar
1
Saya ditautkan dengan beberapa catatan yang menjelaskannya pada tingkat yang cukup dasar. Saya pikir jawaban apa pun akan membutuhkan kalkulus karena cara Anda memecahkan masalah seperti "menemukan minimum " adalah dengan mengambil turunan dan menetapkannya sama dengan nol. Secara intuitif, ini hanya mengatakan bahwa minimum (atau maksimum) dari sebuah bukit adalah di mana bukit itu datar (karena kemiringannya paling tinggi di sepanjang sisi bukit!). Derivatif = kemiringan. Jadi di area yang mengubah β mulai menyebabkan sedikit perubahan dalam E Anda mendekati minimum (atau maksimum. Anda harus memastikan itu tidak maksimal!). E(β)βE
Chris Rackauckas
4
Ide ini kemudian membawa Anda ke pembelajaran mesin. Salah satu metode dasar dalam pembelajaran mesin adalah gradien yang layak. Itu pada dasarnya berarti "mengikuti lereng". jika Anda terus membiarkan bola menggelinding ke arah bukit paling curam, Anda akan mencapai minimum. Jadi metode layak gradien adalah untuk melakukan ini secara tepat: cari tahu cara mengubah menyebabkan kesalahan paling banyak berkurang dan lakukan cara itu! β
Chris Rackauckas
2
Untuk regresi kuadrat terkecil, Anda tidak perlu melakukan gradien yang layak karena Anda dapat menyelesaikan persamaan yang merupakan jawabannya, tetapi ini memberikan cara yang baik untuk memahami apa itu pembelajaran mesin. Itu bermuara pada memilih cara mengukur kesalahan, dan kemudian menemukan beberapa cara untuk meminimalkan persamaan kesalahan. Hasilnya adalah persamaan estimasi "terbaik" yang dipelajari melalui data. Saya harap ini membantu Anda di jalur pembelajaran mesin!
Chris Rackauckas
10

Pemahaman Anda dekat, tetapi membutuhkan beberapa ekstensi: Regresi linier sederhana sedang mencoba menemukan formula yang pernah Anda berikan Xkepadanya, akan memberi Anda estimasi terdekat Y berdasarkan pada hubungan linear antara X dan Y .

Contoh harga rumah Anda, ketika diperpanjang sedikit, menunjukkan mengapa Anda berakhir dengan plot pencar dan sejenisnya. Pertama, hanya membagi harga berdasarkan area tidak berfungsi dalam kasus lain, seperti harga tanah di kota asal saya, di mana peraturan tentang konstruksi berarti bahwa hanya memiliki sebidang tanah di mana Anda dapat membangun rumah memiliki nilai tinggi. Jadi harga tanah tidak hanya sebanding dengan daerah. Setiap peningkatan bidang bidang mungkin memberikan peningkatan yang sama dalam nilai bidang, tetapi jika Anda pergi jauh ke bidang (mitos) bidang 0 masih akan ada harga yang terkait jelas yang mewakili nilai hanya memiliki sebidang tanah yang disetujui untuk bangunan.

Itu masih merupakan hubungan linier antara area dan nilai, tetapi ada intersep dalam relasinya, yang mewakili nilai hanya memiliki parsel. Namun yang membuat hubungan ini linear adalah bahwa perubahan nilai per unit berubah dalam area, kemiringan atau koefisien regresi, selalu sama terlepas dari besarnya area atau nilai.

Jadi katakan bahwa Anda sudah tahu entah bagaimana intersep dan kemiringan yang menghubungkan area parsel dengan nilai, dan Anda membandingkan nilai dari hubungan linier itu dengan nilai aktual yang diwakili oleh penjualan baru-baru ini. Anda akan menemukan bahwa nilai-nilai yang diprediksi dan aktual jarang jika pernah bersamaan. Perbedaan ini merepresentasikan kesalahan dalam model Anda, dan menghasilkan sebaran nilai di sekitar relasi yang diprediksi. Anda mendapatkan sebaran sebaran poin yang berkerumun di sekitar prediksi hubungan garis lurus Anda antara area dan nilai.

Pada sebagian besar contoh praktis Anda belum tahu intersep dan kemiringan, jadi Anda harus mencoba memperkirakannya dari data. Itulah yang coba dilakukan oleh regresi linier.

Anda mungkin lebih baik memikirkan regresi linier dan pemodelan terkait dari perspektif estimasi kemungkinan maksimum , yang merupakan pencarian untuk nilai parameter tertentu dalam model Anda yang membuat data paling mungkin. Ini mirip dengan pendekatan "kekuatan kasar" yang Anda usulkan dalam pertanyaan Anda, tetapi dengan ukuran yang agak berbeda dari apa yang Anda coba optimalkan. Dengan metode komputasi modern dan desain pola pencarian yang cerdas, dapat dilakukan dengan cukup cepat.

Estimasi kemungkinan maksimum dapat dikonseptualisasikan dengan cara yang tidak memerlukan plot grafis dan mirip dengan cara yang sudah Anda pikirkan. Dalam kasus regresi linier, baik standar kuadrat-terkecil dan kemungkinan maksimum memberikan estimasi yang sama untuk intersep dan kemiringan.

Berpikir dalam hal kemungkinan maksimum memiliki keuntungan tambahan yang meluas lebih baik ke situasi lain di mana tidak ada hubungan linear yang ketat. Contoh yang baik adalah regresi logistik di mana Anda mencoba memperkirakan probabilitas suatu peristiwa yang terjadi berdasarkan variabel prediktor. Itu dapat dicapai dengan kemungkinan maksimum, tetapi tidak seperti regresi linear standar, tidak ada persamaan sederhana yang menghasilkan intersep dan kemiringan dalam regresi logistik.

EdM
sumber
1
Saya berpikir bahwa '' linier '' dalam '' regresi linier '' berarti '' linier dalam parameter '', jadi Anda mungkin memiliki sebagai variabel independen, tetapi koefisien masing-masing variabel independen harus muncul secara linear? x2
@ FPF Anda benar. Saya mulai dari contoh yang diberikan oleh OP, yang mengemukakan proporsionalitas antara nilai dan area. Saya cenderung berpikir tentang nilai-nilai yang ditransformasikan dari variabel prediktor asli sebagai variabel independen aktual dalam regresi ketika transformasi seperti kekuatan atau log digunakan. Saya pikir itu berakhir dalam praktik sebagai sebagian besar perbedaan dalam terminologi, meskipun ada perbedaan dalam model kesalahan tersirat.
EdM
Saya mengerti maksud Anda, bagaimanapun, itu adalah jawaban yang baik (+1)
6

Pertama-tama, pujian saya. Sulit bagi semua orang untuk berjuang dengan statistik (saya adalah seorang dokter, sehingga Anda dapat menebak betapa sulitnya bagi saya) ...

Saya bisa mengusulkan bukan penjelasan visual untuk regresi linier , tetapi sesuatu yang sangat dekat: penjelasan sentuhan untuk regresi linier .

Bayangkan Anda memasuki kamar dari pintu. Ruangan itu kurang lebih berbentuk bujur sangkar, dan pintunya berada di sudut kiri bawah. Anda ingin menuju kamar sebelah, yang pintunya Anda harapkan ada di sudut kanan atas, kurang lebih. Bayangkan Anda tidak tahu persis di mana pintu sebelah (pernah!), Tetapi ada beberapa orang yang tersebar di ruangan itu, dan mereka dapat memberi tahu Anda ke mana harus pergi. Mereka juga tidak dapat melihat, tetapi mereka dapat memberi tahu Anda apa yang ada di dekat mereka. Jalur terakhir yang akan Anda ambil untuk mencapai pintu berikutnya, dipandu oleh orang-orang ini, analog dengan garis regresi, yang meminimalkan jarak antara orang-orang ini, dan membawa Anda ke pintu, dekat dengan (jika tidak pada) jalur yang benar.

Joe_74
sumber
1
(+1) Saya sangat menyukai contoh Anda dan lucu bahwa secara kebetulan kami menggunakan ilustrasi yang sangat mirip untuk masalah ini!
Tim
"Ruangan itu kurang lebih berbentuk bujur sangkar" - apa persegi untuk orang buta? Dengan kalimat ini Anda membuat kami kembali ke tempat kami memulai.
Aksakal
4
Saya tidak setuju. Biarkan mereka berjalan 10 kaki dalam satu arah, lalu biarkan mereka berputar 90 ° (seperti armspan) dan biarkan mereka berjalan lagi 10 kaki. Itu adalah bujur sangkar jika Anda tidak dapat melihat dengan benar.
Joe_74
@ GiuseppeBiondi-Zoccai, jika saya membuat model tekanan pada bilik pada suhu, mengapa saya harus memunculkan kotak dan garis dan konsep spasial lainnya? Ini pasti nyaman jika Anda tidak buta, tetapi untuk orang buta analogi spasial ini tidak membawa apa pun ke meja untuk masalah yang dihadapi, mereka hanya mempersulit eksposisi
Aksakal
2
Sekali lagi, saya dengan sopan tidak setuju ... anggapan saya selalu bahwa orang buta secara khusus mengembangkan keterampilan spasial taktil. Pokoknya, contoh apa pun yang berfungsi baik, dan lebih banyak lebih meriah.
Joe_74
3

YX

Y=β0+β1X+ε

β0yx

Xvariabel, yaitu luas rumah, menjadi tiga kelompok: rumah "kecil", "sedang", dan "besar" (mereka menggambarkan cara membuat keputusan secara optimal, tetapi ini kurang penting). Selanjutnya, hitung ukuran rata-rata rumah "kecil" dan ukuran rata-rata rumah "besar". Hitung juga harga rata-rata rumah "kecil" dan "besar". Sekarang, kurangi data Anda menjadi dua titik - pusat awan titik data untuk rumah kecil dan besar yang tersebar di ruang tersebut dan hapus semua titik data tentang rumah "sedang". Anda dibiarkan dengan dua titik dalam ruang dua dimensi. Garis regresi adalah garis yang menghubungkan titik - Anda dapat menganggapnya sebagai arah dari satu titik ke titik lainnya. β1

Hal yang sama terjadi ketika kita memiliki lebih banyak titik, tersebar di seluruh ruang: garis regresi menemukan jalannya dengan meminimalkan jarak kuadratnya ke setiap titik. Jadi garis tersebut tepat melewati pusat awan titik-titik yang tersebar di ruang angkasa. Alih-alih menghubungkan dua titik, Anda dapat menganggapnya sebagai menghubungkan titik-titik pusat yang tidak terbatas jumlahnya.


Gelman, A., & Park, DK (2012). Membagi alat prediksi di kuartal atas atau ketiga dan kuartal bawah atau ketiga. The American Statistician, 62 (4), 1-8.

Tim
sumber
3

Jawaban singkatnya adalah ya. Garis apa yang paling baik melewati tengah semua titik yang terdiri dari keseluruhan atau hanya permukaan pesawat terbang atau lembing? Gambar itu; di kepala Anda atau pada gambar. Anda mencari dan pada garis soliter dari mana setiap titik (yang menarik, apakah Anda plot mereka atau tidak) yang akan berkontribusi terhadap total (antara poin) penyimpangan dari garis itu. Jika Anda melakukannya dengan mata, secara implisit dengan akal sehat, Anda akan memperkirakan (sangat baik) hasil perhitungan matematis. Untuk itu ada formula yang mengganggu mata dan mungkin tidak masuk akal. Dalam masalah formal yang serupa dalam bidang teknik dan sains, para pencerai-berai masih mengundang penilaian awal dengan mata, tetapi di arena-arena itu orang seharusnya memunculkan kemungkinan "tes" bahwa sebuah garis adalah garis. Itu menurun dari sana. Namun, Anda tampaknya mencoba mengajarkan mesin untuk mengukur (akibatnya) mete dan batas dari (a) kandang yang cukup besar dan (b) ternak yang tersebar di dalamnya. Jika Anda memberi mesin Anda jumlah gambar (grafis, aljabar) dari real estat dan penghuninya, ia harus dapat mengetahui (garis tengah membagi gumpalan menjadi dua, menghitung descatter menjadi satu garis) apa yang Anda inginkan. Buku teks statistik apa pun yang layak (mintalah guru atau profesor menyebutkan lebih dari satu) harus menguraikan seluruh titik regresi linier di tempat pertama, dan bagaimana melakukannya dalam kasus yang paling sederhana (mulai dari kasus yang tidak sederhana). Sejumlah pretzel kemudian, Anda akan mendapatkannya. Jika Anda memberi mesin Anda jumlah gambar (grafis, aljabar) dari real estat dan penghuninya, ia harus dapat mengetahui (garis tengah membagi gumpalan menjadi dua, menghitung descatter menjadi satu garis) apa yang Anda inginkan. Buku teks statistik apa pun yang layak (mintalah guru atau profesor menyebutkan lebih dari satu) harus menguraikan seluruh titik regresi linier di tempat pertama, dan bagaimana melakukannya dalam kasus yang paling sederhana (mulai dari kasus yang tidak sederhana). Sejumlah pretzel kemudian, Anda akan mendapatkannya. Jika Anda memberi mesin Anda jumlah gambar (grafis, aljabar) dari real estat dan penghuninya, ia harus dapat mengetahui (garis tengah membagi gumpalan menjadi dua, menghitung descatter menjadi satu garis) apa yang Anda inginkan. Buku teks statistik apa pun yang layak (mintalah guru atau profesor menyebutkan lebih dari satu) harus menguraikan seluruh titik regresi linier di tempat pertama, dan bagaimana melakukannya dalam kasus yang paling sederhana (mulai dari kasus yang tidak sederhana). Sejumlah pretzel kemudian, Anda akan mendapatkannya. Buku teks statistik apa pun yang layak (mintalah guru atau profesor menyebutkan lebih dari satu) harus menguraikan seluruh titik regresi linier di tempat pertama, dan bagaimana melakukannya dalam kasus yang paling sederhana (mulai dari kasus yang tidak sederhana). Sejumlah pretzel kemudian, Anda akan mendapatkannya. Buku teks statistik apa pun yang layak (mintalah guru atau profesor menyebutkan lebih dari satu) harus menguraikan seluruh titik regresi linier di tempat pertama, dan bagaimana melakukannya dalam kasus yang paling sederhana (mulai dari kasus yang tidak sederhana). Sejumlah pretzel kemudian, Anda akan mendapatkannya.


Dalam re: komentar Silverfish ke supra posting saya (sepertinya tidak ada cara sederhana selain ini untuk menambahkan komentar pada komentar itu), ya, OP itu buta, belajar mesin pembelajaran, dan meminta kepraktisan tanpa plot atau grafik, tapi saya berasumsi bahwa ia mampu membedakan "memvisualisasikan" dari "penglihatan", memvisualisasikan dan memiliki gambar yang benar-benar ada di kepalanya, dan memiliki gagasan dasar tentang segala macam benda fisik dalam benda-benda dunia di sekitarnya (rumah, antara lain), sehingga ia masih bisa " menggambar "baik secara matematis maupun sebaliknya di kepalanya, dan mungkin bisa menempatkan kemiripan yang baik dari 2D dan 3D ke kertas. Berbagai buku dan teks lain saat ini tersedia dalam huruf Braille fisik maupun suara elektronik di komputer sendiri (seperti untuk forum, kamus, dll.), dan banyak sekolah untuk tunanetra memiliki kurikulum yang cukup lengkap. Alih-alih pesawat atau lembing, sofa atau tongkat tidak selalu lebih tepat, dan teks statistik mungkin tersedia. Dia kurang peduli tentang bagaimana mesin dapat belajar merencanakan dan membuat grafik atau menghitung regresi, kemudian untuk bagaimana mesin mungkin belajar untuk melakukan sesuatu yang setara (dan lebih mendasar) untuk memahami regresi (apakah mesin mungkin menampilkannya, bereaksi padanya, ikuti itu, hindari, atau apa pun). Dorongan penting (seperti untuk siswa tunanetra maupun untuk melihat) masih bagaimana memvisualisasikan apa yang bisa non-visual (seperti konsep linearitas daripada contoh garis yang ditarik, sejak sebelum Euclid dan Pythagoras), dan bagaimana memvisualisasikan tujuan dasar dari jenis linearitas khusus (regresi, yang titik dasarnya paling cocok untuk paling tidak penyimpangan, sejak awal dalam matematika dan statistik). Keluaran regresi Lineprinter dari Fortran hampir tidak "visual" sampai berasimilasi secara mental, tetapi bahkan titik dasar regresi adalah imajiner (garis yang tidak ada di sana sampai dibuat untuk suatu tujuan).

butte
sumber
2
Mungkin saya salah paham jawaban ini, tetapi "menggambarnya, di kepala Anda atau di sebuah gambar" tampaknya agak melenceng dari pertanyaan: pertanyaan asli diajukan oleh seseorang yang benar-benar buta, dan karenanya mencari cara visual mendekati regresi.
Silverfish
@Silverfish Response (terlalu lama untuk komentar) telah diedit menjadi jawaban di atas
Terima kasih. Saya pikir downvote agak keras (bukan saya) tetapi beberapa pilihan bahasa dalam jawaban ini sangat disayangkan (misalnya ada beberapa referensi untuk melakukan hal-hal "dengan mata"). Namun demikian, saya dapat memahami mengapa Anda ingin membedakan antara persepsi visual dan apa yang dapat divisualisasikan melalui "mata pikiran".
Silverfish
2
Saya dapat memvisualisasikan hal-hal dalam pikiran saya. Hanya saja saya tidak menggunakan cara visualisasi yang sama. Ini bukan masalah tidak menggunakan drawatau visualize. Ini hanya masalah menggunakan konsep untuk mendapatkan visualisasi, bukan sebaliknya. Saya telah menemukan bahwa ini terjadi di banyak tempat dalam matematika. Untuk menjelaskan subjek yang sulit, biasanya bentuk dan gambar digunakan, daripada menghubungkan perhitungan dengan konsep yang akan diketahui pelajar dari kehidupan nyata.
Parham Doustdar
3

Alasan mengapa plot secara universal digunakan untuk memperkenalkan regresi sederhana - respons yang diprediksi oleh satu prediktor - adalah bahwa plot membantu pemahaman.

Namun, saya percaya saya bisa memberikan sesuatu dari rasa yang mungkin bisa membantu dalam memahami apa yang terjadi. Dalam hal ini saya sebagian besar akan fokus pada upaya untuk menyampaikan beberapa pemahaman yang mereka berikan, yang dapat membantu dengan beberapa aspek lain yang biasanya akan Anda temui dalam membaca tentang regresi. Jadi jawaban ini terutama akan membahas aspek tertentu dari posting Anda.

Bayangkan Anda duduk di depan meja persegi panjang besar seperti meja kantor sederhana, yang panjang lengannya penuh (mungkin 1,8 meter), mungkin sekitar setengah lebarnya.

Anda duduk di depan meja dalam posisi yang biasa, di tengah satu sisi yang panjang. Di atas meja ini sejumlah besar paku (dengan kepala yang cukup halus) telah dipalu ke permukaan atas sehingga masing-masing menyembul sedikit (cukup untuk merasakan di mana mereka berada, dan cukup untuk mengikat tali pada mereka atau menempelkan karet gelang) ).

Kuku-kuku ini berada pada jarak yang berbeda-beda dari tepi meja Anda, sedemikian rupa sehingga ke salah satu ujungnya (katakanlah ujung kiri) mereka biasanya lebih dekat ke tepi meja Anda dan kemudian ketika Anda bergerak ke ujung yang lain kuku-kepala cenderung lebih jauh dari tepi Anda.

Lebih jauh bayangkan bahwa akan berguna untuk memiliki rasa seberapa jauh rata-rata kuku dari tepi Anda pada posisi apa pun di sepanjang tepi Anda.

Pilih tempat di sepanjang tepi meja Anda dan letakkan tangan Anda di sana, lalu raih ke depan tepat di seberang meja, seret dengan lembut tangan Anda langsung kembali ke arah Anda, lalu menjauh lagi, gerakkan tangan Anda maju dan mundur di atas kepala paku. Anda menjumpai beberapa lusin gundukan dari paku-paku ini - paku dalam lebar tangan Anda yang sempit (saat bergerak langsung menjauhi tepi Anda, pada jarak konstan dari ujung kiri meja), bagian, atau potongan, kira-kira selebar sepuluh cm .

Idenya adalah untuk mencari tahu jarak rata-rata ke kuku dari tepi meja Anda di bagian kecil itu. Secara intuitif itu hanya bagian tengah gundukan yang kita tekan tetapi jika kita mengukur setiap jarak ke paku pada bagian meja selebar tangan, kita bisa menghitung rata-rata dengan mudah.

Sebagai contoh, kita dapat menggunakan T-square yang kepalanya meluncur di sepanjang tepi meja dan yang porosnya mengarah ke sisi lain meja, tetapi tepat di atas meja sehingga kita tidak mengenai paku saat slide itu meluncur ke kiri. atau kanan - ketika kita melewati paku yang diberikan kita bisa mendapatkan jaraknya di sepanjang poros T-square.

Jadi pada perkembangan tempat-tempat di sepanjang tepi kami, kami mengulangi latihan ini untuk menemukan semua paku di strip selebar berjalan menuju dan menjauh dari kami dan menemukan jarak rata-rata mereka. Mungkin kita membagi meja menjadi strip selebar tangan di sepanjang tepi kita (sehingga setiap paku ditemukan tepat di satu strip).

Sekarang bayangkan ada yang mengatakan 21 strip seperti itu, yang pertama di tepi kiri dan yang terakhir di tepi kanan. Berarti semakin jauh dari tepi meja kami saat kami maju melintasi strip.

Ini berarti membentuk estimator regresi nonparametrik sederhana dari ekspektasi y (jarak-jauh kami) yang diberikan x (jarak di sepanjang tepi kami dari ujung kiri), yaitu, E (y | x). Secara khusus, ini adalah estimator regresi nonparametrik biner, juga disebut regressogram

Jika strip tersebut berarti meningkat secara teratur - yaitu, rata-rata biasanya meningkat sekitar jumlah yang sama per strip ketika kami bergerak melintasi strip - maka kita bisa lebih baik memperkirakan fungsi regresi kita dengan mengasumsikan bahwa nilai yang diharapkan dari y adalah linier fungsi x - yaitu bahwa nilai yang diharapkan dari y yang diberikan x adalah konstanta ditambah kelipatan x. Di sini konstanta mewakili di mana kuku cenderung berada ketika kita di x adalah nol (seringkali kita mungkin menempatkan ini di ujung kiri ekstrim tetapi tidak harus), dan kelipatan x tertentu adalah seberapa cepat rata-rata rata-rata berubah saat kita bergerak dengan satu sentimeter (katakanlah) ke kanan.

Tetapi bagaimana menemukan fungsi linier seperti itu?

Bayangkan kita melilitkan satu karet gelang di atas masing-masing kepala kuku, dan menempelkannya pada sebuah tongkat tipis panjang yang terletak tepat di atas meja, di atas kuku, sehingga ia berada di suatu tempat dekat "tengah" dari setiap pita yang telah kita buat. untuk.

Kami menempelkan pita sedemikian rupa sehingga mereka hanya meregangkan arah ke arah dan menjauh dari kami (tidak ke kiri atau kanan) - ke kiri sendiri mereka akan menarik sehingga membuat arah peregangan pada sudut kanan dengan tongkat, tetapi di sini kita mencegahnya, sehingga arah peregangan mereka tetap hanya pada arah menuju atau menjauh dari ujung meja kita. Sekarang kita membiarkan tongkat mengendap saat pita menariknya ke arah masing-masing kuku, dengan kuku yang lebih jauh (dengan karet gelang yang diregangkan) menarik secara bersamaan lebih keras daripada kuku yang dekat dengan tongkat.

Maka hasil gabungan dari semua pita yang menarik tongkat adalah (idealnya, setidaknya) menarik tongkat untuk meminimalkan jumlah panjang kuadrat dari pita karet yang diregangkan; dalam arah itu secara langsung di seberang meja, jarak dari tepi meja ke tongkat pada posisi x mana pun akan menjadi estimasi nilai y yang diharapkan dari x yang diberikan.

Ini pada dasarnya adalah estimasi regresi linier.

Sekarang, bayangkan bahwa alih-alih paku, kita memiliki banyak buah (seperti apel kecil mungkin) yang tergantung di pohon besar dan kami ingin menemukan jarak rata-rata buah di atas tanah karena bervariasi dengan posisi di tanah. Bayangkan bahwa dalam hal ini ketinggian di atas tanah menjadi lebih besar saat kita maju dan sedikit lebih besar saat kita bergerak ke kanan, lagi secara teratur, sehingga setiap langkah maju biasanya mengubah tinggi rata-rata sekitar jumlah yang sama, dan setiap langkah ke hak juga akan mengubah rata-rata dengan jumlah yang kira-kira konstan (tetapi jumlah rata-rata stepping-right ini berbeda dengan jumlah perubahan step-forward).

Jika kita meminimalkan jumlah jarak vertikal kuadrat dari buah ke lembaran datar tipis (mungkin lembaran tipis plastik sangat kaku) untuk mengetahui bagaimana perubahan rata-rata tinggi ketika kita bergerak maju atau melangkah ke kanan, itu akan menjadi regresi linier dengan dua prediktor - regresi berganda.

Ini adalah satu-satunya dua kasus yang plotnya dapat membantu memahami (mereka dapat menunjukkan dengan cepat apa yang baru saja saya jelaskan panjang lebar, tetapi mudah-mudahan Anda tahu memiliki dasar untuk mengkonseptualisasikan ide yang sama). Di luar dua kasus paling sederhana itu, kita hanya memiliki matematika saja.

Sekarang ambil contoh harga rumah Anda; Anda dapat mewakili area setiap rumah dengan jarak di sepanjang tepi meja Anda - mewakili ukuran rumah terbesar sebagai posisi di dekat tepi kanan, setiap ukuran rumah lainnya akan berada beberapa posisi lebih jauh ke kiri di mana sejumlah sentimeter tertentu akan mewakili beberapa jumlah meter persegi. Sekarang jaraknya merupakan harga jual. Merupakan rumah paling mahal karena jarak tertentu di dekat ujung meja terjauh (seperti biasa, ujung terjauh dari kursi Anda), dan setiap sentimeter yang bergeser akan mewakili sejumlah Rial.

Untuk saat ini bayangkan bahwa kami memilih representasi sehingga tepi kiri meja sesuai dengan luas rumah nol dan tepi dekat dengan harga rumah 0. Kami kemudian memasang paku untuk setiap rumah.

Kami mungkin tidak akan memiliki paku di dekat ujung kiri tepi kami (mereka mungkin sebagian besar ke arah kanan dan jauh dari kami) karena ini tidak selalu merupakan pilihan skala yang baik tetapi pilihan Anda dari model tanpa-penyadapan membuat ini cara yang lebih baik untuk membahasnya.

Sekarang dalam model Anda, Anda memaksa tongkat untuk melewati lingkaran tali di sudut kiri dekat meja - sehingga memaksa model yang dipasang memiliki harga nol untuk area nol, yang mungkin tampak alami - tetapi bayangkan jika ada beberapa komponen harga yang cukup konstan yang mempengaruhi setiap penjualan. Maka masuk akal jika intersepnya berbeda dari nol.

Bagaimanapun, dengan penambahan loop itu, latihan karet gelang yang sama seperti sebelumnya akan menemukan estimasi kuadrat terkecil dari garis.

Glen_b
sumber
Wow, terima kasih atas jawaban spasial yang panjang ini. Itu menjelaskan banyak hal. Terima kasih.
Parham Doustdar
2

Pernahkah Anda menemui jenis pemanggang yang sering Anda dapatkan di hotel. Anda menaruh roti pada sabuk konveyor di satu ujung dan keluar sebagai roti panggang di ujung lainnya. Sayangnya, di pemanggang roti di hotel murah ini, pemanas semua dipindahkan ke ketinggian acak dan jarak dari pintu masuk ke pemanggang roti. Anda tidak dapat memindahkan pemanas atau membengkokkan jalur sabuk (yang lurus, omong-omong (di sinilah bit linear masuk), tetapi Anda dapat mengubah HEIGHT dan TILT sabuk.

Mengingat posisi semua pemanas, regresi linier akan memberi tahu Anda ketinggian dan sudut yang tepat untuk menempatkan sabuk untuk mendapatkan panas terbanyak secara keseluruhan. Ini karena regresi linier akan meminimalkan jarak rata-rata antara roti bakar dan pemanas.

Pekerjaan liburan pertama saya adalah melakukan regresi linier dengan tangan. Pria yang mengatakan kamu tidak ingin melakukan itu adalah BENAR !!!

Chris J
sumber
2

Penjelasan favorit saya tentang regresi linier adalah geometris, tetapi tidak visual. Itu memperlakukan set data sebagai satu titik dalam ruang dimensi tinggi, daripada memecahnya menjadi awan titik dalam ruang dua dimensi.

Sebuahhal(Sebuah,hal)Sebuah1,...,Sebuah1000hal1,...,hal1000

D=(Sebuah1,...,Sebuah1000,hal1,...,hal1000)
D

D

M.(ρ,β)=(Sebuah1,...,Sebuah1000,ρSebuah1+β,...,ρSebuah1000+β).
ρβSebuah1,...,Sebuah1000ρβ

DM.(ρ,β)D

DM.(ρ,β)

[hal1-(ρSebuah1+β)]2+...+[hal1000-(ρSebuah1000+β)]2.
Dengan kata lain, jarak antara titik data dan titik model adalah kesalahan kuadrat total model! Meminimalkan kesalahan kuadrat total model adalah hal yang sama dengan meminimalkan jarak antara model dan data dalam ruang data.

ρβDM.(ρ,β)

Vectornaut
sumber
1

@Chris Rackauckas dan jawaban @ EDM sangat tepat. Ada banyak cara untuk mendekati regresi linier sederhana yang tidak memerlukan plot atau penjelasan visual dari estimasi kuadrat terkecil biasa, dan mereka memberikan penjelasan yang sangat solid tentang apa yang sebenarnya terjadi ketika Anda menjalankan OLS.

Saya dapat menambahkan bahwa menggunakan scatterplots sebagai alat instruksi untuk mempelajari segala jenis prosedur pemodelan baru, apakah itu model parametrik sekolah lama, materi pembelajaran mesin canggih, atau algoritma bayesian, grafik dapat membantu mengurangi waktu yang diperlukan untuk mempelajari apa yang khusus Algoritma tidak.

Grafik juga sangat penting untuk analisis data eksplorasi ketika Anda pertama kali mulai bekerja dengan dataset baru. Saya memiliki situasi di mana saya mengumpulkan banyak data, menyusun teorinya, merencanakan model saya dengan hati-hati, dan kemudian menjalankannya, hanya untuk berakhir dengan hasil yang pada dasarnya tidak memiliki kekuatan prediksi. Merencanakan hubungan bivariat dapat menghilangkan beberapa dugaan: dalam contoh Anda, ada kemungkinan bahwa harga rumah terkait linier dengan area, tetapi mungkin hubungannya tidak linier. Scatterplots membantu Anda memutuskan apakah Anda memerlukan istilah urutan lebih tinggi dalam regresi Anda, atau jika Anda ingin menggunakan metode yang berbeda dari regresi linier, atau jika Anda ingin menggunakan semacam metode nonparametrik.

Chris K
sumber
1

Google untuk Kuartet Anscombe.

Ini menunjukkan 4 set data yang pada pemeriksaan numerik tidak menunjukkan banyak perbedaan.

Namun, saat membuat plot pencar visual, perbedaannya menjadi terlihat secara dramatis.

Ini memberikan pandangan yang cukup jelas mengapa Anda harus selalu memplot data Anda, regresi atau tidak ada regresi :-)

ctd2015
sumber
0

Kami ingin memiliki solusi yang meminimalkan perbedaan antara nilai yang diprediksi dan yang sebenarnya.

y=bx+Sebuah

yy

Jika kita mengasumsikan bahwa distribusi kesalahan terdistribusi secara normal ternyata ada solusi analitik untuk masalah minimisasi ini. Jumlah kuadrat perbedaan adalah nilai terbaik untuk diminimalkan agar paling cocok. Tetapi normalitas tidak diperlukan dalam kasus umum.

Sebenarnya tidak ada yang lebih dari itu.

y=bx+Sebuah

Saat ini dibiarkan lebih sebagai bantuan pemahaman tetapi tidak perlu harus memahami regresi linier benar-benar.

EDIT: mengganti asumsi normalitas kesalahan dengan daftar yang benar tetapi kurang ringkas. Normalitas diperlukan untuk memiliki solusi analitis dan dapat diasumsikan untuk banyak kasus praktis dan dalam hal itu jumlah kuadrat optimal tidak hanya untuk estimator linier dan memaksimalkan kemungkinan juga.

Jika lebih jauh asumsi normalitas distribusi kesalahan berlaku maka Jumlah Kuadrat optimal di antara estimator linier dan non-linier dan memaksimalkan kemungkinan.

Diego
sumber
1
Asumsi distribusi normal tidak diperlukan untuk apa pun yang Anda gambarkan
Aksakal
Tolong
Diego
Tautan tidak ada hubungannya dengan jawaban Anda. Jika Anda memperluas ke properti sampel kecil atau MLE, maka Anda bisa memasukkan asumsi distribusi normal, tetapi seperti yang ada deskripsi OLS dalam jawaban Anda tidak perlu distribusi normal. Bahkan untuk meminimalkan jumlah kotak Anda tidak perlu distribusi atau statistik sama sekali. Ini adalah aljabar murni.
Aksakal
Intinya adalah tentang mengapa kita meminimalkan jumlah kuadrat dan bukan metrik lainnya. Bukan tentang cara meminimalkan jumlah kotak.
Diego
Meminimalkan jumlah kuadrat tidak ada hubungannya dengan distribusi normal. Ini hanya fungsi kerugian Anda. Distribusi kesalahan lain dapat digunakan dengan fungsi kehilangan ini. Anda memerlukan distribusi dalam kasus-kasus tertentu, misalnya jika Anda ingin membuat kesimpulan tentang nilai parameter dalam sampel kecil dll. Bahkan dalam kasus ini Anda dapat menggunakan distribusi lain, saya tidak yakin mengapa Anda terjebak pada normal.
Aksakal