Garis yang paling cocok tidak terlihat seperti yang cocok. Mengapa?

82

Lihatlah grafik Excel ini: grafik

Garis 'akal sehat' paling cocok akan muncul menjadi garis hampir vertikal lurus melalui pusat poin (diedit dengan tangan berwarna merah). Namun garis tren linier yang ditentukan oleh Excel adalah garis hitam diagonal yang ditunjukkan.

  1. Mengapa Excel menghasilkan sesuatu yang (bagi mata manusia) tampak salah?
  2. Bagaimana saya bisa menghasilkan garis paling pas yang terlihat sedikit lebih intuitif (yaitu sesuatu seperti garis merah)?

Pembaruan 1. Lembar kerja Excel dengan data dan grafik tersedia di sini: contoh data , CSV di Pastebin . Apakah teknik regresi type1 dan type2 tersedia sebagai fungsi excel?

Pembaruan 2. Data tersebut menunjukkan pendakian paraglider dalam termal saat melayang bersama angin. Tujuan akhir adalah untuk menyelidiki bagaimana kekuatan dan arah angin bervariasi dengan ketinggian. Saya seorang insinyur, BUKAN ahli matematika atau ahli statistik, jadi informasi dalam tanggapan ini telah memberi saya lebih banyak bidang untuk penelitian.

ConanTheGerbil
sumber
5
Sejujurnya, saya ragu bahwa ini adalah pertanyaan tentang Deming regression vs OLS. Melihat variabilitas absolut yang sangat kecil di dan , saya lebih suka berpikir ini mungkin masalah numerik di Excel. Bisakah Anda mengedit pertanyaan Anda untuk memasukkan data? xy
S. Kolassa - Pasang kembali Monica
12
Fenomena ini adalah salah satu penemuan statistik utama abad ke-19 (jika tidak selamanya). Ini disebut regresi menuju rata-rata . Memang, itulah alasan utama mengapa prosedur statistik ini disebut "regresi"!
whuber
3
Saya harus menambahkan bahwa alasan utama kecocokan terlihat sangat berbeda adalah karena plot sangat membesar-besarkan skala pada sumbu-y. Dengan menggambarnya di mana kedua skala sebanding dengan standar deviasi marginal, Anda mungkin sampai pada kesimpulan yang sama sekali berbeda tentang mana yang lebih cocok "akal sehat."
whuber
6
@StephanKolassa - Perhatikan seberapa besar kesalahannya jika Anda menggunakan garis merah dan memperkirakan untuk ; garis merah tidak bisa menjadi kotak paling cocok. Excel memang memiliki masalah, tetapi saya pikir ini bukan salah satunya. yx=0.714
jbowman
7
Ini telah dibahas beberapa kali di situs (mis. Lihat di sini ). Ketika Anda memahami apa itu garis regresi, mudah untuk melihat mengapa itu garis hitam. Tanyakan kepada diri Anda dua pertanyaan: 1: berapa nilai rata-rata y ketika x adalah sekitar 0,712? 2. Apa yang diprediksi oleh garis merah dan garis hitam? ... [Saya telah menunda penutupan sebagai duplikat untuk saat ini karena ada masalah khusus dengan data Anda yang akan layak untuk memfokuskan kembali pertanyaan Anda pada]
Glen_b

Jawaban:

111

Apakah ada variabel dependen?

Garis tren di Excel adalah dari regresi variabel dependen "lat" pada variabel independen "lon." Apa yang Anda sebut "garis akal sehat" dapat diperoleh saat Anda tidak menetapkan variabel dependen , dan memperlakukan lintang dan bujur secara merata. Yang terakhir dapat diperoleh dengan menerapkan PCA . Secara khusus, ini adalah salah satu vektor eigen dari matriks kovarians dari variabel-variabel ini. Anda dapat menganggapnya sebagai garis yang meminimalkan jarak terpendek dari titik ke garis itu sendiri, yaitu Anda menggambar garis tegak lurus ke garis, dan meminimalkan jumlah dari mereka untuk setiap pengamatan.(xi,yi)

masukkan deskripsi gambar di sini

Berikut ini cara melakukannya di R:

> para <- read.csv("para.csv")
> plot(para)
> 
> # run PCA
> pZ=prcomp(para,rank.=1)
> # look at 1st PC
> pZ$rotation
           PC1
lon 0.09504313
lat 0.99547316
> 
> colMeans(para) # PCA was centered
       lon        lat 
-0.7129371 53.9368720 
> # recover the data from 1st PC
> pc1=t(pZ$rotation %*% t(pZ$x) )
> # center and show
> lines(pc1 + t(t(rep(1,123))) %*% c)

Garis tren yang Anda dapatkan dari Excel adalah sebagai akal sehat seperti vektor eigen dari PCA ketika Anda memahami bahwa dalam regresi Excel variabel tidak sama. Di sini Anda meminimalkan jarak vertikal dari ke , di mana sumbu y adalah garis lintang dan sumbu x adalah garis bujur.yiy(xi)

Apakah Anda ingin memperlakukan variabel sama atau tidak tergantung pada tujuan. Ini bukan kualitas data yang melekat. Anda harus memilih alat statistik yang tepat untuk menganalisis data, dalam hal ini memilih antara regresi dan PCA.

Jawaban untuk pertanyaan yang tidak diajukan

Jadi, mengapa dalam kasus Anda garis tren (regresi) di Excel tampaknya tidak menjadi alat yang cocok untuk kasus Anda? Alasannya adalah bahwa garis tren adalah jawaban untuk pertanyaan yang tidak ditanyakan. Inilah sebabnya.

Regresi Excel sedang mencoba memperkirakan parameter garis . Jadi, masalah pertama adalah garis lintang bahkan bukan fungsi garis bujur, secara tegas (lihat catatan di akhir posting), dan itu bahkan bukan masalah utama. Masalah sebenarnya adalah bahwa Anda bahkan tidak tertarik pada lokasi paraglider, Anda tertarik pada angin.lat=a+b×lon

Bayangkan tidak ada angin. Paraglider akan membuat lingkaran yang sama berulang-ulang. Apa yang akan menjadi garis tren? Jelas, itu akan menjadi garis horizontal datar, kemiringannya akan nol, namun itu tidak berarti bahwa angin bertiup ke arah horisontal!

Berikut adalah plot simulasi ketika ada angin kencang sepanjang sumbu y, sementara paraglider membuat lingkaran yang sempurna. Anda dapat melihat bagaimana regresi linier menghasilkan hasil yang tidak masuk akal, garis tren horizontal. Sebenarnya, ini bahkan sedikit negatif, tetapi tidak signifikan. Arah angin ditunjukkan dengan garis merah:yx

masukkan deskripsi gambar di sini

Kode R untuk simulasi:

t=1:123
a=1 #1
b=0 #1/10
y=10*sin(t)+a*t
x=10*cos(t)+b*t

plot(x,y,xlim=c(-60,60))
xp=-60:60
lines(b*t,a*t,col='red')

model=lm(y~x)
lines(xp,xp*model$coefficients[2]+model$coefficients[1])

Jadi, arah angin jelas tidak selaras dengan garis tren sama sekali. Mereka terhubung, tentu saja, tetapi dengan cara nontrivial. Oleh karena itu, pernyataan saya bahwa garis tren Excel adalah jawaban untuk beberapa pertanyaan, tetapi bukan yang Anda tanyakan.

Mengapa PCA?

Seperti yang Anda catat setidaknya ada dua komponen gerakan paraglider: drift dengan angin dan gerakan melingkar yang dikendalikan oleh paraglider. Ini terlihat jelas saat Anda menghubungkan titik-titik pada plot Anda:

masukkan deskripsi gambar di sini

Di satu sisi, gerakan memutar itu benar-benar mengganggu Anda: Anda tertarik pada angin. Meskipun di sisi lain, Anda tidak mengamati kecepatan angin, Anda hanya mengamati paraglider. Jadi, tujuan Anda adalah untuk menyimpulkan angin yang tidak dapat diobservasi dari pembacaan lokasi paraglider yang dapat diamati. Ini persis situasi di mana alat-alat seperti analisis faktor dan PCA dapat bermanfaat.

Tujuan PCA adalah untuk mengisolasi beberapa faktor yang menentukan banyak keluaran dengan menganalisis korelasi dalam keluaran. Ini efektif ketika output dikaitkan dengan faktor-faktor linear, yang terjadi pada data Anda: angin melayang hanya menambah koordinat gerakan melingkar, itu sebabnya PCA bekerja di sini.

Pengaturan PCA

Jadi, kami menetapkan bahwa PCA harus memiliki peluang di sini, tetapi bagaimana kami akan mengaturnya? Mari kita mulai dengan menambahkan variabel ketiga, waktu. Kita akan menetapkan waktu 1 hingga 123 untuk setiap 123 pengamatan, dengan asumsi frekuensi pengambilan sampel konstan. Begini tampilan plot 3D dari data, memperlihatkan struktur spiralnya:

masukkan deskripsi gambar di sini

Plot berikutnya menunjukkan pusat imajiner rotasi paraglider sebagai lingkaran cokelat. Anda dapat melihat bagaimana itu melayang di pesawat lat-lon dengan angin, sementara paraglider yang ditunjukkan dengan titik biru berputar-putar di sekitarnya. Waktu berada pada sumbu vertikal. Saya menghubungkan pusat rotasi ke lokasi paraglider yang menunjukkan hanya dua lingkaran pertama.

masukkan deskripsi gambar di sini

Kode R yang sesuai:

library(plotly)       

 para <- read.csv("C:/Users/akuketay/Downloads/para.csv")
 n=24

   para$t=1:123 # add time parameter

   # run PCA
     pZ3=prcomp(para)
     c3=colMeans(para) # PCA was centered
     # look at PCs in columns
       pZ3$rotation

       # get the imaginary center of rotation 
       pc31=t(pZ3$rotation[,1] %*% t(pZ3$x[,1]) )
     eye = pc31 + t(t(rep(1,123))) %*% c3
     eyedata = data.frame(eye)

     p = plot_ly(x=para[1:n,1],y=para[1:n,2],z=para[1:n,3],mode="lines+markers",type="scatter3d") %>%
       layout(showlegend=FALSE,scene=list(xaxis = list(title = 'lat'),yaxis = list(title = 'lon'),zaxis = list(title = 't'))) %>%
     add_trace(x=eyedata[1:n,1],y=eyedata[1:n,2],z=eyedata[1:n,3],mode="markers",type="scatter3d") 
     for( i in 1:n){
         p = add_trace(p,x=c(eyedata[i,1],para[i,1]),y=c(eyedata[i,2],para[i,2]),z=c(eyedata[i,3],para[i,3]),color="black",mode="lines",type="scatter3d")
       }

subplot(p)

Penyimpangan pusat rotasi paraglider disebabkan terutama oleh angin, dan jalur dan kecepatan penyimpangan berkorelasi dengan arah dan kecepatan angin, variabel-variabel yang tidak dapat diamati. Beginilah tampilan drift ketika diproyeksikan ke bidang lat-lon:

masukkan deskripsi gambar di sini

Regresi PCA

Jadi, sebelumnya kami menetapkan bahwa regresi linier reguler tampaknya tidak berfungsi dengan baik di sini. Kami juga menemukan alasannya: karena tidak mencerminkan proses yang mendasarinya, karena gerakan paraglider sangat tidak linier. Ini kombinasi dari gerakan melingkar dan penyimpangan linear. Kami juga membahas bahwa dalam analisis situasi situasi ini mungkin bermanfaat. Berikut adalah garis besar dari satu pendekatan yang mungkin untuk memodelkan data ini: Regresi PCA . Tapi tinju saya akan menunjukkan Anda kurva pas regresi PCA :

masukkan deskripsi gambar di sini

Ini telah diperoleh sebagai berikut. Jalankan PCA pada set data yang memiliki kolom tambahan t = 1: 123, seperti yang dibahas sebelumnya. Anda mendapatkan tiga komponen utama. Yang pertama adalah t. Yang kedua sesuai dengan kolom lon, dan yang ketiga ke kolom lat.

Saya menyesuaikan dua komponen utama yang terakhir dengan variabel bentuk , di mana diekstraksi dari analisis spektral komponen. Mereka kebetulan memiliki frekuensi yang sama tetapi fase yang berbeda, yang tidak mengherankan mengingat gerakan melingkar.asin(ωt+φ)ω,φ

Itu dia. Untuk mendapatkan nilai yang pas Anda memulihkan data dari komponen yang dipasang dengan mencolokkan transposis dari matriks rotasi PCA ke dalam komponen utama yang diprediksi. Kode R saya di atas menunjukkan bagian dari prosedur, dan sisanya Anda dapat dengan mudah mengetahuinya.

Kesimpulan

Sangat menarik untuk melihat seberapa kuat PCA dan alat-alat sederhana lainnya ketika datang ke fenomena fisik di mana proses yang mendasarinya stabil, dan input diterjemahkan ke dalam output melalui hubungan linear (atau linierisasi). Jadi dalam kasus kami gerakan melingkar sangat nonlinear tetapi kami dengan mudah melinearkannya dengan menggunakan fungsi sinus / kosinus pada parameter t waktu. Plot saya diproduksi hanya dengan beberapa baris kode R seperti yang Anda lihat.

Model regresi harus mencerminkan proses yang mendasarinya, maka hanya Anda yang dapat mengharapkan bahwa parameternya bermakna. Jika ini adalah paraglider yang terbawa angin, maka sebaran plot sederhana seperti dalam pertanyaan asli akan menyembunyikan struktur waktu proses.

Regresi Excel juga merupakan analisis cross sectional, yang regresi liniernya bekerja paling baik, sedangkan data Anda merupakan proses deret waktu, di mana pengamatannya diatur dalam waktu. Analisis deret waktu harus diterapkan di sini, dan itu dilakukan dalam regresi PCA.

Catatan tentang suatu fungsi

Karena paraglider membuat lingkaran, akan ada banyak garis lintang yang sesuai dengan satu garis bujur. Dalam matematika fungsi memetakan nilai ke nilai tunggal . Ini hubungan banyak-ke-satu, yang berarti bahwa beberapa dapat sesuai dengan , tetapi tidak beberapa sesuai dengan satu . Itulah sebabnya bukan fungsi, secara tegas.y=f(x)xyxyyxlat=f(lon)

Aksakal
sumber
11
Tangkapan yang bagus pada struktur spiral! Dua komentar samping: Lebih mudah bekerja dengan sebagai parameterisasi alternatif. Ada banyak kasus di mana kami memilih untuk rata-rata daripada periodisitas yang tidak menarik atau relevan dengan masalah utama. a sin ωt+b cos ωt
Nick Cox
11
Apakah Anda ingin memperlakukan mereka sama atau tidak tergantung pada tujuannya. Ini bukan kualitas data yang melekat. - Poin bagus dan +1.
Richard Hardy
@NickCox, itu benar, itu akan menjadi kurang bekerja juga
Aksakal
Mungkin perlu menunjukkan bahwa PCA adalah generalisasi dari regresi sumbu utama untuk situasi di mana Anda memiliki> 2 variabel. Tetapi karena dalam kasus ini hanya ada 2 variabel nama standar untuk teknik ini adalah regresi sumbu utama (juga kadang-kadang disebut regresi ortogonal atau regresi Tipe II).
Tom Wenseleers
61

Jawabannya mungkin ada hubungannya dengan bagaimana Anda menilai secara mental jarak ke garis regresi. Regresi standar (Tipe 1) meminimalkan kesalahan kuadrat, di mana kesalahan dihitung berdasarkan jarak vertikal ke garis .

Regresi tipe 2 mungkin lebih analog dengan penilaian Anda terhadap garis terbaik. Di dalamnya, kesalahan kuadrat diminimalkan adalah jarak tegak lurus ke garis . Ada sejumlah konsekuensi dari perbedaan ini. Salah satu yang penting adalah bahwa jika Anda menukar sumbu X dan Y dalam plot Anda dan mereparasi garis, Anda akan mendapatkan hubungan yang berbeda antara variabel untuk regresi Tipe 1. Untuk regresi Tipe 2, hubungannya tetap sama.

Kesan saya adalah bahwa ada cukup banyak perdebatan tentang di mana harus menggunakan regresi Tipe 1 vs Tipe 2, dan jadi saya sarankan membaca dengan seksama tentang perbedaan sebelum memutuskan mana yang akan diterapkan. Regresi tipe 1 sering direkomendasikan dalam kasus di mana satu sumbu dikendalikan secara eksperimental, atau setidaknya diukur dengan kesalahan yang jauh lebih sedikit daripada yang lainnya. Jika kondisi ini tidak terpenuhi, regresi tipe 1 akan bias miring ke arah 0 dan oleh karenanya regresi tipe 2 direkomendasikan. Namun, dengan kebisingan yang cukup di kedua sumbu, regresi tipe 2 tampaknya cenderung membiaskan mereka ke arah 1. Warton et al. (2006) dan Smith (2009) adalah sumber yang baik untuk memahami perdebatan.

Juga perhatikan bahwa ada beberapa metode yang agak berbeda yang termasuk dalam kategori luas regresi Tipe 2 (Sumbu Utama, Sumbu Utama Berkurang, dan regresi Sumbu Utama Standar), dan bahwa terminologi tentang metode spesifik tidak konsisten.

Warton, DI, IJ Wright, DS Falster, dan M. Westoby. 2006. Metode pemasangan garis bivariat untuk alometri. Biol. Rev. 81: 259–291. doi: 10.1017 / S1464793106007007

Smith, RJ 2009. Tentang penggunaan dan penyalahgunaan sumbu utama yang dikurangi untuk pemasangan saluran. Saya. J. Phys. Anthropol. 140: 476–486. doi: 10.1002 / ajpa.21090


EDIT :

@amoeba menunjukkan bahwa apa yang saya sebut regresi Tipe 2 di atas juga dikenal sebagai regresi ortogonal; ini mungkin istilah yang lebih tepat. Seperti yang saya katakan di atas, terminologi di bidang ini tidak konsisten, yang membutuhkan perawatan ekstra.

mkt - Pasang kembali Monica
sumber
19
Perdebatan apakah akan menggunakan tipe 1 atau tipe 2? Tidak ada yang perlu diperdebatkan ketika Anda tahu apa tujuan Anda (fungsi tujuan atau fungsi kerugian). Dan jika Anda tidak melakukannya, Anda harus mengklarifikasi sebelum melanjutkan.
Richard Hardy
7
Tipe 2 juga menghasilkan hasil yang tidak masuk akal jika kedua sumbu menggunakan unit yang berbeda.
John Dvorak
4
Anda menggunakan "Tipe 1" dan "Tipe 2" seolah-olah ini adalah istilah standar. Apakah mereka? Saya tidak pernah mengepalai siapa pun yang menyebut regresi biasa dan regresi ortogonal "tipe 1" dan "tipe 2".
Amuba kata Reinstate Monica
2
@ RichardHardy Tentu saja, mengklarifikasi tujuan spesifik seseorang adalah yang terbaik. Tetapi seperti yang saya katakan dalam jawaban, kesan saya adalah bahwa ada perdebatan yang sedang berlangsung tentang penggunaannya dalam subset kasus - dan makalah-makalah yang saya kutip (serta rekomendasi yang saling bertentangan yang saya dapatkan dari pengulas) tampaknya mendukung hal ini.
mkt - Pasang kembali Monica
3
@ mkt, terima kasih atas klarifikasi Anda. Memang, mungkin ada beberapa perdebatan di antara orang-orang yang tidak yakin apa yang mereka cari. Di sana, fokus perdebatan adalah yang mana dari keduanya yang lebih relevan untuk tujuan pokok pembicaraan mereka. Apa yang ingin saya tekankan adalah bahwa tidak ada perdebatan begitu tujuan Anda didefinisikan dengan baik, yaitu tujuan materi pelajaran diterjemahkan ke dalam bahasa statistik (yang tidak dapat dihindari jika seseorang menggunakan metode statistik). Jadi saya kira kita setuju, kita hanya menekankan bagian yang berbeda dari argumen.
Richard Hardy
31

Pertanyaan yang coba dijawab Excel adalah: "Dengan asumsi bahwa y bergantung pada x, baris mana yang memprediksi y terbaik". Jawabannya adalah karena variasi besar dalam y, tidak ada baris yang bisa sangat baik, dan apa yang ditampilkan Excel adalah yang terbaik yang dapat Anda lakukan.

Jika Anda mengambil garis merah yang Anda usulkan, dan meneruskannya hingga x = -0.714 dan x = -0.712, Anda akan menemukan bahwa nilainya jauh, jauh dari grafik, dan berada pada jarak yang sangat jauh dari nilai y yang sesuai .

Pertanyaan yang dijawab Excel bukanlah "baris mana yang paling dekat dengan titik data", tetapi "baris mana yang paling baik untuk memprediksi nilai y dari nilai x", dan ia melakukan ini dengan benar.

gnasher729
sumber
4
Persis. Asumsi yang mendasarinya adalah "x diberikan, y diukur / diprediksi".
Floris
12

Saya tidak ingin menambahkan apa pun ke jawaban lain, tetapi saya ingin mengatakan bahwa Anda telah disesatkan oleh terminologi yang buruk, khususnya istilah "garis paling cocok" yang digunakan dalam beberapa kursus statistik.

Secara intuitif, "garis paling cocok" akan terlihat seperti garis merah Anda. Tetapi garis yang diproduksi oleh Excel bukanlah "garis yang paling cocok"; bahkan tidak berusaha untuk menjadi. Ini adalah baris yang menjawab pertanyaan: diberi nilai x, apa prediksi terbaik saya untuk y? atau sebagai alternatif, berapa nilai rata-rata y untuk setiap nilai x?

Perhatikan asimetri di sini antara x dan y; menggunakan nama "garis paling pas" mengaburkan ini. Begitu juga dengan penggunaan "trendline" Excel.

Dijelaskan dengan sangat baik di tautan berikut:

https://www.stat.berkeley.edu/~stark/SticiGui/Text/regress.htm

Anda mungkin menginginkan sesuatu yang lebih seperti apa yang disebut "Tipe 2" pada jawaban di atas, atau "SD Line" di halaman kursus statistik Berkeley.

Flounderer
sumber
11

Bagian dari masalah optik berasal dari skala yang berbeda - jika Anda menggunakan skala yang sama pada kedua sumbu, itu akan terlihat sudah berbeda.

Dengan kata lain, Anda dapat membuat sebagian besar garis 'paling cocok' terlihat 'tidak intuitif' dengan menyebarkan satu skala sumbu.

Aganju
sumber
1
Saya setuju ini adalah jawabannya - rentang X dari nilai-nilai adalah sekitar 0,02 lebar, tetapi kisaran Y hanya sekitar 0,005 - pada kenyataannya grafik harus sekitar 4 kali lebih lebar daripada tinggi, dan akan jelas bahwa paling cocok akan horisontal. Fenomena dalam pertanyaan ini murni visual karena skala yang berbeda.
RemcoGerlich
3
@RemcoGerlich Kami dapat menyetujui bahwa seperti yang ditunjukkan dalam pertanyaan, rasio aspek grafik tidak membantu. Tetapi saran bahwa Anda memerlukan grafik 4 kali selebar tinggi karena secara numerik rentang dalam rasio itu tidak masuk akal dan tentu saja bukan masalah fakta. Jika unit pada kedua sumbu diubah oleh faktor 1000, apakah Anda menyarankan rasio aspek 4000 atau 0,004? Rasio 4x kemungkinan hanya efek samping dari unit yang berbeda.
Nick Cox
4
Jawaban lainnya memberikan jawaban yang benar. Sayangnya ini tidak. Jika kita mengubah skala nilai, sehingga kita mendapatkan gambar visual yang sama, tetapi dengan sumbu yang sama, itu masih merupakan masalah pemasangan "tipe 1" vs "tipe 2".
Hans Janssen
1
Dia berbicara tentang "akal sehat" yang paling cocok, apa yang benar "bagi mata manusia". Dan kemudian penskalaan sumbu adalah hal utama yang relevan.
RemcoGerlich
Dia benar, kadang-kadang apa yang tampak intuitif dipengaruhi oleh hal-hal konyol seperti penskalaan, meskipun ini bukan kasusnya. Di sini kita memiliki ketidaksesuaian asli antara apa yang dilakukan excel dan apa yang diinginkan OP
Aksakal
4

Beberapa orang telah mencatat bahwa masalahnya adalah visual - penskalaan grafis yang digunakan menghasilkan informasi yang menyesatkan. Lebih khusus lagi, penskalaan "lon" sedemikian rupa sehingga nampak seperti spiral yang ketat yang menunjukkan garis regresi memberikan kecocokan yang buruk (penilaian yang saya setujui, garis merah yang Anda gambar akan memberikan kesalahan kuadrat yang lebih rendah jika data dibentuk dengan cara yang disajikan).

Di bawah ini saya memberikan sebar yang dibuat di Excel dengan skala untuk "lon" diubah sehingga tidak menghasilkan spiral ketat di sebar Anda. Dengan perubahan ini, garis regresi sekarang memberikan kesesuaian visual yang lebih baik dan saya pikir membantu menunjukkan bagaimana penskalaan di sebar asli memberikan penilaian kesesuaian yang menyesatkan.

Saya pikir regresi bekerja dengan baik di sini. Saya tidak berpikir diperlukan analisis yang lebih kompleks.

masukkan deskripsi gambar di sini

Bagi yang berminat, saya telah merencanakan data menggunakan alat pemetaan dan menunjukkan regresi yang sesuai dengan data. Titik-titik merah adalah data yang direkam dan hijau adalah garis regresi.

masukkan deskripsi gambar di sini

Dan berikut adalah data yang sama dalam sebaran plot dengan garis regresi; di sini lat diperlakukan sebagai skor dependen dan lat dibalik agar sesuai dengan profil geografis.

masukkan deskripsi gambar di sini

Bryan
sumber
1
Regresi tidak menunjukkan arah pergeseran angin
Aksakal
Kami hanya tahu lat dan lon, dan untuk data yang disediakan itu memang menunjukkan perubahan satu relatif ke yang lain.
Bryan
Jadi apa arti garis tren ini?
Aksakal
Dengan asumsi titik pertama dalam file data adalah lokasi awal, tampaknya ada sedikit peningkatan utara dalam rute perjalanan ke timur lebih lanjut. Data tidak memberikan informasi tentang kekuatan atau ketinggian angin, tetapi memberikan arah - timur oleh utara.
Bryan
Koreksi, perangkat lunak pemetaan yang saya gunakan meminta lat-lon, tetapi datanya lon-lat, sehingga arah angin akan sedikit utara ke timur, yaitu ada sedikit gerakan ke timur yang lebih jauh dilalui oleh utara (atau sedikit gerakan barat ke selatan yang lebih jauh berwisata).
Bryan
1

Regresi kuadrat terkecil kuadrat (OLS) Anda yang membingungkan (yang meminimalkan jumlah deviasi kuadrat tentang nilai prediksi, (diamati-prediksi) ^ 2) dan regresi sumbu utama (yang meminimalkan jumlah kuadrat dari jarak tegak lurus antara setiap titik dan garis regresi, kadang-kadang ini disebut sebagai regresi Tipe II, regresi ortogonal atau regresi komponen utama standar).

Jika Anda ingin membandingkan dua pendekatan hanya di R saja periksa

data=read.csv("https://pastebin.com/raw/4TsstQYm")
require(lmodel2)
fit = lmodel2(lat ~ lon, data=data)
plot(fit,method="OLS") # ordinary least squares regression

masukkan deskripsi gambar di sini

plot(fit,method="MA") # major axis regression

masukkan deskripsi gambar di sini

Apa yang Anda temukan paling intuitif (garis merah Anda) hanyalah regresi sumbu utama, yang memang secara visual terlihat paling logis, karena meminimalkan jarak tegak lurus ke titik Anda. Regresi OLS hanya akan muncul untuk meminimalkan jarak tegak lurus ke titik Anda jika variabel x dan y berada pada skala pengukuran yang sama dan / atau memiliki jumlah kesalahan yang sama (Anda dapat melihat ini hanya berdasarkan pada teorema Pythagoras '). Dalam kasus Anda, variabel y Anda memiliki cara yang lebih tersebar, maka bedanya ...

Tom Wenseleers
sumber
0

Jawaban PCA adalah yang terbaik karena saya pikir itulah yang harus Anda lakukan mengingat deskripsi masalah Anda, namun jawaban PCA mungkin membingungkan PCA dan regresi yang merupakan hal yang sama sekali berbeda. Jika Anda ingin mengekstrapolasi kumpulan data khusus ini maka Anda perlu melakukan regresi, dan kemungkinan ingin melakukan regresi Deming (yang saya kira kadang-kadang berjalan dengan Tipe II, tidak pernah mendengar deskripsi ini). Namun, jika Anda ingin mengetahui arah apa yang paling penting (vektor eigen) dan memiliki metrik dampak relatifnya pada kumpulan data (nilai eigen) maka PCA adalah pendekatan yang tepat.

Andrew H
sumber
4
Ini sebagian besar adalah serangkaian komentar pada jawaban lain. Akan lebih baik untuk mengomentari langsung pada masing-masing. Saya tidak melihat bahwa jawaban oleh @Aksakal membingungkan PCA dan regresi sama sekali.
Nick Cox
Saya ingin berkomentar langsung, tetapi tidak cukup memiliki reputasi. Saya tidak berpikir Aksakal membingungkan regresi, tetapi saya pikir perlu menunjukkan kepada OP bahwa PCA dan regresi sama sekali berbeda.
Andrew H