Garis 'akal sehat' paling cocok akan muncul menjadi garis hampir vertikal lurus melalui pusat poin (diedit dengan tangan berwarna merah). Namun garis tren linier yang ditentukan oleh Excel adalah garis hitam diagonal yang ditunjukkan.
- Mengapa Excel menghasilkan sesuatu yang (bagi mata manusia) tampak salah?
- Bagaimana saya bisa menghasilkan garis paling pas yang terlihat sedikit lebih intuitif (yaitu sesuatu seperti garis merah)?
Pembaruan 1. Lembar kerja Excel dengan data dan grafik tersedia di sini: contoh data , CSV di Pastebin . Apakah teknik regresi type1 dan type2 tersedia sebagai fungsi excel?
Pembaruan 2. Data tersebut menunjukkan pendakian paraglider dalam termal saat melayang bersama angin. Tujuan akhir adalah untuk menyelidiki bagaimana kekuatan dan arah angin bervariasi dengan ketinggian. Saya seorang insinyur, BUKAN ahli matematika atau ahli statistik, jadi informasi dalam tanggapan ini telah memberi saya lebih banyak bidang untuk penelitian.
sumber
Jawaban:
Apakah ada variabel dependen?
Garis tren di Excel adalah dari regresi variabel dependen "lat" pada variabel independen "lon." Apa yang Anda sebut "garis akal sehat" dapat diperoleh saat Anda tidak menetapkan variabel dependen , dan memperlakukan lintang dan bujur secara merata. Yang terakhir dapat diperoleh dengan menerapkan PCA . Secara khusus, ini adalah salah satu vektor eigen dari matriks kovarians dari variabel-variabel ini. Anda dapat menganggapnya sebagai garis yang meminimalkan jarak terpendek dari titik ke garis itu sendiri, yaitu Anda menggambar garis tegak lurus ke garis, dan meminimalkan jumlah dari mereka untuk setiap pengamatan.(xi,yi)
Berikut ini cara melakukannya di R:
Garis tren yang Anda dapatkan dari Excel adalah sebagai akal sehat seperti vektor eigen dari PCA ketika Anda memahami bahwa dalam regresi Excel variabel tidak sama. Di sini Anda meminimalkan jarak vertikal dari ke , di mana sumbu y adalah garis lintang dan sumbu x adalah garis bujur.yi y(xi)
Apakah Anda ingin memperlakukan variabel sama atau tidak tergantung pada tujuan. Ini bukan kualitas data yang melekat. Anda harus memilih alat statistik yang tepat untuk menganalisis data, dalam hal ini memilih antara regresi dan PCA.
Jawaban untuk pertanyaan yang tidak diajukan
Jadi, mengapa dalam kasus Anda garis tren (regresi) di Excel tampaknya tidak menjadi alat yang cocok untuk kasus Anda? Alasannya adalah bahwa garis tren adalah jawaban untuk pertanyaan yang tidak ditanyakan. Inilah sebabnya.
Regresi Excel sedang mencoba memperkirakan parameter garis . Jadi, masalah pertama adalah garis lintang bahkan bukan fungsi garis bujur, secara tegas (lihat catatan di akhir posting), dan itu bahkan bukan masalah utama. Masalah sebenarnya adalah bahwa Anda bahkan tidak tertarik pada lokasi paraglider, Anda tertarik pada angin.lat=a+b×lon
Bayangkan tidak ada angin. Paraglider akan membuat lingkaran yang sama berulang-ulang. Apa yang akan menjadi garis tren? Jelas, itu akan menjadi garis horizontal datar, kemiringannya akan nol, namun itu tidak berarti bahwa angin bertiup ke arah horisontal!
Berikut adalah plot simulasi ketika ada angin kencang sepanjang sumbu y, sementara paraglider membuat lingkaran yang sempurna. Anda dapat melihat bagaimana regresi linier menghasilkan hasil yang tidak masuk akal, garis tren horizontal. Sebenarnya, ini bahkan sedikit negatif, tetapi tidak signifikan. Arah angin ditunjukkan dengan garis merah:y∼x
Kode R untuk simulasi:
Jadi, arah angin jelas tidak selaras dengan garis tren sama sekali. Mereka terhubung, tentu saja, tetapi dengan cara nontrivial. Oleh karena itu, pernyataan saya bahwa garis tren Excel adalah jawaban untuk beberapa pertanyaan, tetapi bukan yang Anda tanyakan.
Mengapa PCA?
Seperti yang Anda catat setidaknya ada dua komponen gerakan paraglider: drift dengan angin dan gerakan melingkar yang dikendalikan oleh paraglider. Ini terlihat jelas saat Anda menghubungkan titik-titik pada plot Anda:
Di satu sisi, gerakan memutar itu benar-benar mengganggu Anda: Anda tertarik pada angin. Meskipun di sisi lain, Anda tidak mengamati kecepatan angin, Anda hanya mengamati paraglider. Jadi, tujuan Anda adalah untuk menyimpulkan angin yang tidak dapat diobservasi dari pembacaan lokasi paraglider yang dapat diamati. Ini persis situasi di mana alat-alat seperti analisis faktor dan PCA dapat bermanfaat.
Tujuan PCA adalah untuk mengisolasi beberapa faktor yang menentukan banyak keluaran dengan menganalisis korelasi dalam keluaran. Ini efektif ketika output dikaitkan dengan faktor-faktor linear, yang terjadi pada data Anda: angin melayang hanya menambah koordinat gerakan melingkar, itu sebabnya PCA bekerja di sini.
Pengaturan PCA
Jadi, kami menetapkan bahwa PCA harus memiliki peluang di sini, tetapi bagaimana kami akan mengaturnya? Mari kita mulai dengan menambahkan variabel ketiga, waktu. Kita akan menetapkan waktu 1 hingga 123 untuk setiap 123 pengamatan, dengan asumsi frekuensi pengambilan sampel konstan. Begini tampilan plot 3D dari data, memperlihatkan struktur spiralnya:
Plot berikutnya menunjukkan pusat imajiner rotasi paraglider sebagai lingkaran cokelat. Anda dapat melihat bagaimana itu melayang di pesawat lat-lon dengan angin, sementara paraglider yang ditunjukkan dengan titik biru berputar-putar di sekitarnya. Waktu berada pada sumbu vertikal. Saya menghubungkan pusat rotasi ke lokasi paraglider yang menunjukkan hanya dua lingkaran pertama.
Kode R yang sesuai:
Penyimpangan pusat rotasi paraglider disebabkan terutama oleh angin, dan jalur dan kecepatan penyimpangan berkorelasi dengan arah dan kecepatan angin, variabel-variabel yang tidak dapat diamati. Beginilah tampilan drift ketika diproyeksikan ke bidang lat-lon:
Regresi PCA
Jadi, sebelumnya kami menetapkan bahwa regresi linier reguler tampaknya tidak berfungsi dengan baik di sini. Kami juga menemukan alasannya: karena tidak mencerminkan proses yang mendasarinya, karena gerakan paraglider sangat tidak linier. Ini kombinasi dari gerakan melingkar dan penyimpangan linear. Kami juga membahas bahwa dalam analisis situasi situasi ini mungkin bermanfaat. Berikut adalah garis besar dari satu pendekatan yang mungkin untuk memodelkan data ini: Regresi PCA . Tapi tinju saya akan menunjukkan Anda kurva pas regresi PCA :
Ini telah diperoleh sebagai berikut. Jalankan PCA pada set data yang memiliki kolom tambahan t = 1: 123, seperti yang dibahas sebelumnya. Anda mendapatkan tiga komponen utama. Yang pertama adalah t. Yang kedua sesuai dengan kolom lon, dan yang ketiga ke kolom lat.
Saya menyesuaikan dua komponen utama yang terakhir dengan variabel bentuk , di mana diekstraksi dari analisis spektral komponen. Mereka kebetulan memiliki frekuensi yang sama tetapi fase yang berbeda, yang tidak mengherankan mengingat gerakan melingkar.asin(ωt+φ) ω,φ
Itu dia. Untuk mendapatkan nilai yang pas Anda memulihkan data dari komponen yang dipasang dengan mencolokkan transposis dari matriks rotasi PCA ke dalam komponen utama yang diprediksi. Kode R saya di atas menunjukkan bagian dari prosedur, dan sisanya Anda dapat dengan mudah mengetahuinya.
Kesimpulan
Sangat menarik untuk melihat seberapa kuat PCA dan alat-alat sederhana lainnya ketika datang ke fenomena fisik di mana proses yang mendasarinya stabil, dan input diterjemahkan ke dalam output melalui hubungan linear (atau linierisasi). Jadi dalam kasus kami gerakan melingkar sangat nonlinear tetapi kami dengan mudah melinearkannya dengan menggunakan fungsi sinus / kosinus pada parameter t waktu. Plot saya diproduksi hanya dengan beberapa baris kode R seperti yang Anda lihat.
Model regresi harus mencerminkan proses yang mendasarinya, maka hanya Anda yang dapat mengharapkan bahwa parameternya bermakna. Jika ini adalah paraglider yang terbawa angin, maka sebaran plot sederhana seperti dalam pertanyaan asli akan menyembunyikan struktur waktu proses.
Regresi Excel juga merupakan analisis cross sectional, yang regresi liniernya bekerja paling baik, sedangkan data Anda merupakan proses deret waktu, di mana pengamatannya diatur dalam waktu. Analisis deret waktu harus diterapkan di sini, dan itu dilakukan dalam regresi PCA.
Catatan tentang suatu fungsi
Karena paraglider membuat lingkaran, akan ada banyak garis lintang yang sesuai dengan satu garis bujur. Dalam matematika fungsi memetakan nilai ke nilai tunggal . Ini hubungan banyak-ke-satu, yang berarti bahwa beberapa dapat sesuai dengan , tetapi tidak beberapa sesuai dengan satu . Itulah sebabnya bukan fungsi, secara tegas.y=f(x) x y x y y x lat=f(lon)
sumber
Jawabannya mungkin ada hubungannya dengan bagaimana Anda menilai secara mental jarak ke garis regresi. Regresi standar (Tipe 1) meminimalkan kesalahan kuadrat, di mana kesalahan dihitung berdasarkan jarak vertikal ke garis .
Regresi tipe 2 mungkin lebih analog dengan penilaian Anda terhadap garis terbaik. Di dalamnya, kesalahan kuadrat diminimalkan adalah jarak tegak lurus ke garis . Ada sejumlah konsekuensi dari perbedaan ini. Salah satu yang penting adalah bahwa jika Anda menukar sumbu X dan Y dalam plot Anda dan mereparasi garis, Anda akan mendapatkan hubungan yang berbeda antara variabel untuk regresi Tipe 1. Untuk regresi Tipe 2, hubungannya tetap sama.
Kesan saya adalah bahwa ada cukup banyak perdebatan tentang di mana harus menggunakan regresi Tipe 1 vs Tipe 2, dan jadi saya sarankan membaca dengan seksama tentang perbedaan sebelum memutuskan mana yang akan diterapkan. Regresi tipe 1 sering direkomendasikan dalam kasus di mana satu sumbu dikendalikan secara eksperimental, atau setidaknya diukur dengan kesalahan yang jauh lebih sedikit daripada yang lainnya. Jika kondisi ini tidak terpenuhi, regresi tipe 1 akan bias miring ke arah 0 dan oleh karenanya regresi tipe 2 direkomendasikan. Namun, dengan kebisingan yang cukup di kedua sumbu, regresi tipe 2 tampaknya cenderung membiaskan mereka ke arah 1. Warton et al. (2006) dan Smith (2009) adalah sumber yang baik untuk memahami perdebatan.
Juga perhatikan bahwa ada beberapa metode yang agak berbeda yang termasuk dalam kategori luas regresi Tipe 2 (Sumbu Utama, Sumbu Utama Berkurang, dan regresi Sumbu Utama Standar), dan bahwa terminologi tentang metode spesifik tidak konsisten.
Warton, DI, IJ Wright, DS Falster, dan M. Westoby. 2006. Metode pemasangan garis bivariat untuk alometri. Biol. Rev. 81: 259–291. doi: 10.1017 / S1464793106007007
Smith, RJ 2009. Tentang penggunaan dan penyalahgunaan sumbu utama yang dikurangi untuk pemasangan saluran. Saya. J. Phys. Anthropol. 140: 476–486. doi: 10.1002 / ajpa.21090
EDIT :
@amoeba menunjukkan bahwa apa yang saya sebut regresi Tipe 2 di atas juga dikenal sebagai regresi ortogonal; ini mungkin istilah yang lebih tepat. Seperti yang saya katakan di atas, terminologi di bidang ini tidak konsisten, yang membutuhkan perawatan ekstra.
sumber
Pertanyaan yang coba dijawab Excel adalah: "Dengan asumsi bahwa y bergantung pada x, baris mana yang memprediksi y terbaik". Jawabannya adalah karena variasi besar dalam y, tidak ada baris yang bisa sangat baik, dan apa yang ditampilkan Excel adalah yang terbaik yang dapat Anda lakukan.
Jika Anda mengambil garis merah yang Anda usulkan, dan meneruskannya hingga x = -0.714 dan x = -0.712, Anda akan menemukan bahwa nilainya jauh, jauh dari grafik, dan berada pada jarak yang sangat jauh dari nilai y yang sesuai .
Pertanyaan yang dijawab Excel bukanlah "baris mana yang paling dekat dengan titik data", tetapi "baris mana yang paling baik untuk memprediksi nilai y dari nilai x", dan ia melakukan ini dengan benar.
sumber
Saya tidak ingin menambahkan apa pun ke jawaban lain, tetapi saya ingin mengatakan bahwa Anda telah disesatkan oleh terminologi yang buruk, khususnya istilah "garis paling cocok" yang digunakan dalam beberapa kursus statistik.
Secara intuitif, "garis paling cocok" akan terlihat seperti garis merah Anda. Tetapi garis yang diproduksi oleh Excel bukanlah "garis yang paling cocok"; bahkan tidak berusaha untuk menjadi. Ini adalah baris yang menjawab pertanyaan: diberi nilai x, apa prediksi terbaik saya untuk y? atau sebagai alternatif, berapa nilai rata-rata y untuk setiap nilai x?
Perhatikan asimetri di sini antara x dan y; menggunakan nama "garis paling pas" mengaburkan ini. Begitu juga dengan penggunaan "trendline" Excel.
Dijelaskan dengan sangat baik di tautan berikut:
https://www.stat.berkeley.edu/~stark/SticiGui/Text/regress.htm
Anda mungkin menginginkan sesuatu yang lebih seperti apa yang disebut "Tipe 2" pada jawaban di atas, atau "SD Line" di halaman kursus statistik Berkeley.
sumber
Bagian dari masalah optik berasal dari skala yang berbeda - jika Anda menggunakan skala yang sama pada kedua sumbu, itu akan terlihat sudah berbeda.
Dengan kata lain, Anda dapat membuat sebagian besar garis 'paling cocok' terlihat 'tidak intuitif' dengan menyebarkan satu skala sumbu.
sumber
Beberapa orang telah mencatat bahwa masalahnya adalah visual - penskalaan grafis yang digunakan menghasilkan informasi yang menyesatkan. Lebih khusus lagi, penskalaan "lon" sedemikian rupa sehingga nampak seperti spiral yang ketat yang menunjukkan garis regresi memberikan kecocokan yang buruk (penilaian yang saya setujui, garis merah yang Anda gambar akan memberikan kesalahan kuadrat yang lebih rendah jika data dibentuk dengan cara yang disajikan).
Di bawah ini saya memberikan sebar yang dibuat di Excel dengan skala untuk "lon" diubah sehingga tidak menghasilkan spiral ketat di sebar Anda. Dengan perubahan ini, garis regresi sekarang memberikan kesesuaian visual yang lebih baik dan saya pikir membantu menunjukkan bagaimana penskalaan di sebar asli memberikan penilaian kesesuaian yang menyesatkan.
Saya pikir regresi bekerja dengan baik di sini. Saya tidak berpikir diperlukan analisis yang lebih kompleks.
Bagi yang berminat, saya telah merencanakan data menggunakan alat pemetaan dan menunjukkan regresi yang sesuai dengan data. Titik-titik merah adalah data yang direkam dan hijau adalah garis regresi.
Dan berikut adalah data yang sama dalam sebaran plot dengan garis regresi; di sini lat diperlakukan sebagai skor dependen dan lat dibalik agar sesuai dengan profil geografis.
sumber
Regresi kuadrat terkecil kuadrat (OLS) Anda yang membingungkan (yang meminimalkan jumlah deviasi kuadrat tentang nilai prediksi, (diamati-prediksi) ^ 2) dan regresi sumbu utama (yang meminimalkan jumlah kuadrat dari jarak tegak lurus antara setiap titik dan garis regresi, kadang-kadang ini disebut sebagai regresi Tipe II, regresi ortogonal atau regresi komponen utama standar).
Jika Anda ingin membandingkan dua pendekatan hanya di R saja periksa
Apa yang Anda temukan paling intuitif (garis merah Anda) hanyalah regresi sumbu utama, yang memang secara visual terlihat paling logis, karena meminimalkan jarak tegak lurus ke titik Anda. Regresi OLS hanya akan muncul untuk meminimalkan jarak tegak lurus ke titik Anda jika variabel x dan y berada pada skala pengukuran yang sama dan / atau memiliki jumlah kesalahan yang sama (Anda dapat melihat ini hanya berdasarkan pada teorema Pythagoras '). Dalam kasus Anda, variabel y Anda memiliki cara yang lebih tersebar, maka bedanya ...
sumber
Jawaban PCA adalah yang terbaik karena saya pikir itulah yang harus Anda lakukan mengingat deskripsi masalah Anda, namun jawaban PCA mungkin membingungkan PCA dan regresi yang merupakan hal yang sama sekali berbeda. Jika Anda ingin mengekstrapolasi kumpulan data khusus ini maka Anda perlu melakukan regresi, dan kemungkinan ingin melakukan regresi Deming (yang saya kira kadang-kadang berjalan dengan Tipe II, tidak pernah mendengar deskripsi ini). Namun, jika Anda ingin mengetahui arah apa yang paling penting (vektor eigen) dan memiliki metrik dampak relatifnya pada kumpulan data (nilai eigen) maka PCA adalah pendekatan yang tepat.
sumber