Saya ingat duduk di kursus statistik sebagai mahasiswa yang mendengar tentang mengapa ekstrapolasi adalah ide yang buruk. Selain itu, ada berbagai sumber online yang berkomentar tentang ini. Ada juga yang menyebutkannya di sini .
Adakah yang bisa membantu saya memahami mengapa ekstrapolasi adalah ide yang buruk? Jika ya, bagaimana teknik peramalan tidak secara statistik tidak valid?
regression
time-series
forecasting
SEORANG PRIA
sumber
sumber
Jawaban:
Model regresi sering digunakan untuk ekstrapolasi, yaitu memprediksi respons terhadap input yang berada di luar kisaran nilai-nilai variabel prediktor yang digunakan agar sesuai dengan model. Bahaya yang terkait dengan ekstrapolasi diilustrasikan pada gambar berikut.
Model regresi adalah "dengan konstruksi" model interpolasi, dan tidak boleh digunakan untuk ekstrapolasi, kecuali ini dibenarkan dengan benar.
sumber
Komik xkcd ini menjelaskan semuanya.
Menggunakan data poin yang dimiliki Cueball (pria dengan tongkat), ia memperkirakan bahwa wanita itu akan memiliki suami "empat lusin" pada akhir bulan depan, dan menggunakan ekstrapolasi ini untuk mengarah pada kesimpulan membeli kue pengantin dalam jumlah besar.
Sunting 3: Bagi Anda yang mengatakan "dia tidak memiliki cukup data poin", inilah komik xkcd lain :
Di sini, penggunaan kata "berkelanjutan" dari waktu ke waktu ditampilkan pada plot semi-log, dan mengekstrapolasi poin data kami menerima perkiraan yang tidak masuk akal tentang seberapa sering kata "berkelanjutan" akan muncul di masa mendatang.
Sunting 2: Bagi Anda yang mengatakan "Anda perlu semua titik data masa lalu juga", komik xkcd lain:
Di sini, kami memiliki semua titik data masa lalu tetapi kami gagal memprediksi resolusi Google Earth secara akurat. Perhatikan bahwa ini juga grafik semi-log.
Sunting: Terkadang, bahkan korelasi terkuat (r = .9979 dalam kasus ini) benar-benar salah.
Jika Anda memperkirakan tanpa bukti pendukung lain, Anda juga melanggar korelasi tidak menyiratkan sebab - akibat ; dosa besar lain di dunia statistik.
Namun, jika Anda melakukan ekstrapolasi X dengan Y, Anda harus memastikan bahwa Anda dapat secara akurat (cukup untuk memenuhi persyaratan Anda) memprediksi X dengan hanya Y. Hampir selalu, ada beberapa faktor daripada dampak X.
Saya ingin membagikan tautan ke jawaban lain yang menjelaskannya dengan kata-kata Nassim Nicholas Taleb.
sumber
"Prediksi sangat sulit, terutama jika ini tentang masa depan". Kutipan ini dikaitkan dengan banyak orang dalam beberapa bentuk . Saya membatasi dalam "ekstrapolasi" berikut untuk "prediksi di luar kisaran yang diketahui", dan dalam pengaturan satu dimensi, ekstrapolasi dari masa lalu yang diketahui ke masa depan yang tidak diketahui.
Jadi apa yang salah dengan ekstrapolasi. Pertama, tidak mudah untuk memodelkan masa lalu . Kedua, sulit untuk mengetahui apakah model dari masa lalu dapat digunakan untuk masa depan . Di belakang kedua pernyataan itu terdapat pertanyaan mendalam tentang kausalitas atau ergodisitas, kecukupan variabel penjelas, dll. Yang sangat tergantung pada kasus. Yang salah adalah bahwa sulit untuk memilih skema ekstrapolasi tunggal yang berfungsi dengan baik dalam konteks yang berbeda, tanpa banyak informasi tambahan.
Ketidakcocokan generik ini dengan jelas diilustrasikan dalam dataset kuartet Anscombe yang ditunjukkan di bawah ini. Regresi linier juga (di luar rentang koordinat) adalah contoh ekstrapolasi. Baris yang sama mundur empat set poin, dengan statistik standar yang sama. Namun, model yang mendasarinya sangat berbeda.x
Namun, perkiraan dapat diperbaiki hingga batas tertentu. Menambah jawaban lain, beberapa bahan dapat membantu ekstrapolasi praktis:
Baru-baru ini, saya telah terlibat dalam sebuah proyek untuk mengekstrapolasi nilai-nilai untuk komunikasi subsistem simulasi dalam lingkungan waktu nyata. Dogma dalam domain ini adalah ekstrapolasi dapat menyebabkan ketidakstabilan. Kami benar-benar menyadari bahwa menggabungkan kedua bahan di atas sangat efisien, tanpa ketidakstabilan yang nyata (tanpa bukti formal, dan saat ini sedang ditinjau ). Dan ekstrapolasi bekerja dengan polinomial sederhana, dengan beban komputasi yang sangat rendah, sebagian besar operasi dihitung sebelumnya dan disimpan dalam tabel pencarian.
Akhirnya, sebagai ekstrapolasi menyarankan gambar lucu, berikut ini adalah efek mundur dari regresi linier:
sumber
Meskipun kecocokan model mungkin " baik ", ekstrapolasi di luar rentang data harus diperlakukan secara skeptis. Alasannya adalah bahwa dalam banyak kasus ekstrapolasi (sayangnya dan tidak dapat dihindari) bergantung pada asumsi yang tidak dapat diuji tentang perilaku data di luar dukungan yang mereka amati.
Ketika mengekstrapolasi seseorang harus melakukan dua penilaian panggilan: Pertama, dari perspektif kuantitatif, seberapa valid model di luar kisaran data? Kedua, dari perspektif kualitatif, seberapa masuk akal suatu titik terletak di luar rentang sampel yang diamati menjadi anggota populasi yang kita asumsikan untuk sampel? Karena kedua pertanyaan tersebut memerlukan tingkat ambiguitas tertentu, ekstrapolasi juga dianggap sebagai teknik yang ambigu. Jika Anda memiliki alasan untuk menerima bahwa asumsi ini berlaku, maka ekstrapolasi biasanya merupakan prosedur inferensial yang valid.xout
Peringatan tambahan adalah bahwa banyak teknik estimasi non-parametrik tidak mengizinkan ekstrapolasi secara asli. Masalah ini terutama terlihat dalam kasus penghalusan spline di mana tidak ada lagi simpul untuk menahan spline yang dipasang.
Izinkan saya menekankan bahwa ekstrapolasi jauh dari kejahatan. Misalnya, metode numerik yang banyak digunakan dalam Statistik (misalnya proses delta-kuadrat Aitken dan Ekstrapolasi Richardson ) pada dasarnya adalah skema ekstrapolasi berdasarkan gagasan bahwa perilaku yang mendasari fungsi yang dianalisis untuk data yang diamati tetap stabil di seluruh dukungan fungsi.
sumber
Bertentangan dengan jawaban lain, saya akan mengatakan bahwa tidak ada yang salah dengan ekstrapolasi sejauh tidak digunakan secara sembrono. Pertama, perhatikan bahwa ekstrapolasi adalah :
... jadi ini istilah yang sangat luas dan banyak metode berbeda mulai dari ekstrapolasi linier sederhana , hingga regresi linier, regresi polinomial, atau bahkan beberapa metode peramalan time-series yang canggih sesuai dengan definisi tersebut. Faktanya, ekstrapolasi, prediksi, dan ramalan berkaitan erat. Dalam statistik, kita sering membuat prediksi dan ramalan . Ini juga yang dikatakan oleh tautan yang Anda rujuk:
Banyak metode ekstrapolasi yang digunakan untuk membuat prediksi, apalagi, seringkali beberapa metode sederhana bekerja dengan baik dengan sampel kecil, sehingga dapat lebih disukai daripada yang rumit. Masalahnya adalah, seperti diperhatikan dalam jawaban lain, ketika Anda menggunakan metode ekstrapolasi secara tidak benar.
Sebagai contoh, banyak penelitian menunjukkan bahwa usia inisiasi seksual menurun dari waktu ke waktu di negara-negara barat. Lihatlah plot di bawah ini tentang usia hubungan seksual pertama di AS. Jika kita secara buta menggunakan regresi linier untuk memprediksi usia hubungan seksual pertama kita akan memprediksi itu akan di bawah nol pada beberapa tahun (sesuai dengan pernikahan pertama dan kelahiran pertama terjadi pada beberapa waktu setelah kematian) ... Namun, jika Anda perlu membuat perkiraan satu tahun ke depan, maka saya kira regresi linier akan menghasilkan prediksi jangka pendek yang cukup akurat untuk tren tersebut.
(sumber guttmacher.org )
Semua model salah , ekstrapolasi juga salah, karena tidak memungkinkan Anda membuat prediksi yang tepat. Sebagai alat matematika / statistik lainnya, ini akan memungkinkan Anda untuk membuat perkiraan perkiraan. Tingkat seberapa akuratnya data tersebut tergantung pada kualitas data yang Anda miliki, menggunakan metode yang memadai untuk masalah Anda, asumsi yang Anda buat saat menentukan model Anda dan banyak faktor lainnya. Tetapi ini tidak berarti bahwa kita tidak dapat menggunakan metode seperti itu. Kita bisa, tetapi kita perlu mengingat tentang keterbatasan mereka dan harus menilai kualitas mereka untuk masalah yang diberikan.
sumber
Saya sangat menyukai contoh karya Nassim Taleb (yang merupakan adaptasi dari contoh sebelumnya oleh Bertrand Russell):
Beberapa analog matematika adalah sebagai berikut:
pengetahuan tentang beberapa koefisien Taylor pertama dari suatu fungsi tidak selalu menjamin bahwa koefisien yang berhasil akan mengikuti pola yang Anda duga.
pengetahuan tentang kondisi awal persamaan diferensial tidak selalu menjamin pengetahuan tentang perilaku asimptotiknya (misalnya persamaan Lorenz, terkadang terdistorsi menjadi apa yang disebut "efek kupu-kupu")
Berikut adalah utas MO bagus tentang masalah ini.
sumber
Renungkan cerita berikut, jika Anda mau.
Saya juga ingat duduk di kursus Statistik, dan profesor mengatakan kepada kami bahwa ekstrapolasi adalah ide yang buruk. Kemudian selama kelas berikutnya dia memberi tahu kami bahwa itu adalah ide yang buruk lagi; sebenarnya, dia mengatakannya dua kali.
Aku sakit selama sisa semester, tapi aku yakin aku tidak mungkin melewatkan banyak materi, karena pada minggu terakhir pria itu pasti tidak melakukan apa-apa selain mengatakan kepada orang-orang lagi dan lagi bagaimana ekstrapolasi adalah ide yang buruk .
Anehnya, nilai ujian saya tidak terlalu tinggi.
sumber
Pertanyaannya bukan hanya statistik, tetapi juga epistemologis. Ekstrapolasi adalah salah satu cara kita belajar tentang alam, itu adalah bentuk induksi . Katakanlah kita memiliki data untuk konduktivitas listrik suatu bahan dalam kisaran suhu dari 0 hingga 20 Celcius, apa yang dapat kita katakan tentang konduktivitas pada 40 derajat Celcius?
Ini terkait erat dengan inferensi sampel kecil: apa yang bisa kita katakan tentang seluruh populasi dari pengukuran yang dilakukan pada sampel kecil? Ini dimulai oleh Gosset sebagai Guiness , yang datang dengan distribusi t Student. Sebelum dia, ahli statistik tidak mau repot-repot memikirkan sampel kecil dengan asumsi ukuran sampel selalu bisa besar. Dia berada di Guinnes dan harus berurusan dengan sampel bir untuk memutuskan apa yang harus dilakukan dengan seluruh batch bir yang akan dikirim.
Jadi, dalam praktik (bisnis), teknik, dan sains kita selalu harus memperkirakan dalam beberapa hal. Itu bisa berupa ekstrapolasi sampel kecil hingga besar, atau dari kisaran kondisi input terbatas hingga serangkaian kondisi yang lebih luas, dari apa yang terjadi dalam akselerator hingga apa yang terjadi pada lubang hitam miliaran mil jauhnya dll. Terutama penting dalam sains , karena kami benar-benar belajar dengan mempelajari perbedaan antara perkiraan ekstrapolasi kami dan pengukuran aktual. Seringkali kita menemukan fenomena baru ketika perbedaan besar atau konsisten.
karenanya, saya katakan tidak ada masalah dengan ekstrapolasi. Itu adalah sesuatu yang harus kita lakukan setiap hari. Itu hanya sulit.
sumber
Ekstrapolasi itu sendiri tidak selalu jahat, tetapi itu adalah proses yang cocok dengan kesimpulan yang lebih tidak masuk akal daripada Anda sampai pada interpolasi.
Untuk ekstrapolasi terbaik, pertimbangkan Proyek Manhattan. Para fisikawan di sana dipaksa bekerja dengan tes skala sangat kecil sebelum membangun benda yang sebenarnya. Mereka benar-benar tidak memiliki cukup Uranium untuk dihabiskan pada tes. Mereka melakukan yang terbaik yang mereka bisa, dan mereka pintar. Namun, ketika tes terakhir terjadi, diputuskan bahwa masing-masing ilmuwan akan memutuskan seberapa jauh dari ledakan yang mereka inginkan ketika meledak. Ada perbedaan pendapat substansial tentang seberapa jauh itu "aman" karena setiap ilmuwan tahu mereka memperkirakan cukup jauh dari tes mereka. Bahkan ada pertimbangan non-sepele bahwa mereka mungkin membakar atmosfir dengan bom nuklir, suatu masalah juga diselesaikan dengan ekstrapolasi substansial!
sumber
Banyak jawaban bagus di sini, saya hanya ingin mencoba dan mensintesis apa yang saya lihat sebagai inti dari masalah: berbahaya untuk melakukan ekstrapolasi di luar proses pembuatan data yang memunculkan sampel estimasi. Ini kadang-kadang disebut 'perubahan struktural'.
Peramalan dilengkapi dengan asumsi, yang utama adalah bahwa proses menghasilkan data (sedekat tidak membuat perbedaan signifikan) sama dengan yang menghasilkan sampel (kecuali untuk variabel rhs, yang perubahannya Anda pertanggungjawabkan secara eksplisit dalam model) . Jika perubahan struktural terjadi (yaitu, Thanksgiving dalam contoh Taleb), semua taruhan dibatalkan.
sumber