Ekstrapolasi v. Interpolasi

28

Apa perbedaan antara ekstrapolasi dan interpolasi, dan apa cara paling tepat untuk menggunakan istilah-istilah ini?

Sebagai contoh, saya telah melihat pernyataan dalam makalah yang menggunakan interpolasi sebagai:

"Prosedur menginterpolasi bentuk perkiraan fungsi antara titik-titik bin"

Kalimat yang menggunakan ekstrapolasi dan interpolasi adalah, misalnya:

Langkah sebelumnya di mana kita mengekstrapolasi fungsi interpolasi menggunakan metode Kernel ke ekor suhu kiri dan kanan.

Dapatkah seseorang memberikan cara yang jelas dan mudah untuk membedakannya dan memandu cara menggunakan istilah-istilah ini dengan benar dengan contoh?

Frank Swanton
sumber
1
Sebuah pertanyaan terkait.
JM bukan ahli statistik
1
Kemungkinan duplikat dari Apa yang salah dengan ekstrapolasi?
usεr11852 mengatakan Reinstate Monic
@ usεr11852 Saya pikir dua pertanyaan tersebut mencakup dasar yang sama tetapi berbeda karena yang satu ini menanyakan kontras dengan interpolasi.
mkt - Pasang kembali Monica
Apakah perbedaan antara interpolasi dan ekstrapolasi ini telah diformalkan secara ketat dengan cara yang disepakati secara umum, (misalnya, melalui cembung lambung) atau apakah istilah-istilah ini masih tunduk pada penilaian dan interpretasi manusia?
Nick Alger

Jawaban:

51

Untuk menambahkan penjelasan visual ke ini: mari kita pertimbangkan beberapa poin yang Anda rencanakan untuk model.

masukkan deskripsi gambar di sini

Mereka terlihat seperti mereka dapat digambarkan dengan baik dengan garis lurus, sehingga Anda cocok dengan regresi linier untuk mereka:

masukkan deskripsi gambar di sini

Garis regresi ini memungkinkan Anda melakukan interpolasi (menghasilkan nilai yang diharapkan di antara titik data Anda) dan mengekstrapolasi (menghasilkan nilai yang diharapkan di luar kisaran titik data Anda). Saya telah menyoroti ekstrapolasi dalam warna merah dan wilayah interpolasi terbesar dengan warna biru. Untuk lebih jelasnya, bahkan daerah kecil di antara titik-titik diinterpolasi, tapi saya hanya menyoroti yang besar di sini.

masukkan deskripsi gambar di sini

Mengapa ekstrapolasi pada umumnya lebih memprihatinkan? Karena Anda biasanya jauh lebih tidak yakin tentang bentuk hubungan di luar rentang data Anda. Pertimbangkan apa yang mungkin terjadi ketika Anda mengumpulkan beberapa titik data lagi (lingkaran kosong):

masukkan deskripsi gambar di sini

Ternyata hubungan itu tidak ditangkap dengan baik dengan hubungan Anda yang dihipotesiskan. Prediksi di wilayah ekstrapolasi sangat jauh. Bahkan jika Anda telah menebak fungsi tepat yang menggambarkan hubungan nonlinier ini dengan benar, data Anda tidak melampaui rentang yang cukup bagi Anda untuk menangkap nonlinier dengan baik, sehingga Anda mungkin masih cukup jauh. Perhatikan bahwa ini adalah masalah tidak hanya untuk regresi linier, tetapi untuk hubungan apa pun - ini sebabnya ekstrapolasi dianggap berbahaya.

Prediksi di wilayah interpolasi juga tidak benar karena kurangnya ketidaklinieran dalam kecocokan, tetapi kesalahan prediksi mereka jauh lebih rendah. Tidak ada jaminan bahwa Anda tidak akan memiliki hubungan yang tidak terduga di antara poin Anda (yaitu wilayah interpolasi), tetapi umumnya lebih kecil kemungkinannya.


Saya akan menambahkan bahwa ekstrapolasi tidak selalu merupakan ide yang buruk - jika Anda memperkirakan sedikit di luar kisaran data Anda, Anda mungkin tidak akan salah (walaupun itu mungkin!). Orang dahulu yang tidak memiliki model ilmiah dunia yang baik tidak akan jauh salah jika mereka meramalkan bahwa matahari akan terbit lagi pada hari berikutnya dan sehari setelah itu (meskipun satu hari jauh di masa depan, bahkan ini akan gagal).

Dan kadang-kadang, ekstrapolasi bahkan bisa informatif - misalnya, ekstrapolasi jangka pendek sederhana dari peningkatan eksponensial CO atmosfer telah cukup akurat selama beberapa dekade terakhir. Jika Anda seorang siswa yang tidak memiliki keahlian ilmiah tetapi menginginkan perkiraan kasar jangka pendek, ini akan memberi Anda hasil yang cukup masuk akal. Tetapi semakin jauh dari data Anda Anda memperkirakan, semakin besar kemungkinan prediksi Anda cenderung gagal, dan gagal bencana, seperti yang dijelaskan dengan sangat baik di utas besar ini: Apa yang salah dengan ekstrapolasi? (terima kasih kepada @JMnotnotastatistician untuk mengingatkan saya akan hal itu).2

Sunting berdasarkan komentar: apakah interpolasi atau ekstrapolasi, selalu lebih baik untuk memiliki beberapa teori untuk mendasarkan harapan. Jika pemodelan bebas teori harus dilakukan, risiko dari interpolasi biasanya kurang dari itu dari ekstrapolasi. Yang mengatakan, ketika kesenjangan antara titik data meningkat besarnya, interpolasi juga menjadi semakin penuh dengan risiko.

mkt - Pasang kembali Monica
sumber
5
Saya suka jawaban Anda, dan menganggapnya sebagai pelengkap bagi saya dan tidak masuk akal bersaing. Tetapi poin kecil, penting bagi sebagian pembaca, adalah bahwa merah dan hijau sulit bagi beberapa orang untuk membedakan secara visual.
Nick Cox
1
@NickCox Poin bagus, terima kasih telah menaikkannya - Saya sekarang telah mengubah skema warna.
mkt - Pasang kembali Monica
1
@leftaroundabout Maksud saya adalah bahwa pola kurva Keeling begitu kuat sehingga ekstrapolasi yang mengabaikan ekonomi & fisika masih cukup akurat dalam skala tahun hingga beberapa dekade. Saya mencatat 'beberapa dekade terakhir' justru karena itulah skala waktu di mana kita memiliki pengukuran resolusi tinggi. Ini adalah contoh di mana ekstrapolasi tidak akan membuat Anda salah besar dan saya pikir itu patut dicatat. Saya pikir akan salah baca dengan sengaja untuk mengklaim bahwa jawaban ini menganjurkan ekstrapolasi bebas teori.
mkt - Pasang kembali Monica
1
Terkait, saya memberi "contoh kalkun" Taleb dalam jawaban ini sebagai peringatan bagi orang-orang yang menggunakan ekstrapolasi.
JM bukan ahli statistik
1
Ekstrapolasi sangat bermasalah ketika Anda memiliki overfitting; dengan model polinomial, misalnya, pergi secara signifikan di luar kumpulan data akan menghasilkan istilah urutan tertinggi meledak.
Akumulasi
21

Intinya, interpolasi adalah operasi di dalam dukungan data , atau di antara titik-titik data yang ada; ekstrapolasi berada di luar dukungan data . Jika tidak dimasukkan, kriterianya adalah: di mana nilai-nilai yang hilang?

Salah satu alasan untuk perbedaan ini adalah ekstrapolasi biasanya lebih sulit dilakukan dengan baik, dan bahkan berbahaya, secara statistik jika tidak secara praktis. Itu tidak selalu benar: misalnya, banjir sungai mungkin membanjiri cara mengukur debit atau bahkan tahap (tingkat vertikal), merobek lubang dalam catatan yang diukur. Dalam keadaan seperti itu, interpolasi pembuangan atau tahap sulit juga dan berada dalam dukungan data tidak banyak membantu.

Dalam jangka panjang, perubahan kualitatif biasanya menggantikan perubahan kuantitatif. Sekitar tahun 1900 ada banyak kekhawatiran bahwa pertumbuhan lalu lintas yang ditarik kuda akan membanjiri kota-kota dengan kotoran yang sebagian besar tidak diinginkan. Eksonensial dalam kotoran digantikan oleh mesin pembakaran internal dan eksponensial yang berbeda.

Tren adalah tren adalah tren,
tetapi pertanyaannya adalah, apakah tren akan berubah?
Apakah itu akan mengubah arahnya
Melalui kekuatan yang tak terduga
Dan berakhir secara prematur?

- Alexander Cairncross

Cairncross, A. 1969. Peramalan ekonomi. The Economic Journal , 79: 797-812. doi: 10.2307 / 2229792 (kutipan pada hlm.797)

Nick Cox
sumber
1
Jawaban yang bagus. Interpretasinya ada di sana dalam nama - interpolasi = untuk memuluskan dalam, ekstrapolasi = untuk memuluskan.
Nuclear Wang
1
IMO ini jawaban yang benar. "Dukungan data" adalah bagian yang sangat penting; bahkan jika titik yang ingin Anda tuju adalah antara dua yang diukur maka mungkin masih berada di luar dukungan data. Misalnya, jika Anda memiliki data kemakmuran untuk orang-orang di zaman kuno Romawi dan dari zaman modern, tetapi tidak di antaranya, maka interpolasi ke abad pertengahan akan sangat bermasalah. Saya akan menyebut ekstrapolasi ini. OTOH, jika Anda memiliki data yang tersebar jarang tetapi seragam di seluruh rentang waktu, maka interpolasi ke tahun tertentu jauh lebih masuk akal.
leftaroundabout
1
@leftaroundabout Hanya karena interpolasi dapat dilakukan melalui celah besar dalam data tidak membuatnya ekstrapolasi. Anda salah mengira kelayakan prosedur untuk prosedur itu sendiri. Terkadang interpolasi juga merupakan ide yang buruk.
mkt - Pasang kembali Monica
1
@ mkt: Saya akan memihak leftaroundabout bahwa contoh pertamanya dapat dianggap ekstrapolasi, karena interpolasi vs ekstrapolasi tidak benar-benar didefinisikan dengan baik karena kita mungkin ingin berpikir. Transformasi variabel yang sederhana dapat mengubah interpolasi menjadi ekstrapolasi. Dalam contohnya, menggunakan sesuatu seperti fungsi jarak daripada waktu mentah berarti bahwa sementara di waktu mentah kita melakukan interpolasi, dalam jarak kita melakukan ekstrapolasi ... dan menggunakan waktu mentah mungkin merupakan ide yang buruk.
Cliff AB
1
Ini jawaban saya. Saya tidak merasa perlu untuk memenuhi syarat itu. Perbedaan luas antara interpolasi dan ekstrapolasi tidak mengesampingkannya menjadi sedikit sulit untuk memutuskan mana yang sedang dilakukan. Jika Anda memiliki lubang besar di tengah-tengah ruang data, pelabelan bisa jalan baik. Seperti yang ditunjukkan beberapa orang, fakta bahwa akhir hari dan awal malam menjadi kabur satu sama lain tidak membuat perbedaan antara siang dan malam tidak ada gunanya atau tidak berguna.
Nick Cox
12

TL; versi DR:

  • Inter polation terjadi antara titik data yang ada.
  • Polarisasi ekstra terjadi di luar mereka.

Mnemonic: dalam terpolation => in side.

FWIW: Awalan antar antara , dan luar berarti . Pikirkan juga jalan raya antar negara yang melintasi antar negara, atau makhluk luar angkasa tambahan dari luar planet kita.

AC
sumber
1

Contoh:

Studi: Ingin menyesuaikan regresi linier sederhana pada ketinggian pada usia untuk anak perempuan usia 6-15 tahun. Ukuran sampel adalah 100, usia dihitung oleh (tanggal pengukuran - tanggal lahir) /365.25.

Setelah pengumpulan data, model fit dan mendapatkan estimasi intersep b0 dan slope b1. itu berarti kita memiliki E (tinggi | usia) = b0 + b1 * usia.

Ketika Anda menginginkan tinggi rata-rata untuk usia 13 tahun, Anda menemukan bahwa tidak ada gadis berusia 13 tahun dalam sampel Anda yang terdiri atas 100 anak perempuan, salah satunya berusia 12,83 tahun dan seorang lagi berusia 13,24.

Sekarang Anda memasukkan usia = 13 ke dalam rumus E (tinggi | usia) = b0 + b1 * usia. Ini disebut interpolasi karena berusia 13 tahun dicakup oleh rentang data Anda yang digunakan untuk mencocokkan model.

Jika Anda ingin mendapatkan tinggi rata-rata untuk usia 30 dan menggunakan rumus itu, yang disebut ekstrapolasi, karena usia 30 berada di luar kisaran usia yang dicakup oleh data Anda.

Jika model memiliki beberapa kovariat, Anda perlu berhati-hati karena sulit untuk menggambar perbatasan yang dicakup data.

Dalam statistik, kami tidak menganjurkan ekstrapolasi.

pengguna158565
sumber
"Dalam statistik, kami tidak menganjurkan ekstrapolasi." Sebagian besar dari analisis deret waktu tidak tepat ....
Nick Cox