Apa perbedaan antara ekstrapolasi dan interpolasi, dan apa cara paling tepat untuk menggunakan istilah-istilah ini?
Sebagai contoh, saya telah melihat pernyataan dalam makalah yang menggunakan interpolasi sebagai:
"Prosedur menginterpolasi bentuk perkiraan fungsi antara titik-titik bin"
Kalimat yang menggunakan ekstrapolasi dan interpolasi adalah, misalnya:
Langkah sebelumnya di mana kita mengekstrapolasi fungsi interpolasi menggunakan metode Kernel ke ekor suhu kiri dan kanan.
Dapatkah seseorang memberikan cara yang jelas dan mudah untuk membedakannya dan memandu cara menggunakan istilah-istilah ini dengan benar dengan contoh?
terminology
interpolation
extrapolation
Frank Swanton
sumber
sumber
Jawaban:
Untuk menambahkan penjelasan visual ke ini: mari kita pertimbangkan beberapa poin yang Anda rencanakan untuk model.
Mereka terlihat seperti mereka dapat digambarkan dengan baik dengan garis lurus, sehingga Anda cocok dengan regresi linier untuk mereka:
Garis regresi ini memungkinkan Anda melakukan interpolasi (menghasilkan nilai yang diharapkan di antara titik data Anda) dan mengekstrapolasi (menghasilkan nilai yang diharapkan di luar kisaran titik data Anda). Saya telah menyoroti ekstrapolasi dalam warna merah dan wilayah interpolasi terbesar dengan warna biru. Untuk lebih jelasnya, bahkan daerah kecil di antara titik-titik diinterpolasi, tapi saya hanya menyoroti yang besar di sini.
Mengapa ekstrapolasi pada umumnya lebih memprihatinkan? Karena Anda biasanya jauh lebih tidak yakin tentang bentuk hubungan di luar rentang data Anda. Pertimbangkan apa yang mungkin terjadi ketika Anda mengumpulkan beberapa titik data lagi (lingkaran kosong):
Ternyata hubungan itu tidak ditangkap dengan baik dengan hubungan Anda yang dihipotesiskan. Prediksi di wilayah ekstrapolasi sangat jauh. Bahkan jika Anda telah menebak fungsi tepat yang menggambarkan hubungan nonlinier ini dengan benar, data Anda tidak melampaui rentang yang cukup bagi Anda untuk menangkap nonlinier dengan baik, sehingga Anda mungkin masih cukup jauh. Perhatikan bahwa ini adalah masalah tidak hanya untuk regresi linier, tetapi untuk hubungan apa pun - ini sebabnya ekstrapolasi dianggap berbahaya.
Prediksi di wilayah interpolasi juga tidak benar karena kurangnya ketidaklinieran dalam kecocokan, tetapi kesalahan prediksi mereka jauh lebih rendah. Tidak ada jaminan bahwa Anda tidak akan memiliki hubungan yang tidak terduga di antara poin Anda (yaitu wilayah interpolasi), tetapi umumnya lebih kecil kemungkinannya.
Saya akan menambahkan bahwa ekstrapolasi tidak selalu merupakan ide yang buruk - jika Anda memperkirakan sedikit di luar kisaran data Anda, Anda mungkin tidak akan salah (walaupun itu mungkin!). Orang dahulu yang tidak memiliki model ilmiah dunia yang baik tidak akan jauh salah jika mereka meramalkan bahwa matahari akan terbit lagi pada hari berikutnya dan sehari setelah itu (meskipun satu hari jauh di masa depan, bahkan ini akan gagal).
Dan kadang-kadang, ekstrapolasi bahkan bisa informatif - misalnya, ekstrapolasi jangka pendek sederhana dari peningkatan eksponensial CO atmosfer telah cukup akurat selama beberapa dekade terakhir. Jika Anda seorang siswa yang tidak memiliki keahlian ilmiah tetapi menginginkan perkiraan kasar jangka pendek, ini akan memberi Anda hasil yang cukup masuk akal. Tetapi semakin jauh dari data Anda Anda memperkirakan, semakin besar kemungkinan prediksi Anda cenderung gagal, dan gagal bencana, seperti yang dijelaskan dengan sangat baik di utas besar ini: Apa yang salah dengan ekstrapolasi? (terima kasih kepada @JMnotnotastatistician untuk mengingatkan saya akan hal itu).2
Sunting berdasarkan komentar: apakah interpolasi atau ekstrapolasi, selalu lebih baik untuk memiliki beberapa teori untuk mendasarkan harapan. Jika pemodelan bebas teori harus dilakukan, risiko dari interpolasi biasanya kurang dari itu dari ekstrapolasi. Yang mengatakan, ketika kesenjangan antara titik data meningkat besarnya, interpolasi juga menjadi semakin penuh dengan risiko.
sumber
Intinya, interpolasi adalah operasi di dalam dukungan data , atau di antara titik-titik data yang ada; ekstrapolasi berada di luar dukungan data . Jika tidak dimasukkan, kriterianya adalah: di mana nilai-nilai yang hilang?
Salah satu alasan untuk perbedaan ini adalah ekstrapolasi biasanya lebih sulit dilakukan dengan baik, dan bahkan berbahaya, secara statistik jika tidak secara praktis. Itu tidak selalu benar: misalnya, banjir sungai mungkin membanjiri cara mengukur debit atau bahkan tahap (tingkat vertikal), merobek lubang dalam catatan yang diukur. Dalam keadaan seperti itu, interpolasi pembuangan atau tahap sulit juga dan berada dalam dukungan data tidak banyak membantu.
Dalam jangka panjang, perubahan kualitatif biasanya menggantikan perubahan kuantitatif. Sekitar tahun 1900 ada banyak kekhawatiran bahwa pertumbuhan lalu lintas yang ditarik kuda akan membanjiri kota-kota dengan kotoran yang sebagian besar tidak diinginkan. Eksonensial dalam kotoran digantikan oleh mesin pembakaran internal dan eksponensial yang berbeda.
sumber
TL; versi DR:
Mnemonic: dalam terpolation => in side.
FWIW: Awalan antar antara , dan luar berarti . Pikirkan juga jalan raya antar negara yang melintasi antar negara, atau makhluk luar angkasa tambahan dari luar planet kita.
sumber
Contoh:
Studi: Ingin menyesuaikan regresi linier sederhana pada ketinggian pada usia untuk anak perempuan usia 6-15 tahun. Ukuran sampel adalah 100, usia dihitung oleh (tanggal pengukuran - tanggal lahir) /365.25.
Setelah pengumpulan data, model fit dan mendapatkan estimasi intersep b0 dan slope b1. itu berarti kita memiliki E (tinggi | usia) = b0 + b1 * usia.
Ketika Anda menginginkan tinggi rata-rata untuk usia 13 tahun, Anda menemukan bahwa tidak ada gadis berusia 13 tahun dalam sampel Anda yang terdiri atas 100 anak perempuan, salah satunya berusia 12,83 tahun dan seorang lagi berusia 13,24.
Sekarang Anda memasukkan usia = 13 ke dalam rumus E (tinggi | usia) = b0 + b1 * usia. Ini disebut interpolasi karena berusia 13 tahun dicakup oleh rentang data Anda yang digunakan untuk mencocokkan model.
Jika Anda ingin mendapatkan tinggi rata-rata untuk usia 30 dan menggunakan rumus itu, yang disebut ekstrapolasi, karena usia 30 berada di luar kisaran usia yang dicakup oleh data Anda.
Jika model memiliki beberapa kovariat, Anda perlu berhati-hati karena sulit untuk menggambar perbatasan yang dicakup data.
Dalam statistik, kami tidak menganjurkan ekstrapolasi.
sumber