Apa justifikasi statistik interpolasi?

16

Misalkan kita memiliki dua titik (gambar berikut: lingkaran hitam) dan kami ingin menemukan nilai untuk titik ketiga di antara mereka (silang). Memang kita akan memperkirakannya berdasarkan hasil percobaan kita, titik hitam. Kasus paling sederhana adalah menggambar garis dan kemudian menemukan nilai (yaitu, interpolasi linier). Jika kita memiliki titik-titik pendukung misalnya, karena titik-titik cokelat di kedua sisi kita lebih suka untuk mendapatkan manfaat dari mereka dan cocok dengan kurva non-linear (kurva hijau).

Pertanyaannya adalah apa alasan statistik untuk menandai palang merah sebagai solusinya? Mengapa persilangan lain (mis. Yang kuning) bukan jawaban di mana mereka bisa berada? Inferensi macam apa atau (?) Mendorong kita untuk menerima yang merah?

Saya akan mengembangkan pertanyaan asli saya berdasarkan jawaban yang didapat untuk pertanyaan yang sangat sederhana ini.

masukkan deskripsi gambar di sini

Pengembang
sumber
7
Ini adalah pertanyaan yang sangat bagus dan menarik. Anda mungkin ingin membedakan antara interpolasi deret waktu dan bentuk interpolasi lainnya (seperti interpolasi splining atau spasial), karena directionality inheren deret waktu.
whuber
1
Penghargaan saya untuk komentar yang sangat memotivasi ini.
Pengembang

Jawaban:

14

Segala bentuk penyesuaian fungsi, bahkan yang nonparametrik (yang biasanya membuat asumsi tentang kelancaran kurva yang terlibat), melibatkan asumsi, dan dengan demikian lompatan iman.

Solusi kuno interpolasi linier adalah salah satu yang 'hanya berfungsi' ketika data yang Anda miliki 'cukup' (jika Anda melihat lingkaran cukup dekat, terlihat datar juga - tanyakan saja pada Columbus), dan layak bahkan sebelum zaman komputer (yang tidak berlaku untuk banyak solusi splines modern). Masuk akal untuk mengasumsikan keyakinan bahwa fungsi akan 'melanjutkan dalam hal yang sama (yaitu linear)' antara dua poin, tetapi tidak ada alasan apriori untuk ini (kecuali pengetahuan tentang konsep yang ada).

Menjadi jelas dengan cepat ketika Anda memiliki tiga (atau lebih) titik noncolinear (seperti ketika Anda menambahkan titik-titik coklat di atas), bahwa interpolasi linier antara masing-masing akan segera melibatkan sudut tajam di masing-masing, yang biasanya tidak diinginkan. Di situlah pilihan lain masuk.

Namun, tanpa pengetahuan domain lebih lanjut, tidak ada cara untuk menyatakan dengan pasti bahwa satu solusi lebih baik daripada yang lain (untuk ini, Anda harus tahu apa nilai poin-poin lainnya, mengalahkan tujuan pemasangan fungsi dalam tempat pertama).

Sisi baiknya, dan mungkin lebih relevan dengan pertanyaan Anda, di bawah 'kondisi keteraturan' (baca: asumsi : jika kita tahu bahwa fungsinya halus), interpolasi linier dan solusi populer lainnya dapat dibuktikan 'masuk akal' perkiraan Tetap: itu memerlukan asumsi, dan untuk ini, kami biasanya tidak memiliki statistik.

Nick Sabbe
sumber
Ini adalah jawaban yang bagus dan kandidat saya akan ditandai sebagai jawabannya. Saya mengerti bahwa tidak ada pembenaran statistik untuk pilihan bersama seperti itu, bukan?
Pengembang
Memang saya percaya tidak ada, tidak.
Nick Sabbe
2
Beberapa literatur (yang melibatkan kompetisi untuk menginterpolasi sampel dataset terkenal) sebagian memvalidasi balasan ini, tetapi tidak sepenuhnya. Seseorang dapat belajar banyak tentang korelasi spasial data melalui analisis statistik data saja, tanpa "kondisi keteraturan". Yang diperlukan adalah model data sebagai sampel dari satu realisasi proses stokastik bersama dengan (1) hipotesis ergodik dan (dalam kebanyakan kasus) (2) semacam asumsi stasioneritas. Dalam kerangka ini, interpolasi menjadi prediksi dari suatu harapan, tetapi bahkan kurva yang tidak dapat dibedakan diperbolehkan.
whuber
1
@whuber: Saya jauh dari zona nyaman saya di sini, tetapi semuanya setelah "kondisi keteraturan" dalam komentar Anda berbunyi seperti asumsi yang cukup solid (stasioner kemungkinan akan sama dengan kondisi keteraturan, bukan?). Sebenarnya, saya pikir itu akan tergantung pada apakah ukuran sampel Anda besar sehubungan dengan penyimpangan dalam bentuk fungsional ... Bisakah Anda memberikan referensi kertas atau suka di mana ini tidak terjadi?
Nick Sabbe
2
Anda tidak dapat melakukan apa pun tanpa asumsi, Nick! Tetapi keteraturan (seperti kelancaran fungsi) tidak perlu: dapat disimpulkan dari data, setidaknya pada skala di mana fungsi tersebut dijadikan sampel. (Stationaritas adalah asumsi yang jauh lebih ringan daripada kehalusan.) Anda benar bahwa sampel besar diperlukan, tetapi banyak yang dapat dipelajari dalam 2D ​​bahkan dengan 30-50 lokasi sampel yang dipilih dengan baik. Literaturnya besar; misalnya, sebagian besar masalah Geologi Matematika dikhususkan untuk ini. Untuk pengantar yang ketat, lihat Statistik Tata Ruang
whuber
0

Anda dapat menghitung persamaan linier untuk garis paling cocok (misalnya. Y = 0,4554x + 0,7525) namun ini hanya akan berfungsi jika ada sumbu berlabel. Namun ini tidak akan memberi Anda jawaban yang tepat hanya yang paling pas dalam kaitannya dengan poin lainnya.

Claire Winterbourne
sumber
Tetapi regresi bukanlah interpolasi .
Scortchi
1
@Scortchi Saya percaya regresi dapat dipahami sebagai interpolasi. Namun, mengusulkan regresi sebagai solusi tidak menjawab pertanyaan, yang meminta kami untuk menjelaskan mengapa segala macam interpolasi dibenarkan (dan secara implisit mengundang kami untuk menggambarkan asumsi yang diperlukan untuk membenarkannya).
whuber
@whuber: Terima kasih. Saya memikirkan interpolasi, setidaknya secara prototipe, sebagai join-the-dots - stats.stackexchange.com/a/33662/17230 .
Scortchi
@Scortchi Utas itu membahas terutama konsep matematika interpolasi dalam sebuah tabel. Dalam komentar untuk pertanyaannya saya menunjukkan pemahaman statistik konvensional tentang interpolasi, yang agak berbeda. Regresi bekerja di kedua dunia: fungsi regresi dapat berfungsi sebagai interpolator matematis (untuk fungsi terdefinisi dengan baik yang disampel dalam tabel) serta interpolator statistik (melalui prediksi statistik nilai-nilai dari proses stokastik yang tergantung pada suatu sejumlah nilai yang berasal dari proses itu).
whuber
1
nn