Saya menghitung model regresi linier sederhana dari ukuran percobaan saya untuk membuat prediksi. Saya telah membaca bahwa Anda tidak harus menghitung prediksi untuk poin yang terlalu jauh dari data yang tersedia. Namun, saya tidak dapat menemukan panduan untuk membantu saya mengetahui sejauh mana saya bisa memperkirakan. Sebagai contoh, jika saya menghitung kecepatan membaca untuk ukuran disk 50GB, saya kira hasilnya akan mendekati kenyataan. Bagaimana dengan ukuran disk 100GB, 500GB? Bagaimana saya tahu kalau prediksi saya dekat dengan kenyataan?
Detail percobaan saya adalah:
Saya mengukur kecepatan membaca suatu perangkat lunak dengan menggunakan ukuran disk yang berbeda. Sejauh ini saya telah mengukurnya dengan 5GB hingga 30GB dengan meningkatkan ukuran disk 5GB di antara percobaan (total 6 langkah).
Hasil saya linear dan kesalahan standar kecil, menurut saya.
sumber
Jawaban:
Istilah yang Anda cari adalah 'ekstrapolasi'. Masalahnya adalah bahwa tidak peduli berapa banyak data yang Anda miliki, dan berapa banyak tingkat menengah yang Anda miliki antara titik akhir Anda pada ukuran disk (yaitu, antara 5 dan 30), selalu mungkin bahwa ada beberapa derajat kelengkungan dalam fungsi mendasar yang sebenarnya. , bahwa Anda tidak memiliki kekuatan untuk mendeteksi. Akibatnya, ketika Anda memperkirakan jauh dari titik akhir, tingkat kelengkungan yang kecil itu diperbesar, karena fungsi sebenarnya bergerak semakin jauh dari garis fit Anda. Kemungkinan lain adalah bahwa fungsi sebenarnya benar-benar lurus dalam rentang yang diteliti, tetapi mungkin ada titik perubahan agak jauh dari titik akhir dalam studi Anda. Hal-hal semacam ini tidak mungkin dikesampingkan; pertanyaannya adalah, seberapa besar kemungkinan mereka dan seberapa akurat prediksi Anda jika ternyata itu nyata? Saya tidak tahu bagaimana memberikan jawaban analitik untuk pertanyaan-pertanyaan itu. Firasat saya adalah 500 jauh dari jangkauan ketika kisaran yang diteliti adalah [5, 30], tetapi tidak ada alasan nyata untuk berpikir firasat saya lebih berharga daripada milik Anda. Rumus standar untuk interval prediksi komputasi akan menunjukkan kepada Anda interval yang bertambah saat Anda menjauh xx¯ , melihat seperti apa interval itu mungkin bermanfaat. Meskipun demikian, Anda harus ingat bahwa Anda membuat asumsi teoretis bahwa garis tersebut benar-benar lurus, dan tetap sejauh jalan keluar ke nilai yang akan Anda gunakan untuk prediksi. Keabsahan prediksi tersebut bergantung pada data & kecocokan, dan asumsi tersebut. x
sumber
Biarkan saya menambahkan beberapa poin ke jawaban luar biasa @ gung:
Tergantung pada bidang Anda, mungkin ada norma yang relevan (seperti dalam DIN / EN atau ISO). Ini mungkin bukan masalah dengan memprediksi kecepatan membaca hard disk, tetapi misalnya dalam kimia analitik aturannya bukanlah ekstrapolasi . Titik. Jika Anda ingin mencapai 500 GB, lalu pergi dan lakukan beberapa pengukuran hingga termasuk 500 GB.
Cara biasa menyiapkan model linear memiliki dua asumsi penting
Jelas, bahwa fungsinya linier. Dalam praktik biasanya bukan asumsi yang sangat baik bahwa linearitas meluas hingga tak terbatas. Misalnya, bisakah Anda berharap masih menemukan linearitas jika Anda membaca jumlah yang lebih besar daripada volume hard disk?
Biasanya, homoskedastisitas juga diasumsikan. Ini berarti bahwa jumlah absolut kesalahan / kebisingan tidak tergantung pada variabel dependen ( ), di sini: jumlah data yang akan dibaca. Saya tidak yakin tentang pembacaan hard disk, tetapi saya alami (kimia / chemometrics) biasanya sesuatu antara konstan absolut dan konstan kebisingan relatif (atau perilaku yang lebih rumit karena berbagai sumber kebisingan). Setiap penyimpangan dari jumlah absolut konstan rezim kebisingan akan berarti bahwa interval prediksi untuk ekstrapolasi sangat keliru - biasanya mereka akan terlalu sempit.x
Bahkan jika asumsi-asumsi ini dipenuhi, pertimbangkan seberapa besar interval prediksi sebenarnya untuk ekstrapolasi semacam itu:
(Saya mengambil beberapa data kalibrasi nyata dari pengukuran yang sangat bagus yang saya miliki dan menyesuaikannya dengan masalah Anda).x t
Perhatikan bahwa interval prediksi di = 500 sudah dua kali lebih besar sebagai total perbedaan dalam bentang kalibrasi data Anda! Jika Anda tidak memiliki kumpulan data linier yang sangat bagus, interval prediksi hanya akan "meledak".t
sumber