Apa pendapat Anda tentang menggunakan regresi untuk memproyeksikan di luar rentang data? Jika kami yakin bahwa itu mengikuti bentuk model linier atau daya, tidak bisakah model berguna di luar rentang data? Misalnya saya memiliki volume yang didorong oleh harga. Kita harus dapat memproyeksikan harga di luar rentang data yang saya percaya. Pikiran Anda?
VOL PRICE
3044 4.97
2549 4.97
3131 4.98
2708 4.98
2860 4.98
2907 4.98
3107 4.98
3194 4.98
2753 4.98
3228 4.98
3019 4.98
3077 4.99
2597 4.99
2706 4.99
3000 4.99
3022 4.99
3084 4.99
3973 4.99
3675 4.99
3065 4.99
3407 4.99
2359 4.99
2802 4.99
2589 4.99
2476 4.99
2387 5
3265 5
2039 5.14
1842 5.15
2660 5.37
1796 5.46
1734 5.46
1881 5.46
2204 5.58
1477 5.77
1620 5.84
1909 5.87
1744 5.87
1247 5.87
1848 5.88
1641 5.88
1758 5.88
1718 5.88
1656 5.88
1822 5.88
1556 5.89
1643 5.9
1850 5.91
1901 5.91
1837 5.91
1773 5.92
1729 5.92
regression
dataset
linear-model
Johnson Jason
sumber
sumber
Jawaban:
Hampir semua jawaban dan komentar memperingatkan bahaya ekstrapolasi. Saya ingin menawarkan cara yang lebih formal untuk melihat apakah prediksi itu bijaksana. Metode ini didasarkan pada matriks proyeksi pada ruang yang direntang oleh kolom yang kita anggap peringkat penuh, yaitu kita menganggap ruang kolom adalah p-dimensional. Seperti yang mungkin Anda ingat,X
Dapat diperlihatkan bahwa elemen diagonal dari memenuhi , ini adalah konsekuensi dari idempoten omong-omong, dan mereka dapat diartikan sebagai jarak dari pusat massa ruang prediktor. Ini benar karena ada korespondensi satu-ke-satu antara leverage dan jarak Mahalanobis kuadrat. Cara untuk melihat ekstrapolasi tersembunyi kemudian adalah untuk melihat seberapa jauh kebohongan baru terletak dari centroid, kan? Ini dapat dilakukan dengan menghitung elemen diagonal baru. Mengingat beberapa aturan dasar perkalian matriks, kami miliki 0 < H i i < 1 , i = 1 , … , n H i iH 0 < Hi i< 1 , i = 1 , … , n Hi i
Jika jauh lebih besar daripada elemen diagonal lainnya, maka ini memberitahu Anda bahwa pengamatan baru Anda terletak cukup jauh dari pusat massa dan prediksi mungkin merupakan langkah yang berisiko. Dibutuhkan pertimbangan untuk memutuskan seberapa besar terlalu besar sehingga tentu saja tekniknya tidak mudah. Namun keindahannya adalah ia bekerja di semua dimensi, ketika Anda tidak dapat melihat plot pencar sederhana.Hn e w , n e w
Saya tidak yakin perangkat lunak mana yang Anda gunakan tetapi hampir semuanya akan mengembalikan matriks topi dengan perintah yang tepat. Jadi saya sarankan Anda memeriksanya sebelum mengambil keputusan.
sumber
Kesalahan prediksi meningkat secara kuadratik dengan jarak dari rata-rata. Persamaan regresi dan hasil memungkinkan Anda untuk mengukur ukuran kesalahan pada rentang data yang diamati, dan model hanya memadai untuk rentang yang sama.
Di luar kisaran itu banyak hal bisa terjadi. Pertama, prediksi menjadi semakin buruk karena meningkatnya kesalahan prediksi.
Kedua, model dapat rusak sepenuhnya. Cara termudah untuk melihatnya adalah dengan mencoba memproyeksikan model terkait harga dengan waktu: Anda tidak dapat membuat prediksi untuk waktu negatif.
Ketiga, hubungan linier mungkin tidak memadai. Dalam contoh Anda, hampir pasti ada skala ekonomi, yang akan menjadi sangat nyata jika Anda mencoba memprediksi jauh di luar kisaran nilai yang diamati.
Sebuah contoh lucu dari efek yang sama ini muncul dalam salah satu karya Mark Twain , di mana ia mencoba untuk memodelkan panjang sungai Mississippi dari waktu ke waktu --- itu berangin dan lebih pendek setiap tahun karena erosi beberapa dari tikungan serta pintasan buatan manusia --- dan "memperkirakan" bahwa dalam bertahun-tahun jarak antara Kairo, Illinois, dan New Orleans akan menyusut menjadi sekitar satu mil dan tiga perempat).
Akhirnya, perhatikan bahwa rentang nilai yang diamati bisa sangat rumit jika Anda memiliki lebih dari satu variabel prediktor. (Karena korelasi antara prediktor, Anda sering tidak bisa hanya mengambil kotak yang ditentukan oleh maksima dan minimum di setiap prediktor.)
sumber
Anda tidak dapat membuat keputusan berdasarkan data untuk area di mana Anda tidak memiliki data. Akhir dari cerita. Data dapat sangat mendukung bentuk linear untuk rentang mana data Anda dikumpulkan tetapi Anda tidak memiliki alasan berbasis data untuk percaya bahwa bentuk ini terus linier di luar jangkauan Anda. Itu bisa berupa apa saja di bawah matahari!
Anda dapat mengasumsikan bentuk linier berlanjut di luar rentang data Anda, tetapi ini adalah asumsi subjektif yang tidak didukung oleh data yang telah Anda kumpulkan. Saya akan menyarankan berkonsultasi dengan ahli materi pelajaran untuk melihat, berdasarkan keahlian materi pelajaran mereka, seberapa aman asumsi ini.
sumber