Menggunakan Regresi untuk memproyeksikan di luar rentang data ok? tidak pernah ok terkadang ok?

10

Apa pendapat Anda tentang menggunakan regresi untuk memproyeksikan di luar rentang data? Jika kami yakin bahwa itu mengikuti bentuk model linier atau daya, tidak bisakah model berguna di luar rentang data? Misalnya saya memiliki volume yang didorong oleh harga. Kita harus dapat memproyeksikan harga di luar rentang data yang saya percaya. Pikiran Anda?

VOL     PRICE
3044    4.97
2549    4.97
3131    4.98
2708    4.98
2860    4.98
2907    4.98
3107    4.98
3194    4.98
2753    4.98
3228    4.98
3019    4.98
3077    4.99
2597    4.99
2706    4.99
3000    4.99
3022    4.99
3084    4.99
3973    4.99
3675    4.99
3065    4.99
3407    4.99
2359    4.99
2802    4.99
2589    4.99
2476    4.99
2387    5
3265    5
2039    5.14
1842    5.15
2660    5.37
1796    5.46
1734    5.46
1881    5.46
2204    5.58
1477    5.77
1620    5.84
1909    5.87
1744    5.87
1247    5.87
1848    5.88
1641    5.88
1758    5.88
1718    5.88
1656    5.88
1822    5.88
1556    5.89
1643    5.9
1850    5.91
1901    5.91
1837    5.91
1773    5.92
1729    5.92
Johnson Jason
sumber
1
Bergantung pada seberapa baik asumsi Anda bertahan di luar rentang data. Memprediksi untuk tidak teramati adalah alasan utama Anda melakukan regresi sejak awal. xyx
Ben
3
Bahkan ketika Anda benar-benar yakin hubungan linier berlanjut di luar kisaran prediktor dalam sampel pengamatan Anda, ada istilah dalam varian respons yang diprediksi untuk pengamatan baru - viz - yang seharusnya membuat Anda khawatir. n x ( x - ˉ x ) 2x1,,xnnx(xx¯)2in(xix¯)2
Scortchi
Ben saya cenderung setuju, bukankah memprediksi y untuk X yang tidak teramati adalah intinya? Kalau begitu kenapa tidak melakukan regresi? Mungkin menetapkan batas pada seberapa jauh saya membiarkan diri saya menjauhi rentang data yang diamati dapat bertanggung jawab. Tentunya 10% akan aman .. tidak?
Johnson Jason
Tolok ukur favorit saya tentang topik ini adalah bmj.com/content/317/7155/409 .
Carlo Lazzaro
@ Ben, @ Johnson - Mungkin berdalih. Ada kegunaan lain untuk regresi. Ini dapat digunakan untuk menjelaskan daripada memprediksi. Saya pikir, khususnya dalam ilmu sosial ini adalah penggunaan utama dari regresi. Saya sudah membaca banyak argumen seperti Kami berpikir bahwa (variabel) efek hasil B, kami menjalankan regresi, menemukan bahwa interval kepercayaan 95% dari koefisien (s) dari A tidak mengandung 0 dan kami menyimpulkan bahwa ada hubungan bentuk A menyebabkan B. Kebetulan, ini bukan sesuatu yang pernah saya lakukan!
meh

Jawaban:

13

Hampir semua jawaban dan komentar memperingatkan bahaya ekstrapolasi. Saya ingin menawarkan cara yang lebih formal untuk melihat apakah prediksi itu bijaksana. Metode ini didasarkan pada matriks proyeksi pada ruang yang direntang oleh kolom yang kita anggap peringkat penuh, yaitu kita menganggap ruang kolom adalah p-dimensional. Seperti yang mungkin Anda ingat,X

H=X(XTX)1X

Dapat diperlihatkan bahwa elemen diagonal dari memenuhi , ini adalah konsekuensi dari idempoten omong-omong, dan mereka dapat diartikan sebagai jarak dari pusat massa ruang prediktor. Ini benar karena ada korespondensi satu-ke-satu antara leverage dan jarak Mahalanobis kuadrat. Cara untuk melihat ekstrapolasi tersembunyi kemudian adalah untuk melihat seberapa jauh kebohongan baru terletak dari centroid, kan? Ini dapat dilakukan dengan menghitung elemen diagonal baru. Mengingat beberapa aturan dasar perkalian matriks, kami miliki 0 < H i i < 1 , i = 1 , , n H i iH0<Hii<1, i=1,,nHii

Hnew,new=xnewT(XTX)1xnew

Jika jauh lebih besar daripada elemen diagonal lainnya, maka ini memberitahu Anda bahwa pengamatan baru Anda terletak cukup jauh dari pusat massa dan prediksi mungkin merupakan langkah yang berisiko. Dibutuhkan pertimbangan untuk memutuskan seberapa besar terlalu besar sehingga tentu saja tekniknya tidak mudah. Namun keindahannya adalah ia bekerja di semua dimensi, ketika Anda tidak dapat melihat plot pencar sederhana.Hnew,new

Saya tidak yakin perangkat lunak mana yang Anda gunakan tetapi hampir semuanya akan mengembalikan matriks topi dengan perintah yang tepat. Jadi saya sarankan Anda memeriksanya sebelum mengambil keputusan.

JohnK
sumber
JohnK yang dilakukan dengan baik, ini sangat membantu. FYI Saya menggunakan regresi Excel.
Johnson Jason
9

Kesalahan prediksi meningkat secara kuadratik dengan jarak dari rata-rata. Persamaan regresi dan hasil memungkinkan Anda untuk mengukur ukuran kesalahan pada rentang data yang diamati, dan model hanya memadai untuk rentang yang sama.

Di luar kisaran itu banyak hal bisa terjadi. Pertama, prediksi menjadi semakin buruk karena meningkatnya kesalahan prediksi.

Kedua, model dapat rusak sepenuhnya. Cara termudah untuk melihatnya adalah dengan mencoba memproyeksikan model terkait harga dengan waktu: Anda tidak dapat membuat prediksi untuk waktu negatif.

Ketiga, hubungan linier mungkin tidak memadai. Dalam contoh Anda, hampir pasti ada skala ekonomi, yang akan menjadi sangat nyata jika Anda mencoba memprediksi jauh di luar kisaran nilai yang diamati.

Sebuah contoh lucu dari efek yang sama ini muncul dalam salah satu karya Mark Twain , di mana ia mencoba untuk memodelkan panjang sungai Mississippi dari waktu ke waktu --- itu berangin dan lebih pendek setiap tahun karena erosi beberapa dari tikungan serta pintasan buatan manusia --- dan "memperkirakan" bahwa dalam bertahun-tahun jarak antara Kairo, Illinois, dan New Orleans akan menyusut menjadi sekitar satu mil dan tiga perempat).

Akhirnya, perhatikan bahwa rentang nilai yang diamati bisa sangat rumit jika Anda memiliki lebih dari satu variabel prediktor. (Karena korelasi antara prediktor, Anda sering tidak bisa hanya mengambil kotak yang ditentukan oleh maksima dan minimum di setiap prediktor.)

pengguna3697176
sumber
1
(+1) Meskipun untuk mengatakan model cukup hanya pada rentang data yang diamati sedikit kuat - itu adalah bahwa masalah yang Anda gambarkan menjadi lebih & lebih banyak mengenai semakin jauh Anda dapatkan dari itu.
Scortchi
Jadi apakah ada pekerjaan sekitar seberapa jauh jarak aman untuk menjelajah dari rentang data yang diamati? Kurang dari 1 standar deviasi, oke?
Johnson Jason
1
@Scortchi. Poin yang diambil. Dalam sebagian besar situasi, degradasi model bersifat bertahap. Namun, kadang-kadang ada yang batas keras, dan mencoba untuk melampaui mereka akan menyebabkan kesedihan.
user3697176
1
@JohnsonJason: Tidak ada gunanya mencari aturan praktis. Anda dapat dengan mudah menghitung interval prediksi, dengan asumsi model Anda dapat diekstrapolasi; sejauh mana Anda dapat mempercayai ekstrapolasi tergantung pada pengetahuan materi pelajaran: apa yang dapat diterima bervariasi dari kasus ke kasus.
Scortchi
1
Poin luar biasa (+1). Tetapi tidak ada masalah logis dalam memprediksi harga untuk waktu negatif. Masalah sebenarnya adalah jika Anda memprediksi harga negatif untuk beberapa waktu tertentu (biasanya di masa lalu, dalam praktik). Seringkali itu berarti model secara kualitatif salah sebanyak ekstrapolasi meregangkan garis (atau kurva) terlalu jauh. Fungsi tautan logaritmik misalnya selalu menyiratkan prediksi positif.
Nick Cox
4

Anda tidak dapat membuat keputusan berdasarkan data untuk area di mana Anda tidak memiliki data. Akhir dari cerita. Data dapat sangat mendukung bentuk linear untuk rentang mana data Anda dikumpulkan tetapi Anda tidak memiliki alasan berbasis data untuk percaya bahwa bentuk ini terus linier di luar jangkauan Anda. Itu bisa berupa apa saja di bawah matahari!

Anda dapat mengasumsikan bentuk linier berlanjut di luar rentang data Anda, tetapi ini adalah asumsi subjektif yang tidak didukung oleh data yang telah Anda kumpulkan. Saya akan menyarankan berkonsultasi dengan ahli materi pelajaran untuk melihat, berdasarkan keahlian materi pelajaran mereka, seberapa aman asumsi ini.

TrynnaDoStat
sumber
2
Jadi apa gunanya melakukan regresi jika kita tidak dapat memprediksi Y untuk X yang tidak teramati
Johnson Jason
2
Saya pikir intinya adalah bahwa Anda masih dapat memprediksi di dalam rentang, hanya saja tidak disarankan untuk memprediksi di luar rentang. Agaknya sebagian besar titik data baru akan berada dalam jangkauan, sehingga model akan tetap berguna sebagian besar waktu
Ryan Zotti