Apa perbedaan antara prakiraan "dalam sampel" dan "di luar sampel"?

17

Saya tidak mengerti apa sebenarnya perbedaan antara prediksi "in-sample" dan "out of sample"? Prakiraan dalam sampel menggunakan subset dari data yang tersedia untuk memperkirakan nilai di luar periode estimasi. Alih-alih perkiraan sampel menggunakan semua data yang tersedia Apakah ini benar ?

Secara spesifik, apakah definisi berikut ini benar?

Perkiraan sampel dalam menggunakan subset dari data yang tersedia untuk memperkirakan nilai di luar periode estimasi dan membandingkannya dengan hasil yang diketahui atau aktual yang sesuai. Ini dilakukan untuk menilai kemampuan model untuk memperkirakan nilai yang diketahui. Misalnya, perkiraan sampel dalam dari 1980 hingga 2015 mungkin menggunakan data dari 1980 hingga 2012 untuk memperkirakan model. Menggunakan model ini, peramal kemudian akan memprediksi nilai untuk 2013-2015 dan membandingkan nilai perkiraan dengan nilai aktual yang diketahui. Alih-alih perkiraan sampel menggunakan semua data yang tersedia dalam sampel untuk memperkirakan model. Untuk contoh sebelumnya, estimasi akan dilakukan selama 1980-2015, dan perkiraan akan dimulai pada 2016.

Engin YILMAZ
sumber
Bisakah Anda memberikan beberapa konteks? Jawaban yang Anda berikan untuk pertanyaan Anda sendiri tampaknya OK, tetapi terminologinya mungkin spesifik per subjek.
IWS
Dari mana Anda mendapatkan definisi itu?
gung - Reinstate Monica
In-sample adalah data yang Anda tahu pada saat model builing dan yang Anda gunakan untuk membangun model itu. Di luar sampel adalah data yang tidak terlihat dan Anda hanya menghasilkan prediksi / perkiraan itu. Dalam sebagian besar keadaan, model akan melakukan out-of-sample yang lebih buruk daripada in-sample di mana semua parameter telah dikalibrasi.
Ric
@IWS Saya menambahkan pertanyaan spesifik :)
Engin YILMAZ
@ Richard Silakan baca pertanyaan spesifik baru ...
Engin YILMAZ

Jawaban:

32

Dengan "sampel" itu berarti sampel data yang Anda gunakan agar sesuai dengan model.

Pertama - Anda memiliki sampel
Kedua - Anda cocok dengan model pada sampel
Ketiga - Anda dapat menggunakan model untuk perkiraan

Jika Anda memperkirakan untuk pengamatan yang merupakan bagian dari sampel data - itu adalah perkiraan dalam sampel.

Jika Anda memperkirakan untuk pengamatan yang bukan bagian dari sampel data - itu adalah perkiraan out-of-sample.

Jadi pertanyaan yang harus Anda tanyakan pada diri sendiri adalah: Apakah pengamatan khusus yang digunakan untuk model cocok atau tidak? Jika digunakan untuk pemasangan model, maka perkiraan pengamatan adalah dalam-sampel. Kalau tidak, itu out-of-sample.

jika Anda menggunakan data 1990-2013 agar sesuai dengan model dan kemudian Anda meramalkan untuk 2011-2013, itu adalah perkiraan dalam-sampel. tetapi jika Anda hanya menggunakan 1990-2010 untuk menyesuaikan model dan kemudian Anda meramalkan 2011-2013, maka perkiraan out-of-sample.

Kuda Raja Salomo
sumber
Kami memiliki sampel dari 1990 hingga 2013 ,, maka kami cocok dengan model pada sampel, lalu kami memperkirakan 2011-2013,, apakah ini sampel? atau Kami memiliki sampel dari 1990 hingga 2013, lalu kami mencocokkan model 1990 hingga 2010 pada sampel, kami memperkirakan 2011-2013, apakah ini di luar sampel?
Engin YILMAZ
ya, jika Anda menggunakan data 1990-2013 agar sesuai dengan model dan kemudian Anda meramalkan untuk 2011-2013, itu adalah perkiraan dalam-sampel. tetapi jika Anda hanya menggunakan 1990-2010 untuk menyesuaikan model dan kemudian Anda meramalkan 2011-2013, maka perkiraan out-of-sample.
Kuda Raja Salomo
3

Misalkan dalam sampel Anda, Anda memiliki urutan 10 titik data. Data ini dapat dibagi menjadi dua bagian - misalnya 7 titik data pertama untuk memperkirakan parameter model dan 3 titik data berikutnya untuk menguji kinerja model. Dengan menggunakan model yang sesuai, prediksi yang dibuat untuk 7 titik data pertama akan disebut prakiraan sampel dalam dan yang sama untuk 3 poin data terakhir akan dipanggil di luar perkiraan sampel. Ini sama dengan gagasan untuk membagi data ke dalam set pelatihan dan set validasi.

Kumar
sumber
1

Prakiraan dalam sampel adalah proses evaluasi formal kemampuan prediksi model yang dikembangkan menggunakan data yang diamati untuk melihat seberapa efektif algoritma dalam mereproduksi data. Ini agak mirip dengan set pelatihan dalam algoritma pembelajaran mesin dan out-of-sample mirip dengan set tes.

ADIL ANSARI
sumber
Anda memberikan penjelasan singkat tentang peramalan dalam sampel - dapatkah Anda juga memberikan yang sama untuk sampel keluar (yaitu penjelasan singkat bukan hanya perbandingan dengan set tes)?
ReneBt
0

Diagram di bawah ini akan membantu Anda memahami IN TIME dan OUT OF TIME

masukkan deskripsi gambar di sini

Anant Gupta
sumber
-1

Dalam Perkiraan Rangkaian waktu, 'Sampel' berarti data kereta 'Sampel luar' berarti data uji

Dalam seri Time, pertama-tama kita dapat memperkirakan hasil untuk data 'Insample' (yaitu kereta). Nanti kita dapat memperkirakan hasil untuk data 'uji coba' (yaitu pengujian).

model = ARIMA(order = (p,d,q), seasonal_order=(P,D,Q,S))
model.fit(train_data)

train_predictions = model.predict_in_sample()
test_predictions = model.predict(n_periods=len(test_data.index))

predictions = pd.concatenate((train_predictions, test_predictions),axis=0)
Brahmaiahchowdary
sumber
Saya pikir jawaban Anda semakin diturunkan, karena tidak menjawab pertanyaan - khususnya "Sangat khusus apakah definisi berikut ini benar?" tidak disarankan.
Martin Modrák