Penyesuaian Perkiraan (Regresi Linier)

11

Pengungkapan penuh: Saya bukan ahli statistik, saya juga tidak mengaku sebagai ahli statistik. Saya seorang administrator TI rendahan. Tolong, mainlah dengan saya. :)

Saya bertanggung jawab untuk mengumpulkan dan memperkirakan penggunaan penyimpanan disk untuk perusahaan kami. Kami mengumpulkan penggunaan penyimpanan kami setiap bulan dan menggunakan regresi linear dua belas bulan bergulir sederhana untuk perkiraan (dengan kata lain, hanya data dua belas bulan sebelumnya yang dipertimbangkan saat membuat proyeksi). Kami menggunakan informasi ini untuk alokasi dan perencanaan pengeluaran modal, mis. "Berdasarkan model ini, kami akan perlu membeli jumlah x jika penyimpanan dalam y bulan untuk memenuhi kebutuhan kami." Ini semua bekerja cukup baik untuk memenuhi kebutuhan kita.

Secara berkala, kami memiliki pergerakan besar satu kali dalam jumlah kami yang membuat perkiraan tidak berjalan. Misalnya, seseorang menemukan 500GB cadangan lama yang tidak diperlukan lagi dan menghapusnya. Bagus untuk mereka karena mendapatkan kembali ruang! Namun perkiraan kami saat ini miring dengan penurunan besar dalam satu bulan ini. Kami selalu menerima bahwa penurunan seperti ini membutuhkan waktu 9-10 bulan untuk keluar dari model, tetapi itu bisa sangat lama jika kita memasuki musim perencanaan pengeluaran modal.

Saya bertanya-tanya apakah ada cara untuk menangani varians satu kali ini sedemikian rupa sehingga nilai yang diprakirakan tidak terlalu terpengaruh (misalnya kemiringan garis tidak berubah secara dramatis), tetapi mereka diperhitungkan (misalnya, perubahan satu kali pada nilai y yang dikaitkan dengan titik waktu tertentu). Upaya pertama kami untuk mengatasi ini telah menghasilkan beberapa hasil yang buruk (misalnya kurva pertumbuhan eksponensial). Kami melakukan semua pemrosesan kami di SQL Server jika itu penting.

sbrown
sumber
Pertanyaan yang sangat bagus Hanya klarifikasi cepat. Apakah Anda ingin memprediksi peristiwa ini, atau, setelah itu terjadi, sesuaikan prediksi model yang diberikan informasi baru Anda?
Matthew Drury
1
Benar, tidak jelas apakah Anda mencoba untuk "memuluskan" peristiwa langka ini seperti contoh 500GB sehingga tidak terlalu memengaruhi hasil Anda atau jika Anda mencoba untuk menghitung lebih banyak karena Anda ingin menangkap ketika penyesuaian jalang untuk menyimpan dibuat untuk? Perbedaannya halus: Pada yang pertama, Anda ingin hampir mengabaikan titik baru (peristiwa langka), tetapi dalam kedua, Anda ingin menekankan titik (peristiwa langka). Jika itu yang pertama, regresi yang kuat mungkin merupakan metode sederhana untuk Anda karena Anda sudah menggunakan regresi linier. Lihat di sini: ats.ucla.edu/stat/r/dae/rreg.htm
StatsStudent
Juga, apakah Anda menggunakan perangkat lunak apa pun untuk membuat prediksi dan apakah Anda menggunakan interval kepercayaan?
StatsStudent
Saya bisa menambahkan penyesuaian setelah fakta. Bahkan, sebagian besar waktu saya tidak akan tahu tentang penyimpangan besar sampai saya melihat angka bulan depan dan melihat perubahan besar. Saya tidak menggunakan perangkat lunak apa pun untuk membuat prediksi; hanya prosedur tersimpan di SQL Server untuk menghitung nilai regresi saya.
sbrown
Reaksi cepat: (a) Saya mungkin lebih dulu cocok dengan AR yang sangat dasar (1) untuk perubahan penggunaan disk log? Anda pada dasarnya akan memperkirakan beberapa tingkat pertumbuhan jangka panjang dalam penggunaan disk, dan seberapa cepat tingkat pertumbuhan dalam penggunaan disk bergerak kembali ke tren itu setelah guncangan. (aa) Anda bisa menggunakan data lain juga dan cocok dengan VAR (vektor autoregresi). (B) membuang semua data> 12 bulan mungkin tidak menjadi hal yang optimal untuk dilakukan. (c) OLS biasa meminimalkan jumlah kuadrat. Anda bisa menggunakan fungsi penalti yang berbeda (mis. Huber) yang lebih kuat untuk outlier.
Matthew Gunn

Jawaban:

0

Ini saran sederhana. Saya tidak tahu apakah itu berfungsi untuk Anda dan mungkin saya seharusnya membuatnya sebagai komentar, tetapi tampaknya Anda membutuhkan lebih banyak hak istimewa untuk membuat komentar daripada membuat balasan.

Jika saya mengerti dengan benar, angka yang Anda gunakan adalah jumlah penyimpanan yang Anda gunakan setiap bulan. Mungkin ini kenaikan biasa, dan Anda ingin memprediksi berapa jumlahnya pada suatu waktu di masa depan jika tren berlanjut. Setelah Anda menyadari bahwa perubahan besar Anda telah terjadi (mis. 500 GB telah dirilis) dapatkah Anda kembali dan mengubah angka bulan sebelumnya (mis. Hapus 500 GB dari semuanya)? Pada dasarnya apa yang akan Anda lakukan adalah menyesuaikan angka bulan sebelumnya dengan apa yang seharusnya, jika Anda tahu lalu apa yang Anda ketahui sekarang.

Tentu saja saya tidak merekomendasikan ini kecuali Anda memastikan Anda dapat kembali ke angka lama. Tetapi peramalan yang ingin Anda lakukan terdengar seperti itu bahkan dapat dilakukan di Excel, dalam hal ini Anda dapat memiliki versi sebanyak yang Anda inginkan.

MikeG
sumber