Dalam bab "Regresi terhadap Mean" dari "Berpikir, Cepat, dan Lambat" oleh Daniel Kahneman, sebuah contoh diberikan dan pembaca diminta untuk meramalkan penjualan masing-masing toko mengingat keseluruhan perkiraan penjualan dan angka penjualan dari tahun sebelumnya . Misalnya (contoh buku ini memiliki 4 toko, saya menggunakan 2 di sini untuk kesederhanaan):
Store 2011 2012
1 100 ?
2 500 ?
Total 600 660
Perkiraan naif akan menjadi 110 dan 550 untuk toko 1 dan 2, kenaikan 10% untuk masing-masing. Namun, penulis mengklaim pendekatan naif ini salah. Lebih mungkin bagi toko yang berkinerja lebih buruk untuk meningkat lebih dari 10%, dan toko yang berkinerja lebih baik meningkat (atau bahkan menurun) kurang dari 10%. Jadi mungkin perkiraan 115 (kenaikan 15%) dan 535 (kenaikan 7%) akan "lebih benar" daripada perkiraan naif.
Yang tidak saya mengerti adalah bagaimana kita dapat menyimpulkan bahwa penjualan 100 toko 1 adalah toko yang kinerjanya lebih buruk? Mungkin, karena perbedaan lokasi, cara deret waktu sebenarnya dari toko 1 dan 2 adalah 10 dan 550, dan toko 1 memiliki tahun super di tahun 2011, dan toko 2 memiliki tahun yang membawa bencana di tahun 2011. Maka apakah itu tidak masuk akal memperkirakan penurunan untuk toko 1 dan peningkatan untuk toko 2?
Saya tahu bahwa informasi deret waktu tidak diberikan dalam contoh asli, tetapi saya mendapat kesan bahwa "regresi terhadap rerata" mengacu pada rerata cross-sectional dan oleh karena itu informasi deret waktu tidak penting. Apa yang saya salah pahami?
Dengan poin data yang sangat sedikit, jawabannya akan hampir seluruhnya ditentukan oleh yang sebelumnya (atau yang tersirat setara). Jika penulis telah melihat banyak data seperti ini sebelumnya, mereka mungkin memiliki alasan yang bagus untuk berpikir jawaban mereka lebih mungkin benar, mengingat pengamatan mereka di masa lalu. Saya pikir ini sulit untuk menyarankan ini adalah contoh dari regresi terhadap nilai rata-rata, setidaknya tidak tanpa menyebutkan lebih banyak informasi. Misalnya, apakah toko di lokasi yang sebanding atau tidak? Jika ada dan tidak ada perbedaan yang jelas di antara toko-toko maka kita mungkin merasa dibenarkan dalam berpikir bahwa mereka adalah bagian dari populasi yang sebanding dan kita dapat berpikir tentang regresi terhadap nilai tengah. Jika ada perbedaan yang jelas antara toko-toko yang dapat menjelaskan perbedaan sistematis dalam penjualan, maka menjadi kurang masuk akal untuk melakukannya.
sumber
Saya pikir ilustrasi (hipotesis) yang lebih baik mungkin seperti ini:
Jika tidak ada alasan sistematis, kami mengharapkan pemain yang terburuk (dari penyebab acak) untuk tidak lagi seperti itu. Dan juga untuk pemain terbaik.
Oleh karena itu, dengan pertumbuhan rata-rata 10%, saya harapkan # 1 lebih baik dari 110 dan # 6 lebih buruk dari 330.
Saya merasa bagian rapuh adalah asumsi. Sangat jarang IMHO bahwa keterlambatan paket ini benar-benar hanya kebetulan acak dan bukan heterogenitas yang mendasarinya.
sumber