Regresi terhadap teka-teki yang berarti

9

Dalam bab "Regresi terhadap Mean" dari "Berpikir, Cepat, dan Lambat" oleh Daniel Kahneman, sebuah contoh diberikan dan pembaca diminta untuk meramalkan penjualan masing-masing toko mengingat keseluruhan perkiraan penjualan dan angka penjualan dari tahun sebelumnya . Misalnya (contoh buku ini memiliki 4 toko, saya menggunakan 2 di sini untuk kesederhanaan):

Store    2011    2012
1        100      ?
2        500      ?
Total    600     660

Perkiraan naif akan menjadi 110 dan 550 untuk toko 1 dan 2, kenaikan 10% untuk masing-masing. Namun, penulis mengklaim pendekatan naif ini salah. Lebih mungkin bagi toko yang berkinerja lebih buruk untuk meningkat lebih dari 10%, dan toko yang berkinerja lebih baik meningkat (atau bahkan menurun) kurang dari 10%. Jadi mungkin perkiraan 115 (kenaikan 15%) dan 535 (kenaikan 7%) akan "lebih benar" daripada perkiraan naif.

Yang tidak saya mengerti adalah bagaimana kita dapat menyimpulkan bahwa penjualan 100 toko 1 adalah toko yang kinerjanya lebih buruk? Mungkin, karena perbedaan lokasi, cara deret waktu sebenarnya dari toko 1 dan 2 adalah 10 dan 550, dan toko 1 memiliki tahun super di tahun 2011, dan toko 2 memiliki tahun yang membawa bencana di tahun 2011. Maka apakah itu tidak masuk akal memperkirakan penurunan untuk toko 1 dan peningkatan untuk toko 2?

Saya tahu bahwa informasi deret waktu tidak diberikan dalam contoh asli, tetapi saya mendapat kesan bahwa "regresi terhadap rerata" mengacu pada rerata cross-sectional dan oleh karena itu informasi deret waktu tidak penting. Apa yang saya salah pahami?


sumber

Jawaban:

8

Saya kebetulan membaca buku itu. Anda belum menyalin informasi kunci dengan memadai. Dikatakan bahwa "semua toko memiliki ukuran dan pilihan barang yang sama, tetapi penjualan mereka berbeda karena lokasi, persaingan, dan faktor acak." Itu kuncinya, terutama yang terakhir. Faktor acak diperlukan untuk regresi terhadap rata-rata yang terjadi (jika penjualan tumbuh dengan jumlah tetap, maka keuntungan 10% yang sama-sama tersebar di seluruh toko akan menjadi benar).

Peter Flom
sumber
2
Apakah Anda mengatakan bahwa asumsi "semua toko serupa" menyiratkan bahwa deret waktu mereka berarti sama? Kalau tidak, dua toko yang identik masih dapat memiliki cara yang sangat berbeda karena lokasinya.
1
Saya akui itu bukan kata terbaik dari suatu masalah, tetapi jauh lebih jelas daripada apa yang Anda miliki dalam pertanyaan awal Anda.
Peter Flom
2

Dengan poin data yang sangat sedikit, jawabannya akan hampir seluruhnya ditentukan oleh yang sebelumnya (atau yang tersirat setara). Jika penulis telah melihat banyak data seperti ini sebelumnya, mereka mungkin memiliki alasan yang bagus untuk berpikir jawaban mereka lebih mungkin benar, mengingat pengamatan mereka di masa lalu. Saya pikir ini sulit untuk menyarankan ini adalah contoh dari regresi terhadap nilai rata-rata, setidaknya tidak tanpa menyebutkan lebih banyak informasi. Misalnya, apakah toko di lokasi yang sebanding atau tidak? Jika ada dan tidak ada perbedaan yang jelas di antara toko-toko maka kita mungkin merasa dibenarkan dalam berpikir bahwa mereka adalah bagian dari populasi yang sebanding dan kita dapat berpikir tentang regresi terhadap nilai tengah. Jika ada perbedaan yang jelas antara toko-toko yang dapat menjelaskan perbedaan sistematis dalam penjualan, maka menjadi kurang masuk akal untuk melakukannya.

Bogdanovist
sumber
0

Saya pikir ilustrasi (hipotesis) yang lebih baik mungkin seperti ini:

Store    2011    2012
1        100      ?
2        180      ?
3        190      ?
4        210      ?
5        235      ?
6        300      ?

Jika tidak ada alasan sistematis, kami mengharapkan pemain yang terburuk (dari penyebab acak) untuk tidak lagi seperti itu. Dan juga untuk pemain terbaik.

Oleh karena itu, dengan pertumbuhan rata-rata 10%, saya harapkan # 1 lebih baik dari 110 dan # 6 lebih buruk dari 330.

Saya merasa bagian rapuh adalah asumsi. Sangat jarang IMHO bahwa keterlambatan paket ini benar-benar hanya kebetulan acak dan bukan heterogenitas yang mendasarinya.

curious_cat
sumber