Regresi ke mean dalam "Berpikir, Cepat dan Lambat"

Dalam Berpikir, Cepat dan Lambat , Daniel Kahneman mengajukan pertanyaan hipotetis berikut:

(P. 186) Julie saat ini adalah senior di universitas negeri. Dia lancar membaca ketika berusia empat tahun. Apa nilai poin rata-rata (IPK) -nya?

Niatnya adalah untuk menggambarkan bagaimana kita sering gagal memperhitungkan regresi dengan rata-rata ketika membuat prediksi tentang statistik tertentu. Dalam diskusi selanjutnya, ia menyarankan:

(P. 190) Ingatlah bahwa korelasi antara dua ukuran — dalam kasus ini, usia membaca dan IPK — sama dengan proporsi faktor bersama di antara faktor-faktor penentu mereka. Apa tebakan terbaik Anda tentang proporsi itu? Tebakan paling optimis saya adalah sekitar 30%. Dengan asumsi estimasi ini, kita memiliki semua yang kita butuhkan untuk menghasilkan prediksi yang tidak bias. Berikut adalah petunjuk cara menuju ke sana dalam empat langkah sederhana:

Mulai dengan estimasi IPK rata-rata.

Tentukan IPK yang cocok dengan kesan Anda tentang bukti.

Perkirakan korelasi antara kecepatan membaca dan IPK.

Jika korelasinya adalah 0,30, pindahkan 30% jarak dari rata-rata ke IPK yang cocok.

Interpretasi saya atas nasihatnya adalah sebagai berikut:

Gunakan "Dia membaca dengan lancar ketika dia berusia empat tahun" untuk menetapkan skor standar untuk kecepatan membaca Julie.
Tentukan IPK yang memiliki skor standar yang sesuai. (IPK rasional untuk memprediksi akan sesuai dengan skor standar ini jika korelasi antara IPK dan kecepatan baca sempurna.)
Perkirakan berapa persentase variasi dalam IPK dapat dijelaskan oleh variasi dalam kecepatan membaca. (Saya menganggap dia mengacu pada koefisien determinasi dengan "korelasi" dalam konteks ini?)
Karena hanya 30% dari skor standar kecepatan membaca Julie dapat dijelaskan oleh faktor-faktor yang juga dapat menjelaskan skor standar IPK-nya, kami hanya dibenarkan dalam memprediksi bahwa skor standar IPK Julie akan menjadi 30% dari apa yang seharusnya. dalam hal korelasi sempurna.

Apakah interpretasi saya tentang prosedur Kahneman benar? Jika demikian, adakah pembenaran matematis yang lebih formal tentang prosedurnya, terutama langkah 4? Secara umum, apa hubungan antara korelasi antara dua variabel dan perubahan / perbedaan dalam skor standar mereka?

standard-deviation regression-coefficients regression-to-the-mean Jatah
sumber

Jawaban:

Apakah interpretasi saya tentang prosedur Kahneman benar?

Ini agak sulit untuk dikatakan, karena langkah # 2 Kahneman tidak dirumuskan dengan sangat tepat: "Tentukan IPK yang sesuai dengan kesan Anda tentang bukti" - apa sebenarnya artinya itu? Jika tayangan seseorang dikalibrasi dengan baik, maka tidak perlu mengoreksi ke arah rata-rata. Jika tayangan seseorang benar-benar buruk, mereka harusnya mengoreksi lebih kuat.

Jadi saya setuju dengan @AndyW bahwa saran Kahneman hanyalah aturan praktis.

$z$ $z$

[...] adakah pembenaran matematis yang lebih formal tentang prosedurnya, terutama langkah 4? Secara umum, apa hubungan antara korelasi antara dua variabel dan perubahan / perbedaan dalam skor standar mereka?

$y$ $x$ $z$ $\rho$

y = ρ x,

$y=\rho x,$

$x$ $y$ $\rho$

Inilah tepatnya yang disebut "regresi ke mean". Anda dapat melihat beberapa formula dan derivasi dalam diskusi di Wikipedia .

amuba kata Reinstate Monica
sumber

Urutan nomor Anda tidak cocok dengan kutipan Kahneman. Karena ini sepertinya Anda mungkin kehilangan poin keseluruhan.

Poin Kahneman adalah yang paling penting. Ini berarti secara harfiah memperkirakan IPK rata-rata - untuk semua orang. Poin di balik saran ini adalah bahwa itu adalah jangkar Anda. Prediksi apa pun yang Anda berikan harus mengacu pada perubahan di sekitar titik jangkar ini. Saya tidak yakin saya melihat langkah ini di salah satu poin Anda!

Kahneman menggunakan akronim, WYSIATI, apa yang Anda lihat adalah semua yang ada. Ini adalah kecenderungan manusia untuk melebih-lebihkan pentingnya informasi yang tersedia saat ini. Bagi banyak orang, informasi tentang kemampuan membaca akan membuat orang berpikir Julie itu pintar, sehingga orang akan memperkirakan IPK orang pintar.

Tapi, perilaku anak di usia empat tahun mengandung sangat sedikit informasi terkait perilaku orang dewasa. Anda mungkin lebih baik mengabaikannya dalam membuat prediksi. Seharusnya hanya mempengaruhi Anda dari jangkar Anda dengan jumlah kecil. Juga, orang pertama menebak IPK orang pintar bisa sangat tidak akurat. Karena seleksi, mayoritas senior di perguruan tinggi di atas kecerdasan rata-rata.

Sebenarnya ada beberapa informasi tersembunyi lainnya dalam pertanyaan selain kemampuan membaca Julie pada usia empat tahun.

Julie kemungkinan adalah nama wanita
Dia kuliah di universitas negeri
Dia seorang senior

Saya menduga ketiga karakteristik ini menaikkan IPK rata-rata sedikit dibandingkan dengan populasi siswa secara keseluruhan. Sebagai contoh, saya bertaruh para Lansia kemungkinan memiliki IPK lebih tinggi daripada Sophmores karena karena siswa dengan IPK sangat buruk.

Jadi prosedur Kahneman (sebagai hipotesis) akan seperti ini.

IPK rata-rata untuk senior wanita di universitas negeri adalah 3.1.
Saya kira itu berdasarkan kemampuan membaca lanjutan Julie di 4 sehingga IPK-nya 3,8
Saya kira kemampuan membaca pada usia 4 tahun memiliki korelasi 0,3 dengan IPK
Maka 30% dari jalan antara 3,1 dan 3,8 adalah 3,3 (yaitu 3.1 + (3.8-3.1)*0.3)

Jadi, dalam hipotesis ini, tebakan terakhir untuk IPK Julie adalah 3.3.

Regresi ke rata-rata dalam pendekatan Kahneman adalah bahwa langkah 2 cenderung menjadi perkiraan terlalu tinggi tentang pentingnya informasi yang tersedia. Jadi strategi yang lebih baik adalah mengembalikan prediksi kita kembali ke rata-rata keseluruhan. Langkah 3 dan 4 adalah (ad-hoc) cara untuk memperkirakan berapa banyak untuk mundur.

Andy W
sumber

Saya mengerti intuisi di balik prosedur, tetapi bukan pembenaran matematis. Interpretasi saya adalah bahwa titik memperkirakan IPK rata-rata adalah memungkinkan seseorang memperkirakan IPK tertentu dalam hal skor standar; jika tidak, mereka tidak dapat dibandingkan secara bermakna dengan prasyarat membaca. (Lanj.)

Jatah

Kahneman menyebutkan bahwa kebanyakan orang menebak IPK = 3,7 atau 3,8, yang mungkin sesuai dengan skor standar yang mereka asosiasikan dengan kecepatan membaca Julie, tetapi juga secara implisit mengasumsikan bahwa korelasi antara kedua variabel itu sempurna. Saya terutama bingung tentang apakah langkah 4 adalah aturan praktis berbasis intuisi atau prosedur nyata yang valid secara statistik (yaitu, dapatkah seseorang memperlakukan skor standar secara aditif dan mengambil proporsi dari mereka berdasarkan korelasi?). Jika itu hanyalah aturan praktis orang awam, apakah ada metode perkiraan yang lebih ketat secara statistik?

Ransum

Dengan "secara tambahan", saya mengacu pada asumsi kami bahwa (1) sebagian dari IPK skor standar Julie dijelaskan oleh faktor-faktor yang juga dapat menjelaskan kecepatan bacanya, bahwa (2) proporsi sisanya dari IPK skor standarnya dijelaskan oleh faktor unik untuk menjelaskan IPK, bahwa (3) kontribusi yang dijumlahkan sama dengan IPK skor standar akhir yang kami prediksi untuk Julie, dan bahwa (4) kami dapat memperbaiki prediksi kami dengan hanya mengambil proporsi dari prediksi bias kami. Apakah bekerja dengan proporsi standar deviasi seperti ini — berlawanan dengan, katakanlah, bekerja dengan akar kuadratnya — valid?

Ransum

Ini adalah aturan ad-hoc. Langkah dua dan tiga tidak secara logis konsisten satu sama lain. (Mereka adalah dua cara berbeda untuk mengatakan informasi yang sama, satu adalah ukuran efek dan yang lainnya adalah ukuran efek standar).

Andy W