Nilai rata-rata paradoks - Disebut apakah ini

22

Saya punya dataset. Katakan pengamatan dan variabel:103

obs  A   B   C
1    0   0   1
2    0   1   0
3    1   0   1
4    1   1   0
5    1   0   1
6    1   0   0
7    1   1   0
8    0   0   1
9    0   1   1
10   0   1   1

Katakanlah itu adalah pelanggan yang telah membeli ( ) atau tidak ( ) di setiap kategori . Ada yang ada di sana sehingga rata-rata pelanggan ini membeli kategori produk.16 10 1.61010A, B, C16101.6

Catatan pelanggan dapat membeli lebih dari satu dari A, B dan C.

Jika saya melihat hanya mereka yang membeli A, ada pelanggan yang telah membeli ke dalam kategori produk, jadi itu rata-rata .9 1.8591.8

Badalah lagi, atau .1.89/51.8

Cadalah10/6=1.67.

Semuanya di atas1.6.

yang sepertinya aneh. Saya memahaminya tetapi perlu menjelaskan ini ke pemasaran minggu depan dan jadi butuh bantuan!

Disebut apakah benda ini?

Saya tahu itu bukan paradoks Simpson. Bagi saya itu terasa serupa dalam logika dengan masalah Monty Hall dan probabilitas bersyarat.

James Adams
sumber
2
Secara pribadi, saya tidak tahu apa yang Anda bicarakan. Mengapa tidak membuat tabel kontingensi As, B, dan C untuk memeriksa pola cross-purchase?
Mike Hunter
3
Kami memiliki laporan yang mengatakan "Pelanggan yang membeli C bernilai lebih dari rata-rata - 1,67 vs 1,6" Yang Benar, tetapi A dan B juga bernilai lebih dari rata-rata. Ke pertanyaan yang tak terhindarkan akan muncul "Bagaimana semua pelanggan bisa bernilai lebih dari rata-rata"?
James Adams
3
Saya pikir puzzle-nya adalah dangkal seperti Danau Wobegon di mana semua orang berada di atas rata-rata: P Misalkan adalah jumlah kategori / item yang dibeli pelanggan. Biarkan , , dan menjadi indikator untuk pembelian dalam kategori A, B, dan C masing-masing. , , dan sedangkanA BXSEBUAHBE [ X A ] = 1,8 E [ X B ] = 1,8 E [ X C ] = 1,67 E [ X ] = 1,6CE[XSEBUAH]=1.8E[XB]=1.8E[XC]=1.67E[X]=1.6
Matthew Gunn
12
Anda mungkin ingin berpikir dalam hal set pelengkap dan diagram Venn. Perangkat "pelanggan yang membeli A" dan "pelanggan yang tidak membeli A" tidak tumpang tindih. Tetapi set yang Anda daftarkan dalam pertanyaan Anda tumpang tindih. Anda bisa menghitung rata-rata keseluruhan sebagai rata-rata (terbobot) dari rata-rata subset hanya jika subset membentuk partisi .
GeoMatt22
4
Apakah ini mirip dengan paradoks ilusi mayoritas ? Dengan cara yang sama bahwa setiap individu cenderung terhubung ke networker super, setiap kategori pembelian cenderung mengandung pembeli super? (Saya memanggil seseorang networker super yang terhubung dengan banyak orang dan seseorang pembeli super yang membeli banyak item berbeda)
Matthew Gunn

Jawaban:

28

Rata-rata setiap subkategori bisa di atas rata-rata keseluruhan jika subkategori tumpang tindih dengan pelanggan yang lebih besar.

Contoh sederhana untuk mendapatkan intuisi:

  • Biarkan menjadi indikator apakah seseorang membeli item dalam kategori A.SEBUAH
  • Biarkan menjadi indikator apakah seseorang membeli item dalam kategori B.B
  • Biarkan menjadi jumlah barang yang dibeli.X=SEBUAH+B

OrangSEBUAHBsaya10sayasaya01sayasayasaya11

Himpunan individu di mana benar tumpang tindih dengan himpunan individu di mana benar. Mereka TIDAK set terpisah.BSEBUAHB

Kemudian sementara danE [ X A ] = 1,5 E [ X B ] = 1,5E[X]1.33E[XSEBUAH]=1.5E[XB]=1.5

Pernyataan yang benar adalah:

P(SEBUAH)E[XSEBUAH]+P(B)E[XB]-P(SEBUAHB)E[XSEBUAHB]=E[X]

231.5+231.5-132=1.3333

Anda tidak dapat dengan mudah menghitung karena set dan bertumpang tindih, ekspresi ganda menghitung orang tersebut yang membeli barang dan !A B A BP(SEBUAH)E[XSEBUAH]+P(B)E[XB]SEBUAHBSEBUAHB

Nama untuk ilusi / paradoks?

Saya berpendapat ini terkait dengan paradoks ilusi mayoritas di jejaring sosial.

Anda mungkin memiliki satu pria yang jaringan / teman semua orang. Orang yang mungkin satu dari sejuta secara keseluruhan, tapi dia akan menjadi salah satu dari masing-masing orang ini teman.k

Demikian pula, Anda memiliki 1 dari 3 di sini yang membeli kategori A dan B. Namun dalam kategori A atau B, 1 dari 2 pembeli adalah pembeli super.

Kasus ekstrim:

Mari kita buat set tiket lotre. Setiap set mencakup dua tiket: tiket yang kalah dan tiket jackpot yang menang.S i inSsayasaya

Kemenangan rata-rata di setiap set adalah mana adalah jackpot. Rata-rata setiap kategori adalah WAY di atas kemenangan rata-rata per tiket keseluruhan .JSsaya JJJ2JJn+1

Ini adalah dinamika konseptual yang sama dengan kasus penjualan. Setiap set termasuk tiket jackpot dengan cara yang sama bahwa setiap kategori A, B, atau C termasuk pembeli berat.Ssaya

Intinya saya adalah intuisi yang didasarkan pada set disjoint , sebuah partisi penuh dari ruang sampel tidak terbawa ke serangkaian set yang tumpang tindih . Jika Anda mengkondisikan pada kategori yang tumpang tindih, setiap kategori dapat di atas rata-rata.

Jika Anda mempartisi ruang sampel dan kondisi pada set disjoint, maka kategori harus rata-rata keluar untuk rata-rata keseluruhan, tetapi itu tidak benar untuk set yang tumpang tindih.

Matthew Gunn
sumber
3
Terima kasih! Saya pikir penghitungan ganda adalah kunci untuk menjelaskan. Saya tidak berpikir ini adalah hasil dari beberapa nilai ekstrem. Dataset contoh saya di atas cukup biasa dan efek "semua grup di atas rata-rata" masih terjadi. Dugaan saya, itu akan terjadi dalam banyak kasus. Hanya ingin tahu apakah itu memiliki nama atau contoh sebelumnya.
James Adams
Penjelasan ini tidak akan berlaku jika data yang dianalisa @JamesAd cacat. Saya menentangnya. Anda tidak dapat memiliki satu set kategori A, B, dan C yang saling eksklusif dan lengkap di mana rata-rata grup semuanya lebih tinggi daripada rata-rata ketiganya secara bersamaan tanpa ada pelanggaran terhadap beberapa asumsi mendasar dari analisis data. Dalam kasus Anda, kemungkinan besar penyebut untuk rata-rata keseluruhan berbeda (misalnya, berisi lebih banyak responden) dari yang digunakan untuk memperkirakan cara untuk A, B dan C.
Mike Hunter
2
@ Johnsonson Tentu saja Anda benar jika menetapkan A, B, dan C mempartisi ruang sampel. Bacaan saya atas pertanyaan dan "data" yang disediakan (apa pun itu) adalah bahwa A, B, dan C adalah set yang tumpang tindih . Jika A, B, dan C tumpang tindih, maka rata-rata grup semua bisa lebih tinggi dari rata-rata keseluruhan (yang merupakan titik jawaban saya; set tumpang tindih pada pelanggan terbesar!). Tidak ada yang OP katakan secara internal tidak konsisten. Detektor "kami menerima data BS" Anda mungkin lebih baik daripada milik saya, dan saya setuju selalu penting untuk mengajukan pertanyaan penting tentang validitas data / angka.
Matthew Gunn
Ya mereka tumpang tindih set. Dataset saya adalah jutaan pelanggan dan 12 kategori. Ketika saya melihat rata-rata saya semua lebih tinggi dari rata-rata keseluruhan, saya pikir itu terlihat aneh tetapi dapat dijelaskan. Saya mengumpulkan contoh set 10 obs dan 3 kategori untuk melihatnya. Saya hanya menyebarkan 1 dan 0 di sini dan hasilnya sama. Saya menduga ini terjadi dengan sebagian besar dataset di mana jenis rata-rata ini dihitung. @ Johnson contoh saya di atas bahwa saya menggunakan 10 sebagai penyebut untuk rata-rata keseluruhan, 5 untuk As, 5 untuk Bs, 6 untuk Cs. Bisakah Anda memberi tahu saya apa yang saya langgar dalam contoh ini?
James Adams
Apa yang diwakili oleh '10'? Jaring responden di 3 kategori? Apa yang terjadi pada rata-rata jika Anda menggunakan penyebut yang sama untuk semua? Ini harus mengembalikan rata-rata yang berfluktuasi di sekitar mean besar.
Mike Hunter
10

Saya akan menyebutnya paradoks ukuran keluarga atau yang serupa

Misalkan, untuk contoh sederhana, setiap orang memiliki satu pasangan dan jumlah anak yang didistribusikan Poisson dengan parameter :2

  • Jumlah rata-rata anak per orang adalah 2
  • Jumlah rata-rata anak per orang dengan anak-anak adalah 21-e-22.313
  • Ukuran rata-rata kelompok saudara kandung untuk setiap individu (menghitung saudara laki-laki dan perempuan mereka dan diri mereka sendiri) adalah 3

Angka demografis dan survei nyata menghasilkan angka yang berbeda tetapi pola yang sama

Paradoks yang jelas adalah bahwa ukuran rata-rata kelompok saudara kandung individu lebih besar daripada jumlah rata-rata anak per keluarga; dengan dinamika populasi yang stabil, orang cenderung memiliki anak lebih sedikit daripada rata-rata orang tua mereka

Penjelasannya adalah apakah rata-rata diambil alih oleh orang tua dan keluarga atau saudara kandung: ada perbedaan bobot yang diterapkan pada keluarga besar. Dalam contoh Anda ada perbedaan antara bobot oleh individu atau dengan pembelian; rata-rata kondisional Anda didorong oleh fakta bahwa Anda mengkondisikan pembelian tertentu yang dilakukan.

Henry
sumber
8

Jawaban lain terlalu banyak memikirkan apa yang terjadi. Misalkan ada satu produk dan dua pelanggan. Satu membeli produk (sekali) dan satu tidak. Jumlah rata-rata produk yang dibeli adalah 0,5, tetapi jika Anda hanya melihat pelanggan yang membeli produk, rata-rata naik menjadi 1.

Ini tidak tampak seperti paradoks atau berlawanan dengan saya; Pengondisian pembelian suatu produk pada umumnya akan menaikkan rata-rata jumlah produk yang dibeli.

Vadim Ponomarenko
sumber
Persis. Dengan asumsi pembelian di masing-masing dari 3 kategori tidak sangat berkorelasi, apa yang Anda lakukan adalah menghitung rata-rata setelah meningkatkan tingkat pembelian menjadi 100% di salah satu kategori. Mungkin akan lebih informatif untuk membandingkan misalnya. tingkat pembelian rata-rata dalam kategori B dan C: a) di antara semua pelanggan (11/20) b) di antara mereka yang membeli A (4/10). Tergantung pada apa yang Anda coba tampilkan / temukan saya kira.
konrad
2

Apakah ini bukan hanya kebingungan "rata-rata rata-rata" (mis. Pertanyaan stackexchange sebelumnya ) yang menyamar? Godaan Anda tampaknya karena rata-rata subsampel seharusnya rata-rata rata-rata populasi, tetapi ini jarang terjadi.

Dalam "rata-rata rata-rata" klasik, seseorang menemukan rata-rata N himpunan bagian yang eksklusif, dan kemudian terperangah bahwa nilai-nilai ini tidak rata-rata terhadap rata-rata populasi. Satu-satunya cara rata-rata ini berfungsi adalah jika himpunan bagian Anda yang tidak tumpang tindih memiliki ukuran yang sama. Jika tidak, Anda perlu mengambil rata-rata tertimbang.

Masalah Anda dibuat lebih kompleks daripada rata-rata kebingungan rata-rata tradisional ini dengan memiliki himpunan bagian yang tumpang tindih, tetapi bagi saya tampaknya hanya kesalahan klasik dengan twist. Dengan himpunan bagian yang tumpang tindih, bahkan lebih sulit untuk berakhir dengan rata-rata subsampel yang rata-rata terhadap rata-rata populasi.

Dalam contoh Anda, karena pengguna yang muncul dalam banyak subsamples (dan karena itu telah membeli banyak hal) akan meningkatkan rata-rata ini. Pada dasarnya Anda menghitung setiap pemboros besar beberapa kali, sedangkan orang yang hemat yang hanya membeli satu item hanya ditemui sekali, sehingga Anda bias terhadap nilai yang lebih besar. Inilah sebabnya mengapa himpunan bagian tertentu Anda memiliki nilai di atas rata-rata, tapi saya pikir ini masih hanya masalah "rata-rata rata-rata".

Anda juga dapat membuat semua jenis himpunan bagian lainnya dari data Anda di mana rata-rata subsampel mengambil nilai yang berbeda. Sebagai contoh, mari kita ambil himpunan bagian yang agak mirip dengan himpunan bagian Anda. Jika Anda mengambil bagian dari orang-orang yang tidak membeli A, Anda mendapatkan rata-rata 7/5 = 1,4 item. Dengan subset yang tidak membeli B, Anda juga mendapatkan 1,4 item rata-rata. Mereka yang tidak membeli C, membeli rata-rata 1,5 item. Ini semua di bawah rata-rata populasi 1,6 item / pelanggan. Dengan dataset yang tepat dan koleksi yang tepat dari subset, Anda bisa berakhir dengan subset yang tumpang tindih yang rata-rata rata-rata terhadap rata-rata populasi; Namun, ini tidak biasa pada aplikasi normal.

Apakah hanya saya, atau apakah rata-rata kata sekarang terasa aneh setelah pengulangan yang begitu banyak ... Semoga jawaban saya bermanfaat, dan maaf jika saya merusak kata rata-rata untuk Anda!

tbell
sumber
Terima kasih! Komentar tentang partisi dengan ukuran yang sama dan tidak tumpang tindih memperjelasnya di pikiran saya. Saya berharap ketika saya datang untuk menyajikan angka-angka ini saya bisa mengatakan sesuatu seperti "Semua rata-rata kategori lebih tinggi daripada rata-rata keseluruhan, tapi itu paradoks Blahblah". Seperti ketika Anda mengatakan "Simpson's Paradox !, Ivy League Sexism!" lalu kehabisan kamar. (Kalian semua melakukannya kadang-kadang bukan?) Ingin mengatakan kepada mereka "Itu karena ini adalah himpunan bagian yang tumpang tindih dengan ukuran yang berbeda" tetapi jangan berpikir itu akan mendarat!
James Adams
1
Haha, cukup adil. Saya tidak benar-benar memahami konteksnya sebelumnya - saya seorang mahasiswa pascasarjana astrofisika, jadi saya tidak terlalu akrab dengan konteksnya. Anda bisa mengatakan sesuatu yang singkat, dengan efek "Semua rata-rata subset lebih tinggi daripada rata-rata keseluruhan karena cara kami membuat himpunan bagian bias kami terhadap nilai yang lebih besar." Saya tidak akan menyebutkan rata-rata nama rata-rata karena tidak semua yang terkenal, dan kasus Anda seperti generalisasi untuk itu. Saya juga mencoba mencari sinonim untuk mengganti kategori kata - umumnya saya melihat kata itu menyiratkan himpunan bagian yang eksklusif.
beri tahu
Semantic Satiation adalah fenomena psikologis di mana pengulangan menyebabkan kata atau frasa kehilangan makna untuk sementara waktu bagi pendengar, yang kemudian menganggap ucapan itu sebagai bunyi-bunyi yang tidak berarti.
Patrick
1

Karena masalahnya adalah " Saya memahaminya tetapi perlu menjelaskan ini kepada pemasaran ", OP tampaknya peduli dengan bagaimana orang awam akan menafsirkan fakta-fakta ini - (bukan apakah fakta itu benar, atau bagaimana menunjukkannya). Pertanyaan itu merujuk pada 10 kategori produk, (AJ), jadi bagaimana dengan contoh ini:

[dalam pertemuan dengan grup pemasaran]
OP : Jadi, seperti yang Anda lihat di sini , pelanggan yang membeli A, B, dan C, semuanya lebih berharga daripada rata-rata.
Layman : Tunggu ?! Bagaimana semua orang bisa lebih tinggi dari rata-rata?
OP : Pertanyaan bagus. Slide ini berfokus pada pelanggan A, B, dan C, tetapi ada grup lain yang berkinerja rendah yang tidak ditampilkan. Misalnya, pelanggan kategori D dan G masing-masing bernilai sekitar setengah dari rata-rata.

Ini harus memadamkan semua bs-alarm internal tentang 'semuanya di atas rata-rata'.

Patrick
sumber
Ini bukan cara untuk menjawab pertanyaan.
Michael R. Chernick
Pertanyaannya telah dijawab, tetapi tidak ada yang menjawab masalahnya.
Patrick
Komentar saya hanya berkaitan dengan jawaban Patrick.
Michael R. Chernick
Saya tidak melihat adanya aturan terhadap berbagai gaya menjawab. Melaporkan diskusi dan percakapan (nyata atau yang dibayangkan) adalah cara berpikir waktu terhormat melalui isu-isu dari Socrates dan seterusnya (dan sebelum dia untuk semua yang saya tahu).
Nick Cox
Tetapi penjelasan itu secara faktual salah. Bahkan dengan tidak adanya kategori lebih lanjut (DJ), pengamatan tetap benar: rata-rata subset yang tumpang tindih semua bisa lebih tinggi dari rata-rata seluruh set, bahkan jika subset mencakup seluruh set.
isarandi
0

Abaikan jawaban lain di sini. Ini sebenarnya bukan paradoks sama sekali. Masalah aktual yang ada di sini di mana setiap orang tampaknya mengabaikan adalah bahwa Anda salah dalam menentukan probabilitas yang sebenarnya Anda lihat. Sebenarnya ada dua rata-rata dan statistik yang sama sekali berbeda yang berperan di sini yang keduanya memiliki kegunaan dan interpretasi sendiri dalam contoh yang Anda ajukan (pemasaran)!

Pertama ada jumlah rata-rata produk yang dibeli per pelanggan. Jadi rata-rata, satu pelanggan membeli 1,6 item. Tentu saja, seorang pelanggan tidak bisa lain dari 0,6 produk (dengan asumsi itu bukan sesuatu seperti beras atau biji-bijian yang memiliki pengukuran berkelanjutan yang terkait dengannya).

Kedua, ada rata-rata jumlah pelanggan yang membeli produk tertentu. Kedengarannya aneh bukan? Jadi rata-rata suatu produk memiliki 5.33333333 ... pelanggan yang membelinya. Namun ini berbeda. Apa yang kami uraikan di sini bukanlah jumlah produk yang dibeli (hanya ada tiga dari mereka!) Melainkan jumlah orang yang benar-benar membeli produk tersebut.

Pikirkan kedua nilai ini sebagai berikut: Apa yang akan diwakili oleh kedua nilai ini jika hanya ada satu pelanggan atau hanya satu produk? Setelah semua, rata-rata satu titik data tunggal hanya titik data yang diberikan.

Atau lebih baik lagi, pikirkan bagan itu seolah-olah itu memberi Anda jumlah dolar yang dihabiskan untuk membeli produk. Jelas jumlah rata-rata yang dihabiskan oleh pelanggan individu akan jauh lebih sedikit daripada jumlah uang yang dihasilkan rata-rata oleh produk yang dipasok oleh perusahaan besar (atau bahkan hanya bisnis kecil). Saya yakin Anda bisa memikirkan cara-cara yang baik untuk menggunakan kedua nilai tersebut ketika membahas kesejahteraan perusahaan.

Ketika Anda menjelaskan hal ini kepada staf pemasaran, jelaskan kepada mereka seperti yang saya katakan. Itu bukan paradoks. Itu hanya statistik yang sama sekali berbeda. Satu-satunya masalah di sini adalah memperhatikan bahwa sebenarnya ada dua cara berbeda untuk membaca grafik (yaitu jumlah orang yang membeli per produk vs jumlah produk yang dibeli per orang).

tl; hal pertama yang Anda gambarkan adalah jumlah rata-rata yang ingin dihabiskan pelanggan individu untuk membeli produk Anda. Yang kedua adalah permintaan rata-rata untuk produk yang diberikan oleh publik. Saya yakin Anda dapat melihat sekarang mengapa keduanya jelas bukan hal yang sama. Membandingkannya hanya akan memberi Anda informasi sampah.


EDIT

Akan muncul pertanyaan sebenarnya menanyakan tentang uang rata-rata yang dihabiskan oleh pelanggan yang membeli beberapa produk a, b, atau c. Baik. Ini sebenarnya hanya kesalahan dalam perhitungan. Saya tidak akan menyebutnya paradoks. Ini benar-benar hanya kesalahan halus.

Lihatlah kolom Anda. Ada orang yang dibagikan di antara kolom. Mari kita asumsikan Anda melakukan rata-rata tertimbang yang tepat . Anda masih menambahkan orang dua kali. Ini berarti bahwa rata-rata akan berisi orang tambahan dengan nilai lebih dari atau sama dengan 2. Sekarang, apa yang rata-rata Anda? Itu 1,6! Intinya, rata-rata Anda terlihat seperti ini:

saya=0nvSebuahlkamueHAIfPersHainsayavSebuahlkamueHAIfPersHainsayan

Itu jelas bukan formula yang tepat. Ini adalah rata-rata tertimbang dengan asumsi eksklusivitas timbal balik adalah bagaimana Anda akan menyesuaikan diri untuk mendapatkan rata-rata yang sebenarnya dalam situasi Anda.

saya=0nnkamumberHAIfPeHaihalleBkamuysayangsayaSebuahverSebuahgeShalentByPersHainBkamuysayangsayan

Apa pun cara Anda akan mendapatkan rata-rata kacau. Satu kesalahan adalah mengabaikan kebutuhan untuk rata-rata tertimbang karena satu kategori memiliki "bobot" yang lebih besar dalam hal rata-rata. Ini seperti kepadatan. Satu nilai lebih padat diwakili orang. Masalah lainnya adalah penambahan duplikat yang akan mendistorsi rata-rata. Saya tidak menyebut salah satu dari "paradoks" ini. Begitu saya melihat apa yang Anda lakukan, tampak jelas bagi saya mengapa itu tidak berhasil. Rata-rata tertimbang agak jelas untuk kebutuhannya dan saya pikir sekarang Anda melihat bahwa Anda menambahkan nilai beberapa kali ... yang tidak bisa berfungsi. Anda pada dasarnya mengambil rata-rata kuadrat dari nilainya.

Bebek Hebat
sumber
Saya tidak berpikir ini masalahnya. Saya tidak tertarik dengan berapa banyak orang yang membeli produk tertentu. Saya tertarik pada berapa banyak total produk yang telah dibeli pelanggan mengingat mereka telah membeli A.
James Adams
@ James Adams Cukup adil. Dalam hal ini masalahnya bahkan lebih sepele. Anda hanya mengambil rata-rata sebagian dari sampel Anda. Secara teori jika Anda melakukan hal yang sama dengan B dan C rata-rata akhir tidak akan menjadi rata-rata aktual. Namun, ini hanya karena sampel tidak sama. Itu saja. Bahkan, saya tidak melihat alasan mengapa itu jelas bagi seseorang. Sebenarnya ada solusi untuk memperbaiki rata-rata agar Anda mendapatkan rata-rata yang tepat. Ini disebut rata-rata tertimbang dan pada dasarnya Anda akan "menimbang" setiap sub-rata-rata dengan jumlah orang dalam grup itu. Masuk akal?
The Great Duck
@ JamesAdams dan saya tahu Anda tidak tertarik. Anda matematika yang Anda klaim membentuk paradoks yang digunakan rata-rata untuk mencoba dan menghitung jumlah rata-rata produk per orang. Itu sebabnya dalam jawaban ini saya tekankan bahwa ada rata-rata kedua untuk statistik yang berbeda dan "kesalahan" Anda adalah mencoba menyuruhnya untuk menjadi rata-rata yang sama sekali berbeda.
The Great Duck