Saya punya dataset. Katakan pengamatan dan variabel:
obs A B C
1 0 0 1
2 0 1 0
3 1 0 1
4 1 1 0
5 1 0 1
6 1 0 0
7 1 1 0
8 0 0 1
9 0 1 1
10 0 1 1
Katakanlah itu adalah pelanggan yang telah membeli ( ) atau tidak ( ) di setiap kategori . Ada yang ada di sana sehingga rata-rata pelanggan ini membeli kategori produk.16 10 1.61
0
A, B, C
Catatan pelanggan dapat membeli lebih dari satu dari A, B dan C.
Jika saya melihat hanya mereka yang membeli A
, ada pelanggan yang telah membeli ke dalam kategori produk, jadi itu rata-rata .9 1.8
B
adalah lagi, atau .1.8
C
adalah
Semuanya di atas
yang sepertinya aneh. Saya memahaminya tetapi perlu menjelaskan ini ke pemasaran minggu depan dan jadi butuh bantuan!
Disebut apakah benda ini?
Saya tahu itu bukan paradoks Simpson. Bagi saya itu terasa serupa dalam logika dengan masalah Monty Hall dan probabilitas bersyarat.
sumber
Jawaban:
Rata-rata setiap subkategori bisa di atas rata-rata keseluruhan jika subkategori tumpang tindih dengan pelanggan yang lebih besar.
Contoh sederhana untuk mendapatkan intuisi:
Himpunan individu di mana benar tumpang tindih dengan himpunan individu di mana benar. Mereka TIDAK set terpisah.BSEBUAH B
Kemudian sementara danE [ X ∣ A ] = 1,5 E [ X ∣ B ] = 1,5E[ X] ≈ 1.33 E[ X∣ A ] = 1.5 E[ X∣ B ] = 1.5
Pernyataan yang benar adalah:
Anda tidak dapat dengan mudah menghitung karena set dan bertumpang tindih, ekspresi ganda menghitung orang tersebut yang membeli barang dan !A B A BP( A ) E[ X∣ A ] + P( B ) E[ X∣ B ] SEBUAH B SEBUAH B
Nama untuk ilusi / paradoks?
Saya berpendapat ini terkait dengan paradoks ilusi mayoritas di jejaring sosial.
Anda mungkin memiliki satu pria yang jaringan / teman semua orang. Orang yang mungkin satu dari sejuta secara keseluruhan, tapi dia akan menjadi salah satu dari masing-masing orang ini teman.k
Demikian pula, Anda memiliki 1 dari 3 di sini yang membeli kategori A dan B. Namun dalam kategori A atau B, 1 dari 2 pembeli adalah pembeli super.
Kasus ekstrim:
Mari kita buat set tiket lotre. Setiap set mencakup dua tiket: tiket yang kalah dan tiket jackpot yang menang.S i in Ssaya saya
Kemenangan rata-rata di setiap set adalah mana adalah jackpot. Rata-rata setiap kategori adalah WAY di atas kemenangan rata-rata per tiket keseluruhan .JSsaya JJJ2 J Jn + 1
Ini adalah dinamika konseptual yang sama dengan kasus penjualan. Setiap set termasuk tiket jackpot dengan cara yang sama bahwa setiap kategori A, B, atau C termasuk pembeli berat.Ssaya
Intinya saya adalah intuisi yang didasarkan pada set disjoint , sebuah partisi penuh dari ruang sampel tidak terbawa ke serangkaian set yang tumpang tindih . Jika Anda mengkondisikan pada kategori yang tumpang tindih, setiap kategori dapat di atas rata-rata.
Jika Anda mempartisi ruang sampel dan kondisi pada set disjoint, maka kategori harus rata-rata keluar untuk rata-rata keseluruhan, tetapi itu tidak benar untuk set yang tumpang tindih.
sumber
Saya akan menyebutnya paradoks ukuran keluarga atau yang serupa
Misalkan, untuk contoh sederhana, setiap orang memiliki satu pasangan dan jumlah anak yang didistribusikan Poisson dengan parameter :2
Angka demografis dan survei nyata menghasilkan angka yang berbeda tetapi pola yang sama
Paradoks yang jelas adalah bahwa ukuran rata-rata kelompok saudara kandung individu lebih besar daripada jumlah rata-rata anak per keluarga; dengan dinamika populasi yang stabil, orang cenderung memiliki anak lebih sedikit daripada rata-rata orang tua mereka
Penjelasannya adalah apakah rata-rata diambil alih oleh orang tua dan keluarga atau saudara kandung: ada perbedaan bobot yang diterapkan pada keluarga besar. Dalam contoh Anda ada perbedaan antara bobot oleh individu atau dengan pembelian; rata-rata kondisional Anda didorong oleh fakta bahwa Anda mengkondisikan pembelian tertentu yang dilakukan.
sumber
Jawaban lain terlalu banyak memikirkan apa yang terjadi. Misalkan ada satu produk dan dua pelanggan. Satu membeli produk (sekali) dan satu tidak. Jumlah rata-rata produk yang dibeli adalah 0,5, tetapi jika Anda hanya melihat pelanggan yang membeli produk, rata-rata naik menjadi 1.
Ini tidak tampak seperti paradoks atau berlawanan dengan saya; Pengondisian pembelian suatu produk pada umumnya akan menaikkan rata-rata jumlah produk yang dibeli.
sumber
Apakah ini bukan hanya kebingungan "rata-rata rata-rata" (mis. Pertanyaan stackexchange sebelumnya ) yang menyamar? Godaan Anda tampaknya karena rata-rata subsampel seharusnya rata-rata rata-rata populasi, tetapi ini jarang terjadi.
Dalam "rata-rata rata-rata" klasik, seseorang menemukan rata-rata N himpunan bagian yang eksklusif, dan kemudian terperangah bahwa nilai-nilai ini tidak rata-rata terhadap rata-rata populasi. Satu-satunya cara rata-rata ini berfungsi adalah jika himpunan bagian Anda yang tidak tumpang tindih memiliki ukuran yang sama. Jika tidak, Anda perlu mengambil rata-rata tertimbang.
Masalah Anda dibuat lebih kompleks daripada rata-rata kebingungan rata-rata tradisional ini dengan memiliki himpunan bagian yang tumpang tindih, tetapi bagi saya tampaknya hanya kesalahan klasik dengan twist. Dengan himpunan bagian yang tumpang tindih, bahkan lebih sulit untuk berakhir dengan rata-rata subsampel yang rata-rata terhadap rata-rata populasi.
Dalam contoh Anda, karena pengguna yang muncul dalam banyak subsamples (dan karena itu telah membeli banyak hal) akan meningkatkan rata-rata ini. Pada dasarnya Anda menghitung setiap pemboros besar beberapa kali, sedangkan orang yang hemat yang hanya membeli satu item hanya ditemui sekali, sehingga Anda bias terhadap nilai yang lebih besar. Inilah sebabnya mengapa himpunan bagian tertentu Anda memiliki nilai di atas rata-rata, tapi saya pikir ini masih hanya masalah "rata-rata rata-rata".
Anda juga dapat membuat semua jenis himpunan bagian lainnya dari data Anda di mana rata-rata subsampel mengambil nilai yang berbeda. Sebagai contoh, mari kita ambil himpunan bagian yang agak mirip dengan himpunan bagian Anda. Jika Anda mengambil bagian dari orang-orang yang tidak membeli A, Anda mendapatkan rata-rata 7/5 = 1,4 item. Dengan subset yang tidak membeli B, Anda juga mendapatkan 1,4 item rata-rata. Mereka yang tidak membeli C, membeli rata-rata 1,5 item. Ini semua di bawah rata-rata populasi 1,6 item / pelanggan. Dengan dataset yang tepat dan koleksi yang tepat dari subset, Anda bisa berakhir dengan subset yang tumpang tindih yang rata-rata rata-rata terhadap rata-rata populasi; Namun, ini tidak biasa pada aplikasi normal.
Apakah hanya saya, atau apakah rata-rata kata sekarang terasa aneh setelah pengulangan yang begitu banyak ... Semoga jawaban saya bermanfaat, dan maaf jika saya merusak kata rata-rata untuk Anda!
sumber
Karena masalahnya adalah " Saya memahaminya tetapi perlu menjelaskan ini kepada pemasaran ", OP tampaknya peduli dengan bagaimana orang awam akan menafsirkan fakta-fakta ini - (bukan apakah fakta itu benar, atau bagaimana menunjukkannya). Pertanyaan itu merujuk pada 10 kategori produk, (AJ), jadi bagaimana dengan contoh ini:
[dalam pertemuan dengan grup pemasaran]
OP : Jadi, seperti yang Anda lihat di sini , pelanggan yang membeli A, B, dan C, semuanya lebih berharga daripada rata-rata.
Layman : Tunggu ?! Bagaimana semua orang bisa lebih tinggi dari rata-rata?
OP : Pertanyaan bagus. Slide ini berfokus pada pelanggan A, B, dan C, tetapi ada grup lain yang berkinerja rendah yang tidak ditampilkan. Misalnya, pelanggan kategori D dan G masing-masing bernilai sekitar setengah dari rata-rata.
Ini harus memadamkan semua bs-alarm internal tentang 'semuanya di atas rata-rata'.
sumber
Abaikan jawaban lain di sini. Ini sebenarnya bukan paradoks sama sekali. Masalah aktual yang ada di sini di mana setiap orang tampaknya mengabaikan adalah bahwa Anda salah dalam menentukan probabilitas yang sebenarnya Anda lihat. Sebenarnya ada dua rata-rata dan statistik yang sama sekali berbeda yang berperan di sini yang keduanya memiliki kegunaan dan interpretasi sendiri dalam contoh yang Anda ajukan (pemasaran)!
Pertama ada jumlah rata-rata produk yang dibeli per pelanggan. Jadi rata-rata, satu pelanggan membeli 1,6 item. Tentu saja, seorang pelanggan tidak bisa lain dari 0,6 produk (dengan asumsi itu bukan sesuatu seperti beras atau biji-bijian yang memiliki pengukuran berkelanjutan yang terkait dengannya).
Kedua, ada rata-rata jumlah pelanggan yang membeli produk tertentu. Kedengarannya aneh bukan? Jadi rata-rata suatu produk memiliki 5.33333333 ... pelanggan yang membelinya. Namun ini berbeda. Apa yang kami uraikan di sini bukanlah jumlah produk yang dibeli (hanya ada tiga dari mereka!) Melainkan jumlah orang yang benar-benar membeli produk tersebut.
Pikirkan kedua nilai ini sebagai berikut: Apa yang akan diwakili oleh kedua nilai ini jika hanya ada satu pelanggan atau hanya satu produk? Setelah semua, rata-rata satu titik data tunggal hanya titik data yang diberikan.
Atau lebih baik lagi, pikirkan bagan itu seolah-olah itu memberi Anda jumlah dolar yang dihabiskan untuk membeli produk. Jelas jumlah rata-rata yang dihabiskan oleh pelanggan individu akan jauh lebih sedikit daripada jumlah uang yang dihasilkan rata-rata oleh produk yang dipasok oleh perusahaan besar (atau bahkan hanya bisnis kecil). Saya yakin Anda bisa memikirkan cara-cara yang baik untuk menggunakan kedua nilai tersebut ketika membahas kesejahteraan perusahaan.
Ketika Anda menjelaskan hal ini kepada staf pemasaran, jelaskan kepada mereka seperti yang saya katakan. Itu bukan paradoks. Itu hanya statistik yang sama sekali berbeda. Satu-satunya masalah di sini adalah memperhatikan bahwa sebenarnya ada dua cara berbeda untuk membaca grafik (yaitu jumlah orang yang membeli per produk vs jumlah produk yang dibeli per orang).
tl; hal pertama yang Anda gambarkan adalah jumlah rata-rata yang ingin dihabiskan pelanggan individu untuk membeli produk Anda. Yang kedua adalah permintaan rata-rata untuk produk yang diberikan oleh publik. Saya yakin Anda dapat melihat sekarang mengapa keduanya jelas bukan hal yang sama. Membandingkannya hanya akan memberi Anda informasi sampah.
EDIT
Akan muncul pertanyaan sebenarnya menanyakan tentang uang rata-rata yang dihabiskan oleh pelanggan yang membeli beberapa produk a, b, atau c. Baik. Ini sebenarnya hanya kesalahan dalam perhitungan. Saya tidak akan menyebutnya paradoks. Ini benar-benar hanya kesalahan halus.
Lihatlah kolom Anda. Ada orang yang dibagikan di antara kolom. Mari kita asumsikan Anda melakukan rata-rata tertimbang yang tepat . Anda masih menambahkan orang dua kali. Ini berarti bahwa rata-rata akan berisi orang tambahan dengan nilai lebih dari atau sama dengan 2. Sekarang, apa yang rata-rata Anda? Itu 1,6! Intinya, rata-rata Anda terlihat seperti ini:
Itu jelas bukan formula yang tepat. Ini adalah rata-rata tertimbang dengan asumsi eksklusivitas timbal balik adalah bagaimana Anda akan menyesuaikan diri untuk mendapatkan rata-rata yang sebenarnya dalam situasi Anda.
Apa pun cara Anda akan mendapatkan rata-rata kacau. Satu kesalahan adalah mengabaikan kebutuhan untuk rata-rata tertimbang karena satu kategori memiliki "bobot" yang lebih besar dalam hal rata-rata. Ini seperti kepadatan. Satu nilai lebih padat diwakili orang. Masalah lainnya adalah penambahan duplikat yang akan mendistorsi rata-rata. Saya tidak menyebut salah satu dari "paradoks" ini. Begitu saya melihat apa yang Anda lakukan, tampak jelas bagi saya mengapa itu tidak berhasil. Rata-rata tertimbang agak jelas untuk kebutuhannya dan saya pikir sekarang Anda melihat bahwa Anda menambahkan nilai beberapa kali ... yang tidak bisa berfungsi. Anda pada dasarnya mengambil rata-rata kuadrat dari nilainya.
sumber