Statistik yang lebih penting: '90 persen dari semua perempuan selamat 'atau '90 persen dari semua yang selamat adalah perempuan'?

14

Pertimbangkan pernyataan berikut tentang Titanic:

Asumsi 1: Hanya pria dan wanita yang ada di kapal

Asumsi 2: Ada banyak pria dan wanita

Pernyataan 1: 90 persen dari semua wanita selamat

Pernyataan 2: 90 persen dari semua yang selamat, adalah perempuan

Yang pertama menunjukkan bahwa menyelamatkan perempuan mungkin dari prioritas tinggi (terlepas dari apakah laki-laki yang menyelamatkan itu) atau tidak.

Kapan statistik kedua berguna?

Bisakah kita mengatakan bahwa salah satu dari mereka hampir selalu lebih bermanfaat daripada yang lain?

rahs
sumber
40
lebih bermanfaat untuk tujuan apa?
Aksakal
12
Tidak ada jawaban yang mengejutkan yang menyebutkan Paradox Simpson
Nemo
3
Saya akan mengatakan itu tergantung pada apakah Anda seorang wanita atau tidak!
meh
6
Pernyataan pertama tidak bermakna tanpa statistik yang sebanding untuk pria.
Barmar
1
@RahulSaha Tetapi jika 95% pria selamat, implikasinya mungkin bahwa mereka memberi prioritas lebih tinggi kepada pria. Karena itu diperlukan perbandingan.
Barmar

Jawaban:

54

Ketika mereka berdiri, tak satu pun dari Pernyataan 1 atau 2 yang sangat berguna. Jika 90% penumpang adalah wanita dan 90% orang selamat secara acak, maka kedua pernyataan itu benar. Pernyataan tersebut perlu dipertimbangkan dalam konteks komposisi penumpang secara keseluruhan. Dan peluang keseluruhan untuk bertahan hidup.


Misalkan kita memiliki pria sebanyak wanita, masing-masing 100. Berikut adalah beberapa kemungkinan matriks pria (M) terhadap wanita (W) dan bertahan (S) terhadap mati (D):

  |  M |  W
------------
S | 90 | 90
------------
D | 10 | 10

90% wanita selamat. Seperti halnya 90% pria. Pernyataan 1 benar, pernyataan 2 salah, karena setengah dari yang selamat adalah perempuan. Ini konsisten dengan banyak penyintas, tetapi tidak ada perbedaan antara gender .

  |  M |  W
------------
S | 10 | 90
------------
D | 90 | 10

90% wanita selamat, tetapi hanya 10% pria. 90% dari yang selamat adalah wanita. Kedua pernyataan itu benar. Ini konsisten dengan perbedaan antara jenis kelamin : perempuan lebih mungkin bertahan daripada laki-laki.

  |  M |  W
------------
S |  1 |  9
------------
D | 99 | 91

9% wanita selamat, tetapi hanya 1% pria. 90% dari yang selamat adalah wanita. Pernyataan 1 salah, Pernyataan 2 benar. Lagi-lagi ini konsisten dengan perbedaan antara jenis kelamin : perempuan lebih mungkin bertahan daripada laki-laki.

Stephan Kolassa
sumber
3
(or indeed, if *everyone* survived)... Jika semua orang selamat maka 100% dari semua wanita selamat, terlepas dari proporsinya.
Bridgeburners
1
@Bridgeburners: Anda sepenuhnya benar, dan itu mengejutkan saya ketika saya jauh dari komputer saya. Terima kasih, saya mengedit jawaban saya.
Stephan Kolassa
18

Di wajahnya, probabilitas bersyarat untuk bertahan hidup bersyarat pada seks lebih bermanfaat, hanya karena arah arus informasi. Jenis kelamin seseorang diketahui sebelum status kelangsungan hidupnya, dan probabilitas ini dapat digunakan dalam arti prediktif, secara prospektif. Juga, itu tidak dipengaruhi oleh prevalensi wanita. Saat ragu, pikirkan prediksi.

Frank Harrell
sumber
Ya, di wajahnya. Jadi, hanya untuk memastikan saya mengerti bagaimana itu berlaku untuk statistik yang sebenarnya dalam pertanyaan ... Anda mengatakan pernyataan # 1 berguna karena memberitahu saya bahwa jika saya kebetulan seorang wanita, naik kapal penumpang besar pada tahun 1912 bahwa kebetulan tenggelam di perairan yang dipenuhi gunung es, maka peluang saya bertahan hidup adalah 90%? Dan, dengan menambahkan asumsi yang masuk akal bahwa teknologi dan praktik penyelamatan kehidupan telah meningkat sejak saat itu, itu berarti peluang saya untuk selamat dari situasi seperti sekarang ini mungkin bahkan lebih baik daripada 90%? Keren! ;-)
Don Hatch
Komentar-komentar untuk dijual melampaui tujuan deskriptif asli.
Frank Harrell
Apakah Anda yakin sasarannya benar? Pertanyaannya adalah, tampaknya, tentang kegunaan pernyataan ini tentang Titanic nyata, yang, pada kenyataannya, tidak terlalu berguna untuk membuat prediksi, karena begitu banyak yang telah berubah sejak saat itu. Jadi sepertinya heuristik Anda telah gagal pada contoh nyata pertama yang dilemparkan padanya, bukan? Itu sepertinya bukan awal yang baik. Di sisi lain, mungkin OP bermaksud pertanyaan Titanic menjadi proxy untuk pertanyaan umum dari bentuk yang sama diterapkan pada skenario saat ini yang memang memiliki relevansi prediktif; Saya tidak tahu
Don Hatch
1
Sama seperti saya memiliki studi kasus terperinci tentang probabilitas kelangsungan hidup penumpang TItanic dalam buku saya Model Regresi Strategi , ada banyak nilai dalam menemukan apa yang terjadi. Saya tidak menggunakan probabilitas yang diprediksi dari model logistik itu untuk memprediksi Titanics di masa depan, melainkan untuk menemukan pola dalam proses pemilihan sekoci.
Frank Harrell
6

Yang pertama menunjukkan bahwa menyelamatkan perempuan mungkin dari prioritas tinggi (terlepas dari apakah laki-laki yang menyelamatkan itu) atau tidak.

Kata "priority" berasal dari bahasa Latin untuk "before". Prioritas adalah sesuatu yang datang sebelum sesuatu yang lain (di mana "sebelum" digunakan dalam arti "lebih penting"). Jika Anda mengatakan bahwa menyelamatkan perempuan adalah prioritas, maka menyelamatkan perempuan harus didahulukan dari sesuatu yang lain. Dan asumsi alami adalah bahwa apa yang terjadi sebelumnya adalah menyelamatkan manusia. Jika Anda mengatakan "terlepas dari apakah menyelamatkan manusia itu", maka kami bertanya-tanya apa yang terjadi sebelumnya.

Bahwa wanita memiliki tingkat kelangsungan hidup yang tinggi tidak banyak bicara, jika kita tidak tahu apa tingkat kelangsungan hidup secara umum. Kapal terakhir yang saya tumpangi, lebih dari 90% wanita selamat, tetapi saya tidak menganggapnya sebagai menunjukkan bahwa menyelamatkan wanita adalah prioritas tinggi.

Dan mengetahui persentase orang yang selamat adalah wanita tidak banyak bicara tanpa mengetahui persentase orang secara keseluruhan adalah wanita.

Statistik apa yang lebih bermanfaat sangat tergantung pada situasinya. Jika Anda ingin tahu betapa berbahayanya sesuatu, tingkat kematian lebih penting. Jika Anda ingin tahu apa yang memengaruhi seberapa berbahayanya sesuatu, maka perincian persentase korban adalah penting.

Akumulasi
sumber
2
Kritik yang bagus :-) "Kapal terakhir yang saya tumpangi, lebih dari 90% wanita selamat, tetapi saya tidak menganggap itu sebagai menunjukkan bahwa menyelamatkan wanita adalah prioritas tinggi." Tentu itu .. prioritas tinggi dibandingkan dengan membuangnya ke laut! Tentu, ini adalah interpretasi yang tidak masuk akal dari "prioritas tinggi", tetapi karena OP telah mengesampingkan interpretasi "prioritas lebih tinggi daripada menyelamatkan manusia", yang tersisa hanyalah interpretasi yang tidak masuk akal.
Don Hatch
3

Mungkin bermanfaat bagi kita untuk memeriksa bagaimana probabilitas ini terkait.

WS

P(S|W)=0.9

P(W|S)=0.9

Bayes Theorem menggambarkan bagaimana pernyataan probabilitas ini saling terkait.

P(S|W)=P(W|S)P(S)P(W)

P(S)P(W)

P(S)P(W)

Knrumsey
sumber
3
Saya juga akan mengatakan, sebaliknya pada kesimpulan Anda, bahwa jika P (S) maupun P (W) tidak diketahui, maka P (S | W) dan P (W | S) sama-sama menderita karena kurangnya kegunaan yang sama. Saya belum memiliki gambaran yang jelas dalam pikiran saya tentang apa yang bisa dikatakan jika salah satu dari P (S) dan P (W) diketahui.
Don Hatch
P(W)=0.5
1
Ya, itu kelihatannya benar, dan putusannya kelihatannya informasinya sangat tidak memadai bahkan mengingat hal itu. Saya harus mengatakan, setiap kali saya mulai berpikir tentang informasi apa yang dapat saya ekstrak dari hanya P (W | S) atau hanya P (S | W), bahkan menambahkan P (W) atau apa pun, saya akhirnya berpikir "mengapa Saya memikirkan hal ini? Mengapa mereka hanya memberi saya persentase itu? Cukup tunjukkan seluruh tabel ".
Don Hatch
3

Itu tergantung pada apa yang dianggap berguna.

P(S|W)>P(S|M)

Di sisi lain, jika Anda bertanya-tanya mengapa cerita yang selamat kebanyakan dari wanita, maka pernyataan 2 akan menjelaskan itu, membuat pernyataan 2 berguna bahkan tanpa adanya informasi lain.

Saya tidak dapat memikirkan pernyataan apa pun yang berguna untuk di luar konteks. Jelas tidak mengatakan apa-apa tentang prioritas yang diberikan untuk menyelamatkan wanita, dibandingkan dengan apa pun. Satu-satunya pernyataan yang saya lakukan untuk saya adalah membuat saya mengatakan "ceritakan lebih banyak".

Don Hatch
sumber
0

Di permukaan (atau terpisah dari kenyataan) kedua pernyataan itu tampaknya sama-sama tidak berguna untuk tujuan negara. Namun, mengingat konteksnya, pernyataan kedua jelas lebih bermanfaat.

Pernyataan 2

Mari kita lihat apa yang bisa kita ekstrak dari pernyataan kedua. Rasio wanitaw di antara semua yang selamat adalah:

w=halx/(halx+(1-hal)z)
dimana hal - rasio wanita di antara penumpang, x dan zadalah probabilitas kelangsungan hidup wanita dan pria. Penyebutnya adalah tingkat kelangsungan hidup total.

Kami sedang menguji hypo H0:x>z

Mari kita menulis ulang persamaan untuk mendapatkan kondisi yang diperlukan H0:

(1-w)halx=w(1-hal)z
x=w(1-hal)z/((1-w)hal)
Untuk H0 untuk menahan kita memiliki:
x=w(1-hal)z/((1-w)hal)>z
w(1p)>(1w)p
0.9(1p)>0.1p
1p>p/9
p<0.9

So, for your hypo that women were more likely to survive, all you need is to check that there were less than 90% women among the passengers. This is consistent with your assumption 2, which seems to imply that p1/2. Hence, I declare that statement 2 all but asserts that women were more likely to survive, i.e. it's quite useful for your goal.

Statement 1

The first statement is truly useless in isolation, but has a limited use in the context. If we pretend we know nothing about the event, then saying that x=0.9 tells us nothing about z, and whether x>z?

However, from that little that I know about the event - I haven't seen the movie - it seems unlikely that xz. Why?

We know from Assumption 2 that p1/2, so the total survival rate is px+(1p)z. If we assume that xz and p1/2 we get

px+(1p)zx=0.9
In other words 90% of all passengers survived, which doesn't ring true to me. Would they make a movie and talk about it for 100 years if 90% of passengers survived? So, it must be that x>>z and less than half of passengers made it.

Conclusion

I'd say that both statements support your hypo that women were more likely to survive than men, but Statement 1 does so rather weakly, while Statement 2 in combination with assumptions almost surely establishes your hypo as a fact.

Aksakal
sumber