Apa artinya membandingkan nilai-p satu sama lain?

20

Saya memiliki dua populasi (pria dan wanita), masing-masing berisi sampel. Untuk setiap sampel, saya memiliki dua properti A & B (rata-rata nilai tahun pertama, dan skor SAT). Saya telah menggunakan uji-t secara terpisah untuk A & B: keduanya menemukan perbedaan yang signifikan antara kedua kelompok; A dengan dan B dengan .p = 0,008 p = 0,0021000hal=0,008hal=0,002

Apakah boleh mengklaim bahwa properti B lebih baik didiskriminasi (lebih signifikan) daripada properti A? Atau apakah tes-t hanya ukuran ya atau tidak (signifikan atau tidak signifikan)?

Perbarui : sesuai dengan komentar di sini dan dengan apa yang telah saya baca di wikipedia , saya pikir jawabannya adalah: jatuhkan nilai-p yang tidak berarti dan laporkan ukuran efek Anda . Adakah pikiran?

Dov
sumber
+ tolong maafkan saya bahwa saya bukan penutur asli bahasa Inggris :)
Dov
Tidak masalah: jika Anda merasa bahwa suntingan (kecil) yang saya lakukan mengubah pertanyaan Anda dengan cara apa pun yang berarti, jangan ragu untuk memperbaikinya.
Whuber
Apa hasil yang Anda ukur? (yaitu apa yang berbeda, antara kelompok yang didefinisikan oleh A / bukan A, atau B / bukan B?) Apakah diukur pada semua 1000 sampel, atau ada yang hilang?
tamu
3
Melaporkan dua ukuran efek yang berbeda, atau interval kepercayaan untuk dua ukuran efek yang berbeda, akan menjadi ide yang baik. Akan lebih mudah untuk menafsirkan ini jika hasil di masing-masing dari dua set data Anda adalah sama (bukan?).
Peter Ellis
2
Anda dapat menunjukkan signifikansi statistik dan ukuran efek dengan sangat nyaman dengan menggunakan plot hutan! Menampilkan 95% CI berarti Anda menggunakan 4 angka dan bukan 2, tetapi karena semua orang menyinggung, itu cukup mewakili tingkat informasi yang diperlukan untuk membandingkan eksperimen.
AdamO

Jawaban:

20

Banyak orang akan berpendapat bahwa nilai- dapat menjadi signifikan ( p < α ) atau tidak, sehingga tidak masuk akal untuk membandingkan dua nilai- p antara satu sama lain. Ini salah; dalam beberapa kasus memang demikian.halhal<αhal

Dalam kasus khusus Anda, sama sekali tidak ada keraguan bahwa Anda dapat langsung membandingkan nilai- . Jika ukuran sampel ditetapkan ( n = 1000 ), maka nilai- p secara monoton terkait dengan nilai- t , yang pada gilirannya secara monoton terkait dengan ukuran efek yang diukur oleh Cohen d . Secara khusus, d = 2 t / haln=1000haltd . Ini berarti bahwap-values ​​Anda berada dalam korespondensi satu-ke-satu dengan ukuran efek, dan Anda dapat yakin bahwa jikap-value untuk properti A lebih besar daripada untuk properti B, maka ukuran efek untuk A lebih kecil daripada untuk properti B.d=2t/nhalhal

Saya percaya ini menjawab pertanyaan Anda.

Beberapa poin tambahan:

  1. Ini hanya benar mengingat bahwa ukuran sampel adalah tetap. Jika Anda mendapatkan p = 0,008 untuk properti A dalam satu percobaan dengan satu ukuran sampel, dan p = 0,002 untuk properti B dalam percobaan lain dengan ukuran sampel lain, lebih sulit untuk membandingkannya.nhal=0,008hal=0,002

    • Jika pertanyaannya secara spesifik apakah A atau B lebih baik "didiskriminasi" dalam populasi (yaitu: seberapa baik Anda dapat memprediksi gender dengan melihat nilai A atau B?), Maka Anda harus melihat ukuran efek. Dalam kasus sederhana, mengetahui dan n sudah cukup untuk menghitung ukuran efek.haln

    • Jika pertanyaannya lebih kabur: percobaan apa yang memberikan lebih banyak "bukti" terhadap nol? (ini bisa bermakna jika misalnya A = B) - maka masalah menjadi rumit dan kontroversial, tetapi saya akan mengatakan bahwa nilai menurut definisi adalah ringkasan skalar dari bukti terhadap nol, sehingga semakin rendah p- nilai , semakin kuat bukti, bahkan jika ukuran sampel berbeda.halhal

  2. Mengatakan bahwa ukuran efek untuk B lebih besar daripada untuk A, tidak berarti bahwa efeknya secara signifikan lebih besar. Anda perlu perbandingan langsung antara A dan B untuk membuat klaim seperti itu.

  3. Itu selalu merupakan ide yang baik untuk melaporkan (dan menafsirkan) ukuran efek dan interval kepercayaan selain nilai .hal

amuba kata Reinstate Monica
sumber
3
Poin bagus tentang monotonitas dan 3 poin akhir bagus. Sekarang, ulang: pernyataan "Anda bisa yakin": cukup benar untuk sampel, tetapi "sangat berarti"? (Yaitu, dengan implikasi yang dapat dipercaya untuk populasi?) Anda memang membahas ini secara singkat di # 2. Perawatan yang lebih lengkap akan disambut. Cheers ~
rolando2
4
Ini benar, tetapi saya juga mencoba menjelaskan bahwa itu hanya benar dalam kasus ini (Anda juga mencatat ini). Saya pikir Michelle membuat poin berharga bahwa Anda seharusnya tidak menggunakan nilai-p secara umum dengan cara ini.
gung - Reinstate Monica
1
hal
1
@AndrewM Mungkin. Saya telah mengedit awal jawaban saya. Lihat apakah Anda menyukainya lebih baik sekarang.
Amoeba berkata Reinstate Monica
0

Terima kasih kepada siapa pun yang baru saja menurunkan saya, karena saya sekarang memiliki jawaban yang sama sekali berbeda untuk pertanyaan ini. Saya telah menghapus jawaban asli saya karena tidak benar dari perspektif ini.

Dalam konteks pertanyaan ini, yang hanya berurusan dengan pertanyaan "apakah A atau B adalah pembeda yang lebih baik dalam penelitian saya", kita berurusan dengan sensus dan bukan sampel. Dengan demikian, penggunaan statistik inferensial seperti yang digunakan untuk menghasilkan nilai-p adalah tidak relevan. Statistik inferensial digunakan untuk menyimpulkan perkiraan populasi dari yang kami peroleh dari sampel kami. Jika kita tidak ingin menggeneralisasi populasi, maka metode itu tidak perlu. (Ada beberapa masalah spesifik seputar nilai-nilai yang hilang dalam sensus, tetapi itu tidak relevan dalam situasi ini.)

Tidak ada kemungkinan mendapatkan hasil dalam suatu populasi. Kami memperoleh hasil yang kami dapatkan. Oleh karena itu, probabilitas hasil kami adalah 100%. Tidak perlu membangun interval kepercayaan - estimasi titik untuk sampel tepat. Kami hanya tidak perlu memperkirakan apa pun.

Dalam kasus khusus "variabel mana yang bekerja lebih baik dengan data yang saya miliki", yang perlu dilakukan hanyalah melihat hasilnya dalam bentuk ringkasan sederhana. Sebuah tabel mungkin cukup, mungkin grafik seperti plot kotak.

Michelle
sumber
-1

Anda mendapatkan perbedaan p, tetapi tidak jelas apa perbedaan itu berarti (apakah itu besar, kecil, signifikan?)

Mungkin menggunakan bootstrap:

pilih (dengan penggantian) dari data Anda, ulangi tes Anda, hitung selisih p (p_a - p_b), ulangi 100-200 kali

periksa fraksi dari delta p Anda <0 (artinya p A di bawah p B)

Catatan: Saya telah melihat ini dilakukan, tetapi saya bukan ahli.

martin
sumber
1
Balasan ini menjelaskan satu cara untuk membandingkan nilai-p, tetapi pertanyaan awal tampaknya tetap tidak terjawab: apakah prosedur ini masuk akal dan bagaimana seseorang menginterpretasikan hasilnya?
whuber
-1

Menambahkan jawaban karena terlalu lama untuk berkomentar!

Michelle memiliki respons yang baik, tetapi banyak komentar menunjukkan beberapa diskusi umum yang muncul tentang nilai-p. Ide dasarnya adalah sebagai berikut:

1) Nilai p yang lebih kecil tidak berarti hasilnya lebih atau kurang signifikan. Ini hanya berarti bahwa kemungkinan mendapatkan hasil setidaknya sebagai ekstrim kurang mungkin. Signifikansi adalah hasil biner berdasarkan tingkat signifikansi yang Anda pilih (yang Anda pilih sebelum menjalankan tes).

2) Ukuran efek (sering distandarisasi # untuk deviasi standar) adalah cara yang baik untuk mengukur "betapa berbedanya" dua angka tersebut. Jadi jika Kuantitas A memiliki efek ukuran .8 standar deviasi dan Kuantitas B memiliki ukuran efek .5 standar deviasi, Anda akan mengatakan bahwa ada perbedaan yang lebih besar antara kedua kelompok dalam Kuantitas A daripada dalam Kuantitas B. Pengukuran standar adalah :

.2 standar deviasi = "kecil" efek

.5 standar deviasi = "sedang" efek

.8 standar deviasi = "besar" efek

Duncan
sumber
1
Tetapi mengingat ukuran sampel tetap, nilai-p secara langsung berhubungan secara monoton dengan ukuran efek!
Amoeba berkata Reinstate Monica