Saya memiliki dua populasi (pria dan wanita), masing-masing berisi sampel. Untuk setiap sampel, saya memiliki dua properti A & B (rata-rata nilai tahun pertama, dan skor SAT). Saya telah menggunakan uji-t secara terpisah untuk A & B: keduanya menemukan perbedaan yang signifikan antara kedua kelompok; A dengan dan B dengan .p = 0,008 p = 0,002
Apakah boleh mengklaim bahwa properti B lebih baik didiskriminasi (lebih signifikan) daripada properti A? Atau apakah tes-t hanya ukuran ya atau tidak (signifikan atau tidak signifikan)?
Perbarui : sesuai dengan komentar di sini dan dengan apa yang telah saya baca di wikipedia , saya pikir jawabannya adalah: jatuhkan nilai-p yang tidak berarti dan laporkan ukuran efek Anda . Adakah pikiran?
Jawaban:
Banyak orang akan berpendapat bahwa nilai- dapat menjadi signifikan ( p < α ) atau tidak, sehingga tidak masuk akal untuk membandingkan dua nilai- p antara satu sama lain. Ini salah; dalam beberapa kasus memang demikian.hal p < α hal
Dalam kasus khusus Anda, sama sekali tidak ada keraguan bahwa Anda dapat langsung membandingkan nilai- . Jika ukuran sampel ditetapkan ( n = 1000 ), maka nilai- p secara monoton terkait dengan nilai- t , yang pada gilirannya secara monoton terkait dengan ukuran efek yang diukur oleh Cohen d . Secara khusus, d = 2 t / √hal n = 1000 hal t d . Ini berarti bahwap-values Anda berada dalam korespondensi satu-ke-satu dengan ukuran efek, dan Anda dapat yakin bahwa jikap-value untuk properti A lebih besar daripada untuk properti B, maka ukuran efek untuk A lebih kecil daripada untuk properti B.d= 2 t / n--√ hal hal
Saya percaya ini menjawab pertanyaan Anda.
Beberapa poin tambahan:
Ini hanya benar mengingat bahwa ukuran sampel adalah tetap. Jika Anda mendapatkan p = 0,008 untuk properti A dalam satu percobaan dengan satu ukuran sampel, dan p = 0,002 untuk properti B dalam percobaan lain dengan ukuran sampel lain, lebih sulit untuk membandingkannya.n p = 0,008 p = 0,002
Jika pertanyaannya secara spesifik apakah A atau B lebih baik "didiskriminasi" dalam populasi (yaitu: seberapa baik Anda dapat memprediksi gender dengan melihat nilai A atau B?), Maka Anda harus melihat ukuran efek. Dalam kasus sederhana, mengetahui dan n sudah cukup untuk menghitung ukuran efek.hal n
Jika pertanyaannya lebih kabur: percobaan apa yang memberikan lebih banyak "bukti" terhadap nol? (ini bisa bermakna jika misalnya A = B) - maka masalah menjadi rumit dan kontroversial, tetapi saya akan mengatakan bahwa nilai menurut definisi adalah ringkasan skalar dari bukti terhadap nol, sehingga semakin rendah p- nilai , semakin kuat bukti, bahkan jika ukuran sampel berbeda.hal hal
Mengatakan bahwa ukuran efek untuk B lebih besar daripada untuk A, tidak berarti bahwa efeknya secara signifikan lebih besar. Anda perlu perbandingan langsung antara A dan B untuk membuat klaim seperti itu.
Itu selalu merupakan ide yang baik untuk melaporkan (dan menafsirkan) ukuran efek dan interval kepercayaan selain nilai .hal
sumber
Terima kasih kepada siapa pun yang baru saja menurunkan saya, karena saya sekarang memiliki jawaban yang sama sekali berbeda untuk pertanyaan ini. Saya telah menghapus jawaban asli saya karena tidak benar dari perspektif ini.
Dalam konteks pertanyaan ini, yang hanya berurusan dengan pertanyaan "apakah A atau B adalah pembeda yang lebih baik dalam penelitian saya", kita berurusan dengan sensus dan bukan sampel. Dengan demikian, penggunaan statistik inferensial seperti yang digunakan untuk menghasilkan nilai-p adalah tidak relevan. Statistik inferensial digunakan untuk menyimpulkan perkiraan populasi dari yang kami peroleh dari sampel kami. Jika kita tidak ingin menggeneralisasi populasi, maka metode itu tidak perlu. (Ada beberapa masalah spesifik seputar nilai-nilai yang hilang dalam sensus, tetapi itu tidak relevan dalam situasi ini.)
Tidak ada kemungkinan mendapatkan hasil dalam suatu populasi. Kami memperoleh hasil yang kami dapatkan. Oleh karena itu, probabilitas hasil kami adalah 100%. Tidak perlu membangun interval kepercayaan - estimasi titik untuk sampel tepat. Kami hanya tidak perlu memperkirakan apa pun.
Dalam kasus khusus "variabel mana yang bekerja lebih baik dengan data yang saya miliki", yang perlu dilakukan hanyalah melihat hasilnya dalam bentuk ringkasan sederhana. Sebuah tabel mungkin cukup, mungkin grafik seperti plot kotak.
sumber
Anda mendapatkan perbedaan p, tetapi tidak jelas apa perbedaan itu berarti (apakah itu besar, kecil, signifikan?)
Mungkin menggunakan bootstrap:
pilih (dengan penggantian) dari data Anda, ulangi tes Anda, hitung selisih p (p_a - p_b), ulangi 100-200 kali
periksa fraksi dari delta p Anda <0 (artinya p A di bawah p B)
Catatan: Saya telah melihat ini dilakukan, tetapi saya bukan ahli.
sumber
Menambahkan jawaban karena terlalu lama untuk berkomentar!
Michelle memiliki respons yang baik, tetapi banyak komentar menunjukkan beberapa diskusi umum yang muncul tentang nilai-p. Ide dasarnya adalah sebagai berikut:
1) Nilai p yang lebih kecil tidak berarti hasilnya lebih atau kurang signifikan. Ini hanya berarti bahwa kemungkinan mendapatkan hasil setidaknya sebagai ekstrim kurang mungkin. Signifikansi adalah hasil biner berdasarkan tingkat signifikansi yang Anda pilih (yang Anda pilih sebelum menjalankan tes).
2) Ukuran efek (sering distandarisasi # untuk deviasi standar) adalah cara yang baik untuk mengukur "betapa berbedanya" dua angka tersebut. Jadi jika Kuantitas A memiliki efek ukuran .8 standar deviasi dan Kuantitas B memiliki ukuran efek .5 standar deviasi, Anda akan mengatakan bahwa ada perbedaan yang lebih besar antara kedua kelompok dalam Kuantitas A daripada dalam Kuantitas B. Pengukuran standar adalah :
.2 standar deviasi = "kecil" efek
.5 standar deviasi = "sedang" efek
.8 standar deviasi = "besar" efek
sumber