Dengan ukuran sampel yang cukup besar, sebuah tes akan selalu menunjukkan hasil yang signifikan kecuali ukuran efek sebenarnya adalah nol. Mengapa?

21

Saya ingin tahu tentang klaim yang dibuat dalam artikel Wikipedia tentang ukuran efek . Secara khusus:

[...] perbandingan statistik non-nol akan selalu menunjukkan hasil yang signifikan secara statistik kecuali ukuran efek populasi benar-benar nol

Saya tidak yakin apa artinya ini / menyiratkan, apalagi argumen untuk mendukungnya. Saya kira, setelah semua, efeknya adalah statistik, yaitu nilai yang dihitung dari sampel, dengan distribusinya sendiri. Apakah ini berarti bahwa efek tidak pernah disebabkan oleh hanya variasi acak (yang saya mengerti artinya tidak signifikan)? Apakah kita kemudian hanya mempertimbangkan apakah pengaruhnya cukup kuat - memiliki nilai absolut yang tinggi?

Saya sedang mempertimbangkan efek yang paling saya kenal: koefisien korelasi Pearson tampaknya bertentangan dengan ini. Mengapa ada signifikan secara statistik? Jika kecil, garis regresi kita ry = a x + b = r ( s yr

y=ax+b=r(sysx)=ϵx+b

Untuk kecil, mendekati 0, uji-F kemungkinan akan berisi interval kepercayaan yang mengandung 0 untuk lereng. Bukankah ini contoh tandingan?ϵ

gary
sumber
10
Petunjuk: klausa sebelum bagian yang Anda kutip sangat penting. " Mengingat ukuran sampel yang cukup besar , perbandingan statistik non-nol akan selalu menunjukkan hasil yang signifikan secara statistik kecuali ukuran efek populasi benar-benar nol ..."
Kodiologist
@Kodiologist: Tapi, contoh saya, apakah ini menyiratkan bahwa jika ukuran sampel lebih besar, maka r itu sendiri juga akan lebih besar, atau, setidaknya ekspresi akan lebih besar jika ukuran sampel lebih besar? Saya tidak melihatnya. r(sy/sx)
gary
5
Jika ini tidak benar, itu akan menjadi cacat dalam metode statistik. Jika , pasti beberapa ukuran sampel cukup besar untuk mendeteksi perbedaannya. μ>μ0
John Coleman

Jawaban:

26

Sebagai contoh sederhana, anggaplah saya memperkirakan tinggi Anda menggunakan beberapa statistik omong kosong statistik.

Anda selalu menyatakan kepada orang lain bahwa Anda memiliki tinggi 177 cm (sekitar 5 kaki 10 in).

Jika saya menguji hipotesis ini (bahwa tinggi badan Anda sama dengan 177 cm, ), dan saya bisa mengurangi kesalahan dalam pengukuran saya cukup, maka saya bisa membuktikan bahwa Anda sebenarnya bukan 177 cm. Akhirnya, jika saya memperkirakan tinggi Anda ke tempat desimal yang cukup, Anda hampir pasti akan menyimpang dari ketinggian yang disebutkan 177.00000000 cm. Mungkin Anda 177,02 cm; Saya hanya perlu mengurangi kesalahan saya menjadi kurang dari 0,02 untuk mengetahui bahwa Anda tidak 177 cm.h=177

Bagaimana cara mengurangi kesalahan dalam statistik? Dapatkan sampel yang lebih besar. Jika Anda mendapatkan sampel yang cukup besar, kesalahannya menjadi sangat kecil sehingga Anda dapat mendeteksi penyimpangan paling kecil dari hipotesis nol.

Underminer
sumber
2
Ini adalah penjelasan yang sangat jelas dan ringkas. Mungkin lebih bermanfaat untuk memahami mengapa ini terjadi daripada jawaban yang lebih matematis. Sudah selesai dilakukan dengan baik.
Tidak ada yang
1
Dijelaskan dengan baik, tapi saya pikir juga penting untuk mempertimbangkan bahwa ada kasus-kasus di mana nilai yang dinyatakan benar-benar tepat. Misalnya, mengesampingkan hal-hal aneh yang terjadi dalam teori string, dll., Pengukuran jumlah dimensi spasial dari alam semesta kita (yang dapat dilakukan) akan memberi 3, dan tidak peduli seberapa akurat Anda melakukan pengukuran itu, Anda akan tidak pernah secara konsisten menemukan penyimpangan yang signifikan secara statistik dari 3. Tentu saja jika Anda terus menguji cukup kali Anda akan mendapatkan beberapa penyimpangan hanya karena perbedaan, tetapi itu masalah yang berbeda.
David Z
Mungkin pertanyaan naif tetapi jika saya mengklaim saya 177cm, bukankah konsep angka signifikan berarti saya hanya mengatakan bahwa saya berada di antara 176,5 dan 177,5? Jawabannya tampaknya memberikan konsep teoretis yang baik, benar, tetapi apakah itu tidak didasarkan pada premis yang salah? Apa yang saya lewatkan?
JimLohse
Dalam hal ini ketinggian yang dinyatakan 177 adalah analog dengan hipotesis nol dalam statistik. Dalam pengujian hipotesis tradisional untuk kesetaraan, Anda membuat pernyataan kesetaraan (misalnya, ). Intinya adalah bahwa apa pun yang Anda nyatakan tinggi badan Anda, saya dapat membantahnya dengan mengurangi kesalahan kecuali hipotesis nol benar. Saya menggunakan tinggi badan sebagai contoh yang mudah dipahami, tetapi konsep ini sama di bidang lain (zat x tidak menyebabkan kanker, koin ini adil, dll.)μ=177
Underminer
13

Seperti yang ditunjukkan oleh @Kodiologist, ini benar-benar tentang apa yang terjadi untuk ukuran sampel yang besar. Untuk ukuran sampel kecil, tidak ada alasan mengapa Anda tidak dapat memiliki positif palsu atau negatif palsu.

Saya pikir -test membuat kasus asimptotik menjadi jelas. Misalkan kita memiliki dan kami ingin menguji vs . Statistik pengujian kami adalah X 1 , , X n iid N ( μ , 1 ) H 0 : μ = 0 H A : μ 0 Z n = ˉ X n - 0zX1,,XniidN(μ,1)H0:μ=0HA:μ0

Zn=X¯n01/n=nX¯n.

X¯nN(μ,1n) jadi . Kami tertarik pada . Biarkan menjadi variabel referensi kami. Di bawah sehingga kita memiliki sehingga kita dapat memilih untuk mengontrol tipe kesalahan tingkat I yang diinginkan . Tetapi di bawah begitu Zn=nX¯nN(μn,1)P(|Zn|α)

P(|Zn|α)=P(Znα)+P(Znα)
=1+Φ(αμn)Φ(αμn).
YN(0,1)H0 μ=0P(|Zn|α)=1P(αYα)αHA μn0
P(|Zn|α)1+Φ(±)Φ(±)=1
sehingga dengan probabilitas 1 kita akan menolak jika (the dalam kasus , tetapi bagaimanapun infinitas memiliki tanda yang sama).H0μ0±μ<0

Intinya adalah bahwa jika persis sama dengan maka statistik pengujian kami memiliki distribusi referensi dan kami akan menolak 5% (atau apa pun yang kami pilih) saat itu. Tetapi jika tidak tepat , maka probabilitas bahwa kita akan menolak menuju ke saat meningkat. Idenya di sini adalah konsistensi tes, yaitu bahwa di bawah kekuatan (probabilitas menolak) menuju ke sebagai .μ 0μ01nHA1n

Ini adalah kisah yang sama persis dengan statistik pengujian untuk pengujian versus dengan koefisien korelasi Pearson. Jika hipotesis nol salah, maka statistik pengujian kami menjadi semakin besar dalam probabilitas, sehingga probabilitas bahwa kami akan menolak pendekatan .H0:ρ=ρ0HA:ρρ01

jld
sumber
1
Nitpick: jika , maka akan berbeda ke daripada , kan? Z n - μ<0Zn
Kodiologist
1
Bagus, tetapi apa yang terjadi dalam kasus harus bergantung pada apakah “lebih cepat” daripada , kan? Saya bahkan tidak yakin bagaimana Anda akan "membandingkan" tingkat konvergensi untuk urutan variabel acak dan urutan bilangan bulat - mungkin teorema Slutsky atau sesuatu seperti itu harus diterapkan. ˉ Xp 0 μ=0X¯p0n
DeltaIV
1
@DeltaIV, benar, jika tingkat konvergensi berbeda, kita perlu penskalaan yang berbeda untuk mendapatkan distribusi nol yang tidak diregenerasi. Tetapi untuk contoh sekarang, root-n adalah rate yang tepat.
Christoph Hanck
1
0nX¯ konvergen ke standar normal oleh CLT, bukan ke . 0
pria
7

Bisa dibilang apa yang mereka katakan adalah salah, jika tidak ada alasan lain selain penggunaan "ini selalu terjadi".

Saya tidak tahu apakah ini adalah inti dari kebingungan yang Anda alami, tetapi saya akan mempostingnya karena saya pikir banyak yang akan dan akan bingung dengan ini:

" terjadi jika cukup besar"n Xn tidak tidak berarti "Jika , maka ."n > n 0 Xn>n0X

Sebaliknya, itu berarti .limnPr(X)=1

Apa yang mereka katakan secara harfiah diterjemahkan sebagai berikut:

Untuk setiap ukuran sampel atas beberapa ukuran minimum , hasil dari setiap pengujian non-nol dijamin signifikan jika ukuran efek sebenarnya tidak persis nol.n 0nn0

Apa yang mereka coba katakan adalah sebagai berikut:

Untuk setiap tingkat signifikansi, ketika ukuran sampel meningkat, probabilitas bahwa tes non-nol menghasilkan hasil yang signifikan mendekati 1 jika ukuran efek sebenarnya tidak persis nol.

Ada perbedaan penting di sini:

  • Tidak ada jaminan. Anda hanya cenderung mendapatkan hasil yang signifikan dengan sampel yang lebih besar. Sekarang, mereka bisa menghindari sebagian kesalahan di sini, karena sejauh ini hanya masalah terminologi. Dalam konteks probabilistik, itu adalah dipahami bahwa pernyataan "jika n cukup besar maka X" dapat juga ditafsirkan "X menjadi lebih dan lebih mungkin untuk menjadi kenyataan sebagai n tumbuh besar" .
    Namun, interpretasi ini keluar dari jendela saya segera setelah mereka mengatakan ini "selalu" terjadi. Terminologi yang tepat di sini akan mengatakan ini terjadi " dengan probabilitas tinggi " 1 .

  • Ini sekunder, tetapi kata-katanya membingungkan - tampaknya menyiratkan bahwa Anda menetapkan ukuran sampel menjadi "cukup besar", dan kemudian pernyataan tersebut berlaku untuk setiap tingkat signifikansi. Namun, terlepas dari apa pernyataan matematika yang tepat, itu tidak benar-benar masuk akal: Anda selalu memperbaiki tingkat signifikansi, dan kemudian Anda memilih ukuran sampel yang cukup besar.
    Tapi saran bahwa hal itu dapat menjadi sebaliknya sayangnya menekankan pada interpretasi "cukup besar", sehingga membuat masalah di atas bahkan lebih buruk.n>n0

Tetapi begitu Anda memahami literatur, Anda mendapatkan apa yang ingin mereka katakan.

(Catatan: kebetulan, ini adalah salah satu masalah konstan yang dimiliki banyak orang dengan Wikipedia. Seringkali, hanya mungkin untuk memahami apa yang mereka katakan jika Anda sudah tahu materi, jadi itu hanya baik untuk referensi atau sebagai pengingat). , bukan sebagai materi belajar mandiri.)

1 Untuk sesama pengendara sepeda (hai!), Ya, istilah ini memiliki arti yang lebih spesifik daripada yang saya tautkan. Istilah teknis paling longgar yang mungkin kita inginkan di sini adalah "hampir pasti tanpa gejala" . Lihat di sini .

Mehrdad
sumber
"probabilitas bahwa tes non-nol menghasilkan hasil yang signifikan mendekati 0 jika ukuran efek sebenarnya adalah nol" mungkin tidak tepat: jika tes memiliki tingkat signifikansi maka probabilitas menghasilkan hasil yang signifikan mungkin atau sekitar semua ukuran sampelααα
Henry
@ Henry: Oh tembak, kau benar! Saya menulisnya begitu cepat sehingga saya tidak berhenti untuk berpikir. Terima kasih banyak! Saya sudah memperbaikinya. :)
Mehrdad
3

Contoh favorit saya adalah jumlah jari berdasarkan jenis kelamin. Sebagian besar orang memiliki 10 jari. Beberapa kehilangan jari karena kecelakaan. Beberapa memiliki jari ekstra.

Saya tidak tahu apakah pria memiliki jari lebih banyak daripada wanita (rata-rata). Semua bukti yang tersedia dengan mudah menunjukkan bahwa pria dan wanita sama-sama memiliki 10 jari.

Namun, saya sangat yakin bahwa jika saya melakukan sensus terhadap semua pria dan wanita maka saya akan belajar bahwa satu jenis kelamin memiliki lebih banyak jari (rata-rata) daripada yang lainnya.

emory
sumber