Apakah set data besar tidak sesuai untuk pengujian hipotesis?

129

Dalam sebuah artikel baru-baru dari Amstat Berita , penulis (Mark van der Laan dan Sherri Rose) menyatakan bahwa "Kita tahu bahwa untuk ukuran sampel yang cukup besar, setiap studi-termasuk yang di mana hipotesis nol tidak ada efek benar - akan mendeklarasikan pengaruh signifikan secara statistik.

Yah, saya sendiri tidak tahu itu. Apakah ini benar? Apakah itu berarti bahwa pengujian hipotesis tidak berharga untuk set data besar?

hypothesis-testing sample-size dataset large-data Carlos Accioly
sumber

10

+1: pertanyaan ini biasanya memaparkan beberapa sudut pandang yang menarik.

user603

7

Diskusi lebih lanjut tentang set data besar muncul di stats.stackexchange.com/q/7815/919 . (Fokusnya adalah pada pemodelan regresi di sana.)

whuber

1

utas terkait ?

Antoine

8

Jika sampel besar membuat Anda berpikir pengujian hipotesis adalah alat yang salah, maka pengujian hipotesis tidak benar-benar menjawab pertanyaan yang tepat pada sampel yang lebih kecil juga - bahwa itu salah hanya menjadi lebih jelas pada ukuran sampel besar, tetapi pertimbangan yang sama relevan . Jika hasil yang signifikan pada ukuran efek yang sangat kecil membuat Anda mengatakan "baik, bukan itu yang saya inginkan, saya ingin itu memberi tahu saya jika itu penting" maka pengujian hipotesis hanyalah alat yang salah untuk memulai. Ada alat yang lebih cocok (misalnya interval kepercayaan, uji ekivalensi, dll) untuk masalah seperti itu.

Glen_b

91

Itu tidak benar. Jika hipotesis nol itu benar maka itu tidak akan ditolak lebih sering pada ukuran sampel besar daripada kecil. Ada tingkat penolakan yang keliru yang biasanya ditetapkan ke 0,05 (alfa) tetapi tidak tergantung pada ukuran sampel. Oleh karena itu, diambil secara harfiah pernyataan itu salah. Namun demikian, ada kemungkinan bahwa dalam beberapa situasi (bahkan seluruh bidang) semua nol adalah palsu dan karena itu semua akan ditolak jika N cukup tinggi. Tetapi apakah ini hal yang buruk?

Apa yang benar adalah bahwa efek kecil yang sepele dapat ditemukan "signifikan" dengan ukuran sampel yang sangat besar. Itu tidak menyarankan bahwa Anda tidak harus memiliki ukuran sampel sebesar itu. Apa artinya adalah bahwa cara Anda menginterpretasikan temuan Anda tergantung pada ukuran efek dan sensitivitas tes. Jika Anda memiliki ukuran efek yang sangat kecil dan tes yang sangat sensitif, Anda harus mengakui bahwa temuan yang signifikan secara statistik mungkin tidak bermakna atau berguna.

Mengingat beberapa orang tidak percaya bahwa uji hipotesis nol, ketika nol itu benar , selalu memiliki tingkat kesalahan yang sama dengan titik cutoff yang dipilih untuk ukuran sampel apa pun, inilah simulasi sederhana dalam Rmembuktikannya. Jadikan N sebesar yang Anda inginkan dan tingkat kesalahan Tipe I akan tetap konstan.

# number of subjects in each condition
n <- 100
# number of replications of the study in order to check the Type I error rate
nsamp <- 10000

ps <- replicate(nsamp, {
    #population mean = 0, sd = 1 for both samples, therefore, no real effect
    y1 <- rnorm(n, 0, 1) 
    y2 <- rnorm(n, 0, 1)
    tt <- t.test(y1, y2, var.equal = TRUE)
    tt$p.value
})
sum(ps < .05) / nsamp

# ~ .05 no matter how big n is. Note particularly that it is not an increasing value always finding effects when n is very large.

John
sumber

8

+1: memang, ketiga jawaban di sini secara logis konsisten satu sama lain.

user603

1

Akhirnya saya menemukan sangkalan dari sesuatu yang (non-statistik) profesor katakan kepada saya sejak lama.

Jase

1

@Sympa, tidak. Hanya karena SE turun saat N naik tidak berarti Anda akan selalu menemukan efek dengan N besar (lihat simulasi). Perlu diingat bahwa saat SE menurun, kualitas estimasi efeknya meningkat. Jika tidak ada efek populasi maka kemungkinannya mendekati 0 dan tidak menunjukkan perbedaan. Bahkan, distribusi nilai-p adalah datar terlepas dari ukuran sampel setiap kali nol benar (tulis simulasi Anda sendiri untuk itu). Tidak ada kontradiksi dalam jawabannya.

John

4

Maka Anda akan salah. Anda mungkin ingin mempertimbangkan untuk membaca jawaban lain di sini juga. Karena Anda tidak dapat mengikuti hubungan antara simulasi dan pengujian hipotesis, saya kira saya hanya bisa menunjukkan klaim utama Anda bahwa ketika kesalahan standar turun, t naik, dan p turun. Ini hanya benar jika efeknya tetap konstan. Tetapi efeknya adalah sampel acak dan ketika efek sebenarnya adalah 0 maka, ketika N meningkatkan efek yang diamati cenderung menurun. Oleh karena itu, meskipun, ketika N meningkatkan SE turun itu tidak akan meningkatkan nilai-t karena pembilang pada nilai-t juga akan lebih rendah.

John

1

Fakta bahwa rnorm tidak dapat menghasilkan bilangan irasional tidak relevan dalam contoh. Bahkan jika itu tidak menggambar secara normal dari rata-rata 0 dan sd 1, itu sama tidak normal untuk kedua sampel. Tingkat kesalahan Tipe I mungkin akan sedikit turun dari 0,05 tetapi harus tetap konstan terlepas dari N. Dan itu tidak benar dari semua simulasi karena saya bisa memilih yang terpisah di mana ini bukan masalah. (Jika Anda benar-benar ingin mengangkat masalah esoteris maka Anda harus mengatasi keacakan semu.)

John

31

Saya setuju dengan jawaban yang telah muncul, tetapi ingin menambahkan bahwa mungkin pertanyaannya dapat diarahkan. Apakah untuk menguji hipotesis atau tidak adalah pertanyaan penelitian yang, setidaknya secara umum, harus independen dari berapa banyak data yang dimiliki seseorang. Jika Anda benar-benar perlu menguji hipotesis, lakukan itu, dan jangan takut pada kemampuan Anda untuk mendeteksi efek kecil. Tetapi pertama-tama tanyakan apakah itu bagian dari tujuan penelitian Anda.

Sekarang untuk beberapa quibbles:

Beberapa hipotesis nol mutlak benar oleh konstruksi. Ketika Anda menguji generator nomor pseudorandom untuk pemerataan, misalnya, dan bahwa PRG benar-benar merata (yang akan menjadi teorema matematika), maka null berlaku. Mungkin sebagian besar dari Anda dapat memikirkan contoh dunia nyata yang lebih menarik yang timbul dari pengacakan dalam percobaan di mana pengobatan benar-benar tidak berpengaruh. (Saya akan memberikan seluruh literatur tentang esp sebagai contoh. ;-)
Dalam situasi di mana null "sederhana" diuji terhadap alternatif "senyawa", seperti pada uji-t klasik atau uji-z, biasanya diperlukan ukuran sampel yang proporsional dengan untuk mendeteksi ukuran efek dari . Ada batas atas praktis untuk ini dalam penelitian apa pun, menyiratkan ada batas bawah praktis pada ukuran efek yang terdeteksi. Jadi, sebagai masalah teoretis, der Laan dan Rose benar, tetapi kita harus berhati-hati dalam menerapkan kesimpulan mereka. $1/\epsilon^2$ $\epsilon$

whuber
sumber

Bukankah semua ini masalah kesalahan tipe I versus kesalahan tipe II (atau kekuasaan)? Jika seseorang memperbaiki probabilitas kesalahan tipe I ( ) pada 0,05, maka, jelas (kecuali dalam kasus diskrit), itu akan menjadi 0,05 apakah sampel besar atau tidak. Tetapi untuk probabilitas kesalahan tipe I tertentu, 0,05 misalnya, kekuatan, atau probabilitas bahwa Anda akan mendeteksi efek ketika ada, lebih besar untuk ukuran sampel besar.

α

$\alpha$

@ fcop Komentar Anda, meskipun benar, tampaknya diarahkan pada jawaban lain. Mereka kehilangan titik yang satu ini, yang menunjukkan bahwa tidak semua analisis statistik perlu tes hipotesis. Kesalahan tipe I dan II hanya memiliki arti ketika melakukan tes hipotesis formal.

whuber

OP merujuk pada pernyataan: "Kami tahu bahwa untuk ukuran sampel yang cukup besar, setiap penelitian — termasuk studi di mana hipotesis nol tanpa efek adalah benar - akan menyatakan pengaruh yang signifikan secara statistik." "Jadi, jika Anda menguji misalnya versus maka dalam sampel besar kekuatannya sangat tinggi sehingga Anda 'mendeteksi' penyimpangan bahkan kecil dari 1. Jadi saya pikir pernyataan mereka tidak benar, tetapi kekuatan dalam sampel besar memungkinkan Anda untuk mendeteksi perbedaan yang sangat kecil.

H_{0} : μ = 1

$H_0: \mu=1$

H_{1} : μ \neq 1

$H_1: \mu \ne 1$

@ fcop Terima kasih telah menjelaskan. Saya setuju dengan alasan Anda: ketika nol itu benar, maka dengan konstruksi bahkan studi besar akan menemukan efek signifikan dengan peluang paling banyak sama dengan ukuran tes mereka - yaitu, mereka tidak akan mungkin menemukan efek signifikan.

whuber

19

Pengujian hipotesis secara tradisional berfokus pada nilai p untuk mendapatkan signifikansi statistik ketika alpha kurang dari 0,05 memiliki kelemahan utama. Dan, dengan ukuran sampel yang cukup besar, eksperimen apa pun pada akhirnya dapat menolak hipotesis nol dan mendeteksi perbedaan kecil yang ternyata signifikan secara statistik.

Ini adalah alasan mengapa perusahaan obat menyusun uji klinis untuk mendapatkan persetujuan FDA dengan sampel yang sangat besar. Sampel besar akan mengurangi kesalahan standar menjadi mendekati nol. Ini pada gilirannya akan secara artifisial meningkatkan statistik t dan menurunkan nilai p yang mendekati 0%.

Saya berkumpul di dalam komunitas ilmiah yang tidak rusak oleh insentif ekonomi dan pengujian hipotesis terkait konflik kepentingan menjauh dari pengukuran nilai p apa pun menuju pengukuran Ukuran Efek. Ini karena unit jarak statistik atau diferensiasi dalam analisis Ukuran Efek adalah standar deviasi daripada kesalahan standar. Dan, standar deviasi benar-benar independen dari ukuran sampel. Kesalahan standar di sisi lain benar-benar tergantung dari ukuran sampel.

Jadi, siapa pun yang skeptis terhadap pengujian hipotesis mencapai hasil yang signifikan secara statistik berdasarkan sampel besar dan metodologi terkait nilai p benar untuk skeptis. Mereka harus menjalankan kembali analisis menggunakan data yang sama tetapi menggunakan uji statistik Efek Ukuran. Dan, kemudian amati apakah Ukuran Efek dianggap material atau tidak. Dengan melakukan itu, Anda dapat mengamati bahwa banyak perbedaan yang signifikan secara statistik dikaitkan dengan Ukuran Efek yang tidak material. Itulah yang kadang-kadang berarti para peneliti uji klinis ketika hasilnya signifikan secara statistik tetapi tidak "signifikan secara klinis." Mereka maksudkan bahwa satu pengobatan mungkin lebih baik daripada plasebo, tetapi perbedaannya sangat kecil sehingga tidak ada bedanya dengan pasien dalam konteks klinis.

Sympa
sumber

1

Sampel besar satu orang adalah sampel kecil orang lain. :)

Iterator

3

Bukankah Anda mengajukan pertanyaan yang salah? Mungkin proses persetujuan FDA harus menentukan keuntungan yang lebih besar vs plasebo (mungkin terkait dengan biaya obat, termasuk efek sampingnya) daripada hanya memerlukan signifikansi statistik? Karena bisa saja ada perbedaan nyata, walaupun sangat kecil, dan perbedaan itu terbukti signifikan secara statistik, betapapun kecilnya.

Emil Vikström

FDA tidak memerlukan "hanya signifikansi statistik". Itu tidak masuk akal. Setiap orang di industri ini memahami apa arti "signifikan secara klinis". FDA menimbang bukti statistik dari kemanjuran obat yang diukur dengan titik akhir klinis, seperti remisi, terhadap masalah kesehatan dan keselamatan. Silakan baca pedoman FDA sebelum membuat pernyataan yang tidak berdasar.

qwr

15

Suatu pengujian hipotesis (frequentist), tepatnya, menjawab pertanyaan tentang kemungkinan data yang diamati atau sesuatu yang lebih ekstrem kemungkinan akan mengasumsikan hipotesis nol itu benar. Interpretasi ini tidak peduli dengan ukuran sampel. Interpretasi itu valid apakah sampel berukuran 5 atau 1.000.000.

Peringatan penting adalah bahwa tes ini hanya relevan dengan kesalahan pengambilan sampel. Kesalahan pengukuran, masalah pengambilan sampel, cakupan, kesalahan entri data, dll. Berada di luar cakupan kesalahan pengambilan sampel. Dengan meningkatnya ukuran sampel, kesalahan non-sampling menjadi lebih berpengaruh karena keberangkatan kecil dapat menghasilkan keberangkatan signifikan dari model pengambilan sampel acak. Akibatnya, uji signifikansi menjadi kurang bermanfaat.

Ini sama sekali bukan tuduhan uji signifikansi. Namun, kita perlu berhati-hati tentang atribusi kita. Hasilnya mungkin signifikan secara statistik. Namun, kita perlu berhati-hati tentang bagaimana kita membuat atribusi ketika ukuran sampel besar. Apakah perbedaan itu disebabkan oleh proses pembuatan hipotesis kami berhadap-hadapan dengan kesalahan pengambilan sampel atau apakah itu merupakan hasil dari sejumlah kesalahan non-pengambilan sampel yang dapat memengaruhi statistik uji (yang tidak diperhitungkan oleh statistik)?

Pertimbangan lain dengan sampel besar adalah signifikansi praktis dari suatu hasil. Tes signifikan mungkin menyarankan (bahkan jika kita dapat mengesampingkan kesalahan non-sampling) perbedaan yang sepele dalam arti praktis. Bahkan jika hasil itu tidak mungkin diberikan dengan model pengambilan sampel, apakah itu signifikan dalam konteks masalah? Mengingat sampel yang cukup besar, perbedaan dalam beberapa dolar mungkin cukup untuk menghasilkan hasil yang signifikan secara statistik ketika membandingkan pendapatan di antara dua kelompok. Apakah ini penting dalam arti yang berarti? Signifikansi statistik bukan pengganti untuk penilaian yang baik dan pengetahuan materi pelajaran.

Selain itu, nol tidak benar atau salah. Itu adalah model. Itu adalah asumsi. Kami menganggap nol adalah benar dan menilai sampel kami dalam hal asumsi itu. Jika sampel kami tidak akan diberikan asumsi ini, kami lebih percaya pada alternatif kami. Mempertanyakan apakah suatu null benar atau tidak dalam praktiknya adalah kesalahpahaman dari logika pengujian signifikansi.

Brett
sumber

3

Ini mendukung argumen untuk meningkatkan kompleksitas model karena ukuran sampel menjadi besar - dalam kesalahan sampel sampel besar tidak lagi menjadi sumber ketidakpastian yang dominan. Tentu saja ini hanya "masuk akal" dalam kerangka kerja Bayesian, yang memungkinkan sumber-sumber ketidakpastian lainnya selain kesalahan pengambilan sampel.

probabilityislogic

13

Satu hal sederhana yang tidak dibuat secara langsung dalam jawaban lain adalah tidak benar bahwa "semua hipotesis nol salah."

Hipotesis sederhana bahwa koin fisik memiliki probabilitas kepala persis sama dengan 0,5, ok, itu salah.

$\alpha$

Keith Winstein
sumber

9

Dalam arti tertentu, [semua] banyak hipotesis nol [selalu] salah (kelompok orang yang tinggal di rumah dengan angka ganjil tidak pernah benar - benar mendapatkan rata-rata sama dengan kelompok orang yang tinggal di rumah dengan angka genap).

$T_{\alpha}n^{-0.5}$ $T_{\alpha}$ $\alpha$ $n$

Ini bukan cacat dari tes statistik. Sederhananya konsekuensi dari fakta bahwa tanpa informasi lebih lanjut (sebelumnya) kita memiliki bahwa sejumlah besar inkonsistensi kecil dengan nol harus diambil sebagai bukti terhadap nol. Tidak peduli seberapa sepele inkonsistensi ini ternyata.

$\hat{P}(|\bar{\mu}_1-\bar{\mu}_2|^2>\eta|\eta, X)$

pengguna603
sumber

Aneh ... secara intuitif, ini tampaknya bertentangan dengan Hukum Angka Besar.

Carlos Accioly

Carlos:> dapatkah Anda lebih spesifik?

user603

n

$n$

1

@Carlos - tetapi konvergensi tidak berarti kesetaraan; ini dijamin hanya untuk batas tak terhingga yang tak terjangkau. Jadi tidak ada kontradiksi ;-)

5

Jawaban singkatnya adalah "tidak". Penelitian tentang pengujian hipotesis dalam rezim asimtotik pengamatan tak terbatas dan beberapa hipotesis telah sangat, sangat aktif dalam 15-20 tahun terakhir, karena data microarray dan aplikasi data keuangan. Jawaban panjangnya ada di halaman kursus Stat 329, "Inferensi Bersamaan Skala Besar", yang diajarkan pada 2010 oleh Brad Efron. Sebuah bab penuh dikhususkan untuk pengujian hipotesis skala besar.

gappy
sumber

7

Saya percaya bahwa buku Efron berfokus pada sejumlah besar variabel (dan beberapa masalah pengujian yang muncul), bukan ukuran sampel.

Galit Shmueli

4

Pengujian hipotesis untuk data besar harus mempertimbangkan tingkat perbedaan yang diinginkan, daripada apakah ada perbedaan atau tidak. Anda tidak tertarik pada H0 bahwa perkiraannya tepat 0. Pendekatan umum adalah untuk menguji apakah perbedaan antara hipotesis nol dan nilai yang diamati lebih besar dari nilai cut-off yang diberikan.

$\bar{X_1} > \bar{X_2}$

T = \frac{\bar{X 1} - \bar{X 2} - δ}{\sqrt{\frac{S^{2}}{n}}} + \frac{δ}{\sqrt{\frac{S^{2}}{n}}} \approx N (\frac{δ}{\sqrt{\frac{S^{2}}{n}}}, 1)

$T=\frac{\bar{X1}-\bar{X2}-\delta}{\sqrt{\frac{S^2}{n}}}+\frac{\delta}{\sqrt{\frac{S^2}{n}}} \approx N(\frac{\delta}{\sqrt{\frac{S^2}{n}}},1)$

T = \frac{\bar{X 1} - \bar{X 2}}{\sqrt{\frac{S^{2}}{n}}} \approx N (\frac{δ}{\sqrt{\frac{S^{2}}{n}}}, 1)

$T=\frac{\bar{X1}-\bar{X2}}{\sqrt{\frac{S^2}{n}}} \approx N(\frac{\delta}{\sqrt{\frac{S^2}{n}}},1)$

$H_0:\bar{X1}-\bar{X2} = \delta$

\frac{\bar{X 1} - \bar{X 2} - δ}{\sqrt{\frac{S^{2}}{n}}} \approx N (0, 1)

$\frac{\bar{X1}-\bar{X2}-\delta}{\sqrt{\frac{S^2}{n}}}\approx N(0,1)$

$H_A$ $\bar{X1}-\bar{X2} > \delta$

mod.test <- function(x1,x2,dif,...){
    avg.x1 <- mean(x1)
    avg.x2 <- mean(x2)
    sd.x1 <- sd(x1)
    sd.x2 <- sd(x2)

    sd.comb <- sqrt((sd.x1^2+sd.x2^2)/2)
    n <- length(x1)
    t.val <- (abs(avg.x1-avg.x2))*sqrt(n)/sd.comb
    ncp <- (dif*sqrt(n)/sd.comb)
    p.val <- pt(t.val,n-1,ncp=ncp,lower.tail=FALSE)
    return(p.val)
}

n <- 5000

test1 <- replicate(100,
  t.test(rnorm(n),rnorm(n,0.05))$p.value)
table(test1<0.05)
test2 <- replicate(100,
  t.test(rnorm(n),rnorm(n,0.5))$p.value)
table(test2<0.05)

test3 <- replicate(100,
   mod.test(rnorm(n),rnorm(n,0.05),dif=0.3))
table(test3<0.05)

test4 <- replicate(100,
   mod.test(rnorm(n),rnorm(n,0.5),dif=0.3))
table(test4<0.05)

Pemberian yang mana :

> table(test1<0.05)
FALSE  TRUE 
   24    76 

> table(test2<0.05)
TRUE 
 100 

> table(test3<0.05)
FALSE 
  100 

> table(test4<0.05)
TRUE 
 100

Joris Meys
sumber

apakah tidak ada salinan / kesalahan ketik pada persamaan pertama?

user603

Saya tidak melihatnya?

Joris Meys

4

"Apakah itu berarti bahwa pengujian hipotesis tidak berharga untuk set data besar?"

Tidak, itu tidak berarti itu. Pesan umum adalah bahwa keputusan yang diambil setelah melakukan uji hipotesis harus selalu memperhitungkan perkiraan ukuran efek, dan bukan hanya nilai-p. Khususnya, dalam percobaan dengan ukuran sampel yang sangat besar, keharusan untuk mempertimbangkan ukuran efek ini menjadi dramatis. Tentu saja, secara umum, pengguna tidak menyukai ini karena prosedurnya menjadi kurang "otomatis".

Pertimbangkan contoh simulasi ini. Misalkan Anda memiliki sampel acak 1 juta pengamatan dari distribusi normal standar,

n <- 10^6
x <- rnorm(n)

$0.01$

y <- rnorm(n, mean = 0.01)

$95\%$ $2.5\times 10^{-14}$

t.test(x, y)

        Welch Two Sample t-test

data:  x and y
t = -7.6218, df = 1999984, p-value = 2.503e-14
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -0.013554059 -0.008009031
sample estimates:
   mean of x    mean of y 
0.0008947038 0.0116762485

$95\%$ $[-0.013, -0.008]$

Apakah perbedaan antara dua populasi berarti dari urutan besarnya ini relevan dengan masalah tertentu yang kita pelajari atau tidak?

Zen
sumber

Saya setuju dengan semua yang ada di jawaban Anda kecuali kalimat pertama itu, yang saya ubah menjadi "Ya, biasanya itu berarti", karena dengan sampel besar sejuta atau lebih, ukuran efeknya SANGAT kecil.

zbicyclist

α

$\alpha$

3

$H_{ST}:d_{1}=1.23,d_{2}=1.11,\dots$ $d_{i}$

Tetapi orang biasanya tidak tertarik pada hipotesis hal yang pasti ini. Jika Anda berpikir tentang apa yang sebenarnya ingin Anda lakukan dengan uji hipotesis, Anda akan segera menyadari bahwa Anda hanya harus menolak hipotesis nol jika Anda memiliki sesuatu yang lebih baik untuk menggantikannya dengan. Bahkan jika null Anda tidak menjelaskan data, tidak ada gunanya membuangnya, kecuali jika Anda memiliki penggantinya. Sekarang, apakah Anda akan selalu mengganti nol dengan hipotesis "pasti"? Mungkin tidak, karena Anda tidak dapat menggunakan hipotesis "hal pasti" ini untuk menggeneralisasi di luar kumpulan data Anda. Ini tidak lebih dari mencetak data Anda.

Jadi, yang harus Anda lakukan adalah menentukan hipotesis bahwa Anda akan tertarik untuk bertindak jika itu benar. Kemudian lakukan tes yang sesuai untuk membandingkan alternatif-alternatif tersebut satu sama lain - dan bukan pada kelas hipotesis yang tidak relevan yang Anda tahu salah atau tidak dapat digunakan.

$H_{0}:\mu=0$ $H_{1}:\mu\in\{\pm 1,\pm 2,\pm 3,\pm 4,\pm 5,\pm 6\}$ $0.5$ $100$

Kesimpulannya pada dasarnya adalah bahwa Anda perlu menentukan ruang hipotesis Anda - hipotesis yang Anda benar-benar tertarik. Tampaknya dengan data besar, ini menjadi hal yang sangat penting untuk dilakukan, hanya karena data Anda memiliki begitu banyak kekuatan penyelesaian. Tampaknya juga penting untuk membandingkan seperti hipotesis - titik dengan titik, senyawa dengan senyawa - untuk mendapatkan hasil yang berperilaku baik.

probabilityislogic
sumber

3

Tidak. Memang benar, bahwa semua uji hipotesis titik berguna konsisten dan dengan demikian akan menunjukkan hasil yang signifikan jika hanya ukuran sampel yang cukup besar dan ada beberapa efek yang tidak relevan. Untuk mengatasi kelemahan pengujian hipotesis statistik ini (sudah disebutkan oleh jawaban Gaetan Lion di atas), ada tes relevansi. Ini mirip dengan tes kesetaraan tetapi bahkan lebih jarang. Untuk uji relevansi, ukuran efek relevan minimum ditentukan sebelumnya. Tes relevansi dapat didasarkan pada interval kepercayaan untuk efek: Jika interval kepercayaan dan wilayah relevansi terpisah, Anda dapat menolak nol.

Namun, van der Laan dan Rose mengasumsikan dalam pernyataan mereka, bahwa bahkan hipotesis nol sejati diuji dalam studi. Jika hipotesis nol benar, kemungkinan untuk menolak tidak lebih besar dari alpha, terutama dalam kasus sampel besar dan bahkan salah spesifikasi saya hanya bisa melihat bahwa distribusi sampel secara sistematis berbeda dari distribusi populasi,

Horst Grünbusch
sumber

3

Artikel yang Anda sebutkan memang memiliki poin yang valid, sejauh menyangkut tes frequentist standar. Itulah sebabnya pengujian untuk ukuran efek yang diberikan sangat penting. Sebagai ilustrasi, ini adalah anova antara 3 kelompok, di mana kelompok B sedikit berbeda dari kelompok A dan C. coba ini di r:

treat_diff=0.001 #size of treatment difference
ns=c(10, 100, 1000, 10000, 100000, 1000000) #values for sample size per group considered
reps=10 #number of test repetitions for each sample size considered
p_mat=data.frame(n=factor(), p=double()) #create empty dataframe for outputs
for (n in ns){ #for each sample size
  for (i in c(1:reps)){ #repeat anova test ‘reps’ time
    treatA=data.frame(treatment="A", val=rnorm(n)) 
    treatB=data.frame(treatment="B", val=rnorm(n)+treat_diff) #this is the group that has the means slightly different from the other groups
    treatC=data.frame(treatment="C", val=rnorm(n))
    all_treatment=rbind(treatA, treatB, treatC)
    treatment_aov=aov(val~treatment, data=all_treatment)
    aov_summary=summary(treatment_aov)
    p=aov_summary[[1]][["Pr(>F)"]][1]
    temp_df=data.frame(n=n, p=p)
    p_mat=rbind(p_mat, temp_df)
  }
}

library(ggplot2)
p <- ggplot(p_mat, aes(factor(n), p))
p + geom_boxplot()

Seperti yang diharapkan, dengan jumlah sampel yang lebih besar per tes, signifikansi statistik dari tes meningkat:

Lucas Fortini
sumber

2

Saya pikir apa yang mereka maksud adalah bahwa orang sering membuat asumsi tentang kepadatan probabilitas hipotesis nol yang memiliki bentuk 'sederhana' tetapi tidak sesuai dengan kepadatan probabilitas sebenarnya.

Sekarang dengan set data kecil, Anda mungkin tidak memiliki sensitivitas yang cukup untuk melihat efek ini tetapi dengan set data yang cukup besar Anda akan menolak hipotesis nol dan menyimpulkan bahwa ada efek baru alih-alih menyimpulkan bahwa asumsi Anda tentang hipotesis nol salah.

Andre Holzner
sumber

1

Saya tidak tahu apakah Mark dan Shern memiliki pandangan Anda dalam pikiran tetapi hanya untuk frase ulang poin Anda - jika model untuk data di bawah nol adalah 'salah' maka Anda akan menolak hipotesis nol untuk data yang cukup besar.

1

$\alpha$

$H_0$ $H_1$

Daya meningkat dengan ukuran sampel (semua hal lain sama).

Tetapi pernyataan bahwa "Kita tahu bahwa untuk ukuran sampel yang cukup besar, setiap penelitian — termasuk studi yang hipotesis nol tidak berpengaruhnya benar - akan menyatakan efek signifikan secara statistik." salah.

sumber

Apakah set data besar tidak sesuai untuk pengujian hipotesis?

Jawaban: