Selain Durbin-Watson, tes hipotesis apa yang dapat menghasilkan hasil yang tidak meyakinkan?

10

The Durbin-Watson statistik uji dapat berbaring di wilayah yang tidak meyakinkan, di mana tidak mungkin baik untuk menolak atau gagal untuk menolak hipotesis nol (dalam hal ini, dari nol autokorelasi).

Tes statistik apa lagi yang dapat menghasilkan hasil yang "tidak meyakinkan"?

Apakah ada penjelasan umum (melambaikan tangan dengan baik) untuk mengapa serangkaian tes ini tidak dapat membuat keputusan "menolak" / "gagal menolak" biner?

Ini akan menjadi bonus jika seseorang dapat menyebutkan implikasi keputusan-teoretis sebagai bagian dari jawaban mereka terhadap permintaan yang terakhir - apakah kehadiran kategori tambahan dari kesimpulan (dalam) berarti bahwa kita perlu mempertimbangkan biaya Tipe I dan Tipe II kesalahan dengan cara yang lebih canggih?

hypothesis-testing statistical-significance decision-theory Gegat
sumber

2

Agak di luar topik, tetapi tes acak memiliki cita rasa seperti itu. Untuk beberapa nilai data, Anda perlu secara acak menerima dan menolak.

Christoph Hanck

@ChristophHanck terima kasih, itu koneksi menarik yang tidak akan saya perhatikan. Bukan apa yang saya maksudkan, tetapi saya menjaga pertanyaan itu dengan sengaja tidak jelas dengan harapan itu akan menjadi masalah bagi semua - tergantung pada jawaban yang saya dapat kencangkan fokusnya nanti.

Silverfish

10

The Artikel Wikipedia menjelaskan bahwa distribusi statistik uji di bawah hipotesis nol tergantung pada desain matriks-konfigurasi tertentu nilai-nilai prediktor yang digunakan dalam regresi. Durbin & Watson menghitung batas bawah untuk statistik uji di mana tes untuk autokorelasi positif harus ditolak, pada tingkat signifikansi yang diberikan, untuk setiap matriks desain, & batas atas di mana pengujian harus gagal menolak untuk setiap matriks desain. "Wilayah tidak meyakinkan" hanyalah wilayah di mana Anda harus menghitung nilai kritis yang tepat, dengan mempertimbangkan matriks desain Anda, untuk mendapatkan jawaban yang pasti.

Situasi analog harus melakukan uji-satu-sampel satu-sampel satu ketika Anda hanya tahu statistik-t, & bukan ukuran sampel ^† : 1,645 & 6,31 (sesuai dengan derajat kebebasan tanpa batas & hanya satu) akan menjadi batas untuk tes ukuran 0,05.

Sejauh teori keputusan berjalan - Anda memiliki sumber ketidakpastian baru untuk memperhitungkan selain variasi sampel, tetapi saya tidak melihat mengapa itu tidak boleh diterapkan dengan cara yang sama seperti dengan hipotesis nol komposit. Anda berada dalam situasi yang sama dengan seseorang dengan parameter gangguan yang tidak diketahui, terlepas dari bagaimana Anda sampai di sana; jadi jika Anda perlu membuat keputusan tolak / mempertahankan sambil mengendalikan kesalahan Tipe I atas semua kemungkinan, tolak secara konservatif (yaitu ketika statistik Durbin-Watson berada di bawah batas bawah, atau statistik-t di atas 6,31).

† Atau mungkin Anda kehilangan meja Anda; tetapi dapat mengingat beberapa nilai kritis untuk Gaussian standar, & rumus untuk fungsi kuantil Cauchy.

Scortchi - Reinstate Monica
sumber

(+1) Terima kasih. Saya tahu ini adalah kasus untuk tes Durbin-Watson (seharusnya menyebutkan hal itu dalam pertanyaan saya) tetapi bertanya-tanya apakah ini adalah contoh dari fenomena yang lebih umum, dan jika demikian, apakah mereka semua bekerja pada dasarnya dengan cara yang sama. Dugaan saya adalah bahwa hal itu dapat terjadi, misalnya, ketika melakukan tes tertentu ketika seseorang hanya memiliki akses ke data ringkasan (tidak harus dalam regresi), tetapi DW adalah satu-satunya kasus yang saya ingat mengingat nilai kritis atas dan bawah dikompilasi dan ditabulasi . Jika Anda memiliki pemikiran tentang bagaimana saya dapat membuat pertanyaan yang ditargetkan menjadi lebih baik, itu akan sangat disambut baik.

Silverfish

Pertanyaan pertama agak kabur ("Apa tes statistik lain [...]?"), Tapi saya tidak berpikir Anda bisa mengklarifikasi tanpa menjawab yang kedua ("Apakah ada penjelasan umum [...]?") diri Anda sendiri - secara keseluruhan saya pikir tidak apa-apa.

Scortchi

7

Contoh lain dari tes dengan hasil yang mungkin tidak meyakinkan adalah tes binomial untuk proporsi ketika hanya proporsi, bukan ukuran sampel, yang tersedia. Ini tidak sepenuhnya tidak realistis - kita sering melihat atau mendengar klaim formulir "73% orang setuju bahwa ..." dan seterusnya, di mana penyebutnya tidak tersedia.

Misalkan misalnya kita hanya tahu proporsi sampel dibulatkan benar ke seluruh persen terdekat , dan kami ingin menguji terhadap pada tingkat . $H_0: \pi = 0.5$ $H_1: \pi \neq 0.5$ $\alpha = 0.05$

Jika proporsi yang diamati adalah maka ukuran sampel untuk proporsi yang diamati harus paling tidak 19, karena adalah fraksi dengan penyebut terendah yang akan membulatkan menjadi . Kita tidak tahu apakah jumlah keberhasilan yang diamati adalah 1 dari 19, 1 dari 20, 1 dari 21, 1 dari 22, 2 dari 37, 2 dari 38, 3 dari 55, 5 dari 55, 5 dari 100 atau 50 dari 1000 ... tetapi yang mana dari ini, hasilnya akan signifikan pada tingkat . $p=5\%$ $\frac{1}{19}$ $5\%$ $\alpha = 0.05$

Di sisi lain, jika kita tahu proporsi sampel adalah maka kita tidak tahu apakah jumlah keberhasilan yang diamati adalah 49 dari 100 (yang tidak akan signifikan pada level ini) atau 4900 dari 10.000 (yang hanya mencapai signifikansi). Jadi dalam hal ini hasilnya tidak dapat disimpulkan. $p = 49\%$

Perhatikan bahwa dengan persentase bulat , tidak ada wilayah "gagal menolak": bahkan konsisten dengan sampel seperti 49.500 sukses dari 100.000, yang akan menghasilkan penolakan, serta sampel seperti 1 sukses dari 2 percobaan , yang akan menghasilkan kegagalan untuk menolak . $p=50\%$ $H_0$

Berbeda dengan tes Durbin-Watson, saya belum pernah melihat hasil tabulasi yang persentasenya signifikan; situasi ini lebih halus karena tidak ada batas atas dan bawah untuk nilai kritis. Hasil jelas tidak dapat disimpulkan, karena nol keberhasilan dalam satu percobaan tidak signifikan namun tidak ada keberhasilan dalam sejuta uji coba akan sangat signifikan. Kita telah melihat bahwa tidak meyakinkan tetapi ada hasil yang signifikan misalnya di antaranya. Selain itu, kurangnya cut-off bukan hanya karena kasus anomali dan . Bermain-main sedikit, sampel paling signifikan yang terkait dengan $p=0\%$ $p=50\%$ $p=5\%$ $p=0\%$ $p=100\%$ $p=16\%$ adalah 3 keberhasilan dalam sampel 19, dalam hal ini jadi akan signifikan; untuk kita mungkin memiliki 1 keberhasilan dalam 6 percobaan yang tidak signifikan, sehingga kasus ini tidak dapat disimpulkan (karena jelas ada sampel lain dengan yang akan menjadi signifikan); untuk mungkin ada 2 keberhasilan dalam 11 percobaan (tidak signifikan, ) sehingga kasus ini juga tidak meyakinkan; tetapi untuk sampel paling signifikan yang mungkin adalah 3 keberhasilan dalam 19 percobaan dengan jadi ini signifikan lagi. $\Pr(X \leq 3) \approx 0.00221 < 0.025$ $p=17\%$ $\Pr(X \leq 1) \approx 0.109 > 0.025$ $p=16\%$ $p=18\%$ $\Pr(X \leq 2) \approx 0.0327 > 0.025$ $p=19\%$ $\Pr(X \leq 3) \approx 0.0106 < 0.025$

Bahkan adalah persentase bulat tertinggi di bawah 50% menjadi signifikan pada level 5% (nilai-p tertinggi akan untuk 4 keberhasilan dalam 17 percobaan dan hanya signifikan), sedangkan adalah hasil non-nol terendah yang tidak dapat disimpulkan (karena dapat sesuai dengan 1 keberhasilan dalam 8 percobaan). Seperti yang bisa dilihat dari contoh di atas, apa yang terjadi di antaranya lebih rumit! Grafik di bawah ini memiliki garis merah pada : poin di bawah garis jelas signifikan tetapi yang di atasnya tidak dapat disimpulkan. Pola nilai-p sedemikian rupa sehingga tidak akan ada batas bawah dan atas tunggal pada persentase yang diamati untuk hasil menjadi signifikan secara jelas. $p=24\%$ $p=13\%$ $\alpha=0.05$

Nilai p-terkecil uji binomial dengan ukuran sampel yang tidak diketahui

Kode r

# need rounding function that rounds 5 up
round2 = function(x, n) {
  posneg = sign(x)
  z = abs(x)*10^n
  z = z + 0.5
  z = trunc(z)
  z = z/10^n
  z*posneg
}

# make a results data frame for various trials and successes
results <- data.frame(successes = rep(0:100, 100),
    trials = rep(1:100, each=101))
results <- subset(results, successes <= trials)
results$percentage <- round2(100*results$successes/results$trials, 0)
results$pvalue <- mapply(function(x,y) {
    binom.test(x, y, p=0.5, alternative="two.sided")$p.value}, results$successes, results$trials)

# make a data frame for rounded percentages and identify which are unambiguously sig at alpha=0.05
leastsig <- sapply(0:100, function(n){
    max(subset(results, percentage==n, select=pvalue))})
percentages <- data.frame(percentage=0:100, leastsig)
percentages$significant <- percentages$leastsig
subset(percentages, significant==TRUE)

# some interesting cases
subset(results, percentage==13) # inconclusive at alpha=0.05
subset(results, percentage==24) # unambiguously sig at alpha=0.05

# plot graph of greatest p-values, results below red line are unambiguously significant at alpha=0.05
plot(percentages$percentage, percentages$leastsig, panel.first = abline(v=seq(0,100,by=5), col='grey'),
    pch=19, col="blue", xlab="Rounded percentage", ylab="Least significant two-sided p-value", xaxt="n")
axis(1, at = seq(0, 100, by = 10))
abline(h=0.05, col="red")

(Kode pembulatan diambil dari pertanyaan StackOverflow ini .)

Gegat
sumber

Selain Durbin-Watson, tes hipotesis apa yang dapat menghasilkan hasil yang tidak meyakinkan?

Jawaban: