Apakah tes Shapiro Wilk tidak sensitif pada bagian ekor?

8

Apakah tes Shapiro Wilk tidak sensitif pada ekor distribusi sampel? Saya sudah membaca pernyataan seperti itu di atas kertas tetapi saya tidak tahu mengapa dari statistik uji W. Bisakah seseorang membantu saya memahami hal ini?

goodness-of-fit Kegembiraan
sumber

1

Di kertas mana Anda membaca ini?

Glen_b -Reinstate Monica

2

Lihat jawaban saya di sini untuk pertanyaan serupa. Ini juga memiliki referensi ke makalah dengan penelitian empiris, perbandingan dengan berbagai alternatif termasuk distribusi berekor panjang.

Aksakal

5

Situasinya rumit, tetapi hasilnya cenderung bertolak belakang dengan klaim ini: untuk ukuran dataset , tes Shapiro-Wilk lebih sensitif di bagian ekor daripada di tempat lain. $n$

Mengukur sensitivitas

Saya mengambil "sensitif" berarti sejauh mana hasilnya bervariasi ketika nilai-nilai dalam dataset terganggu. (Penafsiran lain yang mungkin adalah bahwa "sensitivitas" dimaksudkan dalam hal kekuatan tes untuk mendeteksi penyimpangan dari perilaku ekor dari distribusi Normal. Namun, karena "sensitivitas" dan "kekuatan" adalah istilah statistik umum yang dipahami dengan baik dengan artinya berbeda, penafsiran kedua ini sepertinya tidak tepat.)

Umum, mempertimbangkan test "hasil" (yang biasanya akan diambil sebagai p-value) menjadi beberapa fungsi dari data memerintahkan . Maka kita mungkin ingin mendefinisikan sensitivitas terhadap elemen dari menjadi $f$ $x$ $f$ $i^\text{th}$ $x$

\frac{d}{d x_{i}} f (x_{1}, x_{2}, \dots, x_{n}) .

$\frac{d}{dx_i} f(x_1,x_2,\ldots, x_n).$

Namun, ada beberapa masalah dengan ini. Pertama, mungkin tidak dapat dibedakan. Kedua, sensitivitas terhadap perubahan yang sangat kecil mungkin kurang relevan daripada sensitivitas terhadap perubahan yang lebih besar. Untuk mengatasi komplikasi ini kita dapat (1) menggunakan perbedaan hingga terarah untuk mengeksplorasi perubahan ketika secara terpisah meningkat dan menurun dan (2) mendapatkan perbedaan ini untuk penyimpangan yang cukup besar dibandingkan dengan penyebaran data. Untuk tujuan ini, diberi penyimpangan biarkan $f$ $f$ $x_i$ $\delta\ge 0$

s_{δ}^{\pm i} f = \frac{f (x_{1}, \dots, x_{i - 1}, x_{i} \pm δ σ, x_{i + 1}, \dots, x_{n}) - f (x_{1}, x_{2}, \dots, x_{n})}{δ σ}

$s_\delta^{\pm i} f = \frac{f(x_1,\ldots,x_{i-1},x_i\pm\delta\sigma, x_{i+1},\ldots, x_n) - f(x_1,x_2,\ldots, x_n)}{\delta\sigma}$

(di mana adalah ukuran standar penyebaran , seperti standar deviasi) dan menentukan sensitivitas dari menjadi vektor quotients perbedaan absolut $\sigma$ $x$ $f$

(| s_{δ / 2}^{i} | + | s_{δ / 2}^{- i} |, i = 1, 2, \dots, n) .

$(|s_{\delta/2}^i| + |s_{\delta/2}^{-i}|, i=1, 2, \ldots, n).$

Yaitu, setiap nilai data dipindahkan ke atas dan ke bawah dengan jumlah kali spread keseluruhan. Sensitivitas adalah perubahan relatif absolut total, yang mencerminkan deviasi netto dari berpusat pada data. $\delta/2$ $\delta\sigma$

Menilai sensitivitas tes distribusi

Sensitivitas dapat bervariasi dengan dataset. Haruskah kita menilainya ketika data sesuai dengan hipotesis nol atau ketika mereka jauh dari nol? Kedua penilaian dapat bersifat informatif. Tetapi untuk tes distribusi kita menghadapi komplikasi bahwa alternatif sering bahkan tidak dapat diparameterisasi: meskipun hipotesis nol mungkin bahwa data diambil dari sampel dari distribusi Normal, alternatifnya adalah sampel diambil dari setiap distribusi.

Sebuah studi menyeluruh akan melihat banyak alternatif dan banyak ukuran sampel. Di bawah ini saya melaporkan hasil untuk tiga ukuran sampel, , yang merupakan khas dari kumpulan data di mana uji Shapiro-Wilk digunakan, dan untuk null (distribusi Normal), alternatif berekor pendek (Seragam distribusi), alternatif berekor panjang (distribusi eksponensial), dan alternatif bimodal ( distribusi Beta ). Dalam setiap kasus saya membuat dataset terlihat sebanyak distribusi induknya. Hal ini dicapai dengan menghitung kuantil distribusi pada titik probabilitas plot (spasi sesuai dengan rumus Filliben , alias "titik plot Weibull"). $n=4, 12, 36$ $(2,2)$ $n$

Sebagai referensi, saya telah menerapkan analisis yang sama untuk varian tes Kolmogorov-Smirnov. Untuk varian ini saya pertama-tama memasukkan kembali data, karena (setidaknya untuk alternatif) tes KS tidak akan menjadi perbandingan yang realistis. Dengan data yang dipusatkan kembali, kedua tes sering menghasilkan nilai-p yang sebanding dan nilai-nilai p berkisar dari hingga , yang mencakup berbagai kemungkinan yang berguna. $1$ $0.0003$

Hasil

Sensitivitas untuk diplot pada sumbu logaritmik terhadap indeks data (peringkat). Hasil untuk tes SW ditunjukkan dengan warna merah dengan lingkaran penuh; yang untuk tes KS berwarna biru dengan segitiga yang diisi. (Sensitivitas nol diplot pada .) $\delta=1$ $10^{-12}$

Angka

Tes SW cenderung sedikit lebih sensitif terhadap data di bagian ekor ( yaitu , di mana peringkatnya mendekati atau ke ) daripada di tengah, kecuali untuk dataset yang sangat kecil. Tes KS, sebaliknya, cenderung sangat sensitif terhadap sejumlah kecil data dalam satu atau kedua ekor, setidaknya sekali ukuran dataset cukup besar. Jelas tes ini memberi tahu kita hal-hal yang berbeda tentang bentuk dataset. $1$ $n$

Pada umumnya, uji SW memiliki sensitivitas yang jauh lebih besar daripada uji KS. Alasannya rumit, tetapi perhatikan terutama bahwa dua tes distribusi tidak dapat dibandingkan berdasarkan sensitivitas saja: Anda juga harus mempertimbangkan nilai p di mana sensitivitas ini diukur.

Kode

The Rkode yang digunakan untuk memproduksi hasil ini berikut. Ini disusun agar mudah dimodifikasi untuk memperluas studi ke arah yang diinginkan: ukuran sampel yang berbeda, distribusi dataset yang berbeda, dan tes distribusi yang berbeda.

filliben <- function(n) {
  a <- 2^(-1/n); c(1-a, (2:(n-1) - 0.3175)/(n + 0.365), a)
}
sensitivity <- function(x, f, delta=1, ...) {
  s <- delta * sd(x) / 2
  e <- function(i) {u <- rep(0, length(x)); u[i] <- s; u}
  f.x <- f(x)
  sapply(1:length(x), function(i) f(x + e(i)) - f.x) / abs(s)
}
sensitivity.abs <- function(x, f, delta, ...) {
  abs(sensitivity(x, f, delta/2, ...)) + abs(sensitivity(x, f, -delta/2, ...))
}

delta <- 1
beta <- function(q) qbeta(q, 1/2, 1/2) # A bimodal distribution
par(mfrow=c(3, 4))
for (n in c(4, 12, 36)) {
  x <- filliben(n)
  for (f.s in c("qnorm", "qunif", "qexp", "beta")) {
    # Perform the tests.
    y <- do.call(f.s, list(x))
    y <- (y - mean(y))
    cat(n, f.s, shapiro.test(y)$p.value, ks.test(y, "pnorm")$p.value, "\n")

    # Compute sensitivities.
    shapiro.s <- sensitivity.abs(y, function(x) shapiro.test(x)$p.value, delta)
    ks.s <- sensitivity.abs(y, function(x) ks.test(x, "pnorm")$p.value, delta)
    shapiro.s <- pmax(1e-12, shapiro.s) # Eliminate zeros for log plotting
    ks.s <- pmax(1e-12, ks.s)           # Eliminate zeros for log plotting

    # Plot results.
    plot(c(1,n), range(c(shapiro.s, ks.s)), type="n", log="y",
         main=f.s, xlab="Rank", ylab=paste0("Sensitivity, n=", n))
    points(shapiro.s, pch=16, col="Red")
    points(ks.s, pch=24, bg="Blue")
    lines(shapiro.s, col="#801010")
    lines(ks.s, col="#101080", lty=3)
  }
}

whuber
sumber

3

Saya tidak berpikir itu sangat tidak sensitif; Saya akan mengatakan itu lebih sensitif di sana daripada tes Lilliefors, misalnya, dan saya mengalami kesulitan memikirkan uji kebaikan lain yang sebanding yang digunakan secara luas * yang saya pikir akan jauh lebih sensitif terhadap ekor.

Jika kita melihat perbandingan kekuatan tes goodness of fit (yang ada makalah numeorus), Shapiro Wilk umumnya berkinerja sangat baik dalam berbagai situasi, termasuk beberapa yang saya anggap berkaitan dengan "sensitivitas terhadap ekor".

* well, terlepas dari Anderson-Darling yang mungkin mengalahkan kepekaan ekornya dalam beberapa kasus. $^\dagger$

Sunting: Saya telah melalui sejumlah studi perbandingan daya, termasuk terhadap alternatif dan alternatif ekor simetris yang berat dengan sejumlah kecil kontaminasi oleh pencilan (dua cara paling jelas untuk melihat 'sensitivitas terhadap ekor') dan Shapiro-Wilk tidak sangat baik, umumnya mengungguli bahkan Anderson-Darling pada tugas ini (tugas di mana AD harus diharapkan untuk unggul).

$\dagger$ disesuaikan dengan estimasi parameter yang melekat dalam pengujian normalitas tanpa menentukan parameter, tentu saja - lihat diskusi dalam buku Goodness of fit teknik oleh D'Agostino dan Stephens

[Apakah penulis mengatakan bagaimana sensitivitas ini diukur atau dibandingkan dengan apa? Apakah makalah memberikan justifikasi atau konteks untuk klaim sama sekali?]

Glen_b -Reinstate Monica
sumber

Apakah tes Shapiro Wilk tidak sensitif pada bagian ekor?

Jawaban:

Mengukur sensitivitas

Menilai sensitivitas tes distribusi

Hasil

Kode