Berarti 2,04 kesalahan standar? Berarti sangat berbeda ketika interval kepercayaan banyak tumpang tindih?

Gambar di bawah ini dari artikel ini di Ilmu Psikologi . Seorang kolega menunjukkan dua hal yang tidak biasa tentang hal itu:

Menurut keterangan, bilah kesalahan menunjukkan "± 2,04 kesalahan standar, interval kepercayaan 95%." Saya hanya pernah melihat ± 1,96 SE digunakan untuk CI 95%, dan saya tidak dapat menemukan apa pun tentang 2,04 SE yang digunakan untuk tujuan apa pun. Apakah 2.04 SE memiliki makna yang diterima ?
Teks menyatakan bahwa perbandingan berpasangan yang direncanakan menemukan perbedaan yang signifikan untuk besarnya kejut rata-rata dalam uji coba yang dapat diprediksi dengan benar (t (30) = 2,51, p <.01) dan kesalahan vs uji coba yang tidak dapat diprediksi yang benar (t (30) = 2,61, p <0,01) (uji F omnibus juga signifikan pada p <0,05). Namun, grafik menunjukkan bar kesalahan untuk ketiga kondisi yang tumpang tindih secara substansial. Jika interval ± 2.04 SE tumpang tindih, bagaimana bisa nilainya berbeda secara signifikan pada p <0,05? Tumpang tindih cukup besar sehingga saya mengasumsikan bahwa interval ± 1,96 SE juga tumpang tindih.

grafik batang menampilkan 2.04 SE error bar

confidence-interval standard-error octern
sumber

Jawaban yang bagus Saya ingin menekankan bahwa (seperti yang ditunjukkan whuber) membandingkan interval kepercayaan 95% tidak sama dengan melakukan tes statistik pada tingkat signifikansi 0,05. Tentu saja ada makalah yang membahas hal ini. Jika interval kepercayaan adalah satu-satunya statistik yang tersedia, Payton dkk menyarankan untuk menggunakan interval 85% untuk tingkat signifikansi 0,05 untuk data Gaussian. Mereka menindaklanjuti pekerjaan mereka di sini .

Martin Berglund

Terima kasih, @Martin. Untuk menutup loop: meskipun saya belum melihat kertas Payton et al , dasar untuk 85% jelas: nilai-z sesuai dengan 84%, ketika kuadrat , sama dengan ; menambahkan dua dari ini memberi ; akar kuadratnya adalah , yang merupakan nilai z yang sesuai dengan interval 95%. Saya kira Payton membulatkan 84% menjadi 85%. Dengan kata lain, rekomendasi mereka (namun diturunkan) dapat dijelaskan dengan analisis yang sama yang saya berikan.

2

$2$

4

$4$

2

$2$

Whuber

@ MartinBerglund dan whuber Datangi jawaban Anda ketika bertanya-tanya apakah perhitungan independen saya dari interval kepercayaan 83,4% untuk melakukan tes statistik pada tingkat 0,05 adalah asli - jelas tidak! Terima kasih atas referensi makalah, sangat membantu.

tristan

Jawaban:

$2.04$ adalah pengganda untuk digunakan dengan distribusi t Student dengan 31 derajat kebebasan. Kutipan menunjukkan derajat kebebasan sesuai, dalam hal pengganda yang benar adalah . $30$ $2.042272 \approx 2.04$
Berarti dibandingkan dalam hal kesalahan standar . Kesalahan standar biasanya kali deviasi standar, di mana (mungkin sekitar sini) adalah ukuran sampel. Jika judulnya benar dalam menyebut bilah ini "kesalahan standar," maka standar deviasi harus setidaknya kali lebih besar dari nilai sekitar seperti yang ditunjukkan. Dataset nilai positif dengan standar deviasi dan rata-rata antara dan harus memiliki nilai paling dekat $1/\sqrt{n}$ $n$ $30+1=31$ $\sqrt{31} \approx 5.5$ $6$ $31$ $6 \times 5.5 = 33$ $14$ $18$ $0$ dan sejumlah kecil nilai besar, yang tampaknya sangat tidak mungkin. (Jika demikian, maka seluruh analisis berdasarkan statistik t Student akan tetap tidak valid.) Kita harus menyimpulkan bahwa angka tersebut kemungkinan menunjukkan standar deviasi, bukan kesalahan standar .
Perbandingan cara tidak didasarkan pada tumpang tindih (atau ketiadaan) interval kepercayaan. Dua 95% CI dapat tumpang tindih, namun masih dapat menunjukkan perbedaan yang sangat signifikan. Alasannya adalah bahwa kesalahan standar dari perbedaan dalam ( independen ) berarti, setidaknya sekitar, akar kuadrat dari jumlah kuadrat dari kesalahan standar rata-rata. Misalnya, jika kesalahan standar rata-rata sama dengan dan kesalahan standar rata-rata sama dengan , maka CI dari rata-rata pertama (menggunakan kelipatan ) akan meluas dari ke dan CI dari yang kedua akan memperpanjang dari $14$ $1$ $17$ $1$ $2.04$ $11.92$ $16.08$ $14.92$ ke , dengan tumpang tindih substansial. Namun demikian SE dari perbedaannya akan sama dengan . Perbedaan rata-rata, , lebih besar dari kali nilai ini: signifikan. $19.03$ $\sqrt{1^2+1^2}\approx 1.41$ $17-14=3$ $2.04$
Ini adalah perbandingan berpasangan . Nilai-nilai individu dapat menunjukkan banyak variabilitas sementara perbedaannya mungkin sangat konsisten. Misalnya, seperangkat pasangan seperti , , , , dll., variasi dalam setiap komponen, tetapi perbedaannya secara konsisten . Meskipun perbedaan ini kecil dibandingkan dengan kedua komponen, konsistensi menunjukkan secara statistik signifikan. $(14,14.01)$ $(15,15.01)$ $(16,16.01)$ $(17,17.01)$ $0.01$

whuber
sumber

Terimakasih banyak. Artikel itu tidak menyatakan di mana pun bahwa tes post-hoc dipasangkan perbandingan antara tanggapan masing-masing peserta pada dua jenis uji coba, dan jadi saya melompat ke kesimpulan mereka memperlakukannya sebagai perbandingan antara subyek (meskipun itu akan menjadi kurang tepat dan kurang kuat). Saya pikir Anda pasti benar, dan mereka melakukan tes yang lebih sensitif (dan lebih sulit untuk digambarkan). Adapun poin # 3, satu-satunya jawaban saya adalah saya jelas perlu mempelajari kembali beberapa statistik ...

octern

Saya mengambil frasa dalam pertanyaan Anda, "perbandingan berpasangan yang direncanakan." Namun, sisa hasil yang Anda kutip menunjukkan bahwa itu bukan perbandingan berpasangan, tetapi lebih mungkin berasal dari perhitungan yang mirip dengan yang ada di poin # 3 jawaban saya.

Whuber

Yang saya maksudkan adalah mereka melakukan tes post-hoc membandingkan dua dari tiga kondisi satu sama lain secara langsung, daripada melakukan tes omnibus yang membandingkan ketiga kondisi. Maaf tentang kebingungannya. Tapi sekarang setelah saya melihatnya, saya pikir Anda benar juga. Cara mereka melaporkan statistik uji omnibus ( F(2,60)=5.64, p<.05) menyiratkan bahwa itu adalah tes tindakan berulang, sehingga tes post hoc kemungkinan juga sama.

octern

Terima kasih atas jawaban Anda. "Alasannya adalah bahwa kesalahan standar dari perbedaan dalam (independen) berarti, setidaknya kira-kira, akar kuadrat dari jumlah kuadrat dari kesalahan standar rata-rata." Saya mencari referensi, yang membahas ini tetapi tidak dapat menemukannya. Saya akan sangat menghargai beberapa panduan dalam hal ini. Mungkin seseorang bisa membantu saya?

Johannes

@ Johannes Kuadrat dari SE sebanding dengan varians dari mean sampel. (Konstanta proporsionalitas tergantung pada definisi seseorang dan dapat sedikit berbeda dengan ukuran sampel.) Kemandirian menyiratkan varians dari distribusi sampling dari perbedaan rata-rata adalah jumlah kuadrat dari SE.

whuber

Bagian dari kebingungan di sini adalah representasi data yang membingungkan. Tampaknya menjadi desain tindakan berulang namun bar kesalahan adalah interval kepercayaan seberapa baik nilai rata-rata yang sebenarnya diperkirakan. Tujuan utama dari tindakan berulang adalah untuk menghindari pengumpulan data yang cukup untuk mendapatkan estimasi kualitas dari nilai rata-rata mentah. Karenanya bar kesalahan seperti yang disajikan benar-benar hampir tidak ada kaitannya dengan cerita yang disampaikan. Nilai minat kritis adalah efeknya. Dengan tujuan grafik untuk menyorot poin utama dari cerita, membuat grafik efek, dan interval kepercayaan mereka, akan lebih tepat.

John
sumber

Terima kasih! Saya berjuang sedikit untuk mengungkapkan mengapa grafik sepertinya tidak mewakili analisis.

octern