Berikut adalah empat set angka yang berbeda:
A = {95.47, 87.90, 99.00}
B = {79.2, 75.3, 66.3}
C = {38.4, 40.4, 32.8}
D = {1.8, 1.2, 1.1}}
Menggunakan uji-t dua sampel tanpa mengasumsikan varians yang sama, saya membandingkan B, C, dan D dengan A dan mendapatkan nilai-p berikut:
0,015827 (A vs B)
0,000283 (A vs C)
0,001190 (A vs D)
Saya merasa aneh bahwa nilai-p dari tes AD lebih buruk daripada tes AC: perbedaan antara rata-rata jauh lebih besar DAN varian D jauh lebih rendah daripada varian C. Secara intuitif (setidaknya untuk intuisi saya ), kedua fakta ini harus mendorong nilai-p lebih rendah.
Bisakah seseorang menjelaskan apakah ini merupakan perilaku yang diinginkan atau diharapkan dari uji-t atau apakah itu harus dilakukan lebih dengan set data khusus saya (mungkin ukuran sampel sangat rendah?). Apakah uji-t tidak sesuai untuk set data tertentu ini?
Dari sudut pandang komputasi murni, alasan untuk nilai-p yang lebih buruk tampaknya adalah derajat kebebasan, yang dalam perbandingan AD adalah 2,018 sementara itu adalah 3,566 dalam perbandingan AC. Tapi tentu saja, jika Anda hanya melihat angka-angka itu, tidakkah Anda berpikir bahwa ada bukti kuat untuk menolak hipotesis nol dalam kasus AD dibandingkan dengan AC?
Beberapa mungkin menyarankan bahwa ini bukan masalah di sini karena semua nilai p cukup rendah. Masalah saya adalah bahwa 3 tes ini adalah bagian dari serangkaian tes yang saya lakukan. Setelah mengoreksi beberapa pengujian, perbandingan AD tidak menghasilkan potongan, sedangkan perbandingan AC tidak. Bayangkan memplot angka-angka itu (katakan plot-bar dengan bar kesalahan seperti yang sering dilakukan para ahli biologi) dan mencoba membenarkan mengapa C berbeda secara signifikan dari A tetapi D tidak ... yah, saya tidak bisa.
Perbarui: mengapa ini sangat penting
Izinkan saya mengklarifikasi mengapa pengamatan ini dapat memiliki dampak besar pada penafsiran studi sebelumnya. Dalam bioinfomatika, saya telah melihat uji-t diterapkan pada ukuran sampel kecil dalam skala besar (pikirkan ekspresi gen diferensial ratusan atau ribuan gen, atau efek dari banyak obat berbeda pada garis sel, hanya menggunakan 3-5 ulangan ). Prosedur yang biasa dilakukan adalah dengan melakukan banyak tes-t (satu untuk setiap gen atau obat) diikuti dengan beberapa pengujian koreksi, biasanya FDR. Mengingat pengamatan di atas dari perilaku uji-t Welch, ini berarti bahwa beberapa kasus terbaik sedang disaring secara sistematis. Meskipun kebanyakan orang akan melihat data aktual untuk perbandingan di bagian atas daftar mereka (yang dengan nilai p terbaik), saya tidak tahu siapa pun yang akan melihat daftar semua perbandingan di mana hipotesis nol tidak ada t ditolak.
Jawaban:
Ya, itu adalah derajat kebebasan. Statistik t sendiri meningkat ketika kami membandingkan kelompok B, C, D ke A; pembilangnya menjadi lebih besar dan penyebutnya menjadi lebih kecil.
Mengapa pendekatan Anda tidak berhasil? Nah, perkiraan Satterthwaite untuk derajat kebebasan, dan distribusi referensi (seperti namanya!) Hanyalah perkiraan. Ini akan bekerja dengan baik jika Anda memiliki lebih banyak sampel di setiap kelompok, dan tidak data yang sangat berat; 3 pengamatan per kelompok sangat kecil untuk sebagian besar tujuan. (Juga, sementara nilai-p berguna untuk melakukan tes, nilai-nilai itu tidak mengukur bukti dan tidak memperkirakan parameter dengan interpretasi langsung dalam hal data.)
Jika Anda benar-benar ingin menghitung distribusi statistik uji yang tepat - dan nilai p yang dikalibrasi lebih baik - ada metode yang dikutip di sini yang dapat digunakan. Namun, mereka mengandalkan asumsi Normality, sebuah asumsi yang Anda tidak memiliki kemampuan yang cukup untuk memeriksa, di sini.
sumber
Ada cukup banyak pertanyaan ini, dan saya cukup yakin bahwa beberapa di antaranya di luar pemahaman saya. Jadi, sementara saya memiliki solusi yang mungkin untuk 'masalah' dan beberapa spekulasi, Anda mungkin perlu memeriksa 'pekerjaan' saya.
Anda tertarik pada bukti. Fisher mengusulkan penggunaan nilai p sebagai bukti tetapi bukti dalam dataset terhadap hipotesis nol lebih mudah (masuk akal?) Ditunjukkan dengan fungsi kemungkinan daripada nilai p. Namun, nilai p yang lebih ekstrim adalah bukti kuat.
Ini solusi saya: Jangan gunakan uji-Welch, tetapi alih-alih ubah data dengan transformasi akar-persegi untuk menyamakan varians dan kemudian gunakan uji-t Student standar. Transformasi itu berfungsi baik pada data Anda dan merupakan salah satu pendekatan standar untuk data yang heteroscedastic. Urutan nilai p sekarang sesuai dengan intuisi Anda dan akan berfungsi sebagai bukti.
Jika Anda menggunakan nilai p sebagai bukti daripada berusaha melindungi terhadap kesalahan positif palsu jangka panjang, maka argumen untuk menyesuaikan nilai p untuk beberapa perbandingan menjadi cukup lemah, menurut saya.
Sekarang, bagian spekulatif. Seperti yang saya pahami, uji-t Welch adalah solusi untuk masalah Fisher-Behrens (pengujian berarti di mana data memiliki varian yang tidak sama), tetapi ini adalah solusi yang tidak disukai oleh Fisher. Mungkin itu adalah Neyman-Pearsonian dalam filosofi dasarnya. Bagaimanapun, jumlah bukti dalam nilai ap dari uji-t tergantung pada nilai p DAN pada ukuran sampel. (Itu tidak diakui secara luas, mungkin karena bukti dalam nilai ap dari uji-z tidak tergantung pada ukuran sampel.) Saya menduga bahwa uji Welch mengacaukan sifat bukti dari nilai p dengan penyesuaian derajat kebebasan.
sumber
Setelah menggali, saya pikir vonis terakhir saya kira-kira seperti ini:
Untuk menyederhanakan diskusi, mari kita pertimbangkan hanya kasus ketika ukuran sampel sama. Dalam hal itu, perkiraan derajat kebebasan dapat ditulis sebagai
dimanas21 dan s22 adalah varians sampel dan n adalah ukuran sampel. Karena itu, derajat kebebasannya adalah( n - 1 ) ⋅ 2 ketika varians sampel sama dan mendekati ( n - 1 ) karena ukuran sampel menjadi lebih tidak merata. Ini berarti bahwa derajat kebebasan akan berbeda dengan faktor hampir 2 hanya berdasarkan varian sampel. Bahkan untuk ukuran sampel berukuran cukup (katakanlah 10 atau 20) situasi yang digambarkan dalam pos utama dapat dengan mudah terjadi.
Ketika banyak uji-t dilakukan, menyortir perbandingan berdasarkan nilai-p dapat dengan mudah menghasilkan perbandingan terbaik yang tidak mencapai puncak daftar, atau dikecualikan setelah disesuaikan untuk beberapa pengujian.
Pendapat pribadi saya adalah bahwa ini adalah cacat mendasar dalam uji-t Welch karena ini dirancang untuk perbandingan antara sampel dengan varian yang tidak sama, namun semakin tidak sama variannya, semakin banyak Anda kehilangan daya (dalam arti bahwa pemesanan -nilai akan salah).
Satu-satunya solusi yang dapat saya pikirkan adalah dengan menggunakan beberapa pengujian berbasis permutasi sebagai gantinya atau mengubah data sehingga varians dalam tes Anda tidak terlalu jauh satu sama lain.
sumber
Sejauh yang saya tahu, saya mendengar uji-t Welch yang menggunakan perkiraan Satterthwaite
diverifikasi untuk uji signifikansi 0,05.
Yang berarti ketika P (kombinasi linear dari distribusi chi-squared> c) = 0,05,
kita bisa mendapatkan perkiraan c.
Jadi, saya pikir p-value cukup dapat diandalkan sekitar 0,05,
Dan jelas tidak begitu ketika mendapat kurang dari 0,05.
p1 = 0 p2 = 0 untuk (m dalam 1:50) {a <-c (-m + 95,47, -m + 87,90, -m + 99,00) c <-c (38,4, 40,4, 32,8) d <-c (1.8, 1.2, 1.1) p1 [m] = t.test (a, c, var.eqaul = F)p.valuep2[m]=t.test(a,d,var.eqaul=F) p.value} plot (1:50, p1, col = "hitam") poin (1:50, p2, col = "red")
Anda dapat melihat nilai-p menjadi lebih benar saat mendekati 0,05 ...
Jadi, kita tidak boleh menggunakan nilai-p yang jauh lebih kecil dari 0,05 ketika menggunakan uji-Welch.
Jika digunakan, saya pikir kita harus menulis makalah tentang itu.
Bagaimanapun, saya sedang menulis tentang "Statistik" dan tema ini menarik.
Saya berharap dapat menggunakan data Anda menulis buku dengan izin Anda.
Apakah Anda akan membiarkan saya menggunakan data Anda?
Dan saya akan berterima kasih jika Anda bisa memberi tahu sumber data dan konteks dari mana
mereka datang!
sumber