Uji-berpasangan versus tidak berpasangan

20

Misalkan saya punya 20 tikus. Saya memasangkan tikus dalam beberapa cara, sehingga saya mendapatkan 10 pasang. Untuk tujuan pertanyaan ini, itu bisa menjadi pasangan acak, ATAU itu bisa menjadi pasangan yang masuk akal, seperti mencoba untuk memasangkan tikus dari sampah yang sama, dari jenis kelamin yang sama, dengan berat yang sama, ATAU bisa menjadi pasangan yang sengaja bodoh seperti mencoba memasangkan tikus dengan bobot yang tidak setara. Saya kemudian menggunakan angka acak untuk menetapkan satu mouse di setiap pasangan ke grup kontrol dan mouse lainnya ke grup yang akan diperlakukan. Saya sekarang melakukan percobaan, hanya mengobati tikus yang akan dirawat, tetapi jika tidak memperhatikan pengaturan yang baru saja dibuat.

Ketika seseorang datang untuk menganalisis hasil, seseorang bisa menggunakan uji-t berpasangan atau uji-berpasangan. Dengan cara apa, jika ada, apakah jawabannya berbeda? (Pada dasarnya saya tertarik pada perbedaan sistematis dari setiap parameter statistik yang perlu diperkirakan.)

Alasan saya menanyakan hal ini adalah bahwa makalah yang baru-baru ini saya ikuti dikritik oleh seorang ahli biologi karena menggunakan uji-t berpasangan dan bukan uji-t tidak berpasangan. Tentu saja, dalam percobaan yang sebenarnya, situasinya tidak ekstrem seperti situasi yang saya buat sketsa, dan menurut saya ada alasan bagus untuk berpasangan. Tetapi ahli biologi itu tidak setuju.

Bagi saya tampaknya tidak mungkin untuk meningkatkan signifikansi statistik yang salah (menurunkan nilai-p), dalam keadaan yang saya buat sketsa, dengan menggunakan uji-t berpasangan, daripada tes tidak berpasangan, bahkan jika itu tidak pantas untuk dipasangkan. Namun itu dapat memperburuk signifikansi statistik jika tikus dipasangkan dengan buruk. Apakah ini benar?

David Epstein
sumber

Jawaban:

23

Saya setuju dengan poin-poin yang dibuat oleh Frank dan Peter, tetapi saya pikir ada formula sederhana yang menjadi inti permasalahan dan mungkin bermanfaat bagi OP untuk dipertimbangkan.

Misalkan dan menjadi dua variabel acak yang korelasinya tidak diketahui.YXY

BiarkanZ=X-Y

Apa varian ?Z

Berikut adalah rumus sederhana: Bagaimana jika (yaitu, dan berkorelasi positif)?Cov ( X , Y ) > 0 X Y

Var(Z)=Var(X)+Var(Y)-2Cov(X,Y).
Cov(X,Y)>0XY

Kemudiant X iVar(Z)<Var(X)+Var(Y). Dalam hal ini, jika pemasangan dilakukan karena korelasi positif seperti ketika Anda berhadapan dengan subjek yang sama sebelum dan sesudah intervensi, pemasangan akan membantu karena perbedaan pasangan independen memiliki varians yang lebih rendah daripada varians yang Anda dapatkan untuk case yang tidak berpasangan. Metode ini mengurangi varians. Tes ini lebih kuat. Ini dapat secara dramatis ditunjukkan dengan data siklik. Saya melihat contoh di sebuah buku di mana mereka ingin melihat apakah suhu di Washington DC lebih tinggi daripada di New York City. Jadi mereka mengambil suhu bulanan rata-rata di kedua kota selama 2 tahun. Tentu saja ada perbedaan besar sepanjang tahun karena empat musim. Variasi ini terlalu besar untuk uji t tidak berpasangan untuk mendeteksi perbedaan. Namun pasangan berdasarkan bulan yang sama di tahun yang sama menghilangkan efek musiman ini dan pasangant -test jelas menunjukkan bahwa suhu rata-rata di DC cenderung lebih tinggi daripada di New York. (suhu di NY dalam bulan A ) dan Y i (suhu di DC dalam bulan A ) berkorelasi positif karena musimnya sama di NY dan DC dan kota-kota cukup dekat sehingga mereka akan sering mengalami sistem cuaca yang sama yang mempengaruhi suhu. DC mungkin sedikit lebih hangat karena lebih jauh ke selatan.XiAYiA

Perhatikan bahwa semakin besar kovarians atau korelasi semakin besar penurunan varians.

Sekarang anggaplah negatif.Cov(X,Y)

Kemudian . Sekarang pemasangan akan lebih buruk daripada tidak memasangkan karena varians sebenarnya meningkat!Var(Z)>Var(X)+Var(Y)

Ketika dan Y tidak berkorelasi maka mungkin tidak masalah metode apa yang Anda gunakan. Kasus pasangan acak Peter adalah seperti situasi ini.XY

Michael R. Chernick
sumber
3
Michael, karena "<" dan ">" memiliki arti khusus pada halaman Web, untuk menghindari petak besar teks Anda hilang begitu saja dari pandangan Anda, penting bahwa Anda menggunakan Markup X untuk mereka dalam persamaan (kode masing-masing "\ lt" dan "\ gt"). Saya menandai dua persamaan yang menyebabkan masalah ini untuk Anda. Di masa mendatang, harap baca apa yang Anda posting segera setelah mempostingnya untuk memastikan orang melihat apa yang Anda pikir akan mereka lihat, dan kemudian merasa bebas untuk menandai posting Anda untuk perhatian moderator jika ada masalah dengan markup. TEX
Whuber
@whuber Terima kasih. Saya biasanya memeriksa selama dan setelah posting karena saya menemukan bahwa saya banyak mengacaukan persamaan terutama ketika berlangganan. Kehilangan yang ini tidak biasa dan mungkin terjadi karena itu adalah posting yang panjang dan saya dengan sembrono melanjutkan ke hal lain yang ingin atau perlu saya lakukan. Kadang-kadang panggilan telepon mengganggu saya dan saya lupa memeriksanya. Mengenai simbol-simbol khusus yang menyebabkan teks menghilang dalam sebuah tulisan, saya telah mengamati itu. Saya pikir solusi sederhana adalah memastikan Anda meninggalkan tempat setelah simbol. Saya pikir itu berhasil bagi saya di masa lalu.
Michael R. Chernick
+1, benar-benar tepat sasaran. Perhatikan bahwa jika & Y sama sekali tidak berkorelasi dalam sampel Anda , Var ( Z ) = Var ( X ) + Var ( Y ) . XYVar(Z)=Var(X)+Var(Y)
gung - Reinstate Monica
@MichaelChernick Untuk kasus ketika Cov (X, Y) <0, saya punya pertanyaan: Jika tujuan saya adalah untuk menyimpulkan E [X] -E [Y] dari percobaan saya, maka BAHKAN MESKIPUN saya melakukan studi berpasangan, ketika saya menganalisis data saya, saya masih bisa MENGHARAPKAN bahwa hasil percobaan saya adalah realisasi dari percobaan acak yang tidak berpasangan. Bisakah saya melakukan ini? Karena jika Anda benar-benar melakukan percobaan acak yang tidak berpasangan, Anda bisa mendapatkan hasil yang sama. Lalu saya bisa mengambil rata-rata dari masing-masing kelompok (mengabaikan hal-hal pemasangan) dan mengambil perbedaan dari dua kelompok rata-rata. Ini adalah penaksir yang tidak bias dari E [Z]. Untuk varian penaksir saya, saya hanya menggunakan ...
KevinKim
@MichaelChernick varians sampel grup X dan grup Y dan jumlahkan semuanya
KevinKim
7

Daripada berpasangan, mungkin lebih baik untuk memahami model data yang mendasarinya. Jika pasangan dilakukan untuk menangani heterogenitas yang tidak terkendali, biasanya demikian (kecuali dalam studi kembar) bahwa pasangan hanya sebagian mengendalikan sumber variabilitas ini dan regresi berganda akan lebih baik. Ini karena pencocokan pada variabel kontinu sering menghasilkan variabilitas residual karena tidak dapat melakukan pencocokan tepat pada variabel tersebut.

Frank Harrell
sumber
2
Jika kita semua harus melakukan regresi, mengapa buku tentang Desain Eksperimental, seperti buku David Cox, menekankan pentingnya pasangan atau pengelompokan dalam eksperimen biologis? Pairing menghindari asumsi tersembunyi dari ketergantungan linear yang disyaratkan dalam regresi. Tapi mungkin ada alasan lain: ada yang ??
David Epstein
6

Dua tes (berpasangan dan tidak berpasangan) mengajukan pertanyaan yang berbeda sehingga mereka bisa mendapatkan jawaban yang berbeda. Pasangan yang benar hampir selalu lebih kuat daripada yang tidak berpasangan - itu benar-benar titik berpasangan. Jadi, karena Anda mengatakan pasangan sudah benar, kemungkinan nilai p untuk tes berpasangan Anda lebih rendah daripada untuk data yang sama tidak berpasangan. Anda tentu saja dapat melakukan keduanya dan melihat sendiri.

Karena itu, jawaban atas dilema Anda adalah substantif, bukan statistik. Apakah pasangan Anda benar?

Bisakah Anda mendapatkan hasil yang lebih signifikan dari pemasangan acak daripada dari tes yang tidak berpasangan? Ayo lihat:

set.seed(2910110192)
x <- rnorm(100, 10, 2)
y <- rnorm(100, 10, 2)
t.test(x, y)
t.test(x, y, paired = T)

Ya Anda bisa, meskipun di sini perbedaannya sangat kecil, pasangan memiliki p yang lebih rendah. Saya menjalankan kode itu beberapa kali. Tidak mengherankan, kadang-kadang satu p lebih rendah, kadang-kadang yang lain, tetapi perbedaannya kecil dalam semua kasus. Namun, saya yakin bahwa dalam beberapa situasi perbedaan dalam nilai p bisa besar.

Peter Flom - Pasang kembali Monica
sumber
Terima kasih atas jawabannya, tetapi pertanyaan saya menanyakan perbedaan sistematis . Jelas, dalam jangka panjang x dan y, x dan y kadang-kadang terlihat seolah-olah mereka sangat berpasangan, dan kadang-kadang seolah-olah mereka sengaja dipasangkan dengan buruk. Tentunya ini adalah pertanyaan statistik apakah, dalam memilih x dan y secara acak, distribusi nilai-p adalah sama pada dua tes. Saya kira seharusnya tidak terlalu sulit bagi seseorang yang tahu statistik teoretis lebih daripada yang saya lakukan untuk benar-benar menghitung dua distribusi teoretis dari nilai-p. Dugaan saya adalah bahwa mereka sama.
David Epstein
Dalam kasus aktual saya terlibat, nilai p untuk tidak berpasangan adalah sekitar 0,04 dan untuk pasangan 0,001. Menurut ahli biologi kritis, kita harus mengutip 0,04. Menurut saya, peningkatan nilai p sangat menunjukkan bahwa pasangan kami valid. Saya mengklaim ada pertanyaan objektif dalam statistik di sini, dengan jawaban yang objektif, dan bahwa itu bukan hanya masalah penilaian biologis yang baik mengenai validitas pasangan tertentu --- yang terakhir tampaknya menjadi pendapat Peter Flom dan dari ahli biologi kritis.
David Epstein
1
Saya pikir statistik menceritakan kisahnya. Kedua hasil harus diungkapkan tetapi selama datanya benar dan korelasinya dapat dijelaskan, uji berpasangan lebih akurat karena memperhitungkan korelasi.
Michael R. Chernick
5

Saya sekarang mengerti jauh lebih baik apa yang mengkhawatirkan saya tentang uji-t berpasangan dan tidak berpasangan, dan nilai-p terkait. Mencari tahu merupakan perjalanan yang menarik, dan ada banyak kejutan di sepanjang perjalanan. Satu kejutan dihasilkan dari penyelidikan atas kontribusi Michael. Ini tidak dapat dicela dalam hal saran praktis. Selain itu, dia mengatakan apa yang saya pikir hampir semua ahli statistik percaya, dan dia memiliki beberapa upvotes untuk mendukung ini. Namun, sebagai bagian dari teori, itu tidak benar secara harfiah. Saya menemukan ini dengan mengerjakan rumus untuk nilai-p, dan kemudian berpikir dengan hati-hati bagaimana menggunakan rumus untuk mengarah ke contoh tandingan. Saya seorang matematikawan melalui pelatihan, dan contoh-contohnya adalah "contoh-kontra matematika". Itu bukan sesuatu yang Anda temui dalam statistik praktis, hal yang saya coba cari tahu ketika saya menanyakan pertanyaan awal saya.

Berikut adalah kode-R yang memberikan contoh-counter:

vLength <- 10; meanDiff <-10^9; numSamples <- 3;
pv <- function(vLength,meanDiff) {
    X <- rnorm(vLength)
    Y <- X - meanDiff + rnorm(vLength,sd=0.0001)
    Paired <- t.test(X,Y,var.equal=T,paired=T)
    NotPaired <- t.test(X,Y,var.equal=T,paired=F)
    c(Paired$p.value,NotPaired$p.value,cov(X,Y))
}
ans <- replicate(numSamples,pv(vLength,meanDiff))

Perhatikan fitur-fitur berikut: X dan Y adalah dua 10-tupel yang perbedaannya sangat besar dan hampir konstan. Untuk banyak angka signifikan, korelasinya adalah 1.000 .... Nilai p untuk tes tidak berpasangan adalah sekitar 10 ^ 40 kali lebih kecil dari nilai p untuk uji berpasangan. Jadi ini bertentangan dengan akun Michael, asalkan seseorang membaca akunnya secara harfiah, gaya matematika. Ini mengakhiri bagian dari jawaban saya terkait dengan jawaban Michael.


Inilah beberapa pemikiran yang ditanyakan oleh jawaban Peter. Selama diskusi tentang pertanyaan awal saya, saya menduga dalam komentar bahwa dua distribusi tertentu dari nilai-p yang terdengar berbeda sebenarnya sama. Saya sekarang bisa membuktikan ini. Yang lebih penting adalah buktinya mengungkapkan sifat dasar dari nilai-p, begitu mendasar sehingga tidak ada teks (yang pernah saya temui) mengganggu untuk dijelaskan. Mungkin semua ahli statistik profesional tahu rahasianya, tetapi bagi saya, definisi p-value selalu tampak aneh dan buatan. Sebelum memberikan rahasia ahli statistik, izinkan saya menentukan pertanyaannya.

n>1n2(n-1)n-1derajat kebebasan. Kedua distribusi ini berbeda, jadi bagaimana mungkin distribusi nilai p yang terkait sama? Hanya setelah berpikir lebih jauh, saya menyadari bahwa pemecatan dugaan saya ini terlalu mudah.

f:(0,)(0,)[0,1]

hal=tf(s)ds
f(-,)[0,)

[0,1]

n-1[0,1]2(n-1)[0,1][0,1]

David Epstein
sumber
Saya tidak berpikir nilai-p memiliki rahasia untuk itu. Beberapa orang mengalami kesulitan dengannya. Ini adalah probabilitas untuk mengamati nilai sebagai extereme atau lebih ekstrim dari apa yang sebenarnya diamati ketika hipotesis nol adalah BENAR. Saya pikir Anda memiliki hak itu di salah satu formula Anda. Saya pikir Anda menyatakan bahwa nilai-p didistribusikan secara seragam. Ya saya setuju dengan itu ketika hipotesis nol benar. Ingatlah bahwa dengan uji t Anda, hipotesis nol mungkin tidak benar. Maka nilai-p tidak seragam. Itu harus dikonsentrasikan lebih dekat ke 0.
Michael R. Chernick
Kedua kita berbicara tentang dua statistik uji yang berbeda. Satu didasarkan pada pasangan dan yang lain tidak dalam contoh Anda. Apakah saya menyebutkannya dalam jawaban saya atau tidak, uji t berpasangan memiliki distribusi t pusat dengan 2n-2 derajat kebebasan sedangkan distribusi t yang sesuai untuk uji t berpasangan memiliki n-1 derajat kebebasan. Jadi yang satu dengan jumlah derajat kebebasan yang lebih besar lebih dekat ke distribusi normal standar daripada yang lain. Apakah itu penting ketika Anda menerapkan tes ini ke data nyata? Tidak! Tidak ketika n cukup besar.
Michael R. Chernick
Sebagai catatan, batasan dari tes berpasangan ini membutuhkan ukuran sampel yang sama yang harus Anda miliki jika semua data dapat dipasangkan. Tetapi tes tidak berpasangan ini valid dengan ukuran sampel yang tidak sama. Jadi secara umum tes tidak berpasangan memiliki n + m-2 derajat kebebasan.
Michael R. Chernick
Jawaban Anda panjang dan abstrak dan saya mencoba mengatasinya tetapi saya tidak mengerti contoh balasannya. Saya hanya tidak melihat di mana Anda mengambil hipotesis nol dan data nyata ke dalam akun. Nilai p yang diamati adalah integral dari distribusi t yang sesuai untuk statistik uji yang diberikan data. Anda membandingkan angka-angka itu untuk dua distribusi t dan kumpulan data umum yang sama. Jika Anda mengkondisikan pada data yang diamati, distribusi seragam ini tidak berperan. Saya minta maaf tetapi saya tidak melihat bahwa jawaban Anda benar-benar menjawab pertanyaan Anda.
Michael R. Chernick
Michael: hanya berkonsentrasi pada kode-R yang saya berikan. Hanya butuh satu detik untuk menjalankan. Hipotesis nol adalah bahwa X dan Y berasal dari distribusi normal yang sama, yang, tentu saja, sangat salah dalam kasus saya. Dalam contoh saya Cov (X, Y)> 0 dan meskipun demikian tes tidak berpasangan memberikan lebih signifikan daripada tes berpasangan.
David Epstein
1

Saya akan menawarkan perspektif lain. Seringkali, pairing yang dilakukan memang mengurangi bias. Misalkan Anda tertarik pada apakah paparan E adalah faktor risiko untuk hasil berkelanjutan Y. Untuk setiap subjek E +, Anda mendapatkan subjek yang cocok dengan usia dan jenis kelamin yang adalah E-. Sekarang, kita bisa melakukan uji-t berpasangan atau uji-t tidak berpasangan. Saya pikir kita harus memperhitungkan pencocokan secara eksplisit dan melakukan uji-t berpasangan. Ini lebih berprinsip karena memperhitungkan desain. Apakah akan memasukkan pencocokan ke dalam analisis adalah masalah tradeoff bias-varians. Akuntansi untuk pencocokan dalam analisis memberikan lebih banyak perlindungan terhadap bias, tetapi dapat meningkatkan varians. Melakukan uji-t yang tidak berpasangan mungkin lebih efisien, tetapi tidak akan memberikan perlindungan terhadap bias.

Ravi Varadhan
sumber