Misalkan saya punya 20 tikus. Saya memasangkan tikus dalam beberapa cara, sehingga saya mendapatkan 10 pasang. Untuk tujuan pertanyaan ini, itu bisa menjadi pasangan acak, ATAU itu bisa menjadi pasangan yang masuk akal, seperti mencoba untuk memasangkan tikus dari sampah yang sama, dari jenis kelamin yang sama, dengan berat yang sama, ATAU bisa menjadi pasangan yang sengaja bodoh seperti mencoba memasangkan tikus dengan bobot yang tidak setara. Saya kemudian menggunakan angka acak untuk menetapkan satu mouse di setiap pasangan ke grup kontrol dan mouse lainnya ke grup yang akan diperlakukan. Saya sekarang melakukan percobaan, hanya mengobati tikus yang akan dirawat, tetapi jika tidak memperhatikan pengaturan yang baru saja dibuat.
Ketika seseorang datang untuk menganalisis hasil, seseorang bisa menggunakan uji-t berpasangan atau uji-berpasangan. Dengan cara apa, jika ada, apakah jawabannya berbeda? (Pada dasarnya saya tertarik pada perbedaan sistematis dari setiap parameter statistik yang perlu diperkirakan.)
Alasan saya menanyakan hal ini adalah bahwa makalah yang baru-baru ini saya ikuti dikritik oleh seorang ahli biologi karena menggunakan uji-t berpasangan dan bukan uji-t tidak berpasangan. Tentu saja, dalam percobaan yang sebenarnya, situasinya tidak ekstrem seperti situasi yang saya buat sketsa, dan menurut saya ada alasan bagus untuk berpasangan. Tetapi ahli biologi itu tidak setuju.
Bagi saya tampaknya tidak mungkin untuk meningkatkan signifikansi statistik yang salah (menurunkan nilai-p), dalam keadaan yang saya buat sketsa, dengan menggunakan uji-t berpasangan, daripada tes tidak berpasangan, bahkan jika itu tidak pantas untuk dipasangkan. Namun itu dapat memperburuk signifikansi statistik jika tikus dipasangkan dengan buruk. Apakah ini benar?
sumber
Daripada berpasangan, mungkin lebih baik untuk memahami model data yang mendasarinya. Jika pasangan dilakukan untuk menangani heterogenitas yang tidak terkendali, biasanya demikian (kecuali dalam studi kembar) bahwa pasangan hanya sebagian mengendalikan sumber variabilitas ini dan regresi berganda akan lebih baik. Ini karena pencocokan pada variabel kontinu sering menghasilkan variabilitas residual karena tidak dapat melakukan pencocokan tepat pada variabel tersebut.
sumber
Dua tes (berpasangan dan tidak berpasangan) mengajukan pertanyaan yang berbeda sehingga mereka bisa mendapatkan jawaban yang berbeda. Pasangan yang benar hampir selalu lebih kuat daripada yang tidak berpasangan - itu benar-benar titik berpasangan. Jadi, karena Anda mengatakan pasangan sudah benar, kemungkinan nilai p untuk tes berpasangan Anda lebih rendah daripada untuk data yang sama tidak berpasangan. Anda tentu saja dapat melakukan keduanya dan melihat sendiri.
Karena itu, jawaban atas dilema Anda adalah substantif, bukan statistik. Apakah pasangan Anda benar?
Bisakah Anda mendapatkan hasil yang lebih signifikan dari pemasangan acak daripada dari tes yang tidak berpasangan? Ayo lihat:
Ya Anda bisa, meskipun di sini perbedaannya sangat kecil, pasangan memiliki p yang lebih rendah. Saya menjalankan kode itu beberapa kali. Tidak mengherankan, kadang-kadang satu p lebih rendah, kadang-kadang yang lain, tetapi perbedaannya kecil dalam semua kasus. Namun, saya yakin bahwa dalam beberapa situasi perbedaan dalam nilai p bisa besar.
sumber
Saya sekarang mengerti jauh lebih baik apa yang mengkhawatirkan saya tentang uji-t berpasangan dan tidak berpasangan, dan nilai-p terkait. Mencari tahu merupakan perjalanan yang menarik, dan ada banyak kejutan di sepanjang perjalanan. Satu kejutan dihasilkan dari penyelidikan atas kontribusi Michael. Ini tidak dapat dicela dalam hal saran praktis. Selain itu, dia mengatakan apa yang saya pikir hampir semua ahli statistik percaya, dan dia memiliki beberapa upvotes untuk mendukung ini. Namun, sebagai bagian dari teori, itu tidak benar secara harfiah. Saya menemukan ini dengan mengerjakan rumus untuk nilai-p, dan kemudian berpikir dengan hati-hati bagaimana menggunakan rumus untuk mengarah ke contoh tandingan. Saya seorang matematikawan melalui pelatihan, dan contoh-contohnya adalah "contoh-kontra matematika". Itu bukan sesuatu yang Anda temui dalam statistik praktis, hal yang saya coba cari tahu ketika saya menanyakan pertanyaan awal saya.
Berikut adalah kode-R yang memberikan contoh-counter:
Perhatikan fitur-fitur berikut: X dan Y adalah dua 10-tupel yang perbedaannya sangat besar dan hampir konstan. Untuk banyak angka signifikan, korelasinya adalah 1.000 .... Nilai p untuk tes tidak berpasangan adalah sekitar 10 ^ 40 kali lebih kecil dari nilai p untuk uji berpasangan. Jadi ini bertentangan dengan akun Michael, asalkan seseorang membaca akunnya secara harfiah, gaya matematika. Ini mengakhiri bagian dari jawaban saya terkait dengan jawaban Michael.
Inilah beberapa pemikiran yang ditanyakan oleh jawaban Peter. Selama diskusi tentang pertanyaan awal saya, saya menduga dalam komentar bahwa dua distribusi tertentu dari nilai-p yang terdengar berbeda sebenarnya sama. Saya sekarang bisa membuktikan ini. Yang lebih penting adalah buktinya mengungkapkan sifat dasar dari nilai-p, begitu mendasar sehingga tidak ada teks (yang pernah saya temui) mengganggu untuk dijelaskan. Mungkin semua ahli statistik profesional tahu rahasianya, tetapi bagi saya, definisi p-value selalu tampak aneh dan buatan. Sebelum memberikan rahasia ahli statistik, izinkan saya menentukan pertanyaannya.
sumber
Saya akan menawarkan perspektif lain. Seringkali, pairing yang dilakukan memang mengurangi bias. Misalkan Anda tertarik pada apakah paparan E adalah faktor risiko untuk hasil berkelanjutan Y. Untuk setiap subjek E +, Anda mendapatkan subjek yang cocok dengan usia dan jenis kelamin yang adalah E-. Sekarang, kita bisa melakukan uji-t berpasangan atau uji-t tidak berpasangan. Saya pikir kita harus memperhitungkan pencocokan secara eksplisit dan melakukan uji-t berpasangan. Ini lebih berprinsip karena memperhitungkan desain. Apakah akan memasukkan pencocokan ke dalam analisis adalah masalah tradeoff bias-varians. Akuntansi untuk pencocokan dalam analisis memberikan lebih banyak perlindungan terhadap bias, tetapi dapat meningkatkan varians. Melakukan uji-t yang tidak berpasangan mungkin lebih efisien, tetapi tidak akan memberikan perlindungan terhadap bias.
sumber