uji-t untuk data berpasangan sebagian dan sebagian tidak berpasangan

28

Seorang penyelidik ingin menghasilkan analisis gabungan dari beberapa dataset. Dalam beberapa dataset ada pengamatan berpasangan untuk pengobatan A dan B. Di lain dataset ada data A dan / atau B tidak berpasangan. Saya mencari referensi untuk adaptasi uji-t, atau untuk uji rasio kemungkinan, untuk data yang dipasangkan sebagian. Saya bersedia (untuk saat ini) untuk menganggap normalitas dengan varians yang sama dan bahwa rata-rata populasi untuk A adalah sama untuk setiap studi (dan juga untuk B).

Frank Harrell
sumber
2
Hai Frank. Mungkin akan membantu untuk membuat asumsi pemodelan lebih eksplisit. Biasanya ketika saya memikirkan desain berpasangan, saya memikirkan salah satu dari yang berikut (i) mencoba untuk menghapus efek tingkat unit tetap tidak teramati, (ii) mengurangi variabilitas efek acak di seluruh unit eksperimental, atau (iii) menyesuaikan nonnormalitas. dari respon dengan mengambil perbedaan antara pasangan, sehingga memperoleh perkiraan yang lebih baik. Secara khusus, saya tidak segera melihat manfaat apa pun pada pasangan yang cocok jika asumsi di bawah nol adalah bahwa semua pengamatan normal.
kardinal
4
Kardinal, aku sebenarnya punya banyak data yang terlihat seperti ini juga. Kami mencoba mengumpulkan data yang sepenuhnya berpasangan, tetapi karena masalah teknis atau nasib buruk, beberapa pengukuran sampel di bawah A atau B terkadang rusak. Dua solusi yang jelas - tetapi tidak memuaskan - adalah 1) membuang semua pasangan yang tidak lengkap dan melakukan uji-t berpasangan, atau 2) mengabaikan pasangan dan melakukan uji-t tidak berpasangan di semua data. Saya pikir poster itu meminta cara untuk meningkatkan pasangan di mana ia ada (untuk alasan Anda # 1 dan # 2), sambil menyelamatkan apa pun yang dia bisa dari titik data lainnya, tidak berpasangan,.
Matt Krause
2
Saya menghargai semua komentar. Untuk pasangan yang cocok, subjek diuji di bawah A dan B. Salah satu cara untuk meningkatkan pemasangan adalah dengan menggunakan interval kepercayaan persentil bootpar nonparametrik untuk perbedaan antara rata-rata dalam A dan B. Ini akan melibatkan penggunaan bootstrap cluster, pengambilan sampel dengan penggantian dari mata pelajaran. Subjek yang tidak memiliki data berpasangan akan memiliki satu pengamatan disimpan atau dihapus dalam sampel ulang, dan data berpasangan akan memiliki dua catatan disimpan atau dihapus. Ini tampaknya menghormati pasangan tetapi estimasi dan kebutuhan menentukan dan kami tidak tahu tentang optimalitas.
Frank Harrell
1
Pendekatan Bayesian mudah diimplementasikan.
Stéphane Laurent
2
Hani M. Samawi & Robert Vogel, Jurnal Statistik Terapan (2013): Catatan pada dua tes sampel untuk data yang sebagian berkorelasi (berpasangan), dx.doi.org/10.1080/02664763.2013.830285
Suresh

Jawaban:

8

Nah, jika Anda tahu varians dalam pasangan berpasangan dan dalam pasangan (yang umumnya akan jauh lebih kecil), bobot optimal untuk dua perkiraan perbedaan dalam kelompok berarti bobot bobot berbanding terbalik dengan varians individu. estimasi perbedaan rata-rata.

[Sunting: ternyata ketika varians diperkirakan, ini disebut penaksir Graybill-Deal. Ada beberapa makalah tentang itu. Ini satu]

Kebutuhan untuk memperkirakan varians menyebabkan beberapa kesulitan (rasio yang dihasilkan estimasi varians adalah F, dan saya pikir bobot yang dihasilkan memiliki distribusi beta, dan statistik yang dihasilkan agak rumit), tetapi karena Anda sedang mempertimbangkan bootstrap, ini mungkin kurang menjadi perhatian.

Kemungkinan alternatif yang mungkin lebih baik dalam beberapa hal (atau setidaknya sedikit lebih kuat untuk non-normal, karena kami bermain dengan rasio varians) dengan sangat sedikit kerugian dalam efisiensi pada normal adalah untuk mendasarkan estimasi gabungan dari pergeseran tes peringkat berpasangan dan tidak berpasangan - dalam setiap kasus semacam estimasi Hodges-Lehmann, dalam kasus tidak berpasangan berdasarkan median perbedaan sampel berpasangan berpasangan dan dalam kasus berpasangan, median selisih rata-rata berpasangan berpasangan. Sekali lagi, kombinasi linear minimum berbobot varian minimum adalah dengan bobot sebanding dengan inversi varians. Dalam hal ini saya mungkin akan condong ke permutasi (/ pengacakan) daripada bootstrap - tetapi tergantung pada bagaimana Anda menerapkan bootstrap Anda mereka bisa berakhir di tempat yang sama.

Dalam kedua kasus Anda mungkin ingin memperkuat varian Anda / mengecilkan rasio varians Anda. Masuk ke stadion baseball yang tepat untuk berat itu baik, tetapi Anda akan kehilangan sangat sedikit efisiensi pada normal dengan membuatnya sedikit kuat. ---

Beberapa pemikiran tambahan yang belum saya jelaskan cukup jelas di kepala saya sebelumnya:

Masalah ini memiliki kemiripan yang berbeda dengan masalah Behrens-Fisher, tetapi bahkan lebih sulit.

Jika kita memperbaiki bobot, kita bisa memukul dalam pendekatan tipe Welch-Satterthwaite; struktur masalahnya sama.

Masalah kami adalah kami ingin mengoptimalkan bobot, yang secara efektif berarti bobot tidak tetap - dan memang, cenderung memaksimalkan statistik (setidaknya kira-kira dan lebih hampir dalam sampel besar, karena setiap rangkaian bobot adalah kuantitas acak yang memperkirakan jumlah yang sama. pembilang, dan kami berusaha meminimalkan penyebutnya; keduanya tidak independen).

Saya harapkan, ini akan membuat pendekatan chi-square lebih buruk, dan hampir pasti akan mempengaruhi df dari pendekatan yang lebih jauh.

[Jika masalah ini bisa dilakukan, mungkin saja ada aturan praktis yang bisa mengatakan 'Anda bisa melakukan hampir juga jika Anda hanya menggunakan data yang dipasangkan di bawah kondisi-kondisi ini, hanya yang tidak berpasangan di bawah perangkat-perangkat lain ini. kondisi dan sisanya, skema berat badan tetap ini biasanya sangat dekat dengan optimal '- tetapi saya tidak akan menahan nafas menunggu kesempatan itu. Aturan keputusan seperti itu pasti akan berdampak pada signifikansi sebenarnya dalam setiap kasus, tetapi jika efek itu tidak begitu besar, aturan praktis seperti itu akan memberikan cara mudah bagi orang untuk menggunakan perangkat lunak warisan yang ada, sehingga bisa diinginkan untuk cobalah untuk mengidentifikasi aturan seperti itu untuk pengguna dalam situasi seperti itu.]

---

Sunting: Catatan untuk diri sendiri - Perlu kembali dan mengisi rincian pekerjaan pada tes 'tumpang tindih sampel', terutama t-tes sampel yang tumpang tindih

---

Terjadi pada saya bahwa tes pengacakan harus bekerja dengan baik -

  • di mana data dipasangkan Anda secara acak mengubah label grup dalam pasangan

  • di mana data tidak berpasangan tetapi dianggap memiliki distribusi umum (di bawah nol), Anda mengizinkan tugas kelompok

  • Anda sekarang dapat mendasarkan bobot ke dua taksiran shift dari taksiran varians relatif ( w1=1/(1+v1v2)), hitung masing-masing estimasi bobot tertimbang sampel acak dari acak dan lihat di mana sampel masuk ke dalam distribusi pengacakan.


(Ditambahkan jauh kemudian)

Makalah yang mungkin relevan:

Derrick, B., Russ B., Toher, D., dan White, P. (2017),
"Statistik Uji untuk Perbandingan Berarti untuk Dua Sampel Yang Termasuk Baik Pengamatan Berpasangan dan Independen"
Jurnal Metode Statistik Terapan Modern , Mei , Vol. 16, No. 1, 137-157.
doi: 10.22237 / jmasm / 1493597280
http://digitalcommons.wayne.edu/cgi/viewcontent.cgi?article=2251&context=jmasm

Glen_b -Reinstate Monica
sumber
1
+1. Saya punya pertanyaan tentang bagian terakhir dari jawaban Anda. Perkiraan varians apa (yaitu bobot apa) yang akan Anda gunakan dalam tes permutasi - yang aktual dihitung pada sampel aktual, atau apakah Anda menghitung bobot untuk setiap permutasi berdasarkan data dari permutasi itu?
Amuba kata Reinstate Monica
@amoeba untuk memperhitungkan dengan benar sifat dasar sampel dari perhitungan yang Anda gunakan berdasarkan permutasi tertentu.
Glen_b -Reinstate Monica
@amoeba saya harus membandingkannya dengan beberapa pendekatan lain untuk masalah ini.
Glen_b -Reinstate Monica
1
Ngomong-ngomong, saya menemukan utas ini karena seseorang mendekati saya dengan data berikut: dua subjek dengan data berpasangan ditambah dua subjek dengan data tidak berpasangan (yaitu 3 pengukuran dalam kelompok A, 3 pengukuran dalam kelompok B, dari 6 nilai ini 2+ 2 dipasangkan dan sisanya tidak berpasangan). Dalam hal ini tidak cukup data untuk memperkirakan varians dari estimasi shift tidak berpasangan, jadi saya tidak bisa menyarankan apa pun selain mengabaikan pasangan dan melakukan tes tidak berpasangan ... Tapi ini tentu saja situasi yang cukup ekstrem.
Amuba kata Reinstate Monica
6

Inilah beberapa pemikiran. Saya pada dasarnya baru saja sampai pada kesimpulan Greg Snow bahwa masalah ini memiliki kemiripan yang berbeda dengan masalah Behrens-Fisher . Untuk menghindari handwaving, saya pertama kali memperkenalkan beberapa notasi dan memformalkan hipotesis.

  • nxipAxipBi=1,,n
  • nAnBxiAi=1,,nAxiBi=1,,nB
  • setiap pengamatan adalah jumlah dari efek pasien dan efek perawatan. Variabel acak yang sesuai adalah

    • XipA=Pi+TiAXipB=Pi+TiB
    • XiA=Qi+UiAXiB=Ri+ViB

    Pi,Qi,RiN(0,σP2)Tiτ,Uiτ,ViτN(μτ,σ2)τ=A,B

    • μA=μB

Xi=XipAXipBXiN(μAμB,2σ2)

XinXiAnAXiBnB

  • XN(μAμB,2nσ2)
  • XAN(μA,1nA(σP2+σ2))
  • XBN(μB,1nB(σP2+σ2))

Langkah alami selanjutnya adalah mempertimbangkan

  • Y=X+XAXBN(2(μAμB),2nσ2+(1nA+1nB)(σP2+σ2))

σ2n1σP2+σ2nA1nB1(1nA+1nB)(σP2+σ2)nA+nB2Y

Pada titik ini saya pikir seseorang dapat plug-in solusi yang diusulkan untuk masalah Behrens Fisher untuk mendapatkan solusi untuk masalah Anda.

Elvis
sumber
1
Saya memperbaiki beberapa kesalahan ketik dalam rumus. Tolong periksa!
kjetil b halvorsen
5

Pikiran pertama saya adalah model efek campuran, tapi itu sudah dibahas jadi saya tidak akan mengatakan itu lagi.

Pikiran saya yang lain adalah bahwa jika secara teori dimungkinkan bahwa Anda bisa mengukur data berpasangan pada semua mata pelajaran tetapi karena biaya, kesalahan, atau alasan lain Anda tidak memiliki semua pasangan, maka Anda bisa memperlakukan efek yang tidak terukur untuk subjek yang tidak berpasangan sebagai data yang hilang dan menggunakan alat-alat seperti algoritma EM atau Multiple Imputation (hilang secara acak tampaknya masuk akal kecuali alasan subjek hanya diukur di bawah 1 perawatan terkait dengan apa hasil mereka akan berada di bawah perlakuan lainnya).

Bahkan mungkin lebih sederhana untuk menyesuaikan bivariat normal dengan data menggunakan kemungkinan maksimum (dengan kemungkinan berdasarkan faktor data yang tersedia per subjek), kemudian lakukan uji rasio kemungkinan membandingkan distribusi dengan rata-rata sama dengan sarana berbeda.

Sudah lama sejak kelas teori saya, jadi saya tidak tahu bagaimana ini membandingkan pada optimalitas.

Greg Snow
sumber
1
Terima kasih Greg. Saya condong ke arah pendekatan kemungkinan maksimum yang disesuaikan.
Frank Harrell
4

mungkin pemodelan campuran dengan pasien sebagai efek acak bisa menjadi cara. Dengan pemodelan campuran, struktur korelasi dalam kasus berpasangan dan kehilangan sebagian dalam kasus tidak berpasangan dapat dipertanggungjawabkan.

psj
sumber
2
Karena tidak ada set data yang dianalisis secara individual yang akan menyebabkan seseorang menggunakan efek acak, saya tidak melihat mengapa efek acak sangat membantu di sini. Tetapi dimungkinkan untuk menggunakan kuadrat terkecil umum untuk memungkinkan setiap subjek memiliki struktur korelasinya sendiri. Pengamatan yang tidak berpasangan akan memiliki korelasi nol. Layak dipikirkan. Terima kasih.
Frank Harrell
ya, Anda benar, dataset tidak akan memerlukan pemodelan campuran jika digunakan secara terpisah. Tetapi jika Anda menambahkannya ke dalam satu dataset tunggal, Anda bisa menggunakan pendekatan untuk memasukkan korelasi dalam data berpasangan dan secara bersamaan menggunakan data yang tidak berpasangan dengan menentukan korelasi nol.
psj
1
Iya nih; poin saya adalah bahwa model campuran mungkin berlebihan karena Anda dapat dengan mudah menentukan struktur korelasi subjek-bervariasi dengan menggunakan kuadrat terkecil umum (menggunakan misalnya glsfungsi R dalam nlme4paket.
Frank Harrell
3

Salah satu metode yang diusulkan dalam Hani M. Samawi & Robert Vogel (Jurnal Statistik Terapan, 2013) terdiri dari kombinasi bobot skor-T dari sampel independen dan dependen sedemikian rupa sehingga skor T baru sama dengan

To=γ(μYμXSx2/nX+Sy2/nY)+(1γ)μDSD2/nD

Dγγ

bonobo
sumber
1
T0