Misalkan saya diberikan dua kelompok pengukuran massa (dalam mg), yang disebut sebagai y1 dan y2. Saya ingin melakukan tes untuk menentukan apakah dua sampel diambil dari populasi dengan cara yang berbeda. Sesuatu seperti ini misalnya (dalam R):
y1 <- c(10.5,2.9,2.0,4.4,2.8,5.9,4.2,2.7,4.7,6.6)
y2 <- c(3.8,4.3,2.8,5.0,9.3,6.0,7.6,3.8,6.8,7.9)
t.test(y1,y2)
Saya mendapatkan nilai-p 0,3234, dan pada tingkat signifikansi 0,05 jangan menolak hipotesis nol bahwa kedua kelompok diambil dari populasi dengan rata-rata yang sama. Sekarang saya diberikan ketidakpastian untuk setiap pengukuran:
u1 <- c(2.3,1.7,1.7,1.7,2.0,2.2,2.1,1.7,2.3,2.2)
u2 <- c(2.4,1.8,1.6,2.3,2.5,1.8,1.9,1.5,2.3,2.3)
di mana u1 [1] adalah ketidakpastian standar gabungan dalam pengukuran y1 [1] (dan seterusnya). Bagaimana cara saya memasukkan ketidakpastian ini ke dalam uji statistik?
Jawaban:
Sepertinya Anda ingin melakukan analisis tertimbang. Lihat "Contoh Statistik Tertimbang" di bagian "Konsep" pada dokumentasi SAS.
sumber
Mengapa tidak mensimulasikannya? Artinya, tambahkan ketidakpastian Anda sebagai realisasi kebisingan untuk setiap pengamatan. Kemudian ulangi tes hipotesis. Lakukan ini sekitar 1000 kali dan lihat berapa kali nol itu ditolak. Anda harus memilih distribusi untuk kebisingan. Yang normal sepertinya satu pilihan, tetapi bisa menghasilkan pengamatan negatif, yang tidak realistis.
sumber
Anda bisa mengubahnya menjadi masalah regresi dan menggunakan ketidakpastian sebagai bobot. Artinya, prediksi kelompok (1 atau 2?) Dari pengukuran dalam regresi.
Tapi
Ketidakpastiannya kira-kira konstan, jadi sepertinya tidak banyak yang akan berubah dengan menggunakannya juga.
Anda memiliki pencilan ringan di 10,5, yang memperumit masalah dengan mengurangi perbedaan antara rata-rata. Tetapi jika Anda bisa mempercayai ketidakpastian, nilai itu tidak lebih dari yang dicurigai.
Uji-t tidak tahu bahwa hipotesis alternatif Anda adalah bahwa dua sampel diambil dari populasi yang berbeda. Yang ia tahu adalah membandingkan cara, dengan asumsi tertentu. Tes berbasis pangkat adalah alternatif, tetapi jika Anda tertarik pada data ini sebagai pengukuran, itu tidak terdengar lebih baik untuk tujuan Anda.
sumber
Dalam kuadrat terkecil biasa (misalnya, lm (y ~ x)) Anda memungkinkan untuk variabilitas (ketidakpastian) di sekitar nilai y, diberi nilai x. Jika Anda membalikkan regresi sekitar (lm (x ~)) Anda meminimalkan kesalahan sekitar x. Dalam kedua kasus, kesalahan diasumsikan cukup homogen.
Jika Anda tahu jumlah varians di sekitar setiap pengamatan dari variabel respons Anda, dan varians itu tidak konstan ketika dipesan oleh x, maka Anda ingin menggunakan kuadrat terkecil tertimbang. Anda dapat menimbang nilai y dengan faktor 1 / (varians).
Dalam kasus di mana Anda khawatir bahwa x dan y memiliki ketidakpastian, dan bahwa ketidakpastian tidak sama antara keduanya, maka Anda tidak ingin hanya meminimalkan residu (mengatasi ketidakpastian) secara tegak lurus terhadap salah satu sumbu Anda. Idealnya, Anda akan meminimalkan ketidakpastian yang tegak lurus terhadap garis tren yang sesuai. Untuk melakukan ini, Anda dapat menggunakan regresi PCA (juga dikenal sebagai regresi ortogonal, atau total kuadrat terkecil. Ada paket R untuk regresi PCA , dan sebelumnya telah ada posting tentang topik ini di situs web ini , yang kemudian juga telah dibahas di tempat lain Selanjutnya, saya pikir (yaitu, saya mungkin salah ...) Anda masih dapat melakukan versi terbobot dari regresi ini, memanfaatkan pengetahuan Anda tentang varians.
sumber