Nilai p untuk uji-t dihitung dengan asumsi bahwa semua pengamatan independen. Probabilitas komputasi (seperti nilai p) jauh lebih sulit ketika Anda berurusan dengan variabel dependen, dan tidak selalu mudah untuk melihat secara matematis di mana ada yang salah dengan tes di hadapan ketergantungan. Namun kami dapat dengan mudah menggambarkan masalah dengan simulasi.
Misalnya, perhatikan kasus di mana ada 5 ruang kelas di masing-masing dua sekolah, dengan 10 siswa di setiap ruang kelas. Di bawah asumsi normalitas, nilai p tes harus didistribusikan secara merata pada interval jika tidak ada perbedaan dalam nilai tes rata-rata antara semua ruang kelas. Artinya, jika kami melakukan banyak penelitian seperti ini dan merencanakan histogram dari semua nilai-p, itu harus menyerupai distribusi seragam berbentuk kotak .( 0 , 1 )
Namun, jika ada suatu korelasi di dalam kelas antara hasil siswa, nilai-p tidak lagi berperilaku sebagaimana mestinya. Korelasi positif (seperti yang mungkin diharapkan di sini) akan sering mengarah pada nilai-p yang terlalu kecil, sehingga hipotesis nol akan ditolak terlalu sering padahal faktanya benar. Simulasi R menggambarkan ini dapat ditemukan di bawah. 1000 studi dari dua sekolah disimulasikan untuk korelasi dalam kelas yang berbeda. Nilai-p dari uji-t correpsonding ditunjukkan dalam histogram pada gambar. Mereka didistribusikan secara seragam ketika tidak ada korelasi, tetapi tidak sebaliknya. Dalam simulasi, diasumsikan bahwa tidak ada perbedaan rata-rata antara ruang kelas, dan bahwa semua ruang kelas memiliki korelasi dalam ruang kelas yang sama.
Konsekuensi dari fenomena ini adalah bahwa tingkat kesalahan tipe I dari uji-t akan jauh jika ada korelasi di dalam kelas. Sebagai contoh, uji-t pada tingkat 5% sebenarnya sekitar pada tingkat 25% jika korelasi di dalam kelas adalah 0,1! Dengan kata lain, risiko salah menolak hipotesis nol meningkat secara dramatis ketika pengamatan bergantung .
Perhatikan bahwa sumbu agak berbeda di antara histogram.
Kode R:
library(MASS)
B1<-1000
par(mfrow=c(3,2))
for(correlation in c(0,0.1,0.25,0.5,0.75,0.95))
{
# Create correlation/covariance matrix and mean vector
Sigma<-matrix(correlation,10,10)
diag(Sigma)<-1
mu<-rep(5,10)
# Simulate B1 studies of two schools A and B
p.value<-rep(NA,B1)
for(i in 1:B1)
{
# Generate observations of 50 students from school A
A<-as.vector(mvrnorm(n=5,mu=mu,Sigma=Sigma))
# Generate observations of 50 students from school B
B<-as.vector(mvrnorm(n=5,mu=mu,Sigma=Sigma))
p.value[i]<-t.test(A,B)$p.value
}
# Plot histogram
hist(p.value,main=paste("Within-classroom correlation:",correlation),xlab="p-value",cex.main=2,cex.lab=2,cex.axis=2)
}
Masalahnya adalah bahwa membandingkan kedua sekolah dengan cara ini menggabungkan efek tingkat universitas dengan efek tingkat kelas. Model campuran akan membiarkan Anda mengurai ini. Jika Anda tidak tertarik untuk menguraikannya, Anda harus tetap memperhitungkan pengambilan sampel berkerumun (meskipun banyak orang gagal melakukan ini).
Komentar @Nico di atas menimbulkan satu masalah di sini: Misalkan seorang guru di satu sekolah benar-benar baik, dan dia salah satu guru yang dipilih?
Tetapi masalah lain adalah bahwa siswa di setiap kelas akan lebih mirip satu sama lain daripada mereka akan menjadi siswa lain di universitas yang sama dalam segala macam cara: Mata pelajaran yang berbeda menarik berbagai jenis siswa berdasarkan usia, jenis kelamin, pengalaman, kekuatan akademik dan kelemahan dll
sumber
Tidak ada yang salah dengan tes yang Anda gambarkan karena Anda mengambil sampel dari kedua sekolah secara adil. Pengamatan dependen mulai berlaku ketika ada variabel lain yang menjadi dasar sampel. Yaitu, di salah satu sekolah hanya satu kelas yang muncul dan Anda memutuskan untuk mengambil hasil dari 50 orang dalam satu kelas ini dengan berpikir bahwa itu akan baik-baik saja. Tetapi dalam hasil sekolah tergantung pada kelas, sehingga Anda tidak dapat melakukannya seperti ini dan itu akan memberikan hasil yang salah yang tidak dapat Anda deteksi dengan tes statistik apa pun ... itu hanya desain eksperimen yang salah.
Tapi saya pikir orang berbicara tentang pengamatan tergantung dari sudut pandang yang berbeda. Saat Anda berpikir bahwa Anda dapat memperoleh distribusi dan kesalahan dari sampel Anda berdasarkan asumsi independensi (kebanyakan rumus standar mengasumsikan itu), sedangkan ketika hasil Anda bergantung satu sama lain, aturan itu tidak tepat sama sekali ...
sumber