Saya memiliki lebih dari 3000 vektor pada kisi dua dimensi, dengan distribusi diskrit yang kurang lebih seragam. Beberapa pasang vektor memenuhi syarat tertentu. Catatan: ketentuan ini hanya berlaku untuk pasangan vektor, bukan untuk masing-masing vektor. Saya memiliki daftar sekitar 1500 pasangan tersebut, sebut saja grup 1. Grup 2 berisi semua pasangan vektor lainnya. Saya ingin mengetahui apakah jarak antara vektor dalam pasangan di grup 1 secara signifikan lebih kecil jarak rata-rata antara dua vektor. Bagaimana saya bisa melakukan itu?
Uji statistik : Apakah teorema batas pusat berlaku untuk kasus saya? Yaitu, dapatkah saya mengambil alat sampel jarak dan menggunakan uji-t Student untuk membandingkan alat sampel yang memenuhi kondisi dengan alat sampel yang tidak memenuhi syarat? Kalau tidak, tes statistik apa yang cocok di sini?
Ukuran sampel dan jumlah sampel : Saya mengerti bahwa ada dua variabel di sini, untuk masing-masing dari dua kelompok saya perlu mengambil n sampel ukuran m dan mengambil rata-rata masing-masing sampel. Apakah ada cara berprinsip untuk memilih n dan m ? Haruskah mereka menjadi sebesar mungkin? Atau haruskah mereka sesedikit mungkin, selama mereka menunjukkan signifikansi statistik? Haruskah mereka sama untuk masing-masing dari dua kelompok? Atau haruskah mereka lebih besar untuk grup 2, yang berisi lebih banyak pasangan vektor?
Jawaban:
Pertanyaan "signifikan" selalu berbeda, selalu mengandaikan model statistik untuk data. Jawaban ini mengusulkan salah satu model paling umum yang konsisten dengan informasi minimal yang disediakan dalam pertanyaan. Singkatnya, ini akan bekerja dalam beragam kasus, tetapi mungkin tidak selalu menjadi cara paling ampuh untuk mendeteksi perbedaan.
Tiga aspek data benar-benar penting: bentuk ruang yang ditempati oleh titik; distribusi titik-titik dalam ruang itu; dan grafik yang dibentuk oleh pasangan-pasangan titik memiliki "kondisi" - yang saya sebut kelompok "pengobatan". Yang saya maksud dengan "grafik" adalah pola titik dan interkoneksi yang tersirat oleh pasangan titik dalam kelompok perlakuan. Misalnya, sepuluh pasangan-titik ("tepian") grafik dapat melibatkan hingga 20 titik berbeda atau sedikitnya lima titik. Dalam kasus sebelumnya, tidak ada dua sisi yang memiliki titik yang sama, sedangkan pada sisi yang kedua ujungnya terdiri dari semua pasangan yang memungkinkan antara lima titik.
Untuk menentukan apakah jarak rata-rata di antara tepi dalam kelompok perlakuan adalah "signifikan," kita dapat mempertimbangkan proses acak di mana semua poin secara acak diijinkan oleh permutasi . Ini juga memungkinkan tepi: tepi diganti oleh . Hipotesis nol adalah bahwa kelompok perlakuan tepi muncul sebagai salah satu dari permutasi . Jika demikian, jarak rata-rata harus sebanding dengan jarak rata-rata yang muncul dalam permutasi tersebut. Kita dapat dengan mudah memperkirakan distribusi jarak rata-rata acak dengan mengambil sampel beberapa ribu dari semua permutasi tersebut.σ ( v i , v j ) ( v σ ( i ) , v σ ( j ) ) 3000 ! ≈ 10 21024n = 3000 σ ( vsaya, vj) ( vσ( i ), vσ( j )) 3000 ! ≈ 1021024
(Perlu dicatat bahwa pendekatan ini akan bekerja, dengan hanya modifikasi kecil, dengan jarak apa pun atau kuantitas apa pun yang terkait dengan setiap pasangan titik yang memungkinkan. Ia juga akan bekerja untuk ringkasan jarak apa pun, bukan hanya rata-rata.)
Sebagai ilustrasi, berikut adalah dua situasi yang melibatkan poin dan sisi dalam kelompok perlakuan. Di baris atas poin pertama di setiap sisi dipilih secara acak dari poin dan kemudian poin kedua dari setiap tepi dipilih secara independen dan acak dari poin berbeda dari titik pertama mereka. Seluruhnya poin terlibat dalam sisi ini.28 100 100 - 1 39 28n = 100 28 100 100−1 39 28
Di baris bawah, delapan dari poin dipilih secara acak. The tepi terdiri dari semua pasangan yang mungkin dari mereka.28100 28
Histogram di sebelah kanan menunjukkan distribusi sampling untuk permutasi acak konfigurasi. Jarak rata-rata aktual untuk data ditandai dengan garis merah putus-putus vertikal. Kedua cara konsisten dengan distribusi sampling: tidak terletak jauh ke kanan atau kiri.10000
Distribusi pengambilan sampel berbeda: meskipun rata-rata jarak rata-rata adalah sama, variasi dalam jarak rata-rata lebih besar dalam kasus kedua karena saling ketergantungan grafis antara tepi. Ini adalah salah satu alasan mengapa tidak ada versi sederhana dari Teorema Limit Pusat yang dapat digunakan: menghitung standar deviasi distribusi ini sulit.
Berikut ini adalah hasil yang sebanding dengan data yang dijelaskan dalam pertanyaan: poin kira-kira terdistribusi secara seragam dalam satu kotak dan pasangan mereka berada dalam kelompok perlakuan. Perhitungan hanya membutuhkan beberapa detik, menunjukkan kepraktisannya.1500n=3000 1500
Pasangan di baris atas lagi dipilih secara acak. Di baris bawah, semua tepi pada kelompok perlakuan hanya menggunakan poin terdekat dengan sudut kiri bawah. Jarak rata-rata mereka jauh lebih kecil daripada distribusi sampling sehingga ini dapat dianggap signifikan secara statistik.56
Secara umum, proporsi jarak rata-rata dari kedua simulasi dan kelompok perlakuan yang sama dengan atau lebih besar dari jarak rata-rata dalam kelompok perlakuan dapat diambil sebagai nilai p dari tes permutasi nonparametrik ini .
Ini adalah
R
kode yang digunakan untuk membuat ilustrasi.sumber
mean(c(sim, stat) <= stat)
ataumean(c(sim, stat) >= stat)
sesuai.stat
dari tengah distribusi, di kedua arah? Sesuatu sepertip.value <- mean(abs(c(sim, stat)-mean(sim)) >= abs(stat-mean(sim)))
.