Bagaimana Anda menguji atau memeriksa bahwa pengambilan sampel adalah IID (Independen dan Didistribusikan Secara Identik)? Perhatikan bahwa yang saya maksud bukan Gaussian dan Distributed Identically, hanya IID.
Dan ide yang muncul di benak saya adalah berulang kali membagi sampel dalam dua sub-sampel dengan ukuran yang sama, melakukan tes Kolmogorov-Smirnov dan memeriksa bahwa distribusi nilai-p adalah seragam.
Setiap komentar tentang pendekatan itu, dan setiap saran dipersilahkan.
Klarifikasi setelah memulai karunia: Saya mencari tes umum yang dapat diterapkan pada data deret waktu.
Jawaban:
Apa yang Anda simpulkan jika data IID berasal dari informasi luar, bukan data itu sendiri. Anda sebagai ilmuwan perlu menentukan apakah masuk akal untuk mengasumsikan data IID berdasarkan pada bagaimana data dikumpulkan dan informasi luar lainnya.
Perhatikan beberapa contoh.
Skenario 1: Kami menghasilkan satu set data secara independen dari satu distribusi yang kebetulan merupakan campuran 2 normals.
Skenario 2: Pertama-tama kita menghasilkan variabel gender dari distribusi binomial, kemudian pada pria dan wanita kita secara mandiri menghasilkan data dari distribusi normal (tetapi normalnya berbeda untuk pria dan wanita), kemudian kita menghapus atau kehilangan informasi gender.
Dalam skenario 1 data adalah IID dan dalam skenario 2 data jelas tidak terdistribusi secara identik (distribusi berbeda untuk pria dan wanita), tetapi 2 distribusi untuk 2 skenario tidak dapat dibedakan dari data, Anda harus mengetahui hal-hal tentang bagaimana data dihasilkan untuk menentukan perbedaannya.
Skenario 3: Saya mengambil sampel acak sederhana dari orang yang tinggal di kota saya dan mengelola survei dan menganalisis hasilnya untuk membuat kesimpulan tentang semua orang di kota.
Skenario 4: Saya mengambil sampel acak sederhana dari orang yang tinggal di kota saya dan mengelola survei dan menganalisis hasilnya untuk membuat kesimpulan tentang semua orang di negara ini.
Dalam skenario 3 subjek akan dianggap independen (sampel acak sederhana dari populasi yang diminati), tetapi dalam skenario 4 mereka tidak akan dianggap independen karena mereka dipilih dari sekelompok kecil populasi yang diminati dan kedekatan geografis kemungkinan akan memaksakan ketergantungan. Tetapi 2 dataset identik, itu adalah cara kami bermaksud menggunakan data yang menentukan apakah mereka independen atau tergantung dalam hal ini.
Jadi tidak ada cara untuk menguji hanya menggunakan data untuk menunjukkan bahwa data adalah IID, plot dan diagnostik lainnya dapat menunjukkan beberapa jenis non-IID, tetapi kekurangan ini tidak menjamin bahwa data tersebut adalah IID. Anda juga dapat membandingkan dengan asumsi tertentu (IID normal lebih mudah disangkal daripada hanya IID). Setiap tes masih hanya aturan, tetapi kegagalan untuk menolak tes tidak pernah membuktikan bahwa itu adalah IID.
Keputusan tentang apakah Anda bersedia untuk berasumsi bahwa kondisi IID perlu dibuat berdasarkan ilmu tentang bagaimana data dikumpulkan, bagaimana hal itu berkaitan dengan informasi lain, dan bagaimana hal itu akan digunakan.
Suntingan:
Berikut adalah serangkaian contoh untuk non-identik.
Skenario 5: data adalah residu dari regresi di mana ada heteroskedastisitas (varians tidak sama).
Skenario 6: data berasal dari campuran normals dengan mean 0 tetapi varians berbeda.
Dalam skenario 5 kita dapat dengan jelas melihat bahwa residu tidak terdistribusi secara identik jika kita memplot residu terhadap nilai-nilai yang sesuai atau variabel lain (prediktor, atau prediktor potensial), tetapi residu itu sendiri (tanpa info luar) tidak dapat dibedakan dari skenario 6.
sumber
Jika data memiliki urutan indeks, Anda dapat menggunakan tes derau putih untuk deret waktu. Pada dasarnya itu berarti menguji bahwa autokorelasi sama sekali bukan nol adalah 0. Ini menangani bagian independensi. Saya pikir pendekatan Anda berusaha terutama untuk mengatasi bagian asumsi yang didistribusikan secara identik. Saya pikir ada beberapa masalah dengan pendekatan Anda. Saya pikir Anda perlu banyak pemisahan untuk mendapatkan nilai p yang cukup untuk menguji keseragaman. Kemudian setiap tes KS kehilangan daya. Jika Anda menggunakan split yang tumpang tindih pada bagian dari set data tes akan dikorelasikan. Dengan sejumlah kecil split, uji keseragaman tidak memiliki daya. Tetapi dengan banyak perpecahan, tes keseragaman mungkin kuat tetapi tes KS tidak. Juga tampaknya pendekatan ini tidak akan membantu mendeteksi ketergantungan antar variabel.
@ gu11aume Saya tidak yakin apa yang Anda minta dengan tes umum untuk seri tidak-waktu. Data spasial menyediakan satu bentuk data seri non-waktu. Di sana fungsi yang disebut variogram mungkin dilihat. Untuk urutan satu dimensi saya tidak melihat banyak perbedaan antara urutan yang dipesan oleh waktu versus cara lain untuk memesan data. Fungsi autokorelasi masih dapat didefinisikan dan diuji. Ketika Anda mengatakan bahwa Anda ingin menguji independensi dalam pengambilan sampel, saya pikir Anda memiliki urutan pengambilan sampel. Jadi saya pikir semua case 1 dimensi bekerja dengan cara yang sama.
sumber