Saya merasa telah melihat topik ini dibahas di sini sebelumnya, tetapi saya tidak dapat menemukan sesuatu yang spesifik. Kemudian lagi, saya juga tidak begitu yakin apa yang harus dicari.
Saya memiliki satu set data dimensi yang dipesan. Saya berhipotesis bahwa semua poin dalam himpunan diambil dari distribusi yang sama.
Bagaimana saya bisa menguji hipotesis ini? Apakah masuk akal untuk menguji terhadap alternatif umum "pengamatan dalam kumpulan data ini diambil dari dua distribusi yang berbeda"?
Idealnya, saya ingin mengidentifikasi poin mana yang berasal dari distribusi "lain". Karena data saya dipesan, dapatkah saya lolos dengan mengidentifikasi titik potong, setelah entah bagaimana menguji apakah itu "valid" untuk memotong data?
Sunting: sesuai jawaban Glen_b, saya akan tertarik dengan distribusi unimodal yang benar-benar positif. Saya juga tertarik pada kasus khusus dengan asumsi distribusi dan kemudian menguji parameter yang berbeda .
sumber
Jawaban:
Bayangkan dua skenario:
semua titik data diambil dari distribusi yang sama - titik yang seragam pada (16,36)
titik data diambil dari campuran 50-50 dari dua populasi:
Sebuah. populasi A, yang berbentuk seperti ini:
b. populasi B, berbentuk seperti ini:
... sedemikian rupa sehingga campuran keduanya terlihat persis seperti kasus dalam 1.
Bagaimana mereka bisa dipisahkan?
Bentuk apa pun yang Anda pilih untuk dua populasi, akan selalu ada distribusi populasi tunggal yang memiliki bentuk yang sama. Argumen ini jelas menunjukkan bahwa untuk kasus umum Anda tidak bisa melakukannya. Tidak ada cara yang mungkin untuk membedakan.
Jika Anda memperkenalkan informasi tentang populasi (asumsi, efektif) maka mungkin sering ada cara untuk melanjutkan *, tetapi kasus umum sudah mati.
* misal, jika Anda menganggap bahwa populasi adalah unimodal dan memiliki sarana yang cukup berbeda, Anda bisa mendapatkan tempat
[Ada batasan yang ditambahkan ke pertanyaan tidak cukup untuk menghindari versi yang berbeda dari jenis masalah yang saya jelaskan di atas - kita masih dapat menulis nol unimodal pada setengah baris positif sebagai campuran 50-50 dari dua distribusi unimodal pada setengah garis positif. Tentu saja jika Anda memiliki null lebih spesifik, ini menjadi jauh lebih sedikit masalah. Sebagai alternatif, masih mungkin untuk membatasi kelas alternatif lebih lanjut sampai kita berada dalam posisi untuk menguji beberapa alternatif campuran. Atau beberapa batasan tambahan dapat diterapkan pada null dan alternatif yang akan membuatnya dapat dibedakan.
sumber
Anda jelas perlu memiliki beberapa teori untuk berbicara tentang distribusi dan menyatakan hipotesis untuk diuji. Sesuatu yang mengelompokkan subjek dalam satu atau lebih kelompok dan sesuatu yang membuat pengukuran terpisah.
Bagaimana kamu bisa sampai di sana? Saya melihat tiga opsi:
Latihan ini kemudian akan membuat Anda menyimpulkan bahwa ada satu atau lebih kelompok yang diwakili dalam sampel Anda atau hanya satu. Atau tidak ada grup sama sekali.
sumber