"Semua titik data ini berasal dari distribusi yang sama." Bagaimana cara menguji?

16

Saya merasa telah melihat topik ini dibahas di sini sebelumnya, tetapi saya tidak dapat menemukan sesuatu yang spesifik. Kemudian lagi, saya juga tidak begitu yakin apa yang harus dicari.

Saya memiliki satu set data dimensi yang dipesan. Saya berhipotesis bahwa semua poin dalam himpunan diambil dari distribusi yang sama.

Bagaimana saya bisa menguji hipotesis ini? Apakah masuk akal untuk menguji terhadap alternatif umum "pengamatan dalam kumpulan data ini diambil dari dua distribusi yang berbeda"?

Idealnya, saya ingin mengidentifikasi poin mana yang berasal dari distribusi "lain". Karena data saya dipesan, dapatkah saya lolos dengan mengidentifikasi titik potong, setelah entah bagaimana menguji apakah itu "valid" untuk memotong data?

Sunting: sesuai jawaban Glen_b, saya akan tertarik dengan distribusi unimodal yang benar-benar positif. Saya juga tertarik pada kasus khusus dengan asumsi distribusi dan kemudian menguji parameter yang berbeda .

shadowtalker
sumber
Apa yang Anda maksud dengan "distribusi yang sama"? Apakah pengamatan Gamma dianggap berasal dari distribusi yang sama, atau dianggap sebagai jumlah dari distribusi eksponensial?
Metariat
+1 ini adalah pertanyaan yang sangat bagus untuk Anda tanyakan pada diri sendiri.
user541686
@Metallica selama setiap pengamatan adalah jumlah eksponensial, saya akan mengatakan mereka dari distribusi yang sama
shadowtalker
@Mehrdad Saya tidak memiliki pelatihan statistik formal di luar gelar sarjana saya dan beberapa kelas lain-lain di master saya. Jika Anda melihat riwayat jawaban saya, jelas bahwa saya tahu banyak tentang regresi linier dan tidak banyak tentang hal lain 🤐
shadowtalker
2
Salah satu cara yang mungkin untuk mendekati pertanyaan ini adalah dengan mempertimbangkan campuran terbatas misalnya beberapa kelas distribusi dan untuk melihat apakah Anda memerlukan lebih dari 1 komponen campuran untuk menggambarkan data Anda dengan baik. Namun, pertanyaannya adalah apakah ada kelas distribusi yang cukup fleksibel untuk menggambarkan "hipotesis nol" Anda dengan komponen campuran tunggal (mis. Jika Anda menggunakan campuran distribusi gamma yang terbatas, ini mungkin tidak fleksibel dalam hal skewdness atau tail perilaku tergantung pada apa yang Anda coba lakukan), sambil mengandung alternatif potensial sebagai campuran multi-komponen.
Bjorn

Jawaban:

29

Bayangkan dua skenario:

  1. semua titik data diambil dari distribusi yang sama - titik yang seragam pada (16,36)

  2. titik data diambil dari campuran 50-50 dari dua populasi:

    Sebuah. populasi A, yang berbentuk seperti ini:

masukkan deskripsi gambar di sini

b. populasi B, berbentuk seperti ini:

masukkan deskripsi gambar di sini

... sedemikian rupa sehingga campuran keduanya terlihat persis seperti kasus dalam 1.

Bagaimana mereka bisa dipisahkan?

Bentuk apa pun yang Anda pilih untuk dua populasi, akan selalu ada distribusi populasi tunggal yang memiliki bentuk yang sama. Argumen ini jelas menunjukkan bahwa untuk kasus umum Anda tidak bisa melakukannya. Tidak ada cara yang mungkin untuk membedakan.

Jika Anda memperkenalkan informasi tentang populasi (asumsi, efektif) maka mungkin sering ada cara untuk melanjutkan *, tetapi kasus umum sudah mati.

* misal, jika Anda menganggap bahwa populasi adalah unimodal dan memiliki sarana yang cukup berbeda, Anda bisa mendapatkan tempat

[Ada batasan yang ditambahkan ke pertanyaan tidak cukup untuk menghindari versi yang berbeda dari jenis masalah yang saya jelaskan di atas - kita masih dapat menulis nol unimodal pada setengah baris positif sebagai campuran 50-50 dari dua distribusi unimodal pada setengah garis positif. Tentu saja jika Anda memiliki null lebih spesifik, ini menjadi jauh lebih sedikit masalah. Sebagai alternatif, masih mungkin untuk membatasi kelas alternatif lebih lanjut sampai kita berada dalam posisi untuk menguji beberapa alternatif campuran. Atau beberapa batasan tambahan dapat diterapkan pada null dan alternatif yang akan membuatnya dapat dibedakan.

Glen_b -Reinstate Monica
sumber
1
Terima kasih, contoh balasan yang bagus. Jadi turun untuk membatasi hipotesis alternatif dengan tepat, benar?
shadowtalker
@ssdecontrol ya, pada dasarnya; jika (dengan asumsi) alternatifnya dapat dibedakan dari nol, Anda memiliki beberapa harapan akan ujian dengan kekuatan lebih tinggi dari tingkat signifikansi Anda.
Glen_b -Reinstate Monica
0

Anda jelas perlu memiliki beberapa teori untuk berbicara tentang distribusi dan menyatakan hipotesis untuk diuji. Sesuatu yang mengelompokkan subjek dalam satu atau lebih kelompok dan sesuatu yang membuat pengukuran terpisah.

Bagaimana kamu bisa sampai di sana? Saya melihat tiga opsi:

  • Jika Anda sudah tahu itu dari materi pelajaran Anda, maka Anda hanya perlu menerjemahkannya ke dalam bahasa hipotesis statistik
  • Plot grafik dan kenali pola untuk menjadi hipotesis untuk diuji
  • Munculkan daftar distribusi yang dapat Anda muat dan lakukan eksperimen matematika. Pemrograman probabilistik adalah kata kunci di sini

Latihan ini kemudian akan membuat Anda menyimpulkan bahwa ada satu atau lebih kelompok yang diwakili dalam sampel Anda atau hanya satu. Atau tidak ada grup sama sekali.

Diego
sumber