Saya memiliki 2 set data yang terdistribusi secara eksponensial dan saya ingin memastikan bahwa mereka berasal dari distribusi yang berbeda. Sayangnya kesalahan yang diperlukan dalam pendeteksian data memaksa saya untuk membuang semua data di bawah ambang batas tertentu. Dalam setiap set saya memiliki sekitar 3000 titik data dan memplot data membuat saya berpikir bahwa nilai lambda berbeda. Pemasangan juga menghasilkan nilai yang berbeda untuk lambda.
Bagaimana saya bisa yakin bahwa kedua set data berasal dari distribusi yang berbeda?
Berikut plot bagaimana himpunan tampak (Perhatikan bahwa semua nilai di bawah lifetime = 3sec harus dibuang):
UPDATE: Distribusi di atas dalam kedua kasus dinormalisasi atas N hanya untuk membandingkannya lebih baik dalam grafik karena jumlah total titik data N berbeda.
UPDATE2: Setelah pemotongan saya memiliki sekitar 150 nilai seumur hidup untuk dataset merah dan 350 untuk dataset biru. Ternyata 3000 itu dibesar-besarkan (saya minta maaf).
UPDATE3: Terima kasih telah membantu saya. Berikut adalah data mentah:
http://pastebin.com/raw.php?i=UaGZS0im
http://pastebin.com/raw.php?i=enjyW1uC
Sejauh ini saya memasang fungsi eksponensial untuk kedua set data dan membandingkan lereng. Karena normalisasi apa pun tidak boleh mengubah kemiringan data, lereng yang berbeda harus menyiratkan distribusi eksponensial yang berbeda (Pengalaman saya dengan analisis statistik sangat terbatas).
Nilai-nilai di bawah ambang batas dibuang karena pengukuran mendeteksi banyak peristiwa terlalu sering dalam rezim itu.
UPDATE4: Saya baru menyadari bahwa masalah saya jauh lebih rumit dari yang saya kira. Saya benar-benar meninggalkan sensor (saya tidak tahu awal dari beberapa peristiwa) dan sensor kanan (tidak tahu akhir dari beberapa peristiwa) data DAN saya harus membuang semua masa hidup di bawah 3s (pemotongan). Apakah ada cara untuk menggabungkan semua itu ke dalam satu analisis? Sejauh ini saya menemukan bantuan tentang cara bekerja dengan data yang disensor (analisis survival) tetapi apa yang harus saya lakukan dengan pemotongan?
Jawaban:
Masa hidup yang terdistribusi secara eksponensial adalah kasus sederhana untuk analisis survival . Menganalisa mereka sering merupakan contoh pertama yang berhasil untuk membuat siswa mulai sebelum pindah ke situasi yang lebih rumit. Selain itu, analisis survival secara alami cocok untuk data yang disensor. Singkatnya, saya sarankan Anda menggunakan analisis survival dengan indikator pengelompokan untuk dua distribusi sebagai efek pengobatan. Anda bisa menggunakan model parametrik (misalnya, model Weibull, karena eksponensial adalah kasus khusus Weibull ), atau Anda bisa menggunakan metode non-parametrik, seperti tes peringkat log , jika Anda mau.
sumber
Anda tertarik dengan tes berikut:H0:λ1=λ2 dimana λi adalah parameter tunggal yang secara unik mengidentifikasi distribusi eksponensial yang Anda hadapi. Sejakλ juga sesuai dengan rata-rata distribusi ini Anda pada dasarnya tertarik untuk menguji perbedaan rata-rata dalam dua distribusi ini.
Karena Anda memiliki ukuran sampel yang besar, untuk menguji ini kami dapat mengajukan banding ke teorema batas pusat yang memberi tahu kami hal berikut:
Teorema Limit Pusat: misalkanX1,X2,...Xn adalah urutan variabel acak iid dengan E[Xi]=μ and Var[Xi]=σ2<∞ . Kemudian sebagain mendekati tak terhingga, variabel acak n−−√(X¯−μ) konvergen dalam distribusi ke normal distribusi.N(0,σ2)
Dengan kata lain, sampel Anda berarti untuk masing-masing dari dua kelompok tersebut terdistribusi normal. Karena Anda tidak tahu nilai sebenarnya dari , Anda dapat melakukan tes-t untuk perbedaan cara.σ2
sumber