Saya sedang mempelajari dua populasi yang secara geografis terisolasi dari spesies yang sama. Memeriksa distribusi, saya melihat bahwa keduanya bimodal (ada beberapa musim yang terjadi), tetapi puncak dalam satu populasi jauh lebih tinggi dan lebih sempit (yaitu, varian dari puncak lokal lebih kecil).
Apa jenis uji statistik yang sesuai untuk menentukan apakah perbedaan ini signifikan?
Untuk memperjelas, sumbu y saya adalah jumlah individu yang diidentifikasi dalam perangkap pada hari tertentu, dan sumbu x adalah hari Julian.
distributions
statistical-significance
variance
Atticus29
sumber
sumber
Jawaban:
Apakah ini distribusi sesuatu dari waktu ke waktu? Hitungan, mungkin? (Jika demikian maka Anda mungkin perlu sesuatu yang sangat berbeda dari diskusi di sini sejauh ini)
Apa yang Anda gambarkan tidak terdengar seperti itu akan sangat baik diambil sebagai perbedaan dalam varian distribusi.
Sepertinya Anda menggambarkan sesuatu yang samar-samar seperti ini (abaikan angka pada sumbu, itu hanya untuk memberi gambaran tentang jenis pola umum yang tampaknya Anda uraikan):
Jika itu benar, maka pertimbangkan:
Sementara lebar setiap puncak tentang pusat-pusat lokal lebih sempit untuk kurva biru, varians dari distribusi merah dan biru secara keseluruhan hampir tidak berbeda.
Jika Anda mengidentifikasi mode dan antimode sebelumnya, Anda dapat mengukur variabilitas lokal.
sumber
Pertama-tama, saya pikir Anda harus melihat distribusi musiman secara terpisah, karena distribusi bimodal kemungkinan merupakan hasil dari dua proses yang cukup terpisah. Kedua distribusi mungkin dikendalikan oleh mekanisme yang berbeda, sehingga distribusi musim dingin misalnya bisa lebih sensitif terhadap iklim tahunan. Jika Anda ingin melihat perbedaan populasi dan alasannya, saya pikir akan lebih berguna untuk mempelajari distribusi musiman secara terpisah.
Sedangkan untuk tes, Anda bisa mencoba tes Levine (pada dasarnya tes homoscedasticity), yang digunakan untuk membandingkan perbedaan antar kelompok. Tes Bartlett adalah alternatif, tetapi tes Levene seharusnya lebih kuat untuk non-normalitas (terutama ketika menggunakan median untuk pengujian). Dalam R, tes Levene dan Bartlett ditemukan di
library(car)
.sumber
leveneTest(y ~ as.factor(group), data= datafile)
untuk uji perbedaan varians antara kelompok, dan jika Anda menggunakan opsi `center =" median "itu lebih kuat untuk non-normalitas. Sebenarnya, saya pikir itu disebut tes Brown-Forsythe jika berdasarkan median.Saya setuju dengan apa yang dikatakan orang lain - yaitu bahwa "varians" mungkin kata yang salah untuk digunakan (mengingat fungsi yang Anda pertimbangkan bukan distribusi probabilitas tetapi serangkaian waktu).
Saya pikir Anda mungkin ingin mendekati masalah ini dari perspektif yang berbeda - cukup paskan dua seri waktu dengan kurva LOWESS. Anda dapat menghitung interval kepercayaan 95% dan mengomentari bentuknya secara kualitatif. Saya tidak yakin Anda perlu melakukan sesuatu yang lebih mewah dari ini.
Saya telah menulis beberapa kode MATLAB di bawah ini untuk menggambarkan apa yang saya katakan. Saya agak terburu-buru tetapi dapat segera memberikan klarifikasi. Banyak dari apa yang saya lakukan dapat diambil langsung dari sini: http://blogs.mathworks.com/loren/2011/01/13/data-driven-fitting/
Anda mungkin ingin menormalkan dua seri waktu untuk membandingkan tren relatif mereka daripada tingkat absolutnya.
Sekarang buat LOWESS cocok ...
Terakhir, Anda dapat membuat band kepercayaan 95% sebagai berikut:
Sekarang Anda dapat menafsirkan angka akhir seperti yang Anda inginkan, dan Anda memiliki LOWESS yang cocok untuk mendukung hipotesis Anda bahwa puncak dalam kurva merah sebenarnya lebih luas daripada kurva biru. Jika Anda memiliki gagasan yang lebih baik tentang fungsi tersebut, Anda bisa melakukan regresi non-linear.
Sunting: Berdasarkan beberapa komentar bermanfaat di bawah, saya menambahkan beberapa detail lebih lanjut tentang memperkirakan lebar puncak secara eksplisit. Pertama, Anda perlu membuat beberapa definisi untuk apa yang Anda pertimbangkan sebagai "puncak" di tempat pertama. Mungkin ada benjolan yang naik di atas ambang tertentu (sekitar 0,05 di plot yang saya buat di atas). Prinsip dasarnya adalah Anda harus menemukan cara untuk memisahkan puncak "nyata" atau "penting" dari kebisingan.
Kemudian, untuk setiap puncak, Anda dapat mengukur lebarnya dalam beberapa cara. Seperti yang saya sebutkan di komentar di bawah, saya pikir masuk akal untuk melihat "setengah-max-lebar" tetapi Anda juga bisa melihat total waktu puncaknya berdiri di atas ambang batas Anda. Idealnya, Anda harus menggunakan beberapa ukuran lebar puncak yang berbeda dan melaporkan seberapa konsisten hasil Anda diberikan pilihan ini.
Apa pun metrik pilihan Anda, Anda dapat menggunakan bootstrap untuk menghitung interval kepercayaan untuk setiap puncak dalam setiap jejak.
Kode ini menciptakan 1000 bootstrapped cocok untuk jejak biru dan merah di plot di atas. Satu detail yang akan saya bahas adalah pilihan faktor smoothing 0,15 - Anda dapat memilih parameter ini sehingga meminimalkan kesalahan validasi silang (lihat tautan yang saya posting). Sekarang yang harus Anda lakukan adalah menulis fungsi yang mengisolasi puncak dan memperkirakan lebarnya:
Kemudian Anda menjalankan kode ini pada 1000 kurva untuk setiap dataset dan menghitung persentil ke-2,5 dan ke-97,5 untuk lebar setiap puncak. Saya akan mengilustrasikan ini pada seri waktu Y1 - Anda akan melakukan hal yang sama untuk seri waktu Y2 atau set data menarik lainnya.
Jika diinginkan, Anda dapat melakukan tes hipotesis daripada menghitung interval kepercayaan. Perhatikan bahwa kode di atas adalah sederhana - ini mengasumsikan setiap kurva lowess bootstrap akan memiliki 2 puncak. Asumsi ini mungkin tidak selalu berlaku, jadi berhati-hatilah. Saya hanya mencoba menggambarkan pendekatan yang akan saya ambil.
Catatan: fungsi "mylowess" diberikan dalam tautan yang saya posting di atas. Ini seperti apa ...
sumber