Tes Kolmogorov-Smirnov?

8

Saya mempelajari gangguan yang disebabkan oleh lalu lintas kapal ke burung laut kecil. Saya mengamati hewan fokal untuk waktu yang ditentukan dan mencatat apakah mereka terbang dari air selama pengamatan. Burung khusus ini tidak terbang dengan probabilitas tinggi ketika tidak terganggu (sekitar 10% dari waktu). Post hoc, saya telah menambahkan jarak ke kapal terdekat untuk setiap pengamatan (kapal-kapal yang menarik memiliki pencari GPS merekam titik setiap 5 detik).

Saya telah merencanakan fungsi distribusi kumulatif untuk SEMUA pengamatan dan untuk pengamatan di mana burung itu terbang dari air sebagai fungsi jarak ke kapal terdekat. Seperti yang diharapkan, sebagian besar pengamatan di mana burung itu terbang diamati ketika kapal itu dekat.

plot ecdf, terbang, tidak terbang, semua obs

Dapatkah saya menggunakan tes Kolmogorov-Smirnov untuk menguji jika ada perbedaan statistik dalam distribusi pengamatan penerbangan dan total pengamatan? Pikiran saya adalah jika kedua distribusi ini berbeda itu akan menyarankan bahwa jarak kapal memiliki pengaruh pada penerbangan. Saya khawatir karena fungsi distribusi ini tidak independen karena pengamatan penerbangan adalah bagian dari total pengamatan.

Pikiran?

Setelah membaca sedikit lebih jauh di situs ini saya pikir saya bisa menguji distribusi pengamatan di mana penerbangan terjadi (F) terhadap distribusi pengamatan di mana itu tidak (NF) karena ini independen. Jika distribusi ini adalah F = NF yang sama, maka kita dapat mengasumsikan bahwa distribusi (F) dan (TOT = semua pengamatan) adalah sama seperti yang kita ketahui bahwa distribusi (F) sama dengan dirinya sendiri dan (F) + (T) = (TOT). Baik?

UPDATE: 2/12/14

Mengikuti saran dari @Scortchi I menyelidiki hubungan kejadian penerbangan vs jarak ke kapal terdekat dalam kerangka regresi logistik. Ada sedikit hubungan hadir (kemiringan negatif) tetapi nilai-p tidak signifikan menunjukkan bahwa kemiringan yang sebenarnya bisa nol. Berdasarkan statistik deskriptif (termasuk plot-plot ecdf) saya menduga bahwa efek dari kapal-kapal dekat sedang tenggelam oleh banyak pengamatan ketika kapal tidak mempengaruhi perilaku. Saya kemudian menggunakan paket R yang disegmentasi ( http://cran.r-project.org/web/packages/segmented/segmented.pdf) untuk mencoba dan menemukan break-point dalam model. Program ini menemukan bahwa memecahkan data pada 2,6 km dari kapal dan memasang dua koefisien terpisah lebih baik daripada model koefisien tunggal. Koefisien untuk kemiringan pendekatan penutupan kapal negatif dan menunjukkan bahwa kapal mempengaruhi respons penerbangan hingga sekitar 2,6 km (p-value <0,001). Koefisien untuk kemiringan kedua sedikit positif tetapi nilai p tidak signifikan pada tingkat alpha 0,05 (p-value = 0,11). Jadi secara ringkas, garis regresi tersegmentasi mampu mendeteksi perbedaan ambang di mana probabilitas penerbangan meningkat. Perkiraan untuk kemungkinan penerbangan saat kapal lebih jauh dari 2,6 km adalah 0,11. Dengan tepat, saya mengamati 79 burung ketika tidak ada kapal bahkan di teluk studi (>

Terima kasih atas semua sarannya. Saya harap pertanyaan ini beserta saran dan jawaban membantu orang lain.

marcellt
sumber
Mengapa tidak regresi logistik dengan terbang / tidak terbang sebagai respons, & jarak ke kapal terdekat sebagai prediktor?
Scortchi
Saya sudah mencobanya. Mencegah signifikan tetapi lereng tidak. Ada terlalu banyak noise (penerbangan) dalam data pada jarak yang tidak relevan secara biologis. Ini adalah penerbangan alami yang terjadi pada spesies ini. Saya mencoba menentukan jarak di mana kapal mempengaruhi penerbangan sehingga saya dapat mengelompokkan pengamatan sebagai "di hadapan" atau "tanpa" kapal. Saya pikir jarak maks atau titik di mana statistik D dihitung mungkin membuat saya lebih dekat ke tujuan itu.
marcellt
2
Ide buruk - lihat di sini . Dan menggunakan variabel respons untuk memutuskan di mana memecah variabel kontinu sangat buruk, bias estimasi koefisien. Apakah Anda memeriksa kelengkungan dalam kaitan dengan logit dari respons terhadap prediktor?
Scortchi
1
Tidak ada yang salah dengan tes Anda (F vs NF), atau dengan menentukan jarak di mana ECDF terpisah paling jauh; tetapi (a) menggunakan data Anda untuk menentukan kelompok kontrol & perawatan, maka pengujian / pemodelan data yang sama pada kelompok-kelompok itu tidak valid; (B) kecuali Anda benar-benar berpikir ada jarak di mana burung tidak terpengaruh & di mana mereka terpengaruh, itu adalah cara yang buruk untuk memodelkannya bahkan untuk data masa depan; (c) mengingat perbedaan yang jelas antara ECDFs, regresi logistik yang ditentukan dengan tepat harus menunjukkan efek signifikan dari jarak kapal terhadap probabilitas penerbangan.
Scortchi
1
(i) Anda benar-benar tidak ingin membandingkan (A vs A + B) karena Anda kehilangan independensi keduanya dan tes apa pun harus disesuaikan untuk itu (yang akan rumit dalam banyak kasus). Uji A vs B dan jaga independensi. Tidak satu pun dari tes standar akan bekerja sebaliknya. (ii) Anda ingin menghindari diskritisasi prediktor jika dapat dihindari.
Glen_b -Reinstate Monica

Jawaban:

1

Masalah menarik. Saya memiliki dua pemikiran, satu umum dan satu tentang bagaimana mengkarakterisasi data Anda ...

Pertama, berkenaan dengan membandingkan distribusi, saya setuju dengan @Glen_b dan @Scortchi bahwa Anda tidak ingin membandingkan Fly vs All seperti yang ditunjukkan dalam bagan Anda (tetapi ide yang bagus untuk menampilkan plot statistik D). Karena Anda memiliki keyakinan yang kuat tentang di mana distribusi cenderung berbeda, dan tidak hanya berbeda, Anda mungkin ingin mempertimbangkan untuk membandingkan kuantil dari dua distribusi. Ada posting blog yang bagus pada subjek yang bekerja melalui kode R untuk mengembangkan metode pengujian. Dan ada paket R, WRS , yang mengimplementasikan metode pengujian berbasis kuantil.

Kedua, saya akan mempertimbangkan untuk tidak menggunakan uji perbandingan formal secara keseluruhan dan sebagai gantinya menggunakan Weight of Evidence (WOE). Pendekatan ini umumnya digunakan dalam industri yang membutuhkan kerangka kerja keputusan yang berurusan dengan berbagai tingkat risiko di berbagai prediktor. Contohnya termasuk penjaminan asuransi, evaluasi kredit, dan uji klinis.

Dalam pengaturan Anda ada "risiko" awal penerbangan (Anda mengatakan 10%), tetapi kemungkinan penerbangan tampaknya meningkat pesat di hadapan kapal pada jarak tertentu. Dengan menggunakan pendekatan WOE, Anda dapat menyampaikan perubahan peluang penerbangan sebagai fungsi jarak kapal, yang mudah dipahami oleh khalayak awam (yah, setidaknya lebih mudah daripada memahami nilai-p yang terkait dengan statistik uji). Perhatikan bahwa ini terkait erat dengan saran @ Scortchi untuk menggunakan regresi logistik, tetapi dengan WOE Anda tidak berusaha menyesuaikan model regresi.

Ada dokumentasi yang bagus di situs web Statistica untuk menerapkan metode ini, tetapi pengantar terbaik yang saya temukan adalah dalam buku Penilaian Kredit, Pemodelan Respons, dan Penilaian Asuransi: Panduan Praktis untuk Memprakirakan Perilaku Konsumen . Jika Anda mencari pada istilah "WOE" Anda akan menemukan beberapa bagian yang membahas ide tersebut, dan bagian 5.1 membahas contoh lengkap penghitungan WOE (sangat mudah) dan mengevaluasi hasil untuk pengambilan keputusan. Akhirnya, perhatikan bahwa ada posting stackoverflow pada topik ini, yang tidak terlalu berkembang, tetapi ada tautan ke PDF yang berjalan melalui contoh lain dalam konteks pengkodean SAS.

Josh Hemann
sumber