Ada banyak cara untuk mengukur seberapa mirip dua distribusi probabilitas. Di antara metode yang populer (di lingkaran yang berbeda) adalah:
jarak Kolmogorov: jarak antara fungsi distribusi;
jarak Kantorovich-Rubinstein: perbedaan maksimum antara ekspektasi dengan dua distribusi fungsi dengan konstanta Lipschitz , yang juga ternyata merupakan jarak antara fungsi distribusi;
jarak dibatasi-Lipschitz: seperti jarak KR tetapi fungsi-fungsi juga diharuskan memiliki nilai absolut paling banyak .
Ini memiliki kelebihan dan kekurangan yang berbeda. Hanya konvergensi dalam arti 3. yang sebenarnya sesuai dengan konvergensi dalam distribusi; konvergensi dalam arti 1. atau 2. sedikit lebih kuat secara umum. (Khususnya, jika dengan probabilitas , maka konvergen ke dalam distribusi, tetapi tidak dalam jarak Kolmogorov. Namun, jika distribusi batas kontinu maka patologi ini tidak terjadi. )
Dari perspektif probabilitas elementer atau teori ukuran, 1. sangat alami karena 1. membandingkan probabilitas berada di beberapa set. Di sisi lain, perspektif probabilistik yang lebih canggih cenderung lebih berfokus pada ekspektasi daripada probabilitas. Juga, dari perspektif analisis fungsional, jarak seperti 2. atau 3. berdasarkan dualitas dengan beberapa ruang fungsi sangat menarik, karena ada satu set besar alat matematika untuk bekerja dengan hal-hal seperti itu.
Namun, kesan saya (koreksi saya jika saya salah!) Adalah bahwa dalam statistik, jarak Kolmogorov adalah cara yang biasanya lebih disukai untuk mengukur kesamaan distribusi. Saya bisa menebak satu alasan: jika salah satu distribusi diskrit dengan dukungan yang terbatas - khususnya, jika itu adalah distribusi beberapa data dunia nyata - maka jarak Kolmogorov ke model distribusi mudah dihitung. (Jarak KR akan sedikit lebih sulit untuk dihitung, dan jarak BL mungkin tidak mungkin secara praktis.)
Jadi pertanyaan saya (akhirnya) adalah, adakah alasan lain, baik praktis atau teoritis, untuk mendukung jarak Kolmogorov (atau jarak lain) untuk keperluan statistik?
sumber
Jawaban:
Menandai,
alasan utama yang saya sadari untuk penggunaan KS adalah karena KS muncul secara alami dari teorema Glivenko-Cantelli dalam proses empiris univariat. Satu referensi yang saya rekomendasikan adalah AWvan der Vaart "Statistik Asimptotik", ch. 19. Monograf yang lebih maju adalah "Konvergensi Lemah dan Proses Empiris" oleh Wellner dan van der Vaart.
Saya akan menambahkan dua catatan cepat:
Saya minta maaf jika saya tidak bisa lebih spesifik. Saya harap ini membantu.
sumber
Masalah komputasi adalah argumen terkuat yang pernah saya dengar. Satu-satunya keuntungan terbesar dari jarak Kolmogorov adalah sangat mudah untuk menghitung secara analitik untuk hampir semua CDF. Sebagian besar metrik jarak lain tidak memiliki ekspresi bentuk tertutup kecuali, kadang-kadang, dalam kasus Gaussian.
Jarak Kolmogorov sampel juga memiliki distribusi sampling yang diketahui diberikan CDF (saya tidak berpikir sebagian besar yang lain), yang akhirnya terkait dengan proses Wiener. Ini adalah dasar untuk uji Kolmogorov-Smirnoff untuk membandingkan sampel dengan distribusi atau dua sampel satu sama lain.
Pada catatan analisis yang lebih fungsional, norma sup baik dalam hal itu (seperti yang Anda sebutkan) itu pada dasarnya mendefinisikan konvergensi seragam. Ini membuat Anda dengan konvergensi norma yang menyiratkan konvergensi searah, dan jika Anda pintar tentang bagaimana Anda menentukan urutan fungsi Anda, Anda dapat bekerja dalam RKHS dan menggunakan semua alat bagus yang menyediakan juga.
sumber
Sebagai rangkuman , jawaban saya adalah: jika Anda memiliki ekspresi eksplisit atau dapat mencari cara bagaimana mengukur jarak Anda (apa "perbedaan" itu memberi bobot untuk), maka Anda dapat mengatakan apa yang lebih baik untuk. Cara pelengkap lain untuk menganalisis dan membandingkan tes tersebut adalah teori minimax.
Pada akhirnya beberapa tes akan baik untuk beberapa alternatif dan beberapa untuk yang lain. Untuk serangkaian alternatif tertentu, kadang-kadang mungkin untuk menunjukkan apakah tes Anda memiliki properti optimal dalam kasus terburuk: ini adalah teori minimax.
Beberapa detail
Karenanya Anda dapat mengetahui tentang sifat-sifat dari dua pengujian yang berbeda dengan memperhatikan sekumpulan alternatif yang minimax (jika ada alternatif) yaitu (menggunakan kata Donoho dan Jin) dengan membandingkan "boudary deteksi optimal" http: // projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1085408492 .
Biarkan saya pergi jarak demi jarak:
Jarak KS diperoleh dengan menghitung supremum perbedaan antara cdf empiris dan cdf. Menjadi suppremum akan sangat sensitif terhadap alternatif lokal (perubahan lokal dalam cdf) tetapi tidak dengan perubahan global (setidaknya menggunakan jarak L2 antara cdf akan menjadi kurang lokal (Apakah saya membuka pintu terbuka?)). Namun, yang paling penting adalah menggunakan cdf. Ini menyiratkan sebuah asimetri: Anda lebih mementingkan perubahan pada ekor distribusi Anda.
Metrik Wassertein (apa yang Anda maksud dengan Kantorovitch Rubinstein?) Http://en.wikipedia.org/wiki/Wasserstein_metric ada di mana-mana dan karenanya sulit untuk dibandingkan.
Untuk mengingat dan menyampaikan komentar yang saya buat yang melengkapi jawabannya:
Saya tahu Anda tidak bermaksud lengkap tetapi Anda dapat menambahkan statistik sayang Anderson (lihat http://en.wikipedia.org/wiki/Anderson%E2%80%93Dlingling_test ). Ini membuat saya mengingatkan pada sebuah makalah dari Jager dan Wellner (lihat http://projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1194461721 ) yang memperluas / generalisasi statistik Anderson sayang (dan termasuk khususnya kritik yang lebih tinggi terhadap Tukey). Kritik yang lebih tinggi sudah terbukti minimax untuk berbagai alternatif dan hal yang sama dilakukan oleh Jager dan Wellner untuk perluasan mereka. Saya tidak berpikir bahwa properti minimax telah ditunjukkan untuk tes Kolmogorov. Pokoknya, memahami untuk jenis alternatif tes Anda minimax membantu Anda untuk mengetahui di mana kekuatannya, jadi Anda harus membaca makalah di atas ..
sumber
Saya pikir Anda harus mempertimbangkan keunggulan teoretis vs terapan dari gagasan jarak yang berbeda. Objek yang secara matematis alami tidak harus diterjemahkan dengan baik ke dalam aplikasi. Kolmogorov-Smirnov adalah yang paling terkenal untuk aplikasi, dan mengakar dalam pengujian untuk kebaikan cocok. Saya kira bahwa salah satu alasan untuk ini adalah bahwa ketika distribusi yang mendasari kontinu distribusi statistik independen dari . Lain adalah bahwa hal itu dapat dengan mudah dibalik untuk memberikan band kepercayaan untuk CDF.FF F
Tapi ini sering digunakan dengan cara yang berbeda di mana diperkirakan oleh , dan statistik uji mengambil bentuk Yang menarik adalah melihat seberapa baik cocok dengan data dan bertindak seolah-olah , meskipun teori asimptotik tidak selalu berlaku.F F^
sumber
Saya tidak bisa memberi Anda alasan tambahan untuk menggunakan tes Kolmogorov-Smirnov. Tapi, saya bisa memberi Anda alasan penting untuk tidak menggunakannya. Itu tidak cocok dengan ekor distribusi dengan baik. Dalam hal ini, uji pas distribusi yang unggul adalah Anderson-Darling. Sebagai yang terbaik kedua, uji Chi Square cukup bagus. Keduanya dianggap jauh lebih unggul daripada tes KS dalam hal ini.
sumber
Dari sudut pandang analisis fungsional dan teori ukuran, jarak tipe tidak mendefinisikan set terukur pada ruang fungsi (ruang dimensi tak terbatas kehilangan aditif yang dapat dihitung dalam penutup bola metrik). Ini dengan tegas mendiskualifikasi segala jenis interpretasi terukur dari jarak pilihan 2 & 3.Lp
Tentu saja Kolomogorov, yang jauh lebih terang daripada kami yang memposting, terutama saya sendiri, mengantisipasi hal ini. Bit pintar adalah bahwa sementara jarak dalam uji KS adalah dari varietas , norma seragam itu sendiri tidak digunakan untuk menentukan set yang terukur. Alih-alih set adalah bagian dari filtrasi stokastik pada perbedaan antara distribusi dievaluasi pada nilai-nilai yang diamati; yang setara dengan masalah waktu berhenti.L0
Singkatnya, jarak norma seragam pilihan 1 lebih disukai karena tes yang disiratkannya setara dengan masalah waktu berhenti, yang dengan sendirinya menghasilkan probabilitas komputasi yang dapat ditelusur secara komputasional. Sedangkan pilihan 2 & 3 tidak dapat menentukan himpunan bagian fungsi yang terukur.
sumber