Motivasi untuk jarak Kolmogorov antara distribusi

45

Ada banyak cara untuk mengukur seberapa mirip dua distribusi probabilitas. Di antara metode yang populer (di lingkaran yang berbeda) adalah:

  1. jarak Kolmogorov: jarak antara fungsi distribusi;

  2. jarak Kantorovich-Rubinstein: perbedaan maksimum antara ekspektasi dengan dua distribusi fungsi dengan konstanta Lipschitz , yang juga ternyata merupakan jarak antara fungsi distribusi;1L1

  3. jarak dibatasi-Lipschitz: seperti jarak KR tetapi fungsi-fungsi juga diharuskan memiliki nilai absolut paling banyak .1

Ini memiliki kelebihan dan kekurangan yang berbeda. Hanya konvergensi dalam arti 3. yang sebenarnya sesuai dengan konvergensi dalam distribusi; konvergensi dalam arti 1. atau 2. sedikit lebih kuat secara umum. (Khususnya, jika dengan probabilitas , maka konvergen ke dalam distribusi, tetapi tidak dalam jarak Kolmogorov. Namun, jika distribusi batas kontinu maka patologi ini tidak terjadi. )Xn=1n1Xn0

Dari perspektif probabilitas elementer atau teori ukuran, 1. sangat alami karena 1. membandingkan probabilitas berada di beberapa set. Di sisi lain, perspektif probabilistik yang lebih canggih cenderung lebih berfokus pada ekspektasi daripada probabilitas. Juga, dari perspektif analisis fungsional, jarak seperti 2. atau 3. berdasarkan dualitas dengan beberapa ruang fungsi sangat menarik, karena ada satu set besar alat matematika untuk bekerja dengan hal-hal seperti itu.

Namun, kesan saya (koreksi saya jika saya salah!) Adalah bahwa dalam statistik, jarak Kolmogorov adalah cara yang biasanya lebih disukai untuk mengukur kesamaan distribusi. Saya bisa menebak satu alasan: jika salah satu distribusi diskrit dengan dukungan yang terbatas - khususnya, jika itu adalah distribusi beberapa data dunia nyata - maka jarak Kolmogorov ke model distribusi mudah dihitung. (Jarak KR akan sedikit lebih sulit untuk dihitung, dan jarak BL mungkin tidak mungkin secara praktis.)

Jadi pertanyaan saya (akhirnya) adalah, adakah alasan lain, baik praktis atau teoritis, untuk mendukung jarak Kolmogorov (atau jarak lain) untuk keperluan statistik?

Tandai Meckes
sumber
1
Saya suka pertanyaannya, mungkin sudah ada sebagian besar jawaban yang mungkin dalam pertanyaan ... apakah Anda memiliki gagasan tentang jenis jawaban / pengembangan yang Anda inginkan?
robin girard
1
Tidak terlalu spesifik. Saya tidak tahu apa-apa tentang statistik dan salah satu alasan saya bertanya adalah mempelajari kriteria mana yang akan digunakan oleh para ahli statistik untuk memilih di antara berbagai metrik. Karena saya sudah menggambarkan satu keuntungan praktis penting dari 1 (Anda sebenarnya dapat menghitungnya), saya terutama tertarik pada motivasi teoretis. Katakanlah, apakah informasi yang diberikan oleh perkiraan jarak Kolmogorov sering digunakan langsung dalam aplikasi?
Mark Meckes
Saya lupa mengakhiri komentar saya sebelumnya dengan lebih atau kurang jelas: dan jika demikian, bagaimana?
Mark Meckes
Saya hanya membaca ulang komentar panjang saya di atas dan menyadari bahwa pertanyaan terakhir yang saya ajukan adalah pertimbangan praktis dan juga teoretis. Bagaimanapun, itulah salah satu masalah yang saya tertarik untuk pelajari.
Mark Meckes
Saya tahu Anda tidak bermaksud lengkap tetapi Anda dapat menambahkan statistik sayang Anderson (lihat en.wikipedia.org/wiki/Anderson%E2%80%93Dlingling_test ). Ini membuat saya teringat pada sebuah makalah dari Jager dan Wellner (lihat projecteuclid.org/... ) yang memperluas / menggeneralisasikan statistik sayang Anderson (dan termasuk khususnya kritik yang lebih tinggi terhadap Tukey) ...
robin girard

Jawaban:

12

Menandai,

alasan utama yang saya sadari untuk penggunaan KS adalah karena KS muncul secara alami dari teorema Glivenko-Cantelli dalam proses empiris univariat. Satu referensi yang saya rekomendasikan adalah AWvan der Vaart "Statistik Asimptotik", ch. 19. Monograf yang lebih maju adalah "Konvergensi Lemah dan Proses Empiris" oleh Wellner dan van der Vaart.

Saya akan menambahkan dua catatan cepat:

  1. ukuran jarak lain yang biasa digunakan dalam distribusi univariat adalah jarak Cramer-von Mises, yang merupakan jarak L ^ 2;
  2. dalam ruang vektor umum jarak yang berbeda digunakan; ruang yang menarik di banyak surat kabar adalah Polandia. Pengantar yang sangat bagus adalah "Konvergensi Ukuran Probabilitas" Billingsley.

Saya minta maaf jika saya tidak bisa lebih spesifik. Saya harap ini membantu.

gappy
sumber
2
Dua catatan cepat di catatan Anda. 1. Jarak C-vM tepatnya adalah sepupu L ^ 2 dari Kolmogorov (L ^ infinity) dan (univariat) KR (L ^ 1) jarak, dan karenanya interpolasi di antara mereka. 2. Satu keuntungan yang saya tidak sebutkan dari jarak KR dan BL adalah bahwa mereka menggeneralisasi lebih alami ke ruang dimensi yang lebih tinggi.
Mark Meckes
Mengenai 1., itu benar. Mengenai 2. Pada prinsipnya semua jarak di atas dapat terbawa ke R ^ n, namun saya tidak tahu tes non-parametrik populer berdasarkan jarak apa pun . Akan menarik untuk mengetahui jika ada.
gappy
8

Masalah komputasi adalah argumen terkuat yang pernah saya dengar. Satu-satunya keuntungan terbesar dari jarak Kolmogorov adalah sangat mudah untuk menghitung secara analitik untuk hampir semua CDF. Sebagian besar metrik jarak lain tidak memiliki ekspresi bentuk tertutup kecuali, kadang-kadang, dalam kasus Gaussian.

Jarak Kolmogorov sampel juga memiliki distribusi sampling yang diketahui diberikan CDF (saya tidak berpikir sebagian besar yang lain), yang akhirnya terkait dengan proses Wiener. Ini adalah dasar untuk uji Kolmogorov-Smirnoff untuk membandingkan sampel dengan distribusi atau dua sampel satu sama lain.

Pada catatan analisis yang lebih fungsional, norma sup baik dalam hal itu (seperti yang Anda sebutkan) itu pada dasarnya mendefinisikan konvergensi seragam. Ini membuat Anda dengan konvergensi norma yang menyiratkan konvergensi searah, dan jika Anda pintar tentang bagaimana Anda menentukan urutan fungsi Anda, Anda dapat bekerja dalam RKHS dan menggunakan semua alat bagus yang menyediakan juga.

Kaya
sumber
8

Sebagai rangkuman , jawaban saya adalah: jika Anda memiliki ekspresi eksplisit atau dapat mencari cara bagaimana mengukur jarak Anda (apa "perbedaan" itu memberi bobot untuk), maka Anda dapat mengatakan apa yang lebih baik untuk. Cara pelengkap lain untuk menganalisis dan membandingkan tes tersebut adalah teori minimax.

Pada akhirnya beberapa tes akan baik untuk beberapa alternatif dan beberapa untuk yang lain. Untuk serangkaian alternatif tertentu, kadang-kadang mungkin untuk menunjukkan apakah tes Anda memiliki properti optimal dalam kasus terburuk: ini adalah teori minimax.


Beberapa detail

Karenanya Anda dapat mengetahui tentang sifat-sifat dari dua pengujian yang berbeda dengan memperhatikan sekumpulan alternatif yang minimax (jika ada alternatif) yaitu (menggunakan kata Donoho dan Jin) dengan membandingkan "boudary deteksi optimal" http: // projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1085408492 .

Biarkan saya pergi jarak demi jarak:

  1. Jarak KS diperoleh dengan menghitung supremum perbedaan antara cdf empiris dan cdf. Menjadi suppremum akan sangat sensitif terhadap alternatif lokal (perubahan lokal dalam cdf) tetapi tidak dengan perubahan global (setidaknya menggunakan jarak L2 antara cdf akan menjadi kurang lokal (Apakah saya membuka pintu terbuka?)). Namun, yang paling penting adalah menggunakan cdf. Ini menyiratkan sebuah asimetri: Anda lebih mementingkan perubahan pada ekor distribusi Anda.

  2. Metrik Wassertein (apa yang Anda maksud dengan Kantorovitch Rubinstein?) Http://en.wikipedia.org/wiki/Wasserstein_metric ada di mana-mana dan karenanya sulit untuk dibandingkan.

    • Untuk kasus khusus W2 telah digunakan di http://projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1017938923 dan ini terkait dengan jarak L2 ke kebalikan dari cdf. Pemahaman saya adalah memberi bobot lebih pada ekornya, tetapi saya pikir Anda harus membaca koran untuk mengetahui lebih banyak tentang itu.
    • Untuk kasus jarak L1 antara fungsi densitas, itu akan sangat tergantung pada bagaimana Anda memperkirakan fungsi dentitas Anda dari data ... tetapi sebaliknya itu tampaknya menjadi "tes seimbang" yang tidak memberi arti penting pada ekor.

Untuk mengingat dan menyampaikan komentar yang saya buat yang melengkapi jawabannya:

Saya tahu Anda tidak bermaksud lengkap tetapi Anda dapat menambahkan statistik sayang Anderson (lihat http://en.wikipedia.org/wiki/Anderson%E2%80%93Dlingling_test ). Ini membuat saya mengingatkan pada sebuah makalah dari Jager dan Wellner (lihat http://projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aos/1194461721 ) yang memperluas / generalisasi statistik Anderson sayang (dan termasuk khususnya kritik yang lebih tinggi terhadap Tukey). Kritik yang lebih tinggi sudah terbukti minimax untuk berbagai alternatif dan hal yang sama dilakukan oleh Jager dan Wellner untuk perluasan mereka. Saya tidak berpikir bahwa properti minimax telah ditunjukkan untuk tes Kolmogorov. Pokoknya, memahami untuk jenis alternatif tes Anda minimax membantu Anda untuk mengetahui di mana kekuatannya, jadi Anda harus membaca makalah di atas ..

robin girard
sumber
1
Ya, apa yang saya sebut jarak Kantorovitch-Rubinstein juga disebut jarak L ^ 1 Wasserstein atau W1. Itu berjalan dengan banyak nama lain juga.
Mark Meckes
3
Hanya untuk memperjelas bagi siapa pun yang tidak mengenal jarak Wasserstein yang membaca ini dan jawaban senang: jarak L ^ 2 Wasserstein (W2) tidak sama dengan jarak Cramer-von Mises.
Mark Meckes
4

Saya pikir Anda harus mempertimbangkan keunggulan teoretis vs terapan dari gagasan jarak yang berbeda. Objek yang secara matematis alami tidak harus diterjemahkan dengan baik ke dalam aplikasi. Kolmogorov-Smirnov adalah yang paling terkenal untuk aplikasi, dan mengakar dalam pengujian untuk kebaikan cocok. Saya kira bahwa salah satu alasan untuk ini adalah bahwa ketika distribusi yang mendasari kontinu distribusi statistik independen dari . Lain adalah bahwa hal itu dapat dengan mudah dibalik untuk memberikan band kepercayaan untuk CDF.FFF

Tapi ini sering digunakan dengan cara yang berbeda di mana diperkirakan oleh , dan statistik uji mengambil bentuk Yang menarik adalah melihat seberapa baik cocok dengan data dan bertindak seolah-olah , meskipun teori asimptotik tidak selalu berlaku.FF^

supx|Fn(x)F^(x)|.
F^F^=F
vqv
sumber
3

Saya tidak bisa memberi Anda alasan tambahan untuk menggunakan tes Kolmogorov-Smirnov. Tapi, saya bisa memberi Anda alasan penting untuk tidak menggunakannya. Itu tidak cocok dengan ekor distribusi dengan baik. Dalam hal ini, uji pas distribusi yang unggul adalah Anderson-Darling. Sebagai yang terbaik kedua, uji Chi Square cukup bagus. Keduanya dianggap jauh lebih unggul daripada tes KS dalam hal ini.

Sympa
sumber
2

Dari sudut pandang analisis fungsional dan teori ukuran, jarak tipe tidak mendefinisikan set terukur pada ruang fungsi (ruang dimensi tak terbatas kehilangan aditif yang dapat dihitung dalam penutup bola metrik). Ini dengan tegas mendiskualifikasi segala jenis interpretasi terukur dari jarak pilihan 2 & 3.Lp

Tentu saja Kolomogorov, yang jauh lebih terang daripada kami yang memposting, terutama saya sendiri, mengantisipasi hal ini. Bit pintar adalah bahwa sementara jarak dalam uji KS adalah dari varietas , norma seragam itu sendiri tidak digunakan untuk menentukan set yang terukur. Alih-alih set adalah bagian dari filtrasi stokastik pada perbedaan antara distribusi dievaluasi pada nilai-nilai yang diamati; yang setara dengan masalah waktu berhenti.L0

Singkatnya, jarak norma seragam pilihan 1 lebih disukai karena tes yang disiratkannya setara dengan masalah waktu berhenti, yang dengan sendirinya menghasilkan probabilitas komputasi yang dapat ditelusur secara komputasional. Sedangkan pilihan 2 & 3 tidak dapat menentukan himpunan bagian fungsi yang terukur.

Aaron Sheldon
sumber