Dalam penelitian saya, saya telah mengalami masalah umum berikut: Saya memiliki dua distribusi dan di domain yang sama, dan sejumlah besar sampel (tetapi terbatas) dari distribusi tersebut. Sampel didistribusikan secara independen dan identik dari salah satu dari dua distribusi ini (meskipun distribusi mungkin terkait: misalnya, mungkin campuran dan beberapa distribusi lainnya.) Hipotesis nol adalah bahwa sampel berasal dari , hipotesis alternatif adalah bahwa sampel berasal dari .
Saya mencoba untuk mengkarakterisasi Tipe I dan Tipe kesalahan II dalam pengujian sampel, mengetahui distribusi dan . Terutama, saya tertarik berlari satu kesalahan diberikan yang lain, selain pengetahuan tentang dan .
Saya telah mengajukan pertanyaan pada math.SE tentang hubungan jarak Variasi Total antara dan untuk pengujian hipotesis, dan menerima jawaban yang saya terima. Jawaban itu masuk akal, tetapi saya masih belum bisa membungkus pikiran saya di sekitar makna yang lebih dalam di balik hubungan Total Variation distance dan pengujian hipotesis yang berkaitan dengan masalah saya. Jadi, saya memutuskan untuk beralih ke forum ini.
Pertanyaan pertama saya adalah: apakah variasi total terikat pada jumlah probabilitas kesalahan Tipe I dan Tipe II terlepas dari metode pengujian hipotesis yang digunakan seseorang? Intinya, selama ada probabilitas bukan nol bahwa sampel dapat dihasilkan oleh salah satu distribusi, probabilitas setidaknya satu kesalahan harus bukan nol. Pada dasarnya, Anda tidak dapat melepaskan diri dari kemungkinan bahwa penguji hipotesis Anda akan membuat kesalahan, tidak peduli berapa banyak pemrosesan sinyal yang Anda lakukan. Dan Total Variasi membatasi kemungkinan itu. Apakah pemahaman saya benar?
Ada juga hubungan lain antara kesalahan Tipe I dan II dan distribusi probabilitas yang mendasari dan : divergensi KL . Dengan demikian, pertanyaan kedua saya adalah: apakah KL-divergence terikat hanya berlaku untuk satu metode pengujian hipotesis tertentu (tampaknya banyak muncul di sekitar metode rasio log-likelihood) atau dapatkah seseorang menerapkannya secara umum di semua metode pengujian hipotesis? Jika itu berlaku di semua metode pengujian hipotesis, daripada mengapa tampaknya sangat berbeda dari Total Variasi terikat? Apakah itu berperilaku berbeda?Q
Dan pertanyaan mendasar saya adalah: apakah ada serangkaian keadaan yang ditentukan ketika saya harus menggunakan salah satu ikatan, atau apakah itu murni masalah kenyamanan? Kapan hasil harus diperoleh dengan menggunakan satu ikatan dengan yang lain?
Saya minta maaf jika pertanyaan ini sepele. Saya seorang ilmuwan komputer (jadi ini sepertinya masalah pencocokan pola mewah bagi saya :).) Saya tahu teori informasi dengan cukup baik, dan memiliki latar belakang lulusan dalam teori probabilitas juga. Namun, saya baru mulai mempelajari semua hal pengujian hipotesis ini. Jika perlu, saya akan melakukan yang terbaik untuk mengklarifikasi pertanyaan saya.
Jawab pertanyaan pertama Anda: Ya, satu minus jarak variasi total adalah batas bawah jumlah tingkat kesalahan Tipe I + Tipe II. Batas bawah ini berlaku apa pun algoritma pengujian hipotesis yang Anda pilih.
Pembenaran: The jawaban yang Anda punya di Math.SE memberikan bukti standar fakta ini. Perbaiki tes hipotesis. Biarkan menunjukkan himpunan hasil di mana tes ini akan menolak hipotesis nol (himpunan seperti itu harus selalu ada). Kemudian perhitungan dalam jawaban Math.SE membuktikan batas bawah.A
(Sebenarnya, garis penalaran ini mengasumsikan bahwa uji hipotesis Anda adalah prosedur deterministik. Tetapi bahkan jika Anda mempertimbangkan prosedur acak, masih mungkin untuk menunjukkan bahwa ikatan yang sama masih berlaku.)
sumber