mengapa itu membantu dengan angka yang dibatasi di atas dan di bawah?
Distribusi yang didefinisikan pada adalah apa yang membuatnya cocok sebagai model untuk data pada . Saya tidak berpikir teks menyiratkan apa pun lebih dari "ini adalah model untuk data pada " (atau lebih umum, pada ).( 0 , 1 ) ( 0 , 1 ) ( a , b )( 0 , 1 )( 0 , 1 )( 0 , 1 )( a , b )
distribusi apa ini ...?
Sayangnya, istilah 'distribusi log-odds' tidak sepenuhnya standar (dan bahkan bukan istilah yang sangat umum).
Saya akan membahas beberapa kemungkinan untuk apa artinya. Mari kita mulai dengan mempertimbangkan cara untuk membangun distribusi untuk nilai-nilai dalam interval satuan.
Cara umum untuk memodelkan variabel acak kontinu, dalam adalah distribusi beta , dan cara umum untuk memodelkan proporsi diskrit dalam adalah binomial berskala ( , setidaknya ketika adalah hitungan).( 0 , 1 ) [ 0 , 1 ] P = X / n XP( 0 , 1 )[ 0 , 1 ]P= X/ nX
Alternatif untuk menggunakan distribusi beta adalah dengan mengambil beberapa CDF invers kontinu ( ) dan menggunakannya untuk mengubah nilai dalam ke garis nyata (atau jarang, setengah garis nyata) dan kemudian menggunakan distribusi yang relevan ( ) untuk memodelkan nilai pada rentang yang diubah. Ini membuka banyak kemungkinan, karena setiap pasangan distribusi kontinu pada garis nyata ( ) tersedia untuk transformasi dan model. ( 0 , 1 ) G F , GF- 1( 0 , 1 )GF, G
Jadi, misalnya, transformasi log-odds (juga disebut logit ) akan menjadi salah satu transformasi invers-cdf (menjadi CDF kebalikan dari logistik standar ) , dan kemudian ada banyak distribusi kita mungkin mempertimbangkan sebagai model untuk .YY= log( P1 - P)Y
Kami kemudian dapat menggunakan (misalnya) model logistik untuk , keluarga dua-parameter sederhana pada baris nyata. Mengubah kembali ke melalui transformasi log-odds terbalik (yaitu ) menghasilkan distribusi dua parameter untuk , yang dapat menjadi unimodal, atau berbentuk U, atau berbentuk J, simetris atau miring, dalam banyak hal agak seperti distribusi beta (secara pribadi, saya akan menyebutnya logit-logistik, karena logitnya adalah logistik). Berikut adalah beberapa contoh untuk nilai yang berbeda dari :Y ( 0 , 1 ) P = exp ( Y )( μ , τ)Y( 0 , 1 ) Pμ,τP= exp( Y)1 + exp( Y)Pμ , τ
Melihat penyebutan singkat dalam teks oleh Witten et al, ini mungkin yang dimaksud dengan "distribusi peluang log" - tetapi mereka mungkin dengan mudah berarti sesuatu yang lain.
Kemungkinan lain adalah bahwa logit-normal dimaksudkan.
Namun, istilah tersebut tampaknya telah digunakan oleh van Erp & van Gelder (2008) , misalnya, untuk merujuk pada transformasi log-odds pada distribusi beta (sehingga berlaku mengambil sebagai logistik dan sebagai distribusi log dari variabel acak beta-prime , atau setara dengan distribusi perbedaan log dari dua variabel acak chi-square). Namun, mereka menggunakan ini untuk melakukan proporsi menghitung model , yang terpisah. Ini tentu saja, menyebabkan beberapa masalah (disebabkan oleh mencoba memodelkan distribusi dengan probabilitas hingga pada 0 dan 1 dengan satu pada FG(0,1)[ 1 ]FG( 0 , 1 )), yang mereka tampaknya menghabiskan banyak usaha. (Tampaknya lebih mudah untuk menghindari model yang tidak pantas, tapi mungkin itu hanya aku.)
Beberapa dokumen lain (saya menemukan setidaknya tiga) merujuk pada distribusi sampel log-odds (yaitu pada skala atas) sebagai "distribusi log-odds" (dalam beberapa kasus di mana adalah proporsi diskrit * dan dalam beberapa kasus di mana itu adalah proporsi berkelanjutan) - jadi dalam kasus itu bukan model probabilitas seperti itu, tetapi itu sesuatu yang Anda dapat menerapkan beberapa model distribusi pada garis nyata.PYP
* sekali lagi, ini memiliki masalah bahwa jika tepat 0 atau 1, nilai akan menjadi atau masing-masing ... yang menunjukkan kita harus mengikat distribusi menjauh dari 0 dan 1 untuk menggunakannya untuk tujuan ini .Y - ∞ ∞PY- ∞∞
Disertasi oleh Yan Guo (2009) menggunakan istilah ini untuk merujuk pada distribusi log-logistik , distribusi kemiringan kanan pada setengah garis nyata.[ 2 ]
Jadi seperti yang Anda lihat, itu bukan istilah dengan makna tunggal. Tanpa indikasi yang lebih jelas dari Witten atau salah satu penulis lain dari buku itu, kita dapat menebak apa yang dimaksud.
[1]: Noel van Erp & Pieter van Gelder, (2008),
"Bagaimana Menafsirkan Distribusi Beta dalam Kasus Kerusakan,"
Prosiding Workshop Probabilistik Internasional ke-6 , Darmstadt
pdf link
[2]: Yan Guo, (2009),
Metode Baru pada Sistem NDE Penilaian Kemampuan dan Ketangkasan Pod,
Disertasi diserahkan ke Sekolah Pascasarjana Universitas Negeri Wayne, Detroit, Michigan
Saya seorang insinyur perangkat lunak (bukan ahli statistik) dan saya baru-baru ini membaca sebuah buku berjudul An Introduction to Statistical Learning. Dengan aplikasi dalam R.
Saya pikir yang Anda baca adalah log-odds atau logit. halaman 132
http://www-bcf.usc.edu/~gareth/ISL/ISLR%20Fourth%20Printing.pdf
Buku brilian - saya membacanya dari depan ke belakang. Semoga ini membantu
sumber