Apa itu distribusi peluang log?

11

Saya membaca buku teks tentang pembelajaran mesin (Data Mining oleh Witten, et al., 2011) dan menemukan bagian ini:

... Selain itu, distribusi yang berbeda dapat digunakan. Meskipun distribusi normal biasanya merupakan pilihan yang baik untuk atribut numerik, itu tidak cocok untuk atribut yang memiliki minimum yang telah ditentukan tetapi tidak ada batas atas; dalam hal ini distribusi "log-normal" lebih tepat. Atribut numerik yang dibatasi di atas dan di bawah dapat dimodelkan oleh distribusi "log-odds" .

Saya belum pernah mendengar distribusi ini. Saya mencari Google untuk "distribusi peluang log" tetapi tidak dapat menemukan kecocokan tepat yang relevan. Adakah yang bisa membantu saya? Apa distribusi ini, dan mengapa itu membantu dengan angka yang dibatasi di atas dan di bawah?

PS Saya seorang insinyur perangkat lunak, bukan ahli statistik.

stackoverflowuser2010
sumber

Jawaban:

14

mengapa itu membantu dengan angka yang dibatasi di atas dan di bawah?

Distribusi yang didefinisikan pada adalah apa yang membuatnya cocok sebagai model untuk data pada . Saya tidak berpikir teks menyiratkan apa pun lebih dari "ini adalah model untuk data pada " (atau lebih umum, pada ).( 0 , 1 ) ( 0 , 1 ) ( a , b )(0,1)(0,1)(0,1)(Sebuah,b)

distribusi apa ini ...?

Sayangnya, istilah 'distribusi log-odds' tidak sepenuhnya standar (dan bahkan bukan istilah yang sangat umum).

Saya akan membahas beberapa kemungkinan untuk apa artinya. Mari kita mulai dengan mempertimbangkan cara untuk membangun distribusi untuk nilai-nilai dalam interval satuan.

Cara umum untuk memodelkan variabel acak kontinu, dalam adalah distribusi beta , dan cara umum untuk memodelkan proporsi diskrit dalam adalah binomial berskala ( , setidaknya ketika adalah hitungan).( 0 , 1 ) [ 0 , 1 ] P = X / n XP(0,1)[0,1]P=X/nX

Alternatif untuk menggunakan distribusi beta adalah dengan mengambil beberapa CDF invers kontinu ( ) dan menggunakannya untuk mengubah nilai dalam ke garis nyata (atau jarang, setengah garis nyata) dan kemudian menggunakan distribusi yang relevan ( ) untuk memodelkan nilai pada rentang yang diubah. Ini membuka banyak kemungkinan, karena setiap pasangan distribusi kontinu pada garis nyata ( ) tersedia untuk transformasi dan model. ( 0 , 1 ) G F , GF-1(0,1)GF,G

Jadi, misalnya, transformasi log-odds (juga disebut logit ) akan menjadi salah satu transformasi invers-cdf (menjadi CDF kebalikan dari logistik standar ) , dan kemudian ada banyak distribusi kita mungkin mempertimbangkan sebagai model untuk .YY=catatan(P1-P)Y

Kami kemudian dapat menggunakan (misalnya) model logistik untuk , keluarga dua-parameter sederhana pada baris nyata. Mengubah kembali ke melalui transformasi log-odds terbalik (yaitu ) menghasilkan distribusi dua parameter untuk , yang dapat menjadi unimodal, atau berbentuk U, atau berbentuk J, simetris atau miring, dalam banyak hal agak seperti distribusi beta (secara pribadi, saya akan menyebutnya logit-logistik, karena logitnya adalah logistik). Berikut adalah beberapa contoh untuk nilai yang berbeda dari :Y ( 0 , 1 ) P = exp ( Y )(μ,τ)Y(0,1) Pμ,τP=exp(Y)1+exp(Y)Pμ,τ

masukkan deskripsi gambar di sini

Melihat penyebutan singkat dalam teks oleh Witten et al, ini mungkin yang dimaksud dengan "distribusi peluang log" - tetapi mereka mungkin dengan mudah berarti sesuatu yang lain.

Kemungkinan lain adalah bahwa logit-normal dimaksudkan.

Namun, istilah tersebut tampaknya telah digunakan oleh van Erp & van Gelder (2008) , misalnya, untuk merujuk pada transformasi log-odds pada distribusi beta (sehingga berlaku mengambil sebagai logistik dan sebagai distribusi log dari variabel acak beta-prime , atau setara dengan distribusi perbedaan log dari dua variabel acak chi-square). Namun, mereka menggunakan ini untuk melakukan proporsi menghitung model , yang terpisah. Ini tentu saja, menyebabkan beberapa masalah (disebabkan oleh mencoba memodelkan distribusi dengan probabilitas hingga pada 0 dan 1 dengan satu pada FG(0,1)[1]FG(0,1)), yang mereka tampaknya menghabiskan banyak usaha. (Tampaknya lebih mudah untuk menghindari model yang tidak pantas, tapi mungkin itu hanya aku.)

Beberapa dokumen lain (saya menemukan setidaknya tiga) merujuk pada distribusi sampel log-odds (yaitu pada skala atas) sebagai "distribusi log-odds" (dalam beberapa kasus di mana adalah proporsi diskrit * dan dalam beberapa kasus di mana itu adalah proporsi berkelanjutan) - jadi dalam kasus itu bukan model probabilitas seperti itu, tetapi itu sesuatu yang Anda dapat menerapkan beberapa model distribusi pada garis nyata.PYP

* sekali lagi, ini memiliki masalah bahwa jika tepat 0 atau 1, nilai akan menjadi atau masing-masing ... yang menunjukkan kita harus mengikat distribusi menjauh dari 0 dan 1 untuk menggunakannya untuk tujuan ini .Y - PY-

Disertasi oleh Yan Guo (2009) menggunakan istilah ini untuk merujuk pada distribusi log-logistik , distribusi kemiringan kanan pada setengah garis nyata.[2]

Jadi seperti yang Anda lihat, itu bukan istilah dengan makna tunggal. Tanpa indikasi yang lebih jelas dari Witten atau salah satu penulis lain dari buku itu, kita dapat menebak apa yang dimaksud.

[1]: Noel van Erp & Pieter van Gelder, (2008),
"Bagaimana Menafsirkan Distribusi Beta dalam Kasus Kerusakan,"
Prosiding Workshop Probabilistik Internasional ke-6 , Darmstadt
pdf link

[2]: Yan Guo, (2009),
Metode Baru pada Sistem NDE Penilaian Kemampuan dan Ketangkasan Pod,
Disertasi diserahkan ke Sekolah Pascasarjana Universitas Negeri Wayne, Detroit, Michigan

Glen_b -Reinstate Monica
sumber
1
(+1) Pencarian seluruh buku menunjukkan bahwa tidak ada klarifikasi yang akan datang. Konteksnya menunjukkan bahwa "distribusi peluang-log" mengacu pada beberapa model tertentu, seperti "lognormal" diusulkan dalam kalimat sebelumnya sebagai distribusi universal untuk semua nilai non-negatif (!).
whuber
1
@whuber Saya setuju dengan karakterisasi Anda tentang apa yang ada di buku ini - saya tidak bermaksud bahwa komentar saya yang berkaitan dengan penggunaan istilah dalam konteks lain untuk merujuk pada distribusi sampel menyiratkan bahwa itu adalah maksud dalam buku, tetapi hanya sebagai indikasi itu menjadi istilah dengan beberapa makna. Pada bagian-bagian yang dipertanyakan, saran saya kepada orang-orang yang mempelajari materi ini (seperti banyak hal) adalah membaca lebih dari satu buku.
Glen_b -Reinstate Monica
2

Saya seorang insinyur perangkat lunak (bukan ahli statistik) dan saya baru-baru ini membaca sebuah buku berjudul An Introduction to Statistical Learning. Dengan aplikasi dalam R.

Saya pikir yang Anda baca adalah log-odds atau logit. halaman 132

http://www-bcf.usc.edu/~gareth/ISL/ISLR%20Fourth%20Printing.pdf

Buku brilian - saya membacanya dari depan ke belakang. Semoga ini membantu

JasonEdinburgh
sumber
Terima kasih atas penunjuknya. Dengan asumsi distribusi log-odds sama dengan "distribusi logistik", saya mencari yang terakhir di Wikipedia. Tampaknya PDF-nya tidak memiliki batas bawah atau atas. Jadi saya masih bertanya-tanya mengapa buku teks yang saya kutip pada awalnya mengatakan bahwa "Atribut numerik yang dibatasi di atas dan di bawah dapat dimodelkan" dengan distribusi ini.
stackoverflowuser2010
Saya pikir ini mungkin berbicara tentang output dari fungsi di mana batasnya adalah 0,0 (tidak mungkin) menjadi 1,0 (pasti). (Saya bisa salah di sini)
JasonEdinburgh
Ada kemungkinan bahwa model Anda dapat menghasilkan hasil positif atau negatif yang besar dan sewenang-wenang. Ini mungkin tidak dapat ditafsirkan dalam hal rentang terbatas seperti probabilitas, tetapi bisa ditafsirkan sebagai peluang log menggunakan fungsi logit dan kebalikannya fungsi logistik.
Henry