Dalam statistik, haruskah saya menganggap

18

Saya sedang mempelajari statistik dan sering menemukan formula yang mengandung logdan saya selalu bingung jika saya harus menafsirkannya sebagai makna standar log, yaitu basis 10, atau jika dalam statistik simbol log umumnya dianggap sebagai log natural ln.

Khususnya saya sedang mempelajari Estimasi Frekuensi Good-Turing sebagai contoh, tetapi pertanyaan saya lebih umum.

Giuseppe Romagnuolo
sumber
2
"Untuk banyak aplikasi, logaritma natural dari fungsi likelihood, yang disebut log-likelihood, lebih nyaman digunakan." en.wikipedia.org/wiki/Likelihood_function#Log-likelihood Dalam statistik kita sering bekerja dengan fungsi likelihood, biasanya lnyang dipertimbangkan. Namun, keduanya berhubungan: log(x) = ln(x) / ln(10) = ln(x) / 2.303, dan ln fungsi -likelihood mencapai ekstrem pada titik yang sama seperti log10 fungsi -likelihood.
John_West
5
Dalam beberapa area aplikasi tertentu, ketika disebutkan, basis 10 dimaksudkan, tetapi seperti yang ditunjukkan Aksakal, jika tidak konvensi yang digunakan dalam matematika - bahwa log tanpa hiasan berarti log natural. loglog
Glen_b -Reinstate Monica
2
Sebagai @John_West mengatakan dan l o g a ( x ) adalah identik sampai dengan faktor skala. Jadi mereka hanya sama dengan yang Anda ukur di unit lain. ln(x)loga(x)
1
@Aksakal; apa yang Anda katakan datang untuk mengatakan bahwa unit ini penting (lihat supra komentar saya), yang saya setujui. Saya juga menulis secara eksplisit menunjukkan dasar. Namun untuk beberapa aplikasi dalam statistik seperti kemungkinan maksimum, faktor penskalaan ini tidak relevan. Maksimum tidak akan berubah setelah menambahkan faktor penskalaan. Dalam referensi OP (baik-turing ...) mereka ingin plot l o g ( N r ) (atau l o g ( Z r ) ) vs l o g ( r )logalog(Nr)log(Zr)log(r). Ini berarti bahwa unit berubah pada kedua sumbu plot sehingga plot '' kurva '' tidak berubah.
1
Kecuali Anda menulis makalah, bahkan ketika menggunakan log-kemungkinan skala (basis logaritma) biasanya penting. Misalnya, statistik uji rasio kemungkinan log menggunakan , Anda harus menyesuaikan dari pangkalan lain untuk menggunakan nilai kritis. Jika Anda menulis perangkat lunak, penting untuk mendapatkan pangkalan dengan benar saat menggunakan fungsi kemungkinan log dari kertas dll. Ada terlalu banyak kasus di mana pangkalan penting untuk menyatakan bahwa itu tidak masalah. ln
Aksakal

Jawaban:

20

Aman untuk berasumsi bahwa tanpa basis eksplisit = ln dalam statistik, karena log basis 10 tidak sering digunakan dalam statistik. Namun, poster lain memunculkan titik bahwa log 10 atau pangkalan lain dapat menjadi umum di beberapa bidang lain, di mana statistik diterapkan, misalnya teori informasi. Jadi, ketika Anda membaca makalah di bidang lain, itu terkadang membingungkan.log=lnlog10

Halaman entropi Wikipedia adalah contoh yang baik untuk membingungkan penggunaan . Di halaman yang sama yang mereka maksud adalah basis 2, e dan basis apa pun. Anda dapat mengetahui konteks mana yang dimaksud, tetapi itu membutuhkan membaca teks. Ini bukan cara yang baik untuk menyajikan materi. Bandingkan dengan halaman Logaritma di mana basis ditampilkan dengan jelas di setiap rumus atau ln digunakan. Saya pribadi berpikir ini adalah cara untuk pergi: selalu tunjukkan basis ketika tanda log digunakan. Ini juga akan sesuai dengan ISO untuk standar tidak mendefinisikan penggunaan basis tidak ditentukan dengan simbol log seperti @Henry tunjukkan.logelnloglog

Akhirnya, standar ISO 31-11 menetapkan dan lg untuk logaritma basis 2 dan 10. Keduanya jarang digunakan akhir-akhir ini. Saya ingat bahwa kami menggunakan lg di sekolah menengah, tetapi itu di abad lain di dunia lain. Saya belum pernah melihatnya sejak digunakan dalam konteks statistik. Bahkan tidak ada tag untuk lb di LaTeX.lblglglb

Aksakal
sumber
1
Logaritma basis 2 juga cukup umum di beberapa bidang. Log tanpa hiasan jarang basis 10, tapi itu tidak selalu basis e .
Nuclear Wang
Bermanfaat, tapi saya pikir "jarang" terlalu kuat. Ada bidang substantif di mana orang mungkin hanya tahu tentang, atau paling tidak merasa paling akrab dengan, basis 10 logaritma. Perhatikan bahwa banyak grafik menunjukkan skala logaritmik menggunakan pangkat 10. Seseorang yang lebih suka logaritma natural tidak menemukan kesulitan untuk memecahkan kode skala tersebut, tetapi anggapannya adalah basis 10.
Nick Cox
@NickCox, OP secara khusus menyatakan "statistik" sebagai bidang, dan saya tidak melihat basis 10 logaritma yang sering digunakan dalam statistik.
Aksakal
ISO 31-11 tampaknya menentukan untuk log e , dan membiarkan log tanpa hiasan tidak ditentukanlnlogelog
Henry
1
@NickCox, saya melunakkan bahasanya, Anda memunculkan poin yang adil
Aksakal
14

Tergantung.

Di luar beberapa konteks, seperti mengkonversi nilai menjadi desibel, basis 10 logaritma cukup langka dalam persamaan. Namun, plot skala log sering kali berada di basis-10, meskipun ini seharusnya cukup mudah diverifikasi dari label pada sumbu.

Dalam konteks matematika, tanpa hiasan cenderung menjadi log alami (yaitu, log e atau ln ). Di sisi lain, ilmu komputer sering menggunakan logaritma basis-2 ( log 2 ), dan mereka tidak selalu ditandai dengan jelas seperti itu. Berita baiknya adalah bahwa Anda dapat mengonversi antar pangkalan secara sepele dan menggunakan basis "salah" hanya akan membuat jawaban Anda keluar dengan faktor konstan.loglogelnlog2

Dalam makalah "Good-Turing Without Tears" Gale tahun 1995 , logaritma dalam teks sebenarnya adalah (dikatakan demikian pada halaman 5), tetapi kode R / S + dalam lampiran menggunakan fungsi, yang sebenarnya adalah log e atau ln . Seperti yang ditunjukkan @Henry di bawah ini, ini tidak membuat perbedaan praktis.log10loglogeln

Jika saya terpaksa menebak, berikut adalah beberapa heuristik:

  • Jika kekuatan 2, , atau 10 juga hadir, log cenderung memiliki basis yang sesuai.e

  • Jika muncul dari pengintegrasian (atau, lebih umum, melibatkan kalkulus), itu kemungkinan merupakan log alami.1/x

  • Jika itu muncul dari berulang kali membagi sesuatu menjadi dua (seperti dalam pencarian biner), itu kemungkinan . Secara umum, sesuatu dapat dibagi dengan n kira-kira log n kali.log2nlogn

  • Penghitungan informasi-teori biasanya menggunakan , terutama dalam pekerjaan modern. Namun, Anda dapat memeriksa unit untuk memastikan: bitslog 2 , natsln , dan banslog 10 .log2bitslog2natslnbanslog10

  • Menemukan titik di mana suatu fungsi jatuh atau naik ke , (masing-masing 37% dan 63%) dari nilai awal menunjukkan log natural.1e or 11e

Matt Krause
sumber
5
+1. Sebuah tip kecil adalah bahwa jika exponentials ditemukan di dekatnya maka logaritma natural lebih mungkin dan sebaliknya dengan kekuatan 10 atau 2. Jika basis mana yang digunakan tetap tidak jelas, cobalah untuk mereproduksi contoh perhitungan penulis. exp()
Nick Cox
2
Karena grafik pada halaman 6 dan 7 dari makalah Gale menunjukkan unit asli pada skala log, dan perhitungannya ditujukan pada kemiringan hubungan log-log, yaitu dalam log ekspresi ( N r ) = a + b log ( r ) yang sesuai dengan N r = A r b , tidak ada perbedaan praktis dalam kasus iniblog(Nr)=a+blog(r)Nr=Arb
Henry
2
Contoh lain dari adalah ketika menepuk-nepuk data pasar saham, saat menggunakan sumbu harga log selalu menjadi basis 10.base10
Marcus D
3

Untuk menjawab pertanyaan Anda: tidak, Anda tidak dapat mengasumsikan notasi tetap umum untuk logaritma.

log10

lnxlogexelogx10log10

log2log2loge

0

loglogelog10

Laurent Duval
sumber
0

Dalam Kriteria Informasi Akaike dasarnya adalahe, dan dalam(L.^) dari kemungkinan maksimum L.^ sedang dibandingkan secara aditif dengan jumlah parameter k:

SEBUAHsayaC=2(k-dalam(L.)).

Dengan demikian tampaknya jika Anda menggunakan basis lain untuk logaritma di AIC, Anda mungkin berakhir menarik kesimpulan yang salah dan memilih model yang salah.

Bjørn Kjos-Hanssen
sumber