Saya seorang pemula untuk statistik dan menemukan ini .
Dalam statistik, θ, huruf Yunani kecil 'theta', adalah nama biasa untuk (vektor) parameter (s) dari beberapa distribusi probabilitas umum. Masalah umum adalah menemukan nilai theta. Perhatikan bahwa tidak ada artinya dalam penamaan parameter dengan cara ini. Kita mungkin menyebutnya hal lain. Bahkan, banyak distribusi memiliki parameter yang biasanya diberi nama lain. Sebagai contoh, itu adalah penggunaan umum untuk nama mean dan deviasi dari distribusi normal μ (baca: 'mu') dan deviasi σ ('sigma'), masing-masing.
Tetapi saya masih tidak tahu apa artinya itu dalam bahasa Inggris biasa?
terminology
Kamilski81
sumber
sumber
Jawaban:
Ini bukan konvensi, tetapi cukup sering singkatan dari set parameter distribusi.θ
Itu untuk bahasa Inggris biasa, mari kita tunjukkan contohnya.
Contoh 1. Anda ingin mempelajari lemparan paku payung kuno (yang memiliki alas bundar besar). Anda berasumsi bahwa probabilitas jatuh itu adalah nilai yang tidak diketahui yang Anda panggil . Anda dapat memanggil variabel acak X dan mengatakan bahwa X = 1 saat paku payung jatuh ke bawah dan X = 0 saat jatuh ke atas. Anda akan menulis modelnyaθ X X=1 X=0
dan Anda akan tertarik untuk memperkirakan (di sini, proabilitas bahwa paku payung jatuh ke bawah).θ
Contoh 2. Anda ingin mempelajari disintegrasi atom radioaktif. Berdasarkan literatur, Anda tahu bahwa jumlah radioaktivitas berkurang secara eksponensial, sehingga Anda memutuskan untuk memodelkan waktu untuk disintegrasi dengan distribusi eksponensial. Jika adalah waktu untuk disintegrasi, modelnya adalaht
Berikut adalah kepadatan probabilitas, yang berarti bahwa probabilitas bahwa hancur atom dalam interval waktu ( t , t + d t ) adalah f ( t ) d t . Sekali lagi, Anda akan tertarik untuk memperkirakan θ (di sini, laju disintegrasi).f(t) (t,t+dt) f(t)dt θ
Contoh 3. Anda ingin mempelajari ketelitian alat penimbangan. Berdasarkan literatur, Anda tahu bahwa pengukurannya Gaussian sehingga Anda memutuskan untuk memodelkan berat objek 1 kg standar sebagai
Di sini adalah ukuran yang diberikan oleh skala, f ( x ) adalah kepadatan probabilitas, dan parameternya adalah μ dan σ , jadi θ = ( μ , σ ) . Paramter μ adalah target berat (skala bias jika μ ≠ 1 ), dan σ adalah standar deviasi ukuran setiap kali Anda menimbang objek. Sekali lagi, Anda akan tertarik untuk memperkirakan θ (di sini, bias dan ketidaktepatan skala).x f(x) μ σ θ=(μ,σ) μ μ≠1 σ θ
sumber
Apa yang tergantung pada model apa yang Anda kerjakan. Misalnya, dalam regresi kuadrat terkecil biasa, Anda memodelkan variabel dependen (biasanya disebut Y) sebagai kombinasi linear dari satu atau lebih variabel independen (biasanya disebut X), mendapatkan sesuatu sepertiθ
sumber
In plain English:
Statistical distribution is a mathematical functionf that tells you what is the probability of different values of your random variable X that has the distribution f , i.e. f(x) outputs a probability of x . There are different such a functions, but for now let consider f as some kind of "general" function.
However, forf to be universal, that is, one that is possible to apply to different data (that share similar properties), it needs parameters that change its shape so that it fits different data. A simple example of such a parameter is μ in normal distribution that tells where is the center (mean) of this distribution and so it can describe random variables with different mean values. Normal distribution has another parameter σ and other distributions also have at least one such a parameters. The parameters are often called θ , where for normal distribution θ is a shorthand for both μ and σ (i.e. is a vector of the two values).
Why isθ important? Statistical distributions are used to approximate the empirical distributions of data. Say you have dataset of ages of a group of people and on average they are 50 years old and you want to approximate the distribution of their ages using a normal distribution. If normal distribution didn't allow for different values of μ (e.g. had a fixed value of this parameter, say μ=0 ), then it would be useless for this data. However, since μ is not fixed, normal distribution could use different values of μ , with μ=50 being one of them. This is a simple example, but there are more complicated cases where the values of θ parameters are not so clear and so you have to use statistical tools for estimating (finding the most appropriate) θ values.
So you could say that statistics is about finding the bestθ values given the data (Bayesians would say: given the data and priors).
sumber