Saya menghasilkan plot qq menggunakan kode berikut. Saya tahu bahwa plot qq digunakan untuk memeriksa apakah data terdistribusi secara normal atau tidak. Pertanyaan saya adalah apa yang ditunjukkan oleh label sumbu x dan y pada plot qq dan apa yang ditunjukkan oleh nilai r square ??
N = 1200
p = 0.53
q = 1000
obs = np.random.binomial(N, p, size = q)/N
import scipy.stats as stats
z = (obs-np.mean(obs))/np.std(obs)
stats.probplot(z, dist="norm", plot=plt)
plt.title("Normal Q-Q plot")
plt.show()
Saya tahu bahwa sudah ada diskusi tentang plot qq , tapi saya tidak bisa memahami konsep meskipun melalui diskusi itu.
probability
normal-distribution
mathematical-statistics
descriptive-statistics
qq-plot
Elizabeth Susan Joseph
sumber
sumber
help(probplot)
menyatakan:probplot
menghasilkan plot probabilitas, yang tidak boleh dikacaukan dengan QQ atau plot PP.Jawaban:
Jawaban Macond akurat, namun dari posting asli, saya pikir mungkin sedikit membantu untuk menyederhanakan verbiage.
Plot QQ adalah singkatan dari "plot kuantil-kuantil" .
Ini adalah plot di mana sumbu secara sengaja diubah untuk membuat distribusi normal (atau Gaussian) muncul dalam garis lurus . Dengan kata lain, distribusi normal sempurna akan persis mengikuti garis dengan kemiringan = 1 dan mencegat = 0.
Oleh karena itu, jika plot tidak tampak - kira-kira - garis lurus, maka distribusi yang mendasarinya tidak normal. Misalnya, jika dibengkokkan, maka ada lebih banyak nilai "selebaran tinggi" dari yang diharapkan. (Tautan menyediakan lebih banyak contoh.)
The quantiles teoritis ditempatkan di sepanjang sumbu x. Artinya, sumbu x bukan data Anda , itu hanya harapan di mana data Anda seharusnya, jika itu normal.
The data aktual diplot di sepanjang sumbu y.
Nilai adalah standar deviasi dari nilai tengah. Jadi,
0
adalah mean dari data,1
adalah 1 standar deviasi di atas, dll. Ini berarti, misalnya, bahwa68.27%
semua data Anda harus antara -1 & 1, jika Anda memiliki distribusi normal.Terakhir, ada plot serupa yang jarang digunakan disebut plot pp . Plot ini lebih berguna jika Anda tertarik untuk memfokuskan pada di mana sebagian besar data berada, bukan ekstrem.
sumber
Sumbu Y menunjukkan nilai-nilai distribusi yang diamati dan sumbu X, nilai-nilai distribusi teoritis.
Setiap titik adalah kuantil. Katakanlah, jika ada 100 poin pada plot, poin pertama (yang di sisi kiri bawah) menunjukkan batas atas untuk interval, dan ketika dipesan dari terkecil ke terbesar, 1 persen terkecil dari titik data dari distribusi yang sesuai tetap dalam interval ini. Demikian pula, titik ke-2 adalah batas atas suatu interval, di mana 2 persen titik data terkecil dari distribusi berada. Ini adalah konsep kuantil. Tapi itu tidak terbatas pada kasus dengan 100 interval, itu adalah konsep umum dan Anda dapat memiliki interval sebanyak mungkin, maka Anda akan memiliki banyak kuantil yang menggambarkan batas-batas interval.
Saya menggunakan titik data di seluruh jawaban saya, seperti titik data yang diurutkan, dll. Ini merujuk pada distribusi diskrit, tetapi konsepnya dapat digeneralisasi untuk distribusi kontinu.
sumber