Plot QQ dengan Python

11

Saya menghasilkan plot qq menggunakan kode berikut. Saya tahu bahwa plot qq digunakan untuk memeriksa apakah data terdistribusi secara normal atau tidak. Pertanyaan saya adalah apa yang ditunjukkan oleh label sumbu x dan y pada plot qq dan apa yang ditunjukkan oleh nilai r square ??

  N = 1200
  p = 0.53
  q = 1000
  obs = np.random.binomial(N, p, size = q)/N

import scipy.stats as stats

z = (obs-np.mean(obs))/np.std(obs)

stats.probplot(z, dist="norm", plot=plt)
plt.title("Normal Q-Q plot")
plt.show()

masukkan deskripsi gambar di sini

Saya tahu bahwa sudah ada diskusi tentang plot qq , tapi saya tidak bisa memahami konsep meskipun melalui diskusi itu.

Elizabeth Susan Joseph
sumber
4
Ini sangat dekat dengan menjadi duplikat utas tertaut - Python vs R bukanlah perbedaan penting di sini - tetapiR2 adalah baru. Ini mungkin ide yang baik untuk pertanyaan dan jawaban untuk lebih fokus pada aspek itu untuk menghindari duplikasi. (Saya bertanya-tanya apakah cenderung disalahpahami, karena bahkan untuk kesesuaian yang buruk, kemiringan ke atas yang tidak dapat dihindari dalam plot QQ berarti kita mengharapkan R 2 yang agak lebih besar dari nol. Jadi nilai yang mungkin cukup mengesankan dalam analisis regresi mungkin tidak terlalu mengesankan di sini.)R2R2
Silverfish
@Silverfish Saya tidak akan merasa terbantu atau berharga untuk fokus pada . QQ plot biasanya terlihat , bukan hanya dilaporkan dengan tabel segudang R 2 nilai. Selama visualisasi ada, mengapa menguranginya menjadi satu nomor? Jika plot QQ terlihat "buruk", tetapi R 2 entah bagaimana terlihat "baik", apakah Anda masih mengklaim itu normal? Sebagian besar paket yang baik bahkan tidak menyediakan R 2 karena alasan ini. Argumen viz-versus-saat ini bahkan memiliki nama yang lucu: kuartet Anscombe . R2R2R2R2
Mike Williamson
R2R2
Apakah Anda yakin merencanakan plot QQ? help(probplot)menyatakan: probplotmenghasilkan plot probabilitas, yang tidak boleh dikacaukan dengan QQ atau plot PP.
abukaj

Jawaban:

10

Jawaban Macond akurat, namun dari posting asli, saya pikir mungkin sedikit membantu untuk menyederhanakan verbiage.

Plot QQ adalah singkatan dari "plot kuantil-kuantil" .

Ini adalah plot di mana sumbu secara sengaja diubah untuk membuat distribusi normal (atau Gaussian) muncul dalam garis lurus . Dengan kata lain, distribusi normal sempurna akan persis mengikuti garis dengan kemiringan = 1 dan mencegat = 0.

Oleh karena itu, jika plot tidak tampak - kira-kira - garis lurus, maka distribusi yang mendasarinya tidak normal. Misalnya, jika dibengkokkan, maka ada lebih banyak nilai "selebaran tinggi" dari yang diharapkan. (Tautan menyediakan lebih banyak contoh.)


  1. Mewakili apa label x & y?

The quantiles teoritis ditempatkan di sepanjang sumbu x. Artinya, sumbu x bukan data Anda , itu hanya harapan di mana data Anda seharusnya, jika itu normal.

The data aktual diplot di sepanjang sumbu y.

Nilai adalah standar deviasi dari nilai tengah. Jadi, 0adalah mean dari data, 1adalah 1 standar deviasi di atas, dll. Ini berarti, misalnya, bahwa 68.27%semua data Anda harus antara -1 & 1, jika Anda memiliki distribusi normal.

  1. R2

R2R2R2R2


Terakhir, ada plot serupa yang jarang digunakan disebut plot pp . Plot ini lebih berguna jika Anda tertarik untuk memfokuskan pada di mana sebagian besar data berada, bukan ekstrem.

Mike Williamson
sumber
1
Kata miring bukan pilihan terbaik di sini: Saya akan mengatakan berubah .
Nick Cox
Penjelasan yang bagus. Bisakah Anda jelaskan bagaimana sumbu x (nilai yang diharapkan) dihasilkan?
Vivek Ananthan
1

Sumbu Y menunjukkan nilai-nilai distribusi yang diamati dan sumbu X, nilai-nilai distribusi teoritis.

Setiap titik adalah kuantil. Katakanlah, jika ada 100 poin pada plot, poin pertama (yang di sisi kiri bawah) menunjukkan batas atas untuk interval, dan ketika dipesan dari terkecil ke terbesar, 1 persen terkecil dari titik data dari distribusi yang sesuai tetap dalam interval ini. Demikian pula, titik ke-2 adalah batas atas suatu interval, di mana 2 persen titik data terkecil dari distribusi berada. Ini adalah konsep kuantil. Tapi itu tidak terbatas pada kasus dengan 100 interval, itu adalah konsep umum dan Anda dapat memiliki interval sebanyak mungkin, maka Anda akan memiliki banyak kuantil yang menggambarkan batas-batas interval.

Saya menggunakan titik data di seluruh jawaban saya, seperti titik data yang diurutkan, dll. Ini merujuk pada distribusi diskrit, tetapi konsepnya dapat digeneralisasi untuk distribusi kontinu.

R2R2

Macond
sumber
3
R2R2