Plot PP vs. Plot QQ

39

Apa perbedaan antara plot probabilitas, plot PP dan plot QQ ketika mencoba menganalisis distribusi yang sesuai dengan data?

kay
sumber
4
Tampaknya wikipedia dapat membantu Anda dengan yang ini: plot peluang . Plot QQ , plot PP . Jika Anda memiliki pertanyaan yang lebih spesifik, mohon klarifikasi!
vector07
Terima kasih, saya pikir saya mendapatkan plot PP dan plot probabilitas bingung!
kay

Jawaban:

41

Sebagai @ vector07 catatan , plot probabilitas adalah kategori yang lebih abstrak yang pp-plot dan qq-plot adalah anggota. Jadi, saya akan membahas perbedaan antara keduanya. Cara terbaik untuk memahami perbedaan adalah dengan memikirkan bagaimana mereka dibangun, dan untuk memahami bahwa Anda perlu mengenali perbedaan antara kuantil suatu distribusi dan proporsi distribusi yang telah Anda lewati ketika Anda mencapai jumlah tertentu. Anda dapat melihat hubungan antara ini dengan merencanakan fungsi distribusi kumulatif (CDF) dari suatu distribusi. Sebagai contoh, pertimbangkan distribusi normal standar:

masukkan deskripsi gambar di sini

Kita melihat bahwa sekitar 68% dari sumbu y (wilayah antara garis merah) sesuai dengan 1/3 dari sumbu x (wilayah antara garis biru). Itu berarti bahwa ketika kita menggunakan proporsi distribusi yang telah kita lewati untuk mengevaluasi kecocokan antara dua distribusi (yaitu, kita menggunakan plot-pp), kita akan mendapatkan banyak resolusi di pusat distribusi, tetapi kurang pada ekornya. Di sisi lain, ketika kita menggunakan kuantil untuk mengevaluasi kecocokan antara dua distribusi (yaitu, kita menggunakan plot-qq), kita akan mendapatkan resolusi yang sangat baik di bagian akhir, tetapi lebih sedikit di bagian tengah. (Karena analis data biasanya lebih peduli tentang ekor distribusi, yang akan lebih berpengaruh pada inferensi misalnya, plot qq jauh lebih umum daripada pp-plot.)

Untuk melihat fakta-fakta ini dalam tindakan, saya akan berjalan melalui konstruksi plot-plot dan plot-qq. (Saya juga berjalan melalui konstruksi qq-plot secara verbal / lebih lambat di sini: QQ-plot tidak cocok dengan histogram .) Saya tidak tahu apakah Anda menggunakan R, tetapi mudah-mudahan itu akan cukup jelas:

set.seed(1)                           # this makes the example exactly reproducible
N = 10                                # I will generate 10 data points
x = sort(rnorm(n=N, mean=0, sd=1))    #  from a normal distribution w/ mean 0 & SD 1
n.props = pnorm(x, mean(x), sd(x))    # here I calculate the probabilities associated
                                      #  w/ these data if they came from a normal 
                                      #  distribution w/ the same mean & SD

   # I calculate the proportion of x we've gone through at each point
props = 1:N / (N+1)
n.quantiles = qnorm(props, mean=mean(x), sd=sd(x))  # this calculates the quantiles (ie
                                                    #  z-scores) associated w/ the props
my.data = data.frame(x=x, props=props,              # here I bundle them together
                     normal.proportions=n.props, 
                     normal.quantiles=n.quantiles)
round(my.data, digits=3)                            # & display them w/ 3 decimal places
#         x        props  normal.proportions  normal.quantiles
# 1  -0.836        0.091               0.108            -0.910
# 2  -0.820        0.182               0.111            -0.577
# 3  -0.626        0.273               0.166            -0.340
# 4  -0.305        0.364               0.288            -0.140
# 5   0.184        0.455               0.526             0.043
# 6   0.330        0.545               0.600             0.221
# 7   0.487        0.636               0.675             0.404
# 8   0.576        0.727               0.715             0.604
# 9   0.738        0.818               0.781             0.841
# 10  1.595        0.909               0.970             1.174

masukkan deskripsi gambar di sini

Sayangnya, plot-plot ini tidak terlalu berbeda, karena hanya ada sedikit data dan kami membandingkan normal normal dengan distribusi teoretis yang benar, sehingga tidak ada sesuatu yang istimewa untuk dilihat baik di pusat maupun di ujung distribusi. Untuk menunjukkan perbedaan-perbedaan ini dengan lebih baik, saya merencanakan distribusi t (tail-tail) dengan 4 derajat kebebasan, dan distribusi bi-modal di bawah ini. Ekor lemak jauh lebih khas dalam plot-qq, sedangkan bi-modalitas lebih khas dalam plot-pp.

masukkan deskripsi gambar di sini masukkan deskripsi gambar di sini

gung - Reinstate Monica
sumber
14
@AlexandrH Kami sangat menghargai perhatian Anda terhadap siswa. Asumsi tersirat Anda bahwa situs ini hanya untuk siswa yang baru mengenal statistik adalah salah; dan sindiran Anda bahwa "jawaban bertele-tele" tidak pantas untuk siswa hanya tidak tahan dengan kenyataan, karena banyak jawaban "bertele-tele" di situs ini akan membuktikan. Cara yang lebih konstruktif untuk mengungkapkan keluhan Anda adalah dengan contoh: tunjukkan kepada kami cara meningkatkan respons kami, dan mengilhami kami untuk meniru Anda, dengan memposting jawaban di sini yang memenuhi standar Anda untuk menangani kebutuhan siswa baru.
whuber
12

Berikut adalah definisi dari v8doc.sas.com :

Plot PP membandingkan fungsi distribusi kumulatif empiris dari kumpulan data dengan fungsi distribusi kumulatif teoretis yang ditentukan F (·). Plot QQ membandingkan kuantil dari distribusi data dengan kuantil dari distribusi teoritis standar dari keluarga distribusi tertentu.

Dalam teks, mereka juga menyebutkan:

  • perbedaan mengenai cara plot PP dan plot QQ dibangun dan ditafsirkan.
  • keuntungan menggunakan satu atau yang lain, mengenai membandingkan distribusi empiris dan teoritis.

Referensi :

SAS Institute Inc., SAS OnlineDoc®, Versi 8, Cary, NC: SAS Institute Inc., 1999

Andre Silva
sumber