Bagaimana saya mengartikan Plot Menyebarkan ini?

12

Saya memiliki sebaran plot yang memiliki ukuran sampel yang sama dengan jumlah orang pada sumbu x dan gaji median pada sumbu y, saya mencoba mencari tahu apakah ukuran sampel memiliki pengaruh terhadap gaji median.

Ini plotnya:

masukkan deskripsi gambar di sini

Bagaimana saya menafsirkan plot ini?

Sama
sumber
3
Jika Anda bisa, saya sarankan bekerja dengan transformasi kedua variabel. Jika tidak ada variabel yang memiliki angka nol, lihat skala log-log
Glen_b -Reinstate Monica
@ Glen_b maaf, saya tidak terbiasa dengan istilah yang telah Anda nyatakan, hanya dengan melihat plotnya, dapatkah Anda membuat hubungan antara dua variabel? apa yang bisa saya tebak adalah untuk ukuran sampel hingga 1000 tidak ada hubungan karena untuk nilai ukuran sampel yang sama ada beberapa nilai median. Untuk nilai lebih dari 1000, gaji rata-rata tampaknya menurun. Bagaimana menurut anda ?
Sama
Saya tidak melihat bukti yang jelas untuk itu, itu terlihat datar bagi saya; jika ada perubahan yang jelas itu mungkin terjadi di bagian bawah ukuran sampel. Apakah Anda memiliki data, atau hanya gambar plot?
Glen_b -Reinstate Monica
4
Jika Anda melihat median sebagai median dari n variabel acak, maka masuk akal bahwa variasi median berkurang dengan bertambahnya ukuran sampel. Itu akan menjelaskan penyebaran besar di sisi kiri plot.
JAD
2
Pernyataan Anda "untuk ukuran sampel hingga 1000 tidak ada hubungan karena untuk nilai ukuran sampel yang sama ada beberapa nilai median" salah.
Peter Flom - Reinstate Monica

Jawaban:

9

"Cari tahu" menunjukkan Anda sedang menjelajahi data. Tes formal akan berlebihan dan mencurigakan. Alih-alih, terapkan teknik analisis data eksplorasi standar (EDA) untuk mengungkapkan apa yang mungkin ada dalam data.

Teknik-teknik standar ini termasuk ekspresi ulang , analisis residual , teknik yang kuat ("tiga R" dari EDA) dan perataan data seperti yang dijelaskan oleh John Tukey dalam buku klasiknya EDA (1977). Bagaimana melakukan beberapa di antaranya diuraikan dalam posting saya di Box-Cox seperti transformasi untuk variabel independen? dan Dalam regresi linier, kapan tepat menggunakan log variabel independen alih-alih nilai aktual? , antara lain .

Hasilnya adalah banyak yang dapat dilihat dengan mengubah ke log-log sumbu (secara efektif mengekspresikan kembali kedua variabel), menghaluskan data tidak terlalu agresif, dan memeriksa residu halus untuk memeriksa apa yang mungkin terlewatkan, seperti yang akan saya ilustrasikan.

Berikut adalah data yang ditunjukkan dengan smooth yang - setelah memeriksa beberapa smooths dengan berbagai tingkat kesetiaan terhadap data - tampaknya seperti kompromi yang baik antara terlalu banyak dan terlalu sedikit smoothing. Ini menggunakan Loess, metode kuat yang terkenal (tidak banyak dipengaruhi oleh titik-titik terpencil secara vertikal).

Log-log scatterplot

Kotak vertikal dalam langkah 10.000. Kelancaran memang menyarankan beberapa variasi Grad_mediandengan ukuran sampel: kelihatannya menurun ketika ukuran sampel mendekati 1000. (Ujung kelancaran tidak dapat dipercaya - terutama untuk sampel kecil, di mana kesalahan pengambilan sampel diperkirakan relatif besar - jadi jangan bisa membaca terlalu banyak tentang mereka.) Kesan drop nyata ini didukung oleh band-band kepercayaan (sangat kasar) yang ditarik oleh perangkat lunak di sekitar smooth: "goyangan" nya lebih besar dari lebar band.

Untuk melihat apa yang mungkin terlewatkan oleh analisis ini, gambar berikutnya melihat residu. (Ini adalah perbedaan logaritma natural, yang secara langsung mengukur perbedaan vertikal antara data smooth sebelumnya. Karena jumlahnya kecil, mereka dapat diinterpretasikan sebagai perbedaan proporsional; misalnya, mencerminkan nilai data sekitar lebih rendah daripada smoothed yang sesuai) nilai.)20 %0.220%

Kami tertarik pada (a) apakah ada pola variasi tambahan saat ukuran sampel berubah dan (b) apakah distribusi kondisional dari respons - distribusi vertikal posisi titik - secara masuk akal serupa di semua nilai ukuran sampel, atau apakah beberapa aspek dari mereka (seperti penyebaran atau simetri) mungkin berubah.

! [Gambar 2 Plot residu

Smooth ini mencoba mengikuti titik data bahkan lebih dekat dari sebelumnya. Namun demikian itu pada dasarnya horisontal (dalam lingkup pita kepercayaan, yang selalu mencakup nilai y ), menunjukkan tidak ada variasi lebih lanjut yang dapat dideteksi. Sedikit peningkatan dalam penyebaran vertikal di dekat tengah (ukuran sampel 2000 hingga 3000) tidak akan signifikan jika diuji secara formal, dan karena itu jelas tidak biasa dalam tahap eksplorasi ini. Tidak ada penyimpangan yang jelas dan sistematis dari perilaku keseluruhan ini yang terlihat dalam kategori yang berbeda (dibedakan, tidak terlalu baik, berdasarkan warna - saya menganalisisnya secara terpisah dalam angka-angka yang tidak ditunjukkan di sini).0.0

Akibatnya, ringkasan sederhana ini:

gaji rata-rata sekitar 10.000 lebih rendah untuk ukuran sampel mendekati 1000

cukup menangkap hubungan yang muncul dalam data dan tampaknya seragam di semua kategori utama. Apakah itu signifikan - yaitu, apakah akan berdiri ketika dihadapkan dengan data tambahan - hanya dapat dinilai dengan mengumpulkan data tambahan tersebut.


Bagi mereka yang ingin memeriksa pekerjaan ini atau mengambilnya lebih lanjut, berikut adalah Rkodenya.

library(data.table)
library(ggplot2)
#
# Read the data.
#
infile <- "https://raw.githubusercontent.com/fivethirtyeight/\
data/master/college-majors/grad-students.csv"
X <- as.data.table(read.csv(infile))
#
# Compute the residuals.
#
span <- 0.6 # Larger values will smooth more aggressively
X[, Log.residual := 
      residuals(loess(log(Grad_median) ~ I(log(Grad_sample_size)), X, span=span))]
#
# Plot the data on top of a smooth.
#
g <- ggplot(X, aes(Grad_sample_size, Grad_median)) + 
  geom_smooth(span=span) + 
  geom_point(aes(fill=Major_category), alpha=1/2, shape=21) + 
  scale_x_log10() + scale_y_log10(minor_breaks=seq(1e4, 5e5, by=1e4)) + 
  ggtitle("EDA of Median Salary vs. Sample Size",
          paste("Span of smooth is", signif(span, 2)))
print(g)

span <- span * 2/3 # Look for a little more detail in the residuals
g.r <- ggplot(X, aes(Grad_sample_size, Log.residual)) + 
  geom_smooth(span=span) + 
  geom_point(aes(fill=Major_category), alpha=1/2, shape=21) + 
  scale_x_log10() + 
  ggtitle("EDA of Median Salary vs. Sample Size: Residuals",
          paste("Span of smooth is", signif(span, 2)))
print(g.r)
whuber
sumber
7

Glen_b menyarankan agar Anda mengambil logaritma sample_size dan median gaji untuk melihat apakah menskalakan data masuk akal.

Saya tidak tahu bahwa saya akan setuju dengan keyakinan Anda bahwa gaji rata-rata berkurang setelah ukuran sampel naik di atas 1.000. Saya akan lebih cenderung mengatakan tidak ada hubungan sama sekali. Apakah teorimu meramalkan bahwa seharusnya ada hubungan?

Cara lain Anda dapat menilai suatu hubungan yang mungkin adalah menyesuaikan garis regresi dengan data. Atau, Anda juga bisa menggunakan kurva lowess. Plot kedua baris ke data Anda dan lihat apakah ada yang bisa dihapus (saya ragu ada sesuatu yang terlalu substantif, namun).

PERTENGKARAN
sumber
3
Scatterplot sangat mirip dengan plot corong yang digunakan dalam meta-analisis. Lihat contoh serupa . Memplot band saluran akan lebih jelas menunjukkan jika ada hubungan, mungkin ada yang sedikit positif dalam contoh ini.
Andy W
6

Saya juga setuju tidak ada hubungan. Saya mereproduksi plot pencar asli Anda (kiri) dan membuat plot pencar log-log yang disarankan oleh glen_b (kanan).

masukkan deskripsi gambar di sini

Sepertinya tidak ada hubungannya juga. Korelasi antara data yang ditransformasi log lemah (Pearson R = -.13) dan tidak signifikan (p = .09). Bergantung pada seberapa banyak informasi tambahan yang Anda miliki, mungkin ada alasan untuk melihat korelasi negatif yang lemah, tetapi itu seperti peregangan. Saya kira pola jelas apa pun yang Anda lihat adalah efek yang sama terlihat di sini .

Sunting: Setelah melihat plot @ famargar saya menyadari saya merencanakan ukuran sampel lulusan vs gaji median non -grad. Saya percaya @sameed ingin ukuran sampel vs gaji lulusan- median, meskipun tidak sepenuhnya jelas. Untuk yang terakhir saya mereproduksi angka @ famargar, yaitu ( ) dan plot kami terlihat identik.p = 0,98R=0.0022p=0.98

R Greg Stacey
sumber
Terima kasih telah melihat korelasi antara lulusan-median dan lulusan-sampel-ukuran; Saya sangat bingung dengan perbedaan antara angka-angka!
famargar
0

Mencoba regresi linier akan mengajarkan Anda sesuatu tentang hubungan ini, seperti yang disarankan dalam jawaban pertama. Karena sepertinya Anda menggunakan python plus matplotlib untuk plot ini, Anda berada satu baris kode dari solusi.

Anda bisa menggunakan seaborn jointplot, yang juga akan menampilkan garis regresi linier, koefisien korelasi Pearson, dan nilai-p:

sns.jointplot("Grad_sample_size", "Grad_median", data=df, kind="reg")

masukkan deskripsi gambar di sini

seperti yang Anda lihat tidak ada korelasi. Melihat plot terakhir ini, tampaknya mentransformasikan variabel-x akan berguna. Mari kita coba:

df['log_size'] = np.log(df['Grad_sample_size'])
sns.jointplot("log_size", "Grad_median", data=df, kind="reg")

masukkan deskripsi gambar di sini

Anda dapat dengan jelas melihat bahwa - transformasi log atau tidak - korelasinya kecil, dan baik nilai-p maupun interval kepercayaan mengatakan bahwa itu tidak bermakna secara statistik.

famargar
sumber
3
Indikasi distribusi kondisional sangat condong menunjukkan ini bukan pendekatan yang baik. Ketika Anda juga mengamati bahwa kemiringan distribusi ukuran sampel akan menyebabkan beberapa ukuran sampel terbesar mengendalikan penampilan tren dalam regresi, Anda akan melihat mengapa orang lain merekomendasikan transformasi awal data.
whuber
1
Saya tidak menebak atau berspekulasi: plot dalam pertanyaan dengan jelas menunjukkan karakteristik ini. Juga lihat plot yang dibuat oleh R Greg Stacey , yang - dengan menerapkan transformasi log-log yang disarankan - menunjukkan apa yang mereka capai.
whuber
Saya baru saja menemukan data dan melakukan penelitian sendiri - silakan lihat jawaban yang diperbarui.
famargar
Studi Anda telah menyerah pada dua masalah yang saya catat: penampilan "tidak ada korelasi" sebagian besar tidak berasal dari conditional response conditional dan leverage untuk nilai regressor yang tinggi. Secara khusus, baik garis yang dipasang maupun pita kesalahannya tidak dapat dipercaya.
whuber
Silakan lihat plot yang baru saja saya tambahkan; Saya harap saya tidak kehilangan apa pun dalam iterasi terakhir ini.
famargar
-1

Plot ini berfungsi sebagai demonstrasi dari teorema batas pusat, di mana variabilitas antara sampel berkurang dengan meningkatnya ukuran sampel. Itu juga bentuk yang Anda harapkan dengan variabel sangat miring seperti gaji.

Barton Poulson
sumber
3
Ini bukan sampel independen dari populasi umum. Itu membuat relevansi CLT agak bermasalah.
Whuber