Apa hubungan antara dan

38

Apa hubungan antara Y dan X dalam plot berikut? Dalam pandangan saya ada hubungan linier negatif, tetapi karena kita memiliki banyak pencilan, hubungan ini sangat lemah. Apakah saya benar? Saya ingin belajar bagaimana kami bisa menjelaskan scatterplots.

masukkan deskripsi gambar di sini

PSS
sumber
3
Apa itu ? Apa itu ? Proses apa yang Anda hasilkan outlier? Apa yang membuat Anda berpikir bahwa itu bukan pengukuran nyata? Apa teorinya? YXY
abaumann
4
Terima kasih atas komentar Anda. Saya hanya melihat plot ini dalam sebuah buku. Y adalah variabel dependen dan X adalah variabel independen. Tidak ada teori. itu diplot sebar untuk menunjukkan hubungan Y diberikan x. Dan ada pertanyaan dalam buku yang menanyakan apakah ada hubungan atau tidak, Linear atau nonlinier? Kuat atau lemah?
PSS
7
Ini adalah latihan dalam tasseografi . Ini sangat populer di kalangan pedagang harian, dan mereka menyebutnya analisis teknis . Pada dasarnya, tanpa mengetahui sesuatu tentang sifat data itu adalah latihan yang sia-sia
Aksakal
1
@chl you rock untuk donasi ke bounty to whuber =)
Cam.Davidson.Pilon
3
@Aksakal Bahasa statistik biasanya memahami "hubungan" secara harfiah: seperti menggambarkan set tupel angka. Misalnya, koefisien korelasi menggambarkan suatu hubungan. Tidak ada implikasi tentang asal-usul, sifat, atau hubungan sebab akibat di antara variabel yang mendasarinya. Saya setuju dengan Anda bahwa "jelaskan" biasanya dipahami dengan pengertian yang lebih dalam, tetapi karena hubungan sangat ditekankan dalam pertanyaan, saya pikir adil untuk tidak memaksakan arti literal "jelaskan" terlalu jauh. Menyarankan bahwa menggambarkan sebar hanya membaca daun teh terlalu jauh, IMHO.
whuber

Jawaban:

51

Pertanyaannya berkaitan dengan beberapa konsep: bagaimana mengevaluasi data yang diberikan hanya dalam bentuk sebar, bagaimana meringkas sebar sebar, dan apakah (dan sampai tingkat apa) suatu hubungan terlihat linier. Mari kita bereskan.

Mengevaluasi data grafis

Gunakan prinsip-prinsip analisis data eksplorasi (EDA). Ini (setidaknya awalnya, ketika dikembangkan untuk penggunaan pensil dan kertas) menekankan ringkasan data yang sederhana, mudah dihitung, dan kuat. Salah satu jenis ringkasan yang paling sederhana didasarkan pada posisi dalam satu set angka, seperti nilai tengah, yang menggambarkan nilai "khas". Middles mudah diperkirakan dengan andal dari grafik.

Scatterplots memperlihatkan pasangan angka. Yang pertama dari setiap pasangan (sebagaimana diplot pada sumbu horizontal) memberikan satu set angka tunggal, yang dapat kita simpulkan secara terpisah.

Dalam scatterplot khusus ini, nilai-y tampak berada dalam dua kelompok yang hampir sepenuhnya terpisah : nilai-nilai di atas di bagian atas dan nilai-nilai yang sama dengan atau kurang dari di bagian bawah. (Kesan ini dikonfirmasi dengan menggambar histogram dari nilai-y, yang merupakan bimodal tajam, tetapi itu akan menjadi banyak pekerjaan pada tahap ini.) Saya mengundang orang skeptis untuk menyipit di scatterplot. Ketika saya melakukannya - menggunakan radius besar, blur Gaussian yang dikoreksi gamma (yaitu, hasil pemrosesan gambar cepat standar) dari titik-titik di scatterplot saya melihat ini:606060

Gambar 0

Kedua kelompok - atas dan bawah - cukup jelas. (Grup atas jauh lebih ringan daripada yang lebih rendah karena mengandung lebih sedikit titik.)

Karenanya, mari kita simpulkan kelompok nilai-y secara terpisah. Saya akan melakukannya dengan menggambar garis horizontal pada median kedua kelompok. Untuk menekankan kesan pada data dan untuk menunjukkan bahwa kita tidak melakukan perhitungan apa pun, saya telah (a) menghapus semua dekorasi seperti kapak dan garis kisi dan (b) mengaburkan poin. Sedikit informasi tentang pola dalam data hilang dengan demikian "menyipitkan mata" pada grafik:

Angka

Demikian pula, saya telah mencoba untuk menandai median dari nilai x dengan segmen garis vertikal. Pada kelompok atas (garis merah) Anda dapat memeriksa - dengan menghitung gumpalan - bahwa garis-garis ini benar-benar memisahkan kelompok menjadi dua bagian yang sama, baik secara horizontal maupun vertikal. Di grup bawah (garis biru) saya hanya memperkirakan secara visual posisi tanpa benar-benar menghitung.

Menilai Hubungan: Regresi

Titik persimpangan adalah pusat dari dua kelompok. Satu ringkasan luar biasa dari hubungan antara nilai x dan y adalah melaporkan posisi sentral ini. Orang kemudian ingin melengkapi ringkasan ini dengan deskripsi tentang seberapa banyak data tersebar di setiap kelompok - ke kiri dan kanan, di atas dan di bawah - di sekitar pusat mereka. Untuk singkatnya, saya tidak akan melakukannya di sini, tetapi perhatikan bahwa (secara kasar) panjang segmen garis yang saya gambar mencerminkan keseluruhan spread dari masing-masing kelompok.

Akhirnya, saya menggambar garis (putus-putus) yang menghubungkan kedua pusat. Ini adalah garis regresi yang masuk akal. Apakah ini deskripsi data yang baik? Tentu saja tidak: lihat seberapa tersebar data di sekitar garis ini. Apakah ini bukti linearitas? Itu hampir tidak relevan karena deskripsi linier sangat buruk. Namun demikian, karena itu adalah pertanyaan di depan kita, mari kita atasi.

Mengevaluasi Linearitas

Suatu hubungan adalah linier dalam arti statistik ketika salah satu nilai y bervariasi dalam mode acak seimbang di sekitar garis atau nilai x terlihat bervariasi dalam mode acak seimbang di sekitar garis (atau keduanya).

Yang pertama tampaknya tidak menjadi kasus di sini: karena nilai-nilai y tampaknya jatuh ke dalam dua kelompok, variasi mereka tidak akan pernah tampak seimbang dalam arti secara kasar didistribusikan secara simetris di atas atau di bawah garis. (Itu dengan segera mengesampingkan kemungkinan membuang data ke dalam paket regresi linier dan melakukan kuadrat terkecil y terhadap x: jawabannya tidak akan relevan.)

Bagaimana dengan variasi dalam x? Itu lebih masuk akal: pada setiap ketinggian di plot, sebaran horizontal titik di sekitar garis putus-putus cukup seimbang. The tersebar di pencar ini tampaknya menjadi sedikit lebih besar sedikit di ketinggian yang lebih rendah (y nilai-nilai rendah), tapi mungkin itu karena ada lebih banyak poin di sana. (Semakin banyak data acak yang Anda miliki, semakin besar nilai ekstremitasnya cenderung.)

Selain itu, ketika kami memindai dari atas ke bawah, tidak ada tempat di mana hamburan horizontal di sekitar garis regresi sangat tidak seimbang: itu akan menjadi bukti non-linearitas. (Ya, mungkin sekitar y = 50 atau lebih mungkin ada terlalu banyak nilai x besar. Efek halus ini dapat diambil sebagai bukti lebih lanjut untuk memecah data menjadi dua kelompok di sekitar nilai y = 60.)

Kesimpulan

Kami telah melihatnya

  • Masuk akal untuk melihat x sebagai fungsi linear dari y ditambah beberapa variasi acak yang "bagus".

  • Ini tidak masuk akal untuk tampilan y sebagai fungsi linear dari x ditambah variasi acak.

  • Garis regresi dapat diperkirakan dengan memisahkan data menjadi kelompok nilai y tinggi dan kelompok nilai y rendah, menemukan pusat-pusat dari kedua kelompok dengan menggunakan median, dan menghubungkan pusat-pusat tersebut.

  • Garis yang dihasilkan memiliki kemiringan ke bawah, yang menunjukkan hubungan linear negatif .

  • Tidak ada penyimpangan yang kuat dari linearitas.

  • Namun demikian, karena penyebaran nilai-x di sekitar garis masih besar (dibandingkan dengan keseluruhan penyebaran nilai-x untuk memulai), kita harus mencirikan hubungan linear negatif ini sebagai "sangat lemah."

  • Mungkin lebih berguna untuk menggambarkan data sebagai membentuk dua awan berbentuk oval (satu untuk y di atas 60 dan yang lainnya untuk nilai y yang lebih rendah). Di dalam setiap cloud ada sedikit hubungan yang bisa dideteksi antara x dan y. Pusat-pusat awan dekat (0,29, 90) dan (0,38, 30). Awan memiliki spread yang sebanding, tetapi cloud bagian atas memiliki data yang jauh lebih sedikit daripada yang lebih rendah (mungkin 20% lebih banyak).

Dua kesimpulan ini mengkonfirmasi yang dibuat dalam pertanyaan itu sendiri bahwa ada hubungan negatif yang lemah. Yang lain melengkapi dan mendukung kesimpulan tersebut.

Satu kesimpulan yang ditarik dalam pertanyaan yang tampaknya tidak bertahan adalah pernyataan bahwa ada "pencilan." Pemeriksaan yang lebih hati-hati (seperti yang digambarkan di bawah ini) akan gagal menemukan setiap poin individu, atau bahkan kelompok poin kecil, yang secara sah dapat dianggap outlying. Setelah analisis yang cukup panjang, perhatian seseorang mungkin tertarik pada dua titik di dekat kanan tengah atau satu titik di sudut kiri bawah, tetapi bahkan ini tidak akan terlalu banyak mengubah penilaian seseorang terhadap data, apakah mereka dianggap atau tidak dianggap terpencil.


Petunjuk Lebih Lanjut

Banyak lagi yang bisa dikatakan. Langkah selanjutnya adalah menilai penyebaran awan-awan itu. Hubungan antara x dan y dalam masing-masing dua awan dapat dievaluasi secara terpisah, menggunakan teknik yang sama yang ditunjukkan di sini. Asimetri sedikit awan yang lebih rendah (lebih banyak data tampaknya muncul pada nilai y terkecil) dapat dievaluasi dan bahkan disesuaikan dengan mengekspresikan kembali nilai y (akar kuadrat mungkin bekerja dengan baik). Pada tahap ini akan masuk akal untuk mencari data yang terpencil, karena pada titik ini deskripsi akan mencakup informasi tentang nilai-nilai data khas serta penyebarannya; outlier (menurut definisi) akan terlalu jauh dari tengah untuk dijelaskan dalam hal jumlah penyebaran yang diamati.

Tak satu pun dari pekerjaan ini - yang cukup kuantitatif - membutuhkan lebih dari menemukan middle kelompok data dan melakukan beberapa perhitungan sederhana dengan mereka, dan karena itu dapat dilakukan dengan cepat dan akurat bahkan ketika data hanya tersedia dalam bentuk grafis. Setiap hasil yang dilaporkan di sini - termasuk nilai-nilai kuantitatif - dapat dengan mudah ditemukan dalam beberapa detik menggunakan sistem tampilan (seperti hardcopy dan pensil :-)) yang memungkinkan seseorang untuk membuat tanda cahaya di atas grafik.

whuber
sumber
4
Wow. Saya tidak akan pernah melihat kedua kelompok dan garis yang dihasilkan. Dan saya mempertanyakannya.
rvl
4
@Russ Saya senang mendengar ada yang mempertanyakan eksplorasi ini, karena tidak ada EDA yang unik atau dispositif. Saya telah memasukkan gambar lain untuk membantu Anda melihat apa yang saya lihat. Saya ingin mengundang Anda untuk mengirim jawaban yang sama atau lebih hemat dan deskriptif bermanfaat.
whuber
12
Sebagai manusia, kita cenderung menemukan pola, bahkan yang tidak ada. Saya pikir sangat masuk akal untuk mendapatkan sebaran plot seperti yang kita miliki di sini hanya dengan dua RV independen, salah satunya condong. Saya tidak punya bukti tentang itu, dan saya tidak punya analisis alternatif untuk ditawarkan - selain yang mengatakan ada sedikit atau tidak ada hubungan. Ya, ada kemungkinan bimodality hadir. Jika prosesnya bisa diamati lebih jauh, kita bisa melihat apa yang terjadi. Saya hanya berpikir kita perlu berhati-hati dan menyadari kecenderungan kita untuk bereaksi terhadap pola palsu yang masuk akal.
rvl
4
@Russ Anda benar. Diperlukan pengalaman agar tidak terlalu banyak membaca menjadi pola. Pengalaman saya mengatakan bahwa dengan 150-200 poin sulit secara acak untuk mendapatkan bimodality kuat yang saya ukur dalam koordinat y. Pengalaman seperti itu dapat dengan mudah dan cepat ditambahkan dengan simulasi saat ini: ketika Anda berpikir Anda melihat sebuah pola, maka (1) karakterisasikan secara kuantitatif dan (2) cari dalam sampel acak yang dihasilkan sesuai dengan hipotesis alternatif yang lebih sederhana. Jika polanya muncul sangat banyak, maka Anda dapat menyalahkan korteks visual Anda, tetapi sebaliknya Anda mungkin telah menemukan sesuatu.
whuber
1
@Russ, terima kasih. Itu bukan plot residual yang saya jelaskan - peran x dan y terbalik. Namun, ini sangat informatif. Heteroskedastisitas adalah hal yang paling mencolok: itu tampaknya memberikan dukungan pada hipotesis dua-kluster (yang akan membuat heteroskedastisitas menghilang). Pikiran Anda, saya agnostik tentang hipotesis itu. Semua yang saya tulis di sini adalah semangat asli dari deskripsi data yang cermat dan kuat. Setiap kurva tunggal sebagai deskripsi data ini akan menjadi kasar dan mungkin tidak memuaskan.
whuber
31

Mari bersenang - senang!

Pertama-tama, saya tergores dengan data yang off grafik Anda.

Kemudian saya menggunakan garis berjalan lebih halus untuk menghasilkan garis regresi hitam di bawah ini dengan band CI 95% berwarna abu-abu. Grafik di bawah ini menunjukkan rentang dalam kelancaran setengah data, meskipun rentang yang lebih sempit mengungkapkan hubungan yang kurang lebih sama persis. Sedikit perubahan kemiringan di sekitar menunjukkan hubungan yang dapat diperkirakan menggunakan model linier dan menambahkan fungsi engsel linier dari kemiringan dalam regresi kuadrat terkecil nonlinier (garis merah):XX=0.4X

Y=β0+βXX+βcmax(Xθ,0)+ε

Estimasi koefisien adalah:

Y=50.937.7X26.74436max(X0.46,0)

Saya akan mencatat bahwa sementara whuber redoubtable menyatakan bahwa tidak ada hubungan linear yang kuat, penyimpangan dari garis tersirat oleh istilah engsel berada pada urutan yang sama dengan kemiringan (yaitu 37,7), jadi saya akan dengan hormat tidak setuju bahwa kita tidak melihat hubungan nonlinier yang kuat (yaitu Ya tidak ada hubungan yang kuat, tetapi istilah nonlinier sama kuatnya dengan yang linear).XY=50.937.7XX

Mainkan waktu dengan data

Interpretasi
(saya telah melanjutkan dengan asumsi bahwa Anda hanya tertarik pada sebagai variabel dependen.) Nilai diprediksi sangat lemah oleh (dengan Adjusted- = 0,03). Asosiasi ini kira-kira linear, dengan sedikit penurunan kemiringan di sekitar 0,46. Residual agak miring ke kanan, mungkin karena merupakan tajam lebih rendah terikat pada nilai-nilai . Mengingat ukuran sampel , saya cenderung mentolerir pelanggaran normalitas . Lebih banyak pengamatan untuk nilai akan membantu menentukan apakah perubahan kemiringan itu nyata, atau merupakan artefak dari penurunan varianY X R 2 Y N = 170 X > 0,5 YYYXR2YN=170X>0.5Y dalam kisaran itu.

Memperbarui dengan grafik :ln(Y)

(Garis merah hanyalah regresi linier dari ln (Y) pada X.)

Diperbarui dengan grafik sesuai saran Russ Lenth.

Dalam komentar, Russ Lenth menulis: "Saya hanya ingin tahu apakah ini berlaku jika Anda memuluskan vs Distribusi miring." Ini saran yang cukup bagus, karena transformasi versus juga memberikan kesesuaian yang lebih baik bahwa garis antara dan dengan residu yang terdistribusi secara lebih simetris. Namun, baik yang disarankan dan engsel linear saya berbagi preferensi untuk hubungan antara (tidak ditransformasi) dan yang tidak dijelaskan oleh garis lurus.X Y log Y X Y X log ( Y ) X YlogYXYlogYXYXlog(Y)XYX

Alexis
sumber
1
Aku hanya ingin tahu apakah ini berlaku jika Anda halus vs . Distribusi condong ke kanan, dan saya pikir transformasi yang membuat distribusi lebih simetris juga tidak akan banyak terlihat seperti sebar null scatterplot ikonik. X YlogYXY
rvl
1
@Russ Adalah klasik bahwa distribusi bimodal dapat tampil miring dan menyarankan transformasi log. Tetapi distribusi y di sini memang bimodal dan log mungkin bukan cara yang berguna untuk mengekspresikannya kembali. Ketika dua komponen dipisahkan, yang lebih rendah masih condong positif dan akar kuadrat adalah jumlah yang tepat untuk mengubahnya untuk mendapatkan distribusi simetris. Akar kuadrat tidak memengaruhi kesimetrian kelompok atas secara wajar, menunjukkan bahwa akar mungkin merupakan pilihan yang baik. Namun, itu tidak memperbaiki bimodality - dan di situlah letak masalah dengan kelancaran jenis ini.
whuber
1
Alexis, dalam jawaban kami, kami berdua bersalah menggunakan "kuat" dengan cara yang tidak ditentukan. Perasaan yang saya maksudkan "lemah" diisyaratkan dalam beberapa ungkapan saya, yang dimaksudkan untuk menunjukkan bahwa kemiringannya kecil dibandingkan dengan hamburan nilai-nilai y. Saya kira analisis Anda tidak menghasilkan kesimpulan berbeda dalam hal itu. Saya merasa perlu hati-hati karena, menerima secara hipotetis bahwa mungkin ada manfaat untuk model campuran untuk y, tampak bahwa pada kelompok atas mungkin sebenarnya ada hubungan positif yang lemah antara x dan y dan tidak ada hubungan dalam kelompok yang lebih rendah.
whuber
3
Alexis, buku EDA Tukey penuh dengan mereka. Untuk teknik lainnya (dengan kecanggihan yang lebih besar, dengan pembenaran matematis) lihat Hoaglin, Mosteller, & Tukey, Memahami Robust and Exploratory Data Analysis .
whuber
2
manual @rivu. Mengambil puncak 10 atau 15 menit. Awalnya menempatkan setiap titik dengan pointer, kemudian menempatkannya menggunakan tombol panah.
Alexis
21

Ini 2 ¢ 1,5 ¢ saya. Bagi saya fitur yang paling menonjol adalah bahwa data tiba-tiba berhenti dan 'berkumpul' di bagian bawah kisaran Y. Saya memang melihat dua (potensial) 'cluster' dan hubungan negatif umum, tetapi fitur yang paling menonjol adalah (potensial) efek lantai dan fakta bahwa bagian atas, kerapatan rendah hanya meluas di seluruh rentang X.

Karena 'cluster' samar-samar bivariat normal, model campuran normal parametrik mungkin menarik untuk dicoba. Menggunakan data @Alexis, saya menemukan bahwa tiga kluster mengoptimalkan BIC. 'Efek lantai' kepadatan tinggi dipilih sebagai kluster ketiga. Kode berikut:

library(mclust)
dframe = read.table(url("http://doyenne.com/personal/files/data.csv"), header=T, sep=",")

mc = Mclust(dframe)
summary(mc)
# ----------------------------------------------------
#   Gaussian finite mixture model fitted by EM algorithm 
# ----------------------------------------------------
#   
#   Mclust VVI (diagonal, varying volume and shape) model with 3 components:
#   
#   log.likelihood   n df       BIC       ICL
#        -614.4713 170 14 -1300.844 -1338.715
# 
# Clustering table:
#  1  2  3 
# 72 72 26 

masukkan deskripsi gambar di sini

Sekarang, apa yang akan kita simpulkan dari ini? Saya tidak berpikir bahwa Mclusthanya pengenalan pola manusia menjadi serba salah. (Padahal saya membaca tentang sebar mungkin.) Di sisi lain, tidak ada pertanyaan bahwa ini adalah post-hoc . Saya melihat apa yang saya pikir merupakan pola yang menarik dan memutuskan untuk memeriksanya. Algoritme memang menemukan sesuatu, tetapi kemudian saya hanya memeriksa apa yang saya pikir mungkin ada sehingga ibu jari saya pasti pada skala. Kadang-kadang ada kemungkinan untuk menyusun strategi untuk memitigasi hal ini (lihat jawaban luar biasa @ whuber di sini ), tetapi saya tidak tahu bagaimana cara melakukan proses seperti ini dalam kasus-kasus seperti ini. Akibatnya, saya mengambil hasil ini dengan banyak garam (saya sudah melakukan hal semacam ini cukup sering sehingga seseorang kehilangan pengocok keseluruhan)). Itu memberi saya beberapa bahan untuk dipikirkan dan didiskusikan dengan klien saya ketika kita bertemu nanti. Apa data ini? Apakah masuk akal bahwa mungkin ada efek lantai? Apakah masuk akal bahwa mungkin ada kelompok yang berbeda? Seberapa berarti / mengejutkan / menarik / penting jika itu nyata? Apakah ada data independen / dapatkah kita membuatnya nyaman untuk melakukan tes jujur ​​terhadap kemungkinan ini? Dll

gung - Reinstate Monica
sumber
1
+1 Untuk menunjukkan bagaimana analisis eksplorasi secara alami mengarah ke pertanyaan menarik . Saya berharap saya telah menekankan poin itu lebih dalam jawaban saya. Meskipun saya pikir akan mendorong hal-hal untuk percaya (pada titik ini) bahwa sebenarnya ada tiga kelompok yang berbeda, hasil cluster masih menyajikan cara yang valid untuk melihat bahwa ada hubungan negatif antara x dan y dan meringkas hubungan itu. Saya bertanya-tanya sejauh mana pengelompokan otomatis bisa menjadi alat eksplorasi yang berguna - asalkan kita tidak tergoda untuk membaca terlalu banyak ke dalam hasil.
whuber
14

Biarkan saya menggambarkan apa yang saya lihat segera setelah saya melihatnya:

Jika kita tertarik pada distribusi bersyarat dari (yang jika sering di mana minat berfokus jika kita melihat sebagai IV dan sebagai DV), maka untuk distribusi bersyarat dari muncul bimodal dengan grup atas ( antara sekitar 70 dan 125, dengan rata-rata sedikit di bawah 100) dan kelompok yang lebih rendah (antara 0 dan sekitar 70, dengan rata-rata sekitar 30 atau lebih). Dalam setiap kelompok modal, hubungan dengan hampir datar. (Lihat garis-garis merah dan biru di bawah ini yang kira-kira digambar di mana kira-kira saya kira lokasi yang kasar)x y x 0,5 Y | x xyxyx0.5Y|xx

Kemudian dengan melihat di mana kedua kelompok itu lebih atau kurang padat di , kita dapat melanjutkan untuk mengatakan lebih banyak:X

Untuk kelompok atas menghilang sepenuhnya, yang membuat rata-rata keseluruhan jatuh, dan di bawah sekitar 0,2, kelompok bawah jauh lebih sedikit padat daripada di atasnya, membuat rata-rata keseluruhan lebih tinggi.xx>0,5x

Di antara dua efek ini, ia menginduksi hubungan negatif yang nyata (tetapi nonlinier) antara keduanya, karena tampaknya menurun terhadap tetapi dengan wilayah yang luas, sebagian besar datar di tengah. (Lihat garis putus-putus ungu)xE(Y|X=x)x

masukkan deskripsi gambar di sini

Tidak diragukan lagi, penting untuk mengetahui apa itu dan , karena dengan itu mungkin akan lebih jelas mengapa distribusi bersyarat untuk mungkin bimodal dalam banyak jangkauannya (bahkan, mungkin bahkan menjadi jelas bahwa memang ada dua kelompok, yang memiliki distribusi dalam menginduksi hubungan menurun yang jelas dalam ).X Y X Y | xYXYXY|x

Ini yang saya lihat berdasarkan inspeksi "mata-murni". Dengan sedikit bermain-main dalam sesuatu seperti program manipulasi gambar dasar (seperti yang saya gambar garisnya) kita bisa mulai mencari tahu beberapa angka yang lebih akurat. Jika kita mendigitalkan data (yang cukup sederhana dengan alat yang layak, jika kadang-kadang sedikit membosankan untuk memperbaikinya), maka kita dapat melakukan analisis yang lebih canggih dari kesan semacam itu.

Analisis eksplorasi semacam ini dapat menimbulkan beberapa pertanyaan penting (kadang-kadang yang mengejutkan orang yang memiliki data tetapi hanya menunjukkan plot), tetapi kita harus berhati-hati sejauh mana model kita dipilih oleh inspeksi tersebut - jika kami menerapkan model yang dipilih berdasarkan penampilan plot dan kemudian memperkirakan model-model tersebut pada data yang sama, kami akan cenderung menghadapi masalah yang sama yang kami dapatkan ketika kami menggunakan pemilihan model yang lebih formal dan estimasi pada data yang sama. [Ini bukan untuk menyangkal pentingnya analisis eksplorasi sama sekali - hanya saja kita harus berhati-hati terhadap konsekuensi melakukannya tanpa memperhatikan bagaimana kita melakukannya. ]


Menanggapi komentar Russ:

[sunting nanti: Untuk mengklarifikasi - Saya secara luas setuju dengan kritik Russ yang diambil sebagai tindakan pencegahan umum, dan tentu saja ada beberapa kemungkinan saya telah melihat lebih daripada yang sebenarnya ada. Saya berencana untuk kembali dan mengeditnya menjadi komentar yang lebih luas tentang pola palsu yang biasa kita identifikasi dengan mata dan cara-cara kita mungkin mulai menghindari yang terburuk dari itu. Saya percaya saya juga akan dapat menambahkan beberapa alasan mengapa saya pikir itu mungkin tidak hanya palsu dalam kasus khusus ini (misalnya melalui regressogram atau 0-order kernel smooth, meskipun tentu saja, tidak ada lebih banyak data untuk diuji, hanya ada sejauh ini bisa berjalan, misalnya, jika sampel kami tidak representatif, bahkan resampling hanya membuat kami sejauh ini.]

Saya sepenuhnya setuju kita memiliki kecenderungan untuk melihat pola palsu; ini poin yang sering saya buat di sini dan di tempat lain.

Satu hal yang saya sarankan, misalnya, ketika melihat plot residu atau plot QQ adalah untuk menghasilkan banyak plot di mana situasinya diketahui (baik sebagai hal-hal yang seharusnya dan di mana asumsi tidak berlaku) untuk mendapatkan ide yang jelas berapa banyak pola yang seharusnya diabaikan.

Berikut adalah contoh di mana plot QQ ditempatkan di antara 24 plot lainnya (yang memenuhi asumsi), agar kami dapat melihat betapa tidak lazimnya plot tersebut. Latihan semacam ini penting karena membantu kita menghindari membodohi diri sendiri dengan menafsirkan setiap gerak kecil, yang sebagian besar akan menjadi kebisingan sederhana.

Saya sering menunjukkan bahwa jika Anda dapat mengubah tayangan dengan membahas beberapa poin, kita mungkin mengandalkan tayangan yang dihasilkan oleh tidak lebih dari kebisingan.

[Namun, ketika itu jelas dari banyak titik daripada sedikit, lebih sulit untuk mempertahankan bahwa itu tidak ada di sana.]

Y

Ketika kami tidak memiliki lebih banyak data untuk diperiksa, setidaknya kami dapat melihat apakah tayangan cenderung bertahan resampling (bootstrap distribusi bivariat dan lihat apakah hampir selalu masih ada), atau manipulasi lain di mana tayangan seharusnya tidak terlihat. jika itu kebisingan sederhana.

1) Inilah salah satu cara untuk melihat apakah kemunculan bimodalitas lebih dari sekadar kemiringan ditambah derau - apakah ini muncul dalam perkiraan kepadatan kernel? Apakah masih terlihat jika kita memplot estimasi kepadatan kernel di bawah berbagai transformasi? Di sini saya mengubahnya menjadi simetri yang lebih besar, pada 85% bandwidth default (karena kami mencoba mengidentifikasi mode yang relatif kecil, dan bandwidth default tidak dioptimalkan untuk tugas itu):

masukkan deskripsi gambar di sini

YYlog(Y)68 log(68)68log(68)

2) Berikut ini cara dasar lain untuk melihat apakah lebih dari sekadar "noise":

Langkah 1: melakukan pengelompokan pada Y

masukkan deskripsi gambar di sini

Langkah 2: Membagi menjadi dua kelompok di , dan mengelompokkan dua kelompok secara terpisah, dan melihat apakah itu sangat mirip. Jika tidak ada yang terjadi pada dua bagian seharusnya tidak diharapkan untuk membagi semua yang sama.X

masukkan deskripsi gambar di sini

Titik-titik dengan titik-titik dikelompokkan secara berbeda dari kelompok "semua dalam satu set" di plot sebelumnya. Saya akan melakukan lebih banyak lagi nanti, tetapi sepertinya mungkin benar-benar ada "split" horisontal di dekat posisi itu.

Saya akan mencoba regressogram atau estimator Nadaraya-Watson (keduanya merupakan estimasi lokal dari fungsi regresi, ). Saya belum menghasilkan keduanya, tapi kita akan lihat bagaimana hasilnya. Saya mungkin akan mengecualikan bagian paling ujung di mana ada sedikit data.E(Y|x)

3) Sunting: Inilah regressogram, untuk nampan lebar 0,1 (tidak termasuk ujungnya, seperti yang saya sarankan sebelumnya):

masukkan deskripsi gambar di sini

Ini sepenuhnya konsisten dengan kesan asli saya tentang plot; itu tidak membuktikan alasan saya benar, tetapi kesimpulan saya sampai pada hasil yang sama dengan yang dilakukan regressogram.

Jika apa yang saya lihat di plot - dan alasan yang dihasilkan - adalah palsu, saya mungkin seharusnya tidak berhasil membedakan seperti ini.E(Y|x)

(Hal berikutnya yang akan dicoba adalah penaksir Nadayara-Watson. Lalu aku mungkin akan melihat bagaimana hasilnya dalam resampling jika aku punya waktu.)

4) Kemudian edit:

Nadarya-Watson, kernel Gaussian, bandwidth 0,15:

masukkan deskripsi gambar di sini

Sekali lagi, ini secara mengejutkan konsisten dengan kesan awal saya. Berikut adalah estimator NW berdasarkan sepuluh contoh bootstrap:

masukkan deskripsi gambar di sini

Pola luas ada di sana, meskipun beberapa sampel tidak dengan jelas mengikuti deskripsi berdasarkan seluruh data. Kita melihat bahwa kasus tingkat kiri kurang pasti daripada di sebelah kanan - tingkat kebisingan (sebagian dari beberapa pengamatan, sebagian dari penyebaran luas) sedemikian rupa sehingga kurang mudah untuk mengklaim rata-rata sangat tinggi pada tingkat kiri daripada di tengah.

Kesan keseluruhan saya adalah bahwa saya mungkin tidak membodohi diri saya sendiri, karena berbagai aspek berdiri cukup baik untuk berbagai tantangan (perataan, transformasi, pemisahan menjadi subkelompok, resampling) yang akan cenderung mengaburkan mereka jika mereka hanya berisik. Di sisi lain, indikasinya adalah bahwa efeknya, meskipun secara luas konsisten dengan kesan awal saya, relatif lemah, dan mungkin terlalu banyak untuk mengklaim perubahan nyata dalam ekspektasi bergerak dari sisi kiri ke tengah.

Glen_b -Reinstate Monica
sumber
1
Saya mempertanyakan satu jawaban, tetapi yang ini saya yakin mengatakan itu adalah menemukan hal-hal yang tidak ada
rvl
1
Saya mencoba untuk membalikkan suara saya, tetapi saya rasa saya tidak bisa. Hanya karena saya benar-benar tidak setuju dengan jawaban Anda tidak berarti itu tidak berkontribusi pada diskusi. Saya tidak yakin bagaimana menggunakan down-orang, dan tidak berarti apa-apa pribadi oleh it.p
RVL
4
@Russ jangan khawatir tentang downvote, itu benar-benar tidak masalah, di luar fakta bahwa itu menandakan ada sesuatu yang harus saya atasi. Jauh lebih penting untuk memahami mengapa kita tidak setuju (sejauh yang kita lakukan sama sekali) daripada khawatir tentang poin internet palsu. Anda memiliki keberatan untuk didiskusikan, dan saya dengan senang hati akan membayar sepuluh kali lipat untuk melakukan diskusi singkat ini. Saya mendorong Anda untuk menurunkan saya setiap kali Anda tidak setuju, jika Anda akan mengatakannya. Itulah kesempatan saya untuk belajar sesuatu.
Glen_b -Reinstate Monica
1
@RussLenth Anda dapat membatalkan downvote (atau upvote) dengan mengklik kembali suara down. Jika Anda tidak yakin di mana suara Anda berada di hovertext atas panah bawah (atau atas) akan memberi tahu Anda.
Alexis
4
+1 Saya benar-benar melakukan banyak analisis ini tetapi tidak ingin terlalu memperluas jawaban saya dengan hasil itu. Anda telah melakukan pekerjaan luar biasa dalam menyajikannya dalam bentuk yang jelas, mudah dibaca, dan meyakinkan. Satu hal yang saya lakukan selain adalah kemunduran (sebenarnya, mulus) x terhadap y (meskipun karakterisasi y sebagai "tergantung"): Saya pikir hasilnya sangat membantu dalam menilai nonlinier dalam hubungan dengan cara yang agnostik tentang apakah Anda harus diperlakukan sebagai satu atau dua kelompok.
whuber
13

logyxplot log (Y) vs X

Dan korelasinya:

> cor.test(~ x + y, data = data)

    Pearson's product-moment correlation

data:  x and y
t = -2.6311, df = 169, p-value = 0.009298
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 -0.33836844 -0.04977867
sample estimates:
       cor 
-0.1983692 

> cor.test(~ x + log(y), data = data)

    Pearson's product-moment correlation

data:  x and log(y)
t = -2.8901, df = 169, p-value = 0.004356
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 -0.35551268 -0.06920015
sample estimates:
       cor 
-0.2170188 

Uji korelasi menunjukkan kemungkinan ketergantungan negatif. Saya tetap tidak yakin akan segala kesembronoan (tetapi juga tidak yakin bahwa itu tidak ada).

X|Y

rvl
sumber
2
YXY=Sebuah+bX
Terima kasih untuk plot sisa itu, Russ. Ini bukan permintaan, tetapi saya ingin menunjukkan bahwa apa yang menurut saya menarik - dan mungkin bernilai lebih besar untuk mengeksplorasi GoF - adalah hubungan x sebagai fungsi y daripada sebaliknya. Melihat pada residual x meminta beberapa pertanyaan tambahan (mungkin berguna) yang belum diajukan sebelumnya, seperti apakah kita dapat mempelajari sesuatu melalui ekspresi ulang non-linear dari x (ya, kita bisa); apakah banyak yang bisa dikatakan terlepas dari hipotesis dua populasi (ya, lagi), dan tentang kekokohan fit saya (itu sangat kuat).
whuber
Nah, mungkin Anda ingin melakukan plot sisa untuk itu. Saya pindah ke hal-hal lain.
rvl
5

Russ Lenth bertanya-tanya bagaimana grafik akan terlihat jika sumbu Y adalah logaritmik. Alexis menggores data, sehingga mudah untuk merencanakan dengan sumbu log:

masukkan deskripsi gambar di sini

Pada skala log, tidak ada tanda-tanda bimodality atau tren. Apakah skala log masuk akal atau tidak tergantung, tentu saja, pada detail yang diwakili oleh data. Demikian pula, apakah masuk akal untuk berpikir bahwa data mewakili pengambilan sampel dari dua populasi seperti yang ditunjukkan oleh whuber tergantung pada detailnya.


Tambahan: Berdasarkan komentar di bawah, ini adalah versi revisi:

masukkan deskripsi gambar di sini

Harvey Motulsky
sumber
Saya memposting grafik saya dalam beberapa menit dari Russ Lenth memposting miliknya. Aku belum melihatnya, atau aku tidak akan memposting milikku.
Harvey Motulsky
Y
9
Grafik ini menyajikan contoh menarik dari efek pilihan visualisasi yang buruk: dengan mengecilkan rasio aspek dan memperluas sumbu y lebih dari dua kali sejauh yang diperlukan, perangkat lunak telah secara otomatis menekan kesan visual dari sebaran vertikal, membuatnya sulit bagi pemirsa untuk melihat banyak hal. Inilah sebabnya mengapa eksplorasi yang baik, walaupun dipandu oleh representasi grafis, harus (a) menggunakan metode visualisasi yang sesuai yang mengungkapkan , alih-alih menekan, perilaku data, dan (b) mendukungnya dengan analisis tambahan (seperti ditunjukkan pada posting @ Glen_b) .
whuber
Untuk rentang Y dalam pertanyaan, log basis 2 akan menjadi pilihan yang lebih sederhana untuk memiliki rentang nilai yang wajar untuk sumbu Y. Ini juga akan mencegah kisaran atas dari nilai bagus 1 dan 1.000 yang tidak sesuai dengan data yang ada.
Andy W
1

Ya, Anda benar, hubungannya lemah, tetapi tidak nol. Saya kira positif. Namun, jangan menebak, jalankan saja regresi linier sederhana (regresi OLS) dan cari tahu! Di sana Anda akan mendapatkan kemiringan xxx yang memberi tahu Anda apa hubungannya. Dan ya, Anda memiliki outlier yang mungkin bias hasilnya. Itu bisa diatasi. Anda bisa menggunakan jarak Cook atau membuat plot leverage untuk memperkirakan efek outlier pada hubungan.

Semoga berhasil

Helgi Guðmundsson
sumber
Apa yang membuat Anda berpikir bahwa mereka outlier nyata daripada DGP menjadi non-linear?
abaumann
Yah saya kira itu mungkin juga terjadi. Tetapi sulit untuk mengatakan, titik-titiknya sangat tersebar.
Helgi Guðmundsson
Mengapa menganggap linearitas dengan OLS? FTW regresi nonparametrik! :)
Alexis
1
@Alexis benar dalam menekankan bahwa asumsi seperti linearitas harus dibenarkan, apakah dengan teori domain atau dengan pengecekan model. Namun, saya pikir penghapusan outlier langsung tanpa hati-hati mempertimbangkan mengapa nilai-nilai tersebut terjadi adalah kesalahan yang sangat umum dalam analisis statistik.
abaumann
Ya, pencilan tidak dapat dihapus tanpa pembenaran yang baik, seperti nilai yang salah. Tetapi transformasi dapat membantu menyesuaikan distribusi nilai agar lebih sesuai, dan mengurangi pencilan. Dan ya saya setuju, saya percaya itu cukup umum menghapus outlier tanpa alasan yang bisa dibenarkan.
Helgi Guðmundsson
1

Anda sudah memberikan beberapa intuisi untuk pertanyaan Anda dengan melihat orientasi titik data X / Y dan penyebarannya. Singkatnya, Anda benar.

Dalam istilah formal, orientasi dapat disebut sebagai tanda korelasi dan dispersi sebagai varian . Kedua tautan ini akan memberi Anda lebih banyak informasi tentang cara menafsirkan hubungan linear antara dua variabel.

Robert Kubrick
sumber
0

Ini adalah pekerjaan rumahan. Jadi, jawaban untuk pertanyaan Anda sederhana. Jalankan regresi linear Y pada X, Anda akan mendapatkan sesuatu seperti ini:

    Coefficient Standard Er t Stat
C   53.14404163 6.522516463 8.147781908
X   -44.8798926 16.80565866 -2.670522684

Jadi, t-statistik signifikan pada variabel X pada kepercayaan 99%. Oleh karena itu, Anda dapat mendeklarasikan variabel memiliki semacam hubungan.

Apakah ini linier? Tambahkan variabel X2 = (X-mean (X)) ^ 2, dan mundur lagi.

    Coefficient Stand Err   t Stat
C   53.46173893 6.58938281  8.11331508
X   -43.9503443 17.01532569 -2.582985779
X2  -44.601130  114.1461801 -0.390736951

Koefisien pada X masih signifikan, tetapi X2 tidak. X2 mewakili nonlinier. Jadi, Anda menyatakan bahwa hubungan itu tampaknya linier.

Di atas adalah untuk pekerjaan rumahan.

Dalam kehidupan nyata, segalanya lebih rumit. Bayangkan, ini adalah data di kelas siswa. Y - bench press dalam pound, X - waktu dalam beberapa menit menahan napas sebelum bench press. Saya akan meminta jenis kelamin siswa. Hanya untuk bersenang-senang, mari; tambahkan variabel lain, Z, dan katakanlah Z = 1 (perempuan) untuk semua Y <60, dan Z = 0 (laki-laki) ketika Y> = 60. Jalankan regresi dengan tiga variabel:

    Coefficient Stand Error t Stat
C   92.93031357 3.877092841 23.969071
X   -6.55246715 8.977138488 -0.72990599
X2  -43.6291362 59.06955097 -0.738606194
Z   -63.3231270 2.960160265 -21.39179009

Apa yang terjadi?! "Hubungan" antara X dan Y telah menghilang! Oh, sepertinya hubungan itu palsu karena variabel pengganggu , jenis kelamin.

Apa moral dari cerita ini? Anda perlu tahu apa data untuk "menjelaskan" hubungan ", atau bahkan untuk membangunnya di tempat pertama. Dalam hal ini, saat saya diberitahu bahwa data tentang aktivitas fisik siswa, saya akan segera meminta jenis kelamin mereka, dan bahkan tidak akan repot-repot menganalisis data tanpa mendapatkan variabel gender.

Di sisi lain, jika Anda diminta untuk "menggambarkan" plot pencar, maka semuanya berjalan. Korelasi, kecocokan linier, dll. Untuk pekerjaan rumahan Anda, dua langkah pertama di atas harus memadai: lihat koefisien X (hubungan), lalu X ^ 2 (linearitas). Pastikan Anda mende-mean-kan variabel X (kurangi mean).

Aksakal
sumber