Kami telah mengukur dua variabel, dan scatterplot tampaknya menyarankan beberapa model "linear". Apakah ada cara untuk mencoba menyaring model-model itu? Mengidentifikasi variabel independen lain ternyata sulit.
Kedua variabel sangat condong ke kiri (menuju angka kecil), ini merupakan distribusi yang diharapkan dalam domain kami. Intensitas titik mewakili jumlah titik data (pada skala ) pada < x , y > ini .
Atau, apakah ada cara untuk mengelompokkan poin?
Di bidang kami, diklaim bahwa kedua variabel ini berkorelasi linier. Kami mencoba memahami / menjelaskan mengapa ini tidak terjadi di data kami.
(catatan, kami memiliki 17 juta titik data)
pembaruan: terima kasih atas semua jawaban, berikut adalah beberapa klarifikasi yang diminta:
- Kedua variabel hanya bilangan bulat, yang menjelaskan beberapa pola dalam log sebar.
- Untungnya, menurut definisi nilai minimal kedua variabel adalah 1.
- 7M poin berada pada ("dijelaskan" oleh kemiringan data yang kiri)
Berikut ini plot yang diminta:
log-log sebar:
(kekosongan disebabkan oleh nilai integer)
log-log polar:
Rasio histogram:
sumber
Jawaban:
Titik terminologi: kemiringan statistik dijelaskan dengan mengacu pada ekor yang lebih terentang. Anda bebas menganggap terminologi ini sebagai mundur. Di sini kedua variabel condong ke nilai tinggi atau positif atau kanan miring.
Seperti sebelumnya, saya tidak akan menyarankan memodelkan garis yang berbeda secara berbeda tanpa alasan ilmiah untuk membedakannya atau memperlakukannya secara terpisah. Anda harus meratakan apa yang Anda miliki. (Mungkin ada metode yang diketahui dengan data semacam ini untuk menekan kelonggaran. Jika orang-orang di bidang Anda secara rutin mengukur jutaan titik untuk setiap plot, sulit untuk percaya bahwa ini belum terlihat sebelumnya.)
Korelasi tentu harus positif. Terlepas dari uji signifikansi formal, yang di sini akan sama sekali tidak berguna karena korelasi menit akan memenuhi syarat sebagai signifikan dengan ukuran sampel ini, apakah itu dinyatakan kuat adalah masalah harapan dan standar di bidang Anda. Membandingkan korelasi Anda secara kuantitatif dengan hasil orang lain adalah cara yang tepat.
Detail: Kemiringan masih digambarkan dengan cara yang salah menurut konvensi statistik. Variabel-variabel ini miring kanan; jargon yang cocok ketika melihat histogram dengan sumbu magnitudo horizontal dan mencatat bahwa kemiringan dinamai ekor yang lebih panjang, bukan konsentrasi dengan nilai lebih.
sumber
sumber
Saya telah mengamati perilaku serupa di beberapa set data saya. Dalam kasus saya, beberapa baris yang berbeda disebabkan oleh kesalahan kuantisasi di salah satu algoritma pemrosesan saya.
Yaitu, kami melihat plot pencar data yang diproses, dan algoritma pemrosesan memiliki beberapa efek kuantisasi, yang menyebabkan ketergantungan pada data yang tampak persis seperti yang Anda miliki di atas.
Memperbaiki efek kuantisasi, menyebabkan output kami terlihat jauh lebih halus dan kurang berumpun.
Adapun komentar "korelasi linear" Anda. Apa yang Anda sajikan tidak cukup untuk menentukan apakah data ini berkorelasi linier atau tidak. Artinya, di beberapa bidang, koefisien korelasi> 0,7 dianggap korelasi linier yang kuat. Mengingat bahwa sebagian besar data Anda berada di dekat sumbernya, sangat mungkin bahwa data Anda berkorelasi linear relatif terhadap apa yang akan dikatakan "kearifan konvensional". Korelasi memberi tahu Anda sangat sedikit tentang kumpulan data.
sumber