Saya memiliki sampel 1,449 titik data yang tidak berkorelasi (r-squared 0,006).
Ketika menganalisis data, saya menemukan bahwa dengan memecah nilai-nilai variabel independen menjadi kelompok-kelompok positif dan negatif, tampaknya ada perbedaan yang signifikan dalam rata-rata variabel dependen untuk setiap kelompok.
Membagi titik menjadi 10 sampah (desil) dengan menggunakan nilai variabel independen, tampaknya ada korelasi yang lebih kuat antara angka desil dan nilai variabel dependen rata-rata (r-squared 0,27).
Saya tidak tahu banyak tentang statistik, jadi inilah beberapa pertanyaan:
- Apakah ini pendekatan statistik yang valid?
- Apakah ada metode untuk menemukan jumlah sampah terbaik?
- Apa istilah yang tepat untuk pendekatan ini sehingga saya bisa Google?
- Apa sajakah sumber pengantar untuk belajar tentang pendekatan ini?
- Apa saja pendekatan lain yang bisa saya gunakan untuk menemukan hubungan dalam data ini?
Berikut adalah data decile untuk referensi: https://gist.github.com/georgeu2000/81a907dc5e3b7952bc90
EDIT: Ini adalah gambar dari data:
Momentum Industri adalah variabel independen, Kualitas Titik Masuk bergantung
sumber
Jawaban:
0. Korelasi (0,0775) kecil tetapi (secara statistik) berbeda secara signifikan dari 0. Artinya, sepertinya memang ada korelasi, itu hanya sangat kecil / lemah (setara, ada banyak suara di sekitar hubungan).
3. Ya. Mungkin mulai dengan pencarian ini , lalu coba sinonim.
4. Ini adalah tempat yang baik untuk memulai; itu adalah buku yang sangat populer yang ditujukan untuk non-ahli statistik.
5. (lebih serius :) Saya sarankan smoothing (seperti melalui regresi polinomial lokal / smoothing kernel, katakanlah) sebagai salah satu cara untuk menyelidiki hubungan. Itu tergantung pada apa yang Anda inginkan, tepatnya, tetapi ini bisa menjadi pendekatan yang valid ketika Anda tidak tahu bentuk hubungan, selama Anda menghindari masalah pengerukan data.
Ada kutipan populer, yang pencetusnya adalah Ronald Coase :
sumber
Mungkin Anda akan mendapat manfaat dari alat eksplorasi. Memisahkan data menjadi desil dari koordinat x tampaknya telah dilakukan dengan semangat itu. Dengan modifikasi yang dijelaskan di bawah ini, ini merupakan pendekatan yang sangat bagus.
Banyak metode eksplorasi bivariat telah ditemukan. Yang sederhana yang diusulkan oleh John Tukey ( EDA , Addison-Wesley 1977) adalah "plot skematik pengembaraannya". Anda mengiris koordinat x ke dalam nampan, membangun plot kotak vertikal dari data y terkait di median masing-masing nampan, dan menghubungkan bagian-bagian kunci dari plot kotak (median, engsel, dll.) Ke dalam kurva (opsional menghaluskan mereka). "Jejak penjelajahan" ini memberikan gambaran distribusi bivariat data dan memungkinkan penilaian visual langsung dari korelasi, linieritas hubungan, pencilan, dan distribusi marjinal, serta estimasi yang kuat dan evaluasi yang sesuai untuk setiap fungsi regresi nonlinier .
Untuk menampilkan populasi bin yang bervariasi, kita dapat membuat lebar setiap kotak box sebanding dengan jumlah data yang diwakilinya.
Skema pengembara yang dihasilkan akan terlihat seperti ini. Data, sebagaimana dikembangkan dari ringkasan data, ditampilkan sebagai titik abu-abu di latar belakang. Lebih dari ini, plot skematik yang berkelana telah digambar, dengan lima jejak warna dan plot kotak (termasuk setiap outlier yang ditampilkan) dalam warna hitam dan putih.
Alat eksplorasi alternatif dengan tujuan yang sama termasuk smooth yang kuat dari jendela kuantil data dan cocok dari regresi kuantil menggunakan berbagai kuantil. Dengan ketersediaan perangkat lunak untuk melakukan perhitungan ini, mereka mungkin menjadi lebih mudah dieksekusi daripada jejak skematik yang berkelana, tetapi mereka tidak menikmati kesederhanaan konstruksi yang sama, kemudahan interpretasi, dan penerapan yang luas.
R
Kode berikut menghasilkan angka dan dapat diterapkan ke data asli dengan sedikit atau tanpa perubahan. (Abaikan peringatan yang dihasilkan olehbplt
(dipanggil olehbxp
): ia mengeluh ketika tidak memiliki outlier untuk menggambar.)sumber
c(0,.03,-.6,.5,-.1,.6,1.2,.7,1.4,.1,.6)
, apakah ini dihasilkan dan data bergantung (x
)? Anda menyebutkan2^*(-k)
tetapi ini tidak terkait.k <- 1:11; ifelse(quantile(g, seq(0,1,1/10))>0, 2^(-k), 1-2^(-k))
Saya tidak percaya bahwa binning adalah pendekatan ilmiah untuk masalah ini. Ini adalah kehilangan informasi dan sewenang-wenang. Metode peringkat (ordinal; semiparametri) jauh lebih baik dan tidak kehilangan informasi. Bahkan jika seseorang memutuskan untuk menggunakan bin decile, metode ini masih sewenang-wenang dan tidak dapat direproduksi oleh orang lain, hanya karena banyaknya definisi yang digunakan untuk kuantil dalam kasus ikatan dalam data. Dan seperti yang disinggung dalam komentar penyiksaan data yang bagus di atas, Howard Wainer memiliki makalah yang bagus yang menunjukkan bagaimana menemukan bins yang dapat menghasilkan asosiasi positif, dan menemukan bins yang dapat menghasilkan asosiasi negatif, dari dataset yang sama:
sumber
Membagi data menjadi desil berdasarkan X yang diamati ("Kualitas Titik Masuk") tampaknya merupakan generalisasi dari metode lama yang pertama kali diusulkan oleh Wald dan kemudian oleh orang lain untuk situasi di mana X dan Y dapat mengalami kesalahan. (Wald membagi data menjadi dua kelompok. Nair & Shrivastava dan Bartlett membaginya menjadi tiga.) Hal ini dijelaskan dalam bagian 5C dari Understanding kuat dan eksplorasi Analisis Data , diedit oleh Hoaglin, Mosteller dan Tukey (Wiley, 1983). Namun, banyak pekerjaan pada "Kesalahan Pengukuran" atau "Kesalahan dalam Model Variabel" telah dilakukan sejak saat itu. Buku teks yang saya lihat adalah Kesalahan Pengukuran: Model, Metode dan Aplikasi oleh John Buonaccorsi (CRC Press,
Situasi Anda mungkin agak berbeda karena scatterplot Anda membuat saya curiga bahwa kedua pengamatan adalah variabel acak dan saya tidak tahu apakah masing-masing berisi kesalahan pengukuran. Apa yang diwakili oleh variabel?
sumber
Saya menemukan paket localgauss sangat berguna untuk ini. https://cran.r-project.org/web/packages/localgauss/index.html
Paket berisi
Contoh:
Hasil:
sumber