Apakah ada paket R yang bisa saya gunakan untuk mengeksplorasi apakah ada hubungan antar variabel?
Biasanya ketika saya mencari pola saya melihat korelasi, dan kemudian plot segi. Kemudian saya secara manual menerapkan beberapa transformasi ke variabel dalam data. Saya bertanya-tanya apakah saya bisa mempercepat proses ini melalui paket R.
r
data-visualization
correlation
eda
celenius
sumber
sumber
Jawaban:
AFAIK, tidak. Untuk lebih tepatnya, saya tidak tahu satu paket R yang akan melakukan bagian dari apa yang disebut Exploratory Data Analysis (EDA) untuk Anda melalui panggilan fungsi tunggal - Saya sedang memikirkan aspek ekspresi ulang dan wahyu dibahas dalam Hoaglin, Mosteller dan Tukey, Understanding Robust and Exploratory Data Analysis . Wiley-Interscience, 1983, khususnya.
Namun, ada beberapa alternatif bagus dalam R, terutama mengenai eksplorasi data interaktif (Lihat di sini untuk diskusi menarik: Kapan visualisasi data interaktif berguna untuk digunakan? ). Saya bisa memikirkan
Ini hanya untuk eksplorasi data interaktif, tetapi saya akan mengatakan ini adalah inti dari EDA. Bagaimanapun, teknik di atas mungkin membantu ketika mengeksplorasi hubungan bivariat atau tingkat tinggi antara variabel numerik. Untuk data kategorikal, paket vcd adalah pilihan yang baik (tabel visualisasi dan ringkasan). Kemudian, saya akan mengatakan daripada paket vegan dan ade4 yang lebih dulu untuk mengeksplorasi hubungan antara variabel tipe data campuran.
Akhirnya, bagaimana dengan data mining di R? (Coba kata kunci ini di Rseek )
sumber
loon
juga ada waddella.github.io/loon Credit diberikan ke @hadleywickham karena menunjukkan hal ini.Jika Anda hanya ingin melihat sekilas bagaimana variabel dalam dataset Anda berkorelasi, lihat fungsi pasangan (), atau bahkan lebih baik, fungsi pairs.panels () dalam paket psik. Saya menulis sedikit tentang fungsi pasangan di sini .
Menggunakan fungsi pairs () atau psych :: pairs.panels () cukup mudah untuk membuat matriks sebar.
sumber
Lihatlah
scagnostics
paket dan makalah penelitian asli . Ini sangat menarik untuk hubungan bivariat. Untuk hubungan multivariat, pengejaran proyeksi adalah langkah pertama yang sangat baik.Namun, secara umum, keahlian domain dan data akan mempersempit dan meningkatkan metode Anda untuk menyelidiki hubungan dengan cepat.
sumber
Fungsi chart.Correlation di PerformanceAnalytics menyediakan fungsionalitas yang mirip dengan fungsi plot.pairs @Stephen Turner yang disebutkan, kecuali fungsi smooth dengan fungsi loess daripada model linear, dan signifikansi untuk korelasi.
sumber
Jika Anda mencari kemungkinan transformasi untuk bekerja dengan korelasi, maka alat yang belum disebutkan yang mungkin berguna adalah
ace
yang dapat ditemukan dalamacepack
paket (dan mungkin paket lain juga). Ini melakukan proses interatif mencoba banyak transformasi yang berbeda (menggunakan smoothers) untuk menemukan transformasi untuk memaksimalkan korelasi antara satu set variabel x dan variabel ay. Merencanakan transformasi kemudian dapat menyarankan transformasi yang berarti.sumber
Anda dapat menggunakan fungsi DCOR dalam paket 'energi' untuk menghitung ukuran ketergantungan non-linear yang disebut korelasi jarak dan plot seperti di atas. Masalah dengan korelasi Pearson adalah bahwa ia hanya dapat mendeteksi hubungan linier antar variabel. Pastikan Anda memilih parameter tulis untuk indeks dalam fungsi DCOR yang mengatakan.
sumber