Saya memiliki kumpulan data yang berisi 365 observasi dari tiga variabel yaitu pm
, temp
dan rain
. Sekarang saya ingin memeriksa perilaku pm
dalam menanggapi perubahan dalam dua variabel lainnya. Variabel saya adalah:
pm10
= Respon (tergantung)temp
= prediktor (independen)rain
= prediktor (independen)
Berikut ini adalah matriks korelasi untuk data saya:
> cor(air.pollution)
pm temp rainy
pm 1.00000000 -0.03745229 -0.15264258
temp -0.03745229 1.00000000 0.04406743
rainy -0.15264258 0.04406743 1.00000000
Masalahnya adalah ketika saya mempelajari konstruksi model regresi, ada tertulis bahwa metode aditif dimulai dengan variabel yang paling terkait dengan variabel respons. Dalam kumpulan data saya rain
sangat berkorelasi dengan pm
(dibandingkan dengan temp
), tetapi pada saat yang sama itu adalah variabel dummy (hujan = 1, tidak ada hujan = 0), jadi saya sekarang memiliki petunjuk dari mana saya harus mulai. Saya telah terpasang dua gambar dengan pertanyaan: Yang pertama adalah sebar data, dan gambar kedua adalah sebar dari pm10
vs rain
, saya juga tidak dapat menafsirkan sebar dari pm10
vs rain
. Bisakah seseorang membantu saya bagaimana memulainya?
sumber
Jawaban:
Banyak orang percaya bahwa Anda harus menggunakan beberapa strategi seperti memulai dengan variabel yang paling terkait, dan kemudian menambahkan variabel tambahan pada gilirannya sampai satu tidak signifikan. Namun, tidak ada logika yang memaksa pendekatan ini. Selain itu, ini adalah semacam strategi pemilihan / pencarian variabel 'serakah' (lih, jawaban saya di sini: Algoritma untuk pemilihan model otomatis ). Anda tidak harus melakukan ini , dan sungguh, Anda seharusnya tidak melakukannya. Jika Anda ingin mengetahui hubungan antara
pm
, dantemp
danrain
, cukup muat model regresi berganda dengan ketiga variabel. Anda masih perlu menilai model untuk menentukan apakah itu wajar dan asumsi dipenuhi, tetapi hanya itu. Jika Anda ingin menguji beberapa hipotesis a-priori, Anda dapat melakukannya dengan model. Jika Anda ingin menilai model dari akurasi prediksi sampel, Anda dapat melakukannya dengan validasi silang.Anda tidak perlu terlalu khawatir tentang multikolinearitas. Korelasi antara
temp
danrain
terdaftar0.044
dalam matriks korelasi Anda. Itu adalah korelasi yang sangat rendah dan seharusnya tidak menimbulkan masalah.sumber
Meskipun ini tidak secara langsung membahas kumpulan data yang sudah Anda kumpulkan, hal lain yang bisa Anda coba saat berikutnya Anda mengumpulkan data seperti ini adalah untuk menghindari merekam "hujan" sebagai biner. Data Anda mungkin akan lebih informatif jika Anda mengukur laju hujan (cm / jam), yang akan memberi Anda variabel yang didistribusikan secara terus-menerus (hingga presisi pengukuran Anda) mulai dari 0 ... max_rainfall.
Ini akan membuat Anda berkorelasi tidak hanya "hujan" ke variabel lain, tetapi juga "berapa hujan".
sumber