Cara mulai membangun model regresi ketika prediktor yang paling kuat terkait adalah biner

11

Saya memiliki kumpulan data yang berisi 365 observasi dari tiga variabel yaitu pm, tempdan rain. Sekarang saya ingin memeriksa perilaku pmdalam menanggapi perubahan dalam dua variabel lainnya. Variabel saya adalah:

  • pm10 = Respon (tergantung)
  • temp = prediktor (independen)
  • rain = prediktor (independen)

Berikut ini adalah matriks korelasi untuk data saya:

> cor(air.pollution)
               pm        temp       rainy
pm     1.00000000 -0.03745229 -0.15264258
temp  -0.03745229  1.00000000  0.04406743
rainy -0.15264258  0.04406743  1.00000000

Masalahnya adalah ketika saya mempelajari konstruksi model regresi, ada tertulis bahwa metode aditif dimulai dengan variabel yang paling terkait dengan variabel respons. Dalam kumpulan data saya rainsangat berkorelasi dengan pm(dibandingkan dengan temp), tetapi pada saat yang sama itu adalah variabel dummy (hujan = 1, tidak ada hujan = 0), jadi saya sekarang memiliki petunjuk dari mana saya harus mulai. Saya telah terpasang dua gambar dengan pertanyaan: Yang pertama adalah sebar data, dan gambar kedua adalah sebar dari pm10vs rain, saya juga tidak dapat menafsirkan sebar dari pm10vs rain. Bisakah seseorang membantu saya bagaimana memulainya?

ini adalah sebar-plot data saya

sebar petak PM10 vs hujan

Syed Asif Ali Shah
sumber
3
Ini adalah pertanyaan yang sangat layak, IMO, bahkan jika itu berasal dari kesalahpahaman.
gung - Reinstate Monica
Satu hal yang perlu diingat dengan regresi adalah bahwa variabel dependen diasumsikan sebagai acak, sedangkan prediktor diasumsikan diperbaiki sebagai variabel yang secara eksperimental. (Jadi, berhati-hatilah saat Anda memutar sesuatu di kepalanya). Tampaknya tidak ada korelasi positif atau negatif yang kuat dalam matriks Anda, karena tidak ada off-diagonal ? x i 1 , x i 2 , , x i p | r j k | > 0,8yixi1,xi2,,xip|rjk|>0.8
wrktsj

Jawaban:

17

Banyak orang percaya bahwa Anda harus menggunakan beberapa strategi seperti memulai dengan variabel yang paling terkait, dan kemudian menambahkan variabel tambahan pada gilirannya sampai satu tidak signifikan. Namun, tidak ada logika yang memaksa pendekatan ini. Selain itu, ini adalah semacam strategi pemilihan / pencarian variabel 'serakah' (lih, jawaban saya di sini: Algoritma untuk pemilihan model otomatis ). Anda tidak harus melakukan ini , dan sungguh, Anda seharusnya tidak melakukannya. Jika Anda ingin mengetahui hubungan antara pm, dan tempdanrain, cukup muat model regresi berganda dengan ketiga variabel. Anda masih perlu menilai model untuk menentukan apakah itu wajar dan asumsi dipenuhi, tetapi hanya itu. Jika Anda ingin menguji beberapa hipotesis a-priori, Anda dapat melakukannya dengan model. Jika Anda ingin menilai model dari akurasi prediksi sampel, Anda dapat melakukannya dengan validasi silang.

Anda tidak perlu terlalu khawatir tentang multikolinearitas. Korelasi antara tempdan rainterdaftar 0.044dalam matriks korelasi Anda. Itu adalah korelasi yang sangat rendah dan seharusnya tidak menimbulkan masalah.

gung - Pasang kembali Monica
sumber
1
terima kasih banyak atas sarannya. Saya baru di situs ini, tidak tahu bagaimana cara menggunakannya, dapatkah Anda memberikan beberapa saran tambahan atau mempelajari materi
Syed Asif Ali Shah
1
@SyedAsifAliShah, selain itu bahasa Inggris sepertinya bukan bahasa ibu Anda, saya tidak melihat masalah dg bagaimana Anda menggunakan situs ini. Mengenai materi studi, Anda mungkin melihat ini atau ini , atau hanya menelusuri utas kami dengan tag referensi .
gung - Reinstate Monica
haruskah saya mencoba model linear atau GLM untuk data saya ??
Syed Asif Ali Shah
1
@SyedAsifAliShah, mungkin model linier baik untuk data Anda.
gung - Reinstate Monica
bro aku butuh
bantuanmu
10

Meskipun ini tidak secara langsung membahas kumpulan data yang sudah Anda kumpulkan, hal lain yang bisa Anda coba saat berikutnya Anda mengumpulkan data seperti ini adalah untuk menghindari merekam "hujan" sebagai biner. Data Anda mungkin akan lebih informatif jika Anda mengukur laju hujan (cm / jam), yang akan memberi Anda variabel yang didistribusikan secara terus-menerus (hingga presisi pengukuran Anda) mulai dari 0 ... max_rainfall.

Ini akan membuat Anda berkorelasi tidak hanya "hujan" ke variabel lain, tetapi juga "berapa hujan".

JKreft
sumber
hai bro saya melakukan hal yang sama sesuai dengan saran Anda saya mengumpulkan data lengkap model hujan dan bangunan
Syed Asif Ali Shah
bisakah saya meminta email Anda? Saya hanya ingin mengajukan beberapa pertanyaan
Syed Asif Ali Shah
Jika Anda memiliki pertanyaan tambahan tentang pengaturan model Anda, mungkin pertanyaan StackExchange baru akan menjadi cara untuk melakukannya. Dengan begitu Anda bisa mendapatkan umpan balik dari lebih banyak orang, banyak di antaranya lebih ahli daripada saya.
JKreft