Bagaimana memasukkan

9

Saya ingin memasukkan istilah x dan kuadrat x2 (variabel prediktor) ke dalam regresi karena saya berasumsi bahwa nilai rendah x memiliki efek positif pada variabel dependen dan nilai-nilai tinggi memiliki efek negatif. The x2 harus menangkap efek dari nilai-nilai yang lebih tinggi. Karena itu saya berharap bahwa koefisien x akan menjadi positif dan koefisien x2 akan negatif. Selain x , saya juga menyertakan variabel prediktor lainnya.

Saya membaca di beberapa posting di sini bahwa itu adalah ide yang baik untuk memusatkan variabel dalam kasus ini untuk menghindari multikolinearitas. Saat melakukan regresi berganda, kapan Anda harus memusatkan variabel prediktor Anda & kapan Anda harus membakukannya?

  1. Haruskah saya memusatkan kedua variabel secara terpisah (rata-rata) atau haruskah saya hanya memusatkan x dan kemudian mengambil kuadrat atau haruskah saya hanya memusatkan x2 dan memasukkan asli x?

  2. Apakah masalah jika x adalah variabel jumlah?

Untuk menghindari x menjadi variabel hitungan, saya berpikir untuk membaginya dengan area yang ditentukan secara teoritis, misalnya 5 kilometer persegi. Ini harus sedikit mirip dengan perhitungan kepadatan titik.

Namun, saya takut bahwa dalam situasi ini asumsi awal saya tentang tanda koefisien tidak akan berlaku lagi, seperti ketika x=2 danx²=4

x=2/5 km2 = 0.4 km2

tetapi x2 akan lebih kecil karena x2=(2/5)2=0.16 .

Peter
sumber
1
Perangkat lunak regresi Anda akan menangani masalah numerik secara otomatis - khususnya, sangat mungkin untuk memusatkan dan membakukan data Anda secara internal. Bagaimana menjawab pertanyaan Anda tentang keterpusatan bermula pada bagaimana Anda ingin menafsirkan koefisien.
whuber

Jawaban:

4

Pertanyaan Anda sebenarnya terdiri dari beberapa sub-pertanyaan, yang akan saya coba selesaikan sesuai dengan pemahaman saya.

  • Bagaimana membedakan ketergantungan nilai rendah dan tinggi pada regresi?

Mempertimbangkan dan adalah cara melakukannya, tetapi apakah Anda yakin tes Anda meyakinkan? Apakah Anda dapat menyimpulkan sesuatu yang berguna untuk semua hasil yang mungkin dari regresi? Saya pikir mengajukan pertanyaan dengan jelas sebelumnya dapat membantu, dan mengajukan pertanyaan serupa dan terkait dapat membantu juga. Misalnya, Anda dapat mempertimbangkan ambang yang kemiringan regresinya berbeda. Ini dapat dilakukan dengan menggunakan variabel moderator . Jika lereng yang berbeda (sambil memaksakan intersep yang sama) kompatibel maka Anda tidak memiliki perbedaan, jika tidak, Anda memberikan argumen yang jelas untuk perbedaannya.x 2 xxx2x

  • Kapan Anda harus memusatkan dan standartize?

Saya pikir pertanyaan ini tidak boleh dicampur dengan pertanyaan dan tes pertama, dan saya takut berpusat di sekitar atau sebelumnya mungkin bias hasilnya. Saya menyarankan untuk tidak memusatkan, paling tidak pada tahap pertama. Ingat Anda mungkin tidak akan mati karena multikolinieritas, banyak penulis berpendapat itu hanya setara dengan bekerja dengan ukuran sampel yang lebih kecil (di sini dan di sini ).x 2xx2

  • Apakah mentransformasikan variabel jumlah diskrit dalam variabel floating-point (kontinu) mengubah interpretasi hasil?

Ya itu akan, tetapi ini akan sangat bergantung pada 2 poin pertama, jadi saya sarankan Anda untuk membahas satu hal pada satu waktu. Saya tidak melihat alasan mengapa regresi tidak akan berfungsi tanpa transformasi ini, jadi saya akan menyarankan Anda untuk mengabaikannya untuk saat ini. Perhatikan juga bahwa dengan membaginya dengan elemen umum Anda mengubah skala di mana , tetapi ada cara yang benar-benar berbeda dalam memandangnya, seperti yang saya tulis di atas, di mana ambang ini dianggap secara lebih eksplisit.x2=x

pedrofigueira
sumber
Terima kasih banyak atas jawaban Anda, terutama untuk tautannya !!!
Peter
Senang bisa membantu. =)
pedrofigueira
4

Secara umum pemusatan dapat membantu mengurangi multikolinieritas, tetapi "Anda mungkin tidak akan mati karena multikolinieritas" (lihat jawaban predrofigueira).

Yang paling penting, pemusatan sering diperlukan untuk membuat intersepsi bermakna. Dalam model sederhana , intersep didefinisikan sebagai hasil yang diharapkan untuk . Jika nilai nol tidak berarti, maka itercept juga tidak. Seringkali berguna untuk memusatkan variabel sekitar nilai rata-rata; dalam hal ini, prediktornya berbentuk dan intersep adalah hasil yang diharapkan untuk subjek yang nilainya pada sama dengan mean .x = 0 x x ( x i - ˉ x ) α x i ˉ xyi=α+βxi+εx=0xx(xix¯)αxix¯

Dalam kasus tersebut, Anda harus memusatkan dan kemudian persegi. Anda tidak dapat memusatkan dan secara terpisah, karena Anda membuat regresi hasil pada variabel "baru", , jadi Anda harus variabel baru ini. Apa artinya pemusatan ?x x 2 ( x i - ˉ x ) x 2xxx2(xix¯)x2

Anda dapat memusatkan variabel jumlah, jika nilai tengahnya bermakna , tetapi Anda bisa mengukurnya . Misalnya, jika dan "2" bisa menjadi garis dasar, Anda dapat mengurangi 2:x=1,2,3,4,5 . Mencegat menjadi hasil yang diharapkan untuk subjek yang nilainya di x i adalah sama dengan "2", nilai referensi.(xi2)=1,0,1,2,3xi

Mengenai pembagian, tidak ada masalah: estimasi koefisien Anda akan lebih besar! Gelman and Hill , §4.1, berikan contoh:

earnings=61000+1300height (in inches)+errorearnings=61000+51height (in millimeters)+errorearnings=61000+81000000height (in miles)+error

25.4511300/25.41.6e5810000001300/1.6e5

Sergio
sumber
terkait .
Henrik
Terima kasih atas jawaban Anda Sergio. Itu sangat membantu saya. Sayangnya saya hanya dapat menandai satu jawaban sebagai jawaban yang diterima.
Peter
Sama-sama. Dan jangan khawatir ;-)
Sergio
1

Saya berasumsi bahwa nilai x yang rendah memiliki efek positif pada variabel dependen dan nilai tinggi memiliki efek negatif.

Sementara saya menghargai perlakuan orang lain tentang pemusatan dan interpretasi koefisien, apa yang telah Anda uraikan di sini hanyalah efek linear. Dengan kata lain, apa yang telah Anda jelaskan tidak menunjukkan adanya kebutuhan untuk menguji kuadrat x .

rolando2
sumber
y=β0+β1x1+β2x2+εxiyE[yx]E[yx]/xi=βi xiy=β0+β1x1+β2x2+β3x22+εx2β2+2β3x2x2
@ rolando2: Saya tidak yakin apakah kita berbicara tentang hal samte. Jika saya hanya memasukkan variabel prediktor reguler, saya akan mendapatkan koefisien estimasi untuk prediktor yang positif atau negatif. Berdasarkan koefisien saya dapat mengatakan bahwa dengan menambahkan satu unit ke x, y akan meningkat atau berkurang dengan jumlah tertentu. Tetapi saya tidak dapat menemukan cara ini apakah nilai-nilai kecil benar-benar mengarah pada peningkatan y, sedangkan nilai-nilai yang lebih tinggi (dari titik tidak diketahui tertentu) mengarah ke penurunan y.
Peter
@ Peter - Saya mengerti dan saya sarankan Anda mengedit kalimat "Saya menganggap" pertanyaan Anda untuk membaca: "Saya berasumsi bahwa, di beberapa wilayah x, nilai x yang lebih tinggi memiliki efek positif pada variabel dependen, sementara di beberapa wilayah lain, nilai yang lebih tinggi memiliki efek negatif. "
rolando2