37

Saya seorang mahasiswa ekonomi dengan beberapa pengalaman dengan ekonometrik dan R. Saya ingin tahu apakah pernah ada situasi di mana kita harus memasukkan variabel dalam regresi meskipun tidak signifikan secara statistik?

statistical-significance feature-selection EconJohn
sumber

1

Dalam penelitian medis Anda akan memasukkannya jika melibatkan interaksi kualitatif. Lihat karya Lacey Gunter yang saya rujuk di sini sebelumnya. Juga buku karya Chakraborty dan Moodie yang diterbitkan oleh Springer pada 2013. Judulnya adalah Metode Statistik untuk Rezim Perawatan Dinamis: Pembelajaran Penguatan, Inferensi Kausal, dan Pengobatan yang Dipersonalisasi.

Michael R. Chernick

11

Pertimbangkan juga bahwa signifikansi statistik sepenuhnya arbitrer. Apa yang penting? 0,05? 0,1? 0,001? Jika landasan teoretis ada untuk memasukkan prediktor, itu alasan yang cukup untuk menyimpannya.

Ashe

2

Ketika Anda mengatakan "tidak signifikan secara statistik", Anda menyadari bahwa itu adalah tingkat kepercayaan 5%, yang merupakan pilihan sewenang-wenang? (Dan semakin banyak variabel, Anda mengalami Masalah Pengujian Berganda).

smci

1

@smci 0,05 = tingkat signifikansi 5% sesuai dengan tingkat kepercayaan 95%, cukup alasan untuk menghindari pencampuran istilah dalam kalimat yang sama. Karena ada prosedur signifikansi tanpa interval kepercayaan yang terlihat, biasanya paling mudah untuk menggunakan istilah mana yang lebih relevan. Pengecualiannya adalah ketika Anda menjelaskan tautan di tingkat pengantar.

Nick Cox

30

Iya nih!

Koefisien yang secara statistik tidak dapat dibedakan dari nol tidak menyiratkan bahwa koefisien sebenarnya adalah nol, bahwa koefisien tersebut tidak relevan. Bahwa suatu efek tidak lulus beberapa cutoff sewenang-wenang untuk signifikansi statistik tidak menyiratkan seseorang tidak boleh mencoba untuk mengendalikannya.

Secara umum, masalah yang dihadapi dan desain penelitian Anda harus memandu apa yang harus dimasukkan sebagai regressor.

Beberapa Contoh Cepat:

Dan jangan tidak mengambil ini sebagai daftar yang lengkap. Tidak sulit menghasilkan banyak lagi ...

1. Memperbaiki efek

Situasi di mana ini sering terjadi adalah regresi dengan efek tetap .

Katakanlah Anda memiliki data panel dan ingin memperkirakan dalam model: $b$

y_{i t} = b x_{i t} + u_{i} + ϵ_{i t}

$y_{it} = b x_{it} + u_i + \epsilon_{it}$

Memperkirakan model ini dengan kuadrat terkecil biasa di mana diperlakukan sebagai efek tetap setara dengan menjalankan kuadrat terkecil biasa dengan variabel indikator untuk setiap individu . $u_i$ $i$

Pokoknya, intinya adalah bahwa variabel (yaitu koefisien pada variabel indikator) sering kali diestimasi dengan buruk. Setiap efek tetap individual sering tidak signifikan secara statistik. Tetapi Anda masih memasukkan semua variabel indikator dalam regresi jika Anda memperhitungkan efek tetap. $u_i$ $u_i$

(Perhatikan lebih lanjut bahwa sebagian besar paket statistik bahkan tidak akan memberi Anda kesalahan standar untuk efek tetap individual ketika Anda menggunakan metode bawaan. Anda tidak terlalu peduli tentang signifikansi efek tetap individu. Anda mungkin benar-benar peduli tentang signifikansi kolektifnya) .)

2. Fungsi yang berjalan bersama ...

(a) Pemasangan kurva polinomial (ujung hat @NickCox di komentar)

Jika Anda menyesuaikan polinomial derajat ke beberapa kurva, Anda hampir selalu menyertakan istilah polinomial orde rendah. $k$

Misalnya, jika Anda memasang polinomial pesanan kedua, Anda akan menjalankan:

y_{i} = b_{0} + b_{1} x_{i} + b_{2} x_{i}^{2} + ϵ_{i}

$y_i = b_0 + b_1 x_i + b_2 x_i^2 + \epsilon_i$

Biasanya akan sangat aneh untuk memaksa dan sebaliknya menjalankan $b_1 = 0$

y_{i} = b_{0} + b_{2} x_{i}^{2} + ϵ_{i}

$y_i = b_0 + b_2 x_i^2 + \epsilon_i$

tetapi siswa mekanika Newton akan dapat membayangkan pengecualian.

(b) model AR (p):

Katakanlah Anda memperkirakan model AR (p) Anda juga akan memasukkan istilah pesanan lebih rendah. Misalnya untuk AR (2) Anda akan menjalankan:

y_{t} = b_{0} + b_{1} y_{t - 1} + b_{2} y_{t - 2} + ϵ_{t}

$y_t = b_0 + b_1 y_{t-1} + b_2 y_{t-2} + \epsilon_t$

Dan akan aneh untuk dijalankan:

y_{t} = b_{0} + b_{2} y_{t - 2} + ϵ_{t}

$y_t = b_0 + b_2 y_{t-2} + \epsilon_t$

(c) Fungsi trigonometri

Seperti @NickCox menyebutkan, istilah dan juga cenderung sama. Untuk lebih lanjut tentang itu, lihat misalnya makalah ini . $\cos$ $\sin$

Lebih luas ...

Anda ingin memasukkan variabel sisi kanan ketika ada alasan teoritis yang baik untuk melakukannya.

Dan seperti yang dibahas oleh jawaban lain di sini dan di seluruh StackExchange, pemilihan variabel langkah-bijaksana dapat menciptakan banyak masalah statistik.

Penting juga untuk membedakan antara:

koefisien yang secara statistik tidak dapat dibedakan dari nol dengan kesalahan standar yang kecil .
koefisien yang secara statistik tidak dapat dibedakan dari nol dengan kesalahan standar yang besar .

Dalam kasus terakhir, masalah untuk memperdebatkan koefisien tidak masalah. Ini mungkin hanya diukur dengan buruk.

Matthew Gunn
sumber

Menyinggung contoh pertama Anda, alasan kami menjaga dalam model tampaknya karena interpretasi berubah apakah ada dalam model atau tidak. (Lihat mis. En.wikipedia.org/wiki/Partial_regress_plot --kami menggunakan sesuatu seperti frasa "mengendalikan efek linear dari "). Dalam situasi ini, kita tidak memiliki dalam model untuk signifikansi itu, kita memilikinya untuk interpretasi yang diberikannya kepada kita.

u_{i}

$u_i$

b

$b$

u_{i}

$u_i$

u_{i}

$u_i$

u_{i}

$u_i$

user795305

5

Beberapa jawaban yang sangat bagus yang sudah tumpang tindih terlalu banyak, jadi saya akan membatasi contoh saya ke komentar di sini. Pemasangan polinomial : paling umum, kuadrat hampir selalu harus dipasang dengan aksi ganda istilah linear dan kuadrat. Sekalipun hanya satu istilah yang signifikan pada level konvensional, efek bersama mereka adalah kuncinya. Prediktor trigonometri Demikian pula, sinus dan kosinus biasanya dimiliki bersama walaupun seseorang gagal memenuhi syarat di tingkat konvensional. Aksi ganda harus dipasang seperti itu.

Nick Cox

2

@NickCox Karena ini adalah wiki komunitas dan poin Anda secara langsung relevan dengan yang diangkat di sini, saya pikir komentar Anda pantas diedit menjadi jawaban pada titik yang tepat. Terlalu penting untuk tetap menjadi komentar belaka, menurut pendapat saya, meskipun saya pikir Anda benar bahwa itu tidak akan terbaik sebagai jawaban yang berdiri sendiri

Silverfish

@Silverfish Matthew dipersilakan untuk menyalinnya. Sepertinya agak sombong bagi saya untuk mengeditnya.

Nick Cox

1

@NickCox Haha, saya tidak peduli. :) Saya menambahkan saran Anda dan merasa bebas untuk mengedit !.

Matthew Gunn

14

Ya ada. Setiap variabel yang dapat berkorelasi dengan variabel respons Anda dengan cara yang bermakna, bahkan pada tingkat yang tidak signifikan secara statistik, dapat mengacaukan regresi Anda jika tidak dimasukkan. Ini dikenal sebagai spesifikasi kurang tinggi, dan mengarah ke perkiraan parameter yang tidak seakurat yang seharusnya.

https://onlinecourses.science.psu.edu/stat501/node/328

Dari atas:

Model regresi tidak ditentukan secara spesifik (hasil 2) jika persamaan regresi hilang satu atau lebih variabel prediktor penting. Situasi ini mungkin merupakan skenario terburuk, karena model yang kurang spesifik menghasilkan koefisien regresi yang bias dan prediksi tanggapan yang bias. Artinya, dalam menggunakan model, kita akan secara konsisten meremehkan atau melebih-lebihkan kemiringan populasi dan rata-rata populasi. Untuk membuat masalah yang sudah buruk menjadi lebih buruk, rata-rata kesalahan kuadrat MSE cenderung melebih-lebihkan σ², sehingga menghasilkan interval kepercayaan yang lebih luas dari yang seharusnya.

masalah ganda
sumber

4

Itu tidak sepenuhnya benar. Untuk menjadi variabel perancu perlu menyebabkan variabel yang dijelaskan dan variabel penjelas yang diminati. Jika variabel penjelas kepentingan menyebabkan variabel, dan itu mempengaruhi hasil, maka itu adalah variabel intervening, dan Anda tidak boleh mengendalikannya (kecuali jika Anda ingin menguraikan efek total).

Maarten Buis

1

Ini adalah diskusi yang sangat tidak memadai tentang topik kontrol perancu. Korelasi dengan hasil bukanlah kondisi yang cukup untuk perancu dan dapat menyebabkan kesalahan spesifikasi model sebab akibat dengan mengendalikan mediator: Hal ini menyebabkan kekeliruan seperti "berhenti merokok tidak mengurangi risiko penyakit kardiovaskular setelah mengendalikan kalsium arteri koroner (CAC)". CAC adalah cara utama merokok memberi Anda penyakit jantung. Lihat Kausalitas oleh Pearl, edisi ke-2, bab 3 bagian 3.

AdamO

Jangan ragu untuk mengedit. Saya tidak berpikir dia mencari kedalaman dalam jawaban itu, minta maaf jika singkatnya saya menyebabkan ketidaktepatan yang parah.

doubletrouble

11

Biasanya Anda tidak memasukkan atau mengecualikan variabel untuk regresi linier karena signifikansinya. Anda memasukkan mereka karena Anda menganggap bahwa variabel yang dipilih adalah prediktor (baik) dari kriteria regresi. Dengan kata lain, pemilihan prediktor didasarkan pada teori.

Kepentingan statistik dalam regresi linier dapat berarti dua hal (yang saya tahu):

Prediktor yang tidak signifikan tidak terkait dengan kriteria. Mengecualikan mereka tetapi perlu diingat bahwa tidak penting tidak membuktikan bahwa mereka tidak berhubungan. Periksa teorimu.
Prediktor tidak signifikan karena dapat diekspresikan sebagai fungsi dari prediktor lain. Himpunan prediktor kemudian disebut multikolinier. Ini tidak membuat prediktor "buruk" dalam arti apa pun tetapi berlebihan.

Alasan yang valid untuk mengecualikan prediktor tidak signifikan adalah bahwa Anda mencari subset prediktor terkecil yang menjelaskan varians kriteria atau sebagian besar. Jika Anda telah menemukannya, periksa teori Anda.

Wolfgang
sumber

[P] rediktor kriteria regresi ? Anda mungkin ingin mengulangi ini.

Richard Hardy

8

Dalam ekonometrik ini terjadi kiri dan kanan. Misalnya, jika Anda menggunakan boneka musiman triwulanan Q2, Q3, dan Q4, sering terjadi bahwa sebagai sebuah kelompok mereka signifikan, tetapi beberapa dari mereka tidak signifikan secara individual. Dalam hal ini Anda biasanya menyimpan semuanya.

$y\sim x*z$ $z$ $x*z$

UPDATE: Contoh umum lainnya adalah peramalan. Ekonometrika biasanya diajarkan dari perspektif inferensi di departemen ekonomi. Dalam perspektif inferensi, banyak perhatian ada pada nilai-p dan signifikansi, karena Anda mencoba memahami apa yang menyebabkan apa dan seterusnya. Dalam peramalan, tidak banyak penekanan pada hal-hal ini, karena yang Anda pedulikan adalah seberapa baik model dapat memperkirakan variabel yang diminati.

Ini mirip dengan aplikasi pembelajaran mesin, btw, yang sedang membuat jalan mereka ke ekonomi baru-baru ini. Anda dapat memiliki model dengan semua variabel signifikan yang tidak diramalkan dengan baik. Dalam ML sering dikaitkan dengan apa yang disebut "pas". Jelas ada sedikit penggunaan model seperti itu dalam peramalan.

Aksakal
sumber

1

Ini tampaknya sedikit berlebihan di beberapa titik. Sebagai contoh, bahkan bagi saya sebagai non-ekonom dari buku teks saja sudah terbukti bahwa peramalan telah diajarkan secara luas kepada para ekonom setidaknya selama beberapa dekade. Apakah ada peningkatan "baru-baru ini" (artinya tepatnya?) Adalah titik yang lebih halus yang saya serahkan kepada orang dalam.

Nick Cox

@NickCox, setuju, itu terdengar seolah-olah tidak ada peramalan sama sekali dalam kurikulum, yang tidak benar.

Aksakal

7

Anda mengajukan dua pertanyaan berbeda:

Kapan signifikansi statistik tidak penting?
Kapan kita harus memasukkan variabel dalam regresi meskipun secara statistik tidak signifikan?

Sunting: ini benar tentang pos asli, tetapi mungkin tidak lagi benar setelah diedit.

Mengenai Q1, saya pikir itu di perbatasan menjadi terlalu luas. Ada banyak kemungkinan jawaban, beberapa sudah disediakan. Satu contoh lagi adalah ketika membuat model untuk perkiraan (lihat sumber yang dikutip di bawah ini untuk penjelasan).

Mengenai Q2, signifikansi statistik bukan kriteria suara untuk membangun model. Rob J. Hyndman menulis yang berikut dalam posting blognya "Tes statistik untuk pemilihan variabel" :

Signifikansi statistik biasanya tidak menjadi dasar yang baik untuk menentukan apakah suatu variabel harus dimasukkan dalam suatu model, terlepas dari kenyataan bahwa banyak orang yang seharusnya tahu lebih baik menggunakannya untuk tujuan ini. <...> Tes statistik dirancang untuk menguji hipotesis, bukan variabel terpilih.

Perhatikan juga bahwa Anda sering dapat menemukan beberapa variabel yang signifikan secara statistik murni secara kebetulan (kesempatan dikendalikan oleh pilihan Anda pada tingkat signifikansi). Pengamatan bahwa suatu variabel signifikan secara statistik tidak cukup untuk menyimpulkan bahwa variabel termasuk dalam model.

Richard Hardy
sumber

4

Saya akan menambahkan "ya" lainnya. Saya selalu diajari - dan saya sudah mencoba menyampaikannya - bahwa pertimbangan utama dalam pilihan kovariat adalah pengetahuan domain, bukan statistik. Dalam biostatistik, misalnya, jika saya memodelkan beberapa hasil kesehatan pada individu, maka tidak peduli apa yang dikatakan regresi, Anda akan memerlukan beberapa argumen yang bagus bagi saya untuk tidak memasukkan usia, ras, dan jenis kelamin dalam model.

Itu juga tergantung pada tujuan model Anda. Jika tujuannya adalah untuk mendapatkan pemahaman yang lebih baik tentang faktor-faktor apa yang paling terkait dengan hasil Anda, maka membangun model pelit memiliki beberapa kebajikan. Jika Anda peduli tentang prediksi, dan tidak terlalu banyak memahami, maka menghilangkan kovariat mungkin menjadi masalah yang lebih kecil.

(Terakhir, jika Anda berencana menggunakan statistik untuk pemilihan variabel, lihat apa yang dikatakan Frank Harrell tentang masalah ini - http://www.stata.com/support/faqs/statistics/stepwise-regress-problems/ , dan bukunya Regresi Modeling Strategies . Secara singkat, pada saat Anda telah menggunakan strategi berbasis statistik stepwise atau serupa untuk memilih prediktor terbaik, maka setiap tes "apakah ini prediktor yang baik?" sangat bias - tentu saja mereka ' adalah prediktor yang baik, Anda telah memilihnya atas dasar itu, dan nilai p untuk prediktor tersebut sangat rendah.)

eac2222
sumber

1

R^{2}

$R^{2}$

4

Satu-satunya hal yang benar-benar dikatakan oleh hasil "tidak signifikan secara statistik" adalah bahwa, pada tingkat kesalahan Tipe I yang dipilih, kita bahkan tidak dapat mengatakan apakah efek dari regresi terhadap variabel dependen adalah positif atau negatif (lihat posting ini).

Jadi, jika kita menyimpan regresi ini, setiap diskusi tentang efeknya sendiri pada variabel dependen tidak memiliki bukti statistik untuk mendukungnya.

Tetapi kegagalan estimasi ini tidak mengatakan bahwa regressor tidak termasuk dalam hubungan struktural, itu hanya mengatakan bahwa dengan set data spesifik kami tidak dapat menentukan dengan pasti tanda koefisiennya.

Jadi pada prinsipnya, jika ada argumen teoretis yang mendukung keberadaannya, maka regressor harus dijaga.

Jawaban lain di sini memberikan model / situasi spesifik yang menyimpan regressor tersebut dalam spesifikasi, misalnya jawaban yang menyebutkan model data panel efek tetap.

Alecos Papadopoulos
sumber

Mengapa menyeret "tingkat kepercayaan" ke dalam diskusi yang penting? Saya sering membaca monstrositas dalam teks dan makalah yang buruk seperti "signifikan pada tingkat kepercayaan 99%". Memang ada hubungan di antara ide-ide itu, tetapi Anda tidak perlu susunan kata ini (yang pada tingkat dasar membingungkan seperti yang dijelaskan).

Nick Cox

@Nick Cox Anda ada benarnya. Saya mengubahnya menjadi "Tipe I kesalahan".

Alecos Papadopoulos

1

Anda dapat memasukkan variabel minat tertentu jika itu adalah fokus penelitian, bahkan jika tidak signifikan secara statistik. Juga, dalam biostatistik, signifikansi klinis seringkali berbeda dari signifikansi statistik.

Scott Jackson
sumber

Kapan seseorang harus memasukkan variabel dalam regresi meskipun secara statistik tidak signifikan?

Jawaban:

Beberapa Contoh Cepat:

1. Memperbaiki efek

2. Fungsi yang berjalan bersama ...

(a) Pemasangan kurva polinomial (ujung hat @NickCox di komentar)

(b) model AR (p):

(c) Fungsi trigonometri

Lebih luas ...