Menyembunyikan Model Regresi dari Profesor (Regression Battleship) [ditutup]

11

Saya sedang mengerjakan tugas pekerjaan rumah di mana profesor saya ingin kita membuat model regresi yang benar, mensimulasikan sampel data dan dia akan berusaha menemukan model regresi sejati kita menggunakan beberapa teknik yang telah kita pelajari di kelas. Kita juga harus melakukan hal yang sama dengan dataset yang dia berikan kepada kita.

Dia mengatakan bahwa dia mampu menghasilkan model yang cukup akurat untuk semua upaya di masa lalu untuk mencoba dan menipu dia. Ada beberapa siswa yang membuat beberapa model gila tapi dia bisa dibilang mampu menghasilkan model yang lebih sederhana yang cukup memadai.

Bagaimana saya bisa mengembangkan model yang sulit untuk dia temukan? Saya tidak ingin menjadi super murah dengan melakukan 4 istilah kuadrat, 3 pengamatan, dan perbedaan besar-besaran? Bagaimana saya bisa menghasilkan dataset yang tampaknya tidak berbahaya yang memiliki model kecil yang sulit di bawahnya?

Dia hanya memiliki 3 Aturan untuk diikuti:

  1. Dataset Anda harus memiliki satu variabel "Y" dan 20 "X" variabel yang berlabel "Y", "X1", ..., "X20".

  2. Variabel respons Anda harus berasal dari model regresi linier yang memenuhi: mana dan .Y i = β 0 + β 1 X i 1 + + β p - 1 X i , p - 1 + ϵ i ϵ iN ( 0 , σ 2 ) p 21Y

    Yi=β0+β1Xi1++βp1Xi,p1+ϵi
    ϵiN(0,σ2)p21
  3. Semua variabel yang digunakan untuk membuat terkandung dalam dataset Anda.YXY

Perlu dicatat, tidak semua 20 variabel X harus dalam model nyata Anda

Saya sedang berpikir untuk menggunakan sesuatu seperti Fama-French 3 Factor Model dan meminta dia mulai dengan data stok (SPX dan AAPL) dan harus mengubah variabel-variabel tersebut menjadi pengembalian yang terus-menerus diperparah agar lebih sedikit menjadi usang. Tetapi hal itu membuat saya kehilangan nilai-nilai pada pengamatan pertama dan ini adalah deret waktu (yang belum kita diskusikan di kelas)

Tidak yakin apakah ini tempat yang tepat untuk memposting sesuatu seperti ini. Saya merasa itu bisa menghasilkan diskusi yang bagus.

Sunting: Saya juga tidak meminta model "pre-built" pada khususnya. Saya lebih ingin tahu tentang topik / alat dalam Statistik yang akan memungkinkan seseorang untuk melakukan ini.

dylanjm
sumber
4
Akan sulit jika dia membatasi Anda ke model linier ...
Frank H.
4
Jika profesor Anda menang jika koefisien Anda yang sebenarnya berada di dalam interval kepercayaan 95%, maka multikolinieritas tidak akan membantu, karena multikolinieritas sangat menggembungkan CI. Jika, di sisi lain, evaluasi dilakukan pada perbedaan antara data yang diprediksi dan yang sebenarnya pada prediktor baru (data "aktual" yang dihasilkan menggunakan DGP Anda yang sebenarnya), maka multikolinieritas akan menjadi pendekatan yang jauh lebih baik. Intinya: cari tahu apa fungsi target itu dan sesuaikan pendekatan Anda untuk itu. (Ini berlaku lebih umum dalam kehidupan ...)
Stephan Kolassa
4
@ Dylanjm Bisakah Anda dengan tepat menentukan kondisi kemenangan Anda?
Matthew Gunn
11
Inti dari latihan semacam itu adalah agar Anda belajar dengan mencoba memikirkan sesuatu sendiri . Jika Anda mengadu para ahli di sini melawannya, kesempatan Anda untuk benar-benar meregangkan otak Anda dengan menggabungkan berbagai informasi yang telah Anda berikan sehubungan dengan regresi berkurang secara dramatis (serta tidak adil kepada profesor). Lebih jauh lagi, di lembaga terkemuka mana pun yang menyajikan pekerjaan kepadanya sebagai milik Anda ketika sebagian dilakukan oleh orang lain mungkin terletak di antara kesalahan akademik dan penipuan (terutama jika itu layak bagian dari nilai Anda). Berhati-hatilah dengan persis bagaimana Anda menanyakan hal ini.
Glen_b -Reinstate Monica
4
Terlepas dari popularitas pertanyaan ini, saya merasa berkewajiban untuk menutupnya pada saat ini karena bahkan setelah permintaan berulang untuk klarifikasi mengenai aturan permainan (kriteria apa yang akan digunakan untuk mengevaluasi keberhasilan, berapa banyak sampel yang harus Anda berikan, dll) ini penting informasi masih belum muncul dalam pertanyaan. Tujuan kami lebih sempit dan lebih fokus daripada "menghasilkan diskusi": silakan berkonsultasi dengan pusat bantuan kami untuk jenis pertanyaan yang dapat kami sampaikan di situs ini.
whuber

Jawaban:

6

Cukup buat istilah kesalahan jauh lebih besar daripada bagian yang dijelaskan. Sebagai contoh: , di mana , dan . Tentu saja, Anda harus ingat apa benih Anda, sehingga Anda dapat membuktikan kepada profesor Anda bahwa Anda benar dan dia salah.X i j = sin ( i + j ) i = 1..1000 σ = 1000000yi=Xi1+ϵiXij=sin(i+j)i=1..1000σ=1000000

Semoga berhasil mengidentifikasi fase dengan rasio noise / sinyal ini.

Aksakal
sumber
Ini tampaknya tidak bekerja untuk kriteria menang CI, bukan? Kami hanya akan mendapatkan CI besar yang tentu saja akan mencakup 1. Dan beberapa ketidakstabilan numerik, tentu saja.
Stephan Kolassa
Ketidakstabilan tidak akan menjadi masalah, yang saya lakukan hanyalah mengubur sinyal dalam kebisingan. Ini akan keluar sebagai white noise murni.
Aksakal
4
ini dianggap sebagai model murah yang tidak diinginkan oleh OP
Sextus Empiricus
5

Jika tujuannya adalah untuk memulihkan proses pembuatan data sejati yang menciptakan , menipu profesor Anda cukup sepele. Untuk memberi Anda contoh, pertimbangkan gangguan dan persamaan struktural berikut:ϵ iN ( 0 , 1 )YϵiN(0,1)

X1=ϵ1+ϵ0X2=ϵ1+ϵ2y=X1+ϵ2

Perhatikan DGP , yang hanya mencakup , dengan syarat memenuhi syarat 2. Kondisi 3 juga terpenuhi, karena adalah satu-satunya variabel untuk membuat dan Anda menyediakan dan .YX1X1YX1X2

Namun, tidak mungkin profesor Anda mengetahui apakah ia hanya boleh menyertakan hanya atau dan untuk memulihkan DGP (jika Anda akhirnya menggunakan contoh ini, ubah jumlah variabel). Kemungkinan besar, dia hanya akan memberi Anda jawaban regresi dengan semua variabel, karena mereka semua akan muncul sebagai prediktor yang signifikan. Anda dapat memperluas ini hingga 20 variabel jika Anda mau, Anda mungkin ingin memeriksa jawaban ini di sini dan mesin paradoks Simpson di sini.X1X2X1X2 Y

Catat semua ekspektasi bersyarat , atau adalah ekspektasi bersyarat yang ditentukan dengan benar, tetapi hanya mencerminkan DGP . Dengan demikian, setelah profesor Anda gagal dalam tugasnya, ia mungkin berpendapat bahwa tujuannya adalah hanya untuk memulihkan harapan bersyarat, atau untuk mendapatkan prediksi terbaik dari dll. Anda dapat membantah kembali bahwa itu bukan apa yang ia katakan, karena ia menyatakan :E [ Y | X 2 ] E [ Y | X 1 , X 2 ] E [ Y | X 1 ] Y YE[Y|X1]E[Y|X2]E[Y|X1,X2] E[Y|X1]YY

variabel Y harus berasal dari model regresi linier yang memenuhi (...) variabel yang digunakan untuk membuat Y (...) model asli Anda (...)

Dan Anda mungkin memicu diskusi yang baik di kelas tentang kausalitas, apa arti DGP yang sebenarnya dan pengidentifikasian secara umum.

Carlos Cinelli
sumber
Anda mengusulkan model yang sesuai dengan # 2 di pos
Aksakal
3

Gunakan variabel dengan multikolinieritas dan heteroskedastisitas seperti pendapatan versus usia: lakukan beberapa rekayasa fitur yang menyakitkan yang memberikan masalah penskalaan: berikan NAS untuk beberapa yang ditaburkan di daerah yang jarang. Potongan linearitas benar-benar membuatnya lebih menantang tetapi bisa dibuat menyakitkan. Juga, pencilan akan meningkatkan masalah baginya di muka.

David
sumber
Saya pikir heteroskedastisitas berada di luar ruang lingkup masalah, tetapi pasti setuju multikolinieritas adalah salah satu cara terbaik untuk membuat spesifikasi yang benar sulit ditemukan.
JDL
2

Apakah istilah interaksi diizinkan? Jika demikian, setel semua koefisien urutan bawah ke 0 dan bangun seluruh model dari interaksi urutan ke-N (mis. Istilah seperti ). Untuk 20 regresi jumlah interaksi yang mungkin adalah sangat besar dan akan sangat sulit untuk menemukan yang Anda masukkan.X5X8X12X13

Ruben van Bergen
sumber
0

Pilih model linier apa pun. Beri dia satu set data di mana sebagian besar sampel sekitar x = 0. Beri dia beberapa sampel sekitar x = 1.000.000.

Yang menyenangkan di sini bahwa sampel sekitar x = 1.000.000 tidak outlier. Mereka dihasilkan dari sumber yang sama. Namun, karena skala sangat berbeda, kesalahan sekitar 1M tidak akan sesuai dengan kesalahan sekitar 0.

Mari kita pertimbangkan sebuah contoh. Model kami hanya

Yi=β0+β1Xi1+ϵi

Kami memiliki set data n sampel, dekat x = 0. Kami akan memilih 2 poin lagi dalam nilai "cukup jauh". Kami berasumsi bahwa kedua titik ini memiliki beberapa kesalahan.

Nilai "cukup jauh" adalah nilai sedemikian sehingga kesalahan untuk estimasi yang tidak lulus langsung dalam dua poin ini jauh lebih besar daripada kesalahan dari sisa dataset.

Oleh karena itu, regresi linier akan memilih koefisien yang akan lulus dalam dua poin ini dan akan kehilangan sisa dataset dan berbeda dari model garis bawah.

Lihat contoh berikut. {{1, 782}, {2, 3099}, {3, 110}, {4, 1266}, {5, 1381}, {1000000, 1002169}, {1000001, 999688}}

Ini dalam format seri WolfarmAlpha. Dalam setiap pasangan item pertama adalah x dan yang kedua dihasilkan di Excel menggunakan rumus = A2 + NORMINV (RAND (), 0,2000).

Oleh karena itu, dan kami menambahkan noise acak yang terdistribusi normal dengan rata-rata 0 dan standar deviasi 2000. Ini adalah banyak noise mendekati nol tetapi yang kecil mendekati juta.β0=1,β1=1

Menggunakan Wolfram Alpha, Anda mendapatkan regresi linier berikut , yang sangat berbeda dari distribusi garis bawahy = xy=178433.x426805y=x

Dl
sumber
Bagaimana tepatnya ini bekerja dan apa efek yang seharusnya diciptakan ini?
Richard Hardy
Ini bekerja karena noise dan presisi akan bekerja secara berbeda di skala yang berbeda. Dalam angka tinggi, mengambil ekstrim dan mempertimbangkan satu titik, garis harus langsung melewatinya atau menderita banyak biaya. Beberapa kebisingan cukup untuk melewatkan nilai yang benar. Sekitar nol, sekali lagi ekstrem - tanpa inteception, Anda dibiarkan dengan kebisingan.
DaL
Gunakan nilai kecil untuk variabel dengan koefisien yang salah dan Anda membayar biaya.
DaL
Ya, tetapi mengapa sulit bagi profesor untuk menemukan model yang menghasilkan ini? Ini terlihat seperti tugas yang sangat mudah ketika ada begitu banyak variasi dalam regressor yang diberikan.
Richard Hardy
Karena tidak ada model yang cocok dengan kedua kelompok.
Dal