Saya sedang mengerjakan tugas pekerjaan rumah di mana profesor saya ingin kita membuat model regresi yang benar, mensimulasikan sampel data dan dia akan berusaha menemukan model regresi sejati kita menggunakan beberapa teknik yang telah kita pelajari di kelas. Kita juga harus melakukan hal yang sama dengan dataset yang dia berikan kepada kita.
Dia mengatakan bahwa dia mampu menghasilkan model yang cukup akurat untuk semua upaya di masa lalu untuk mencoba dan menipu dia. Ada beberapa siswa yang membuat beberapa model gila tapi dia bisa dibilang mampu menghasilkan model yang lebih sederhana yang cukup memadai.
Bagaimana saya bisa mengembangkan model yang sulit untuk dia temukan? Saya tidak ingin menjadi super murah dengan melakukan 4 istilah kuadrat, 3 pengamatan, dan perbedaan besar-besaran? Bagaimana saya bisa menghasilkan dataset yang tampaknya tidak berbahaya yang memiliki model kecil yang sulit di bawahnya?
Dia hanya memiliki 3 Aturan untuk diikuti:
Dataset Anda harus memiliki satu variabel "Y" dan 20 "X" variabel yang berlabel "Y", "X1", ..., "X20".
Variabel respons Anda harus berasal dari model regresi linier yang memenuhi: mana dan .Y ′ i = β 0 + β 1 X ′ i 1 + … + β p - 1 X ′ i , p - 1 + ϵ i ϵ i ∼ N ( 0 , σ 2 ) p ≤ 21
Semua variabel yang digunakan untuk membuat terkandung dalam dataset Anda.Y
Perlu dicatat, tidak semua 20 variabel X harus dalam model nyata Anda
Saya sedang berpikir untuk menggunakan sesuatu seperti Fama-French 3 Factor Model dan meminta dia mulai dengan data stok (SPX dan AAPL) dan harus mengubah variabel-variabel tersebut menjadi pengembalian yang terus-menerus diperparah agar lebih sedikit menjadi usang. Tetapi hal itu membuat saya kehilangan nilai-nilai pada pengamatan pertama dan ini adalah deret waktu (yang belum kita diskusikan di kelas)
Tidak yakin apakah ini tempat yang tepat untuk memposting sesuatu seperti ini. Saya merasa itu bisa menghasilkan diskusi yang bagus.
Sunting: Saya juga tidak meminta model "pre-built" pada khususnya. Saya lebih ingin tahu tentang topik / alat dalam Statistik yang akan memungkinkan seseorang untuk melakukan ini.
Jawaban:
Cukup buat istilah kesalahan jauh lebih besar daripada bagian yang dijelaskan. Sebagai contoh: , di mana , dan . Tentu saja, Anda harus ingat apa benih Anda, sehingga Anda dapat membuktikan kepada profesor Anda bahwa Anda benar dan dia salah.X i j = sin ( i + j ) i = 1..1000 σ = 1000000yi=Xi1+ϵi Xij=sin(i+j) i=1..1000 σ=1000000
Semoga berhasil mengidentifikasi fase dengan rasio noise / sinyal ini.
sumber
Jika tujuannya adalah untuk memulihkan proses pembuatan data sejati yang menciptakan , menipu profesor Anda cukup sepele. Untuk memberi Anda contoh, pertimbangkan gangguan dan persamaan struktural berikut:ϵ i ∼ N ( 0 , 1 )Y ϵi∼N(0,1)
Perhatikan DGP , yang hanya mencakup , dengan syarat memenuhi syarat 2. Kondisi 3 juga terpenuhi, karena adalah satu-satunya variabel untuk membuat dan Anda menyediakan dan .Y X1 X1 Y X1 X2
Namun, tidak mungkin profesor Anda mengetahui apakah ia hanya boleh menyertakan hanya atau dan untuk memulihkan DGP (jika Anda akhirnya menggunakan contoh ini, ubah jumlah variabel). Kemungkinan besar, dia hanya akan memberi Anda jawaban regresi dengan semua variabel, karena mereka semua akan muncul sebagai prediktor yang signifikan. Anda dapat memperluas ini hingga 20 variabel jika Anda mau, Anda mungkin ingin memeriksa jawaban ini di sini dan mesin paradoks Simpson di sini.X1 X2 X1 X2 Y
Catat semua ekspektasi bersyarat , atau adalah ekspektasi bersyarat yang ditentukan dengan benar, tetapi hanya mencerminkan DGP . Dengan demikian, setelah profesor Anda gagal dalam tugasnya, ia mungkin berpendapat bahwa tujuannya adalah hanya untuk memulihkan harapan bersyarat, atau untuk mendapatkan prediksi terbaik dari dll. Anda dapat membantah kembali bahwa itu bukan apa yang ia katakan, karena ia menyatakan :E [ Y | X 2 ] E [ Y | X 1 , X 2 ] E [ Y | X 1 ] Y YE[Y|X1] E[Y|X2] E[Y|X1,X2] E[Y|X1] Y Y
Dan Anda mungkin memicu diskusi yang baik di kelas tentang kausalitas, apa arti DGP yang sebenarnya dan pengidentifikasian secara umum.
sumber
Gunakan variabel dengan multikolinieritas dan heteroskedastisitas seperti pendapatan versus usia: lakukan beberapa rekayasa fitur yang menyakitkan yang memberikan masalah penskalaan: berikan NAS untuk beberapa yang ditaburkan di daerah yang jarang. Potongan linearitas benar-benar membuatnya lebih menantang tetapi bisa dibuat menyakitkan. Juga, pencilan akan meningkatkan masalah baginya di muka.
sumber
Apakah istilah interaksi diizinkan? Jika demikian, setel semua koefisien urutan bawah ke 0 dan bangun seluruh model dari interaksi urutan ke-N (mis. Istilah seperti ). Untuk 20 regresi jumlah interaksi yang mungkin adalah sangat besar dan akan sangat sulit untuk menemukan yang Anda masukkan.X5X8X12X13
sumber
Pilih model linier apa pun. Beri dia satu set data di mana sebagian besar sampel sekitar x = 0. Beri dia beberapa sampel sekitar x = 1.000.000.
Yang menyenangkan di sini bahwa sampel sekitar x = 1.000.000 tidak outlier. Mereka dihasilkan dari sumber yang sama. Namun, karena skala sangat berbeda, kesalahan sekitar 1M tidak akan sesuai dengan kesalahan sekitar 0.
Mari kita pertimbangkan sebuah contoh. Model kami hanya
Kami memiliki set data n sampel, dekat x = 0. Kami akan memilih 2 poin lagi dalam nilai "cukup jauh". Kami berasumsi bahwa kedua titik ini memiliki beberapa kesalahan.
Nilai "cukup jauh" adalah nilai sedemikian sehingga kesalahan untuk estimasi yang tidak lulus langsung dalam dua poin ini jauh lebih besar daripada kesalahan dari sisa dataset.
Oleh karena itu, regresi linier akan memilih koefisien yang akan lulus dalam dua poin ini dan akan kehilangan sisa dataset dan berbeda dari model garis bawah.
Lihat contoh berikut. {{1, 782}, {2, 3099}, {3, 110}, {4, 1266}, {5, 1381}, {1000000, 1002169}, {1000001, 999688}}
Ini dalam format seri WolfarmAlpha. Dalam setiap pasangan item pertama adalah x dan yang kedua dihasilkan di Excel menggunakan rumus = A2 + NORMINV (RAND (), 0,2000).
Oleh karena itu, dan kami menambahkan noise acak yang terdistribusi normal dengan rata-rata 0 dan standar deviasi 2000. Ini adalah banyak noise mendekati nol tetapi yang kecil mendekati juta.β0=1,β1=1
Menggunakan Wolfram Alpha, Anda mendapatkan regresi linier berikut , yang sangat berbeda dari distribusi garis bawahy = xy=178433.x−426805 y=x
sumber