Memperbarui probabilitas klasifikasi dalam regresi logistik melalui waktu

19

Saya sedang membangun model prediktif yang memperkirakan probabilitas keberhasilan siswa di akhir semester. Saya secara khusus tertarik pada apakah siswa berhasil atau gagal, di mana kesuksesan biasanya didefinisikan sebagai menyelesaikan kursus dan mencapai 70% atau lebih poin dari total poin yang mungkin.

Ketika saya menggunakan model, estimasi probabilitas keberhasilan perlu diperbarui melalui waktu karena lebih banyak informasi tersedia - idealnya segera setelah sesuatu terjadi, seperti ketika seorang siswa mengajukan tugas atau mendapat nilai satu. Pembaruan ini kedengarannya seperti Bayesian bagi saya, tetapi mengingat pelatihan saya dalam statistik pendidikan, itu sedikit di luar zona kenyamanan saya.

Sejauh ini saya telah menggunakan regresi logistik (sebenarnya laso) dengan kumpulan data historis yang berisi snapshot berbasis minggu. Kumpulan data ini memiliki korelasi pengamatan, karena setiap siswa memiliki pengamatan; pengamatan untuk satu siswa berkorelasi. Saya tidak secara khusus memodelkan korelasi dalam pengamatan mingguan siswa tertentu. Saya percaya bahwa saya hanya perlu mempertimbangkan bahwa dalam pengaturan inferensial karena kesalahan standar akan terlalu kecil. Saya pikir - tetapi tidak yakin tentang hal ini - bahwa satu-satunya masalah yang timbul dari pengamatan yang berkorelasi adalah bahwa saya harus berhati-hati ketika melakukan cross-validate untuk menjaga pengamatan yang terkelompok dalam satu subset data, sehingga saya tidak mendapatkan tingkat kesalahan out-of-sample rendah artifisial berdasarkan membuat prediksi tentang seseorang yang telah dilihat model. $TermLength/7$

Saya menggunakan paket glmnet R untuk melakukan laso dengan model logistik untuk menghasilkan probabilitas keberhasilan / kegagalan dan untuk secara otomatis memilih prediktor untuk kursus tertentu. Saya telah menggunakan variabel minggu sebagai faktor, berinteraksi dengan semua prediktor lainnya. Saya tidak berpikir ini berbeda secara umum dari hanya memperkirakan masing-masing model berbasis minggu kecuali bahwa itu memberikan beberapa ide tentang bagaimana mungkin ada beberapa model umum yang berlaku selama jangka waktu yang disesuaikan melalui berbagai faktor penyesuaian risiko pada minggu yang berbeda.

Pertanyaan utama saya adalah ini: Apakah ada cara yang lebih baik untuk memperbarui probabilitas klasifikasi dari waktu ke waktu daripada hanya membagi data yang ditetapkan ke dalam snapshot mingguan (atau berbasis interval lainnya), memperkenalkan variabel faktor periode waktu yang berinteraksi dengan setiap fitur lainnya, dan menggunakan fitur kumulatif (poin kumulatif didapat, hari kumulatif di kelas, dll)?

Pertanyaan kedua saya adalah: apakah saya kehilangan sesuatu yang penting di sini tentang pemodelan prediktif dengan pengamatan berkorelasi?

Pertanyaan ketiga saya adalah: bagaimana saya bisa menggeneralisasi ini menjadi pembaruan waktu nyata, mengingat saya melakukan snapshot mingguan? Saya berencana untuk hanya memasukkan variabel untuk interval mingguan saat ini, tetapi ini tampaknya tidak menyenangkan bagi saya.

FYI, saya terlatih dalam statistik pendidikan terapan tetapi memiliki latar belakang dalam statistik matematika sejak dulu. Saya dapat melakukan sesuatu yang lebih canggih jika itu masuk akal tetapi saya perlu dijelaskan dengan istilah yang relatif mudah diakses.

time-series machine-learning logistic Anne Z.
sumber

4

Anda tidak bisa sampai di sana dari sini. Anda harus mulai dengan model yang berbeda. Saya akan menyimpan snapshot mingguan dan membuat model stokastik di sekitar transisi dalam setiap variabel status siswa. Misalkan ada 10 minggu, yang memberikan 11 "poin keputusan", . Keadaan di adalah , di mana adalah 1 atau 0, sesuai dengan saat siswa terdaftar atau tidak. ; dan adalah skor pada saat itu (jumlah ujian dan skor pekerjaan rumah hingga saat ini). Nilai awal adalah . Anda memiliki dua transisi yang perlu dikhawatirkan: dan distribusi . $t_0, t_1, \ldots, t_n$ $t_i$ $(Z_i,S_i)$ $Z_i$ $S_i$ $(1,0)$ $Prob(z_i=0|s_{i-1})$ $S_i$

Probabilitas dropout tidak stasioner, karena Anda akan mendapatkan pesta dropout sesaat sebelum tanggal akhir tanpa-penalti. Tetapi Anda dapat memperkirakan ini dari data sebelumnya. Anda juga dapat memperkirakan probabilitas putus sebagai fungsi dari kinerja saat ini (suram).

The skor yang berjalan acak pada hasil binomial (jumlah jawaban yang benar pada tes dari item, katakanlah). Anda mungkin dapat mengasumsikan independensi bersyarat - mengasumsikan parameter "bakat" laten untuk setiap siswa, dan tergantung pada nilai itu, setiap skor baru tidak tergantung pada kinerja saat ini. Anda dapat menguji asumsi ini terhadap data historis Anda ... apakah siswa yang gagal mengubah kebiasaan belajar mereka dan meraih kemenangan? Tetapi sebagian besar siswa berperilaku benar untuk membentuk ... sehingga model yang independen secara kondisional akan berfungsi dengan baik. $S$ $n$

Jadi pada dasarnya, seorang siswa gagal jika skor transisi ke 0, atau skor gagal melewati ambang kelulusan 70 \%. $Z$ $S$

Mari kita lihat lebih dekat prosesUntuk menyederhanakan model, asumsikan bahwa evaluasi melibatkan perolehan 70 poin atau lebih dari total 100 kemungkinan poin, yang diperoleh dari 10 item tes setiap minggu. $S$

Pada awal, probabilitas kelulusan siswa hanyalah tingkat kelulusan dari kelas sebelumnya.

Pada waktu 1, siswa telah mendapatkan poin (atau putus). Dia lulus jika dia bisa mendapatkan setidaknya poin dari 90. ini adalah masalah binomial, yang saya dapat dengan mudah menghitung jika saya tahu probabilitas keberhasilan siswa. Ini tidak akan lagi menjadi "rata-rata kelas"; Saya perlu menyesuaikan mengingat keberhasilan siswa sejauh ini. Saya akan menggunakan tabel dari pengalaman masa lalu untuk ini, tetapi Anda bisa melakukan rata-rata tertimbang dari keseluruhan tingkat keberhasilan kelas dan keberhasilan pribadi siswa. Aturan Bayes akan membantu di sini. $S_1$ $70-S_1$

Sebagai bonus, Anda dapat menghitung berbagai probabilitas, yang seharusnya menyempit saat istilah berlanjut. Bahkan, siswa yang kuat akan melewati batas 70 \% sebelum akhir semester, dan keberhasilan mereka akan pasti pada saat itu. Untuk siswa yang lemah, kegagalan juga akan menjadi pasti sebelum akhir.

RE: pertanyaan 3. Haruskah Anda pergi ke waktu terus menerus? Saya tidak mau, karena itu menempatkan satu di ranah proses stokastik waktu terus menerus dan matematika yang terlibat di atas nilai gaji saya. Tidak hanya itu, Anda tidak mungkin mendapatkan hasil yang jauh berbeda.

Cara terbaik untuk memutakhirkan model yang telah saya uraikan adalah tidak pergi ke waktu terus menerus, tetapi untuk menyesuaikan probabilitas transisi berdasarkan pengalaman sebelumnya. Mungkin siswa yang lemah jauh tertinggal daripada yang diprediksi oleh model independensi. Menggabungkan inhomegeneity akan meningkatkan model lebih dari pergi dari diskrit ke waktu terus menerus.

Placidia
sumber

0

Ketika saya melatih model prediktif untuk jenis penyebaran yang serupa, saya memastikan kumpulan data saya memiliki semacam Term_End_Date sehingga saya bisa mengurangi waktu yang tersisa hingga istilah berakhir. Ini mungkin akan menjadi prediktor signifikan dalam model Anda.

Mengenai pertanyaan pengamatan berkorelasi, saya kira itu penting seberapa besar repositori data yang Anda miliki. Jika memungkinkan, saya akan secara acak memilih 1 pengamatan untuk setiap siswa, bertingkat pada [# minggu hingga Akhir Masa]. Saya juga akan mengambil dari istilah yang lebih tua, jika memungkinkan. Jika Anda tidak memiliki cukup data untuk melakukan itu, mungkin Anda dapat mencoba metode pengambilan sampel ulang seperti bootstrap.

Saya pikir hal yang paling penting jika Anda memiliki dataset kecil adalah menyimpan data yang cukup sebagai penahan untuk memastikan model akhir Anda stabil.

Saya pikir ketika Anda semua selesai, dan Anda memiliki formula penilaian, itu akan sangat mudah diimplementasikan. Tapi ya, Anda masih harus memasukkan variabel x mingguan yang akan Anda butuhkan untuk menghitung skor - tetapi ini terdengar lebih seperti masalah pengumpulan data dan lebih sedikit tentang implementasi model.

Josh
sumber

Memperbarui probabilitas klasifikasi dalam regresi logistik melalui waktu

Jawaban: