Model regresi yang variabel responsnya adalah hari tahun di mana peristiwa tahunan (biasanya) terjadi

13

Dalam kasus khusus ini saya mengacu pada hari di mana sebuah danau membeku. Tanggal "es" ini hanya terjadi setahun sekali, tetapi kadang-kadang tidak terjadi sama sekali (jika musim dingin hangat). Jadi pada satu tahun danau itu mungkin membeku pada hari 20 (20 Januari), dan satu tahun lagi mungkin tidak membeku sama sekali.

Tujuannya adalah untuk mencari tahu pengendara ice-on date.

Prediktor akan menjadi hal-hal seperti suhu udara musim gugur / musim dingin setiap tahun. Tahun bisa menjadi prediktor untuk tren linear jangka panjang.

1) Apakah bilangan bulat "hari tahun" merupakan variabel respons yang masuk akal (jika tidak, apa itu?)?

2) Bagaimana seharusnya seseorang menangani tahun-tahun ketika danau tidak pernah membeku?

Edit:

Saya tidak tahu apa etiket di sini, tetapi saya pikir saya akan memposting hasil dari saran yang saya terima. Ini kertasnya, akses terbuka . Saya mendapat umpan balik yang baik tentang pendekatan yang digunakan, terima kasih @pedrofigueira dan @cboettig. Tentu saja, kesalahan adalah milik saya sendiri.

rbatt
sumber
jenis data apa yang Anda miliki? Tindakan sepanjang hari dalam setahun?
Donbeo
@ Donbeo, ice-on terjadi setahun sekali, jadi variabel responsnya ada pada resolusi tahunan. Data lain datang pada frekuensi tahunan juga, tetapi dalam beberapa kasus dapat dikonversi ke data frekuensi yang lebih tinggi.
rbatt
Untuk tujuan apa Anda ingin mempertimbangkan tanggal es? Saya bertanya ini karena pemodelan statistik tidak pernah benar atau salah tetapi bermanfaat atau tidak berguna. Jadi penggunaan untuk hasil statistik penting, juga wawasan jika variabel target digunakan sama sekali. Misalnya bagaimana jika danau membeku dengan pelindung es yang tipis sudah di bulan Oktober tetapi mencair pada minggu yang sama dan tidak pernah membeku lagi di musim dingin ini? Mungkin Anda melakukan analisis untuk memprediksi kapan mulai menggunakan sesuatu seperti ban salju? Ini bisa memberi petunjuk untuk jawaban yang berguna untuk pertanyaan kedua Anda.
Horst Grünbusch
Terima kasih atas pemikiran Anda, @ HorstGrünbusch. Saya ingin tahu bagaimana variasi dalam iklim mempengaruhi es, karena meletakkan tutup pada sistem air mempengaruhi banyak hal (pertukaran gas, cahaya, dll). Satu-satunya data es yang tersedia adalah tanggal-tanggal es ini (bukan ketebalan, dll).
rbatt

Jawaban:

4

Saya pikir seseorang dapat mempertimbangkan "hari dalam setahun" sebagai variabel respon terhadap regresi multivariat. Untuk menangani tahun-tahun ketika danau tidak pernah membeku saya hanya akan mempertimbangkan bahwa hari pembekuan lebih besar dari batas bawah yang dapat diamati yang sesuai, misalnya, dengan hari ketika kandungan es mulai meleleh (atau meleleh sepenuhnya, jika Anda ingin sangat konservatif). Secara teoritis itu harus membeku setelah itu, atau bisa membeku setelah itu, tetapi kita tidak tahu. Dengan cara ini Anda bisa menggunakan data yang Anda kumpulkan pada parameter yang berbeda untuk memahami bagaimana hari pembekuan tergantung pada mereka, jika itu dibiarkan lebih lambat dari tanggal terbaru yang dapat diamati. Anda kemudian dapat menggunakan model Tobituntuk menangani hari-hari pembekuan secara bersamaan (sesuai dengan titik-titik data "normal") dan batas bawah (sesuai dengan batas-batas dan dengan demikian merupakan regresi yang disensor).

Untuk memasukkan dengan benar batas bawah yang diukur dalam analisis, Anda dapat menggunakan model regresi yang disensor di mana variabel dependen memiliki batas pada nilai batas bawah. Model Tobit yang disebutkan di atas sesuai untuk kasus ini; itu mengasumsikan adanya variabel dependen (laten) yang tidak dapat diobservasi yang dalam kasus kami sesuai dengan tanggal pembekuan jika musim dingin diperpanjang tanpa batas waktu. Variabel dependen yang dapat diamati (yaitu batas bawah yang diukur pada tanggal pembekuan) kemudian dianggap sama dengan variabel laten dengan tidak adanya batas bawah , dan sama dengan batas bawah jika tidakyiyiLi

yi={yiif¯Li(i.e.yi<Li)LiifyiLi

Penerapan model Tobit untuk menangani sensor pengamatan demi pengamatan, menghasilkan fungsi log-likelihood dari formulir.

L=iyi<Liln[ϕ(yiXijβjσ)/σ]+iyiLiln[Φ(LiXijβjσ)]

di mana dan masing-masing menunjukkan probabilitas dan fungsi kepadatan kumulatif, dari distribusi normal standar. Indeks berjalan pada pengamatan dan pada variabel independen. Solusi untuk regresi linier adalah serangkaian parameter (termasuk intersep) yang memaksimalkan fungsi log-likelihood.Φ ( . ) i j β jϕ(.)Φ(.)ijβj

pedrofigueira
sumber
3
Masalah besar dengan "hari tahun" menyangkut bagaimana menyandikannya. Biasanya ini akan direpresentasikan sebagai hari Julian antara dan atau sebagai tahun desimal dari hingga , tetapi tak satu pun dari ini yang sesuai karena ini adalah variabel lingkaran : hari Julian segera mengikuti hari , misalnya. Jadi, khususnya, batas "atas" dan "bawah" tidak ada artinya. (Ada juga masalah kecil tentang cara menangani tahun kabisat; ini bisa diselesaikan dengan berbagai cara sederhana.) Masalah besar lainnya menyangkut penanganan tahun di mana pembekuan tidak terjadi: ini bukan data yang hilang atau disensor. 365 0 1 1 3651365011365
Whuber
1
Saya berpendapat bahwa konsep batas bawah mempertahankan maknanya jika setiap tahun dapat dianggap sebagai percobaan independen, yaitu, jika percobaan tidak memiliki memori dan tanggal pembekuan dalam satu tahun dapat dianggap sepenuhnya independen dari tanggal di sebelumnya; maka seharusnya hanya bergantung pada parameter tahun yang bersangkutan. Jika itu masalahnya, maka, menurut pemahaman saya, variabelnya tidak melingkar.
pedrofigueira
1
Ya, dalam beberapa keadaan teknik ad hoc seperti itu dapat bekerja. Ketika (a) acara selalu terjadi setiap tahun dan (b) acara tersebut tersebar dengan ketat di sekitar tanggal yang dapat diprediksi, Anda akan baik-baik saja dengan memilih asal tahun dengan tepat. Tetapi dengan jumlah dispersi yang lebih besar (yang kemungkinan besar terjadi di sini) - atau dalam kasus yang paling drastis ketika acara mungkin tidak ada sama sekali - Anda benar-benar perlu menerapkan metode statistik sirkuler ("directional"). BTW, korelasi seri atau independensi adalah masalah yang terpisah sama sekali.
whuber
2
Saya pikir batas atas harus tahun yang ditetapkan setepat mungkin; jika seseorang dapat melakukannya, analisis Tobit menjadi lebih mendalam. Saya akan menyarankan sebagai batas bawah (pembekuan bisa terjadi sebelumnya, tetapi tidak diamati / diamati) DoY di luar yang Anda anggap Anda tidak dapat mendeteksi leleh lagi. Mungkin ini bisa dilakukan dengan melihat pada (P, T) yang dibutuhkan air untuk membeku, dan dengan asumsi tekanan konstan, pilih minimum lokal terakhir tahun ini, atau serupa. Saya percaya pertanyaan pada saat ini menjadi lebih bersifat fisik daripada pertanyaan statistik (tapi sangat menarik, pokoknya).
pedrofigueira
2
@ rbatt Saya pikir jawaban ini masuk akal. Tanggal mulai sewenang-wenang, Anda dapat mulai dari tanggal lain atau menggunakan angka negatif; Saya tidak melihat masalah. Surat edaran itu mengurus dirinya sendiri dengan memberi nomor berdasarkan hari dalam setahun.
cboettig
1

Hari tahun adalah salah satu variabel prediktor yang masuk akal, dan untuk itu saya pikir masuk akal untuk memperlakukannya seperti yang disarankan @pedrofigueira.

Untuk variabel prediktor lain, Anda mungkin perlu berhati-hati tentang cara merepresentasikan waktu. Misalnya, bayangkan Anda memiliki suhu udara pada siang hari - bagaimana Anda memodelkan suhu udara sebagai prediktor hari es? Saya tidak berpikir membandingkan sampel hari-tahun yang sama sudah cukup.

Dalam analisis semacam itu, saya pikir akan membantu untuk menuliskan apa yang Anda pikirkan sebagai model pembangkit (atau model) data yang mungkin, (di mana beberapa fisika mungkin tersedia sebagai panduan). Misalnya, model yang masuk akal mungkin untuk mengintegrasikan jumlah hari di bawah titik beku, dan ketika integral itu melewati ambang batas (misalnya terkait dengan massa termal danau), es terjadi. Dari model seperti itu, Anda kemudian dapat menanyakan apa yang merupakan perkiraan yang masuk akal dan mana yang tidak.

Sebagai contoh, hari-tahun sebagai prediktor penting bagi model itu hanya dalam hari tahun adalah prediktor suhu yang baik. Dengan demikian hanya mengetahui hari dalam setahun, seseorang hanya akan memiliki rata-rata hari-tahun yang sesuai dengan ambang es, dengan mungkin beberapa distribusi normal tentang hal itu dihasilkan dari variasi suhu antar tahun, dan karena itu mencari tren dalam hari tahun benar-benar dibenarkan.

Tetapi jika Anda tahu variabel lain seperti air-temp di siang hari, Anda mungkin berhadapan dengan model yang sedikit lebih rumit secara langsung. Jika Anda hanya menggunakan nilai tahunan (minimum? Berarti?) Dari variabel sebagai prediktor hari es juga tampak masuk akal (dengan argumen yang sama seperti di atas).

cboettig
sumber
+1 untuk menunjuk ke fisika. Jika Anda tidak dapat menjelaskan hasil statistik dengan alasan, itu mungkin palsu, bahkan jika itu menunjukkan signifikan.
Horst Grünbusch
Untuk lebih jelasnya, hari pertama untuk es adalah variabel respon ... itu adalah apa yang saya coba "prediksi" (dalam jawaban Anda, Anda menyebutnya sebagai 'prediktor' di beberapa tempat). Apakah Anda memiliki saran untuk menangani tahun-tahun tanpa pembekuan (selain saran Tobit di bawah)?
rbatt
1
@ rbatt, maaf atas kebingungannya. Model paling sederhana adalah 1D, menggunakan hari-of-tahun yang terjadi di masa lalu sebagai prediktor. Tetapi jika Anda ingin mendeteksi tren pada tanggal es, Anda memiliki DATE lengkap, bukan Day Of Year, sebagai hal yang ingin Anda prediksi, karena prediksi untuk, katakanlah, 2020 kemudian dapat berbeda dari itu untuk 2050.
cboettig
0

Untuk masalah ini, Anda memerlukan dua variabel respons. Satu respons Boolean yang menunjukkan apakah danau membeku atau tidak, dan satu respons bilangan bulat memberi hari dalam setahun, tergantung pada indikator yang benar. Pada tahun-tahun ketika danau membeku, Boolean dan bilangan bulat diamati. Pada tahun-tahun ketika danau tidak membeku, Boolean diamati dan bilangan bulatnya tidak. Anda dapat menggunakan regresi logistik untuk Boolean. Regresi untuk hari dalam setahun dapat berupa regresi linier biasa.

Sifat sirkuler hari dalam setahun seharusnya tidak menjadi masalah selama Anda menghitung hari-hari pembekuan yang mungkin terjadi secara berurutan dalam periode waktu tertentu. Jika Anda bertanya-tanya di mana harus memulai penomoran, saya sarankan hari ketika prediktor diukur. Jika Anda ingin model mewakili efek kausal, itu harus menjadi kasus bahwa semua prediktor diukur sebelum kemungkinan pembekuan.

Untuk menangani sifat bilangan bulat dan terbatas pada hari itu, dapat menggunakan model diskritisasi. Artinya, ada nilai laten nyata yang menghasilkan pengamatan dengan cara berikut: jika nilainya berada dalam batas maka pengamatan sama dengan nilai laten dibulatkan ke bilangan bulat terdekat, jika tidak, nilainya dipotong ke batas. Nilai laten itu sendiri kemudian dapat dimodelkan sebagai fungsi linier dari prediktor ditambah noise.

Tom Minka
sumber
Saya mengerti dasar dari pendekatan tersebut, tetapi saya tidak yakin bagaimana cara mengimplementasikannya. Bagaimana saya mengatur data dan memperkirakan pengaruh calon pengemudi dari boolean / tanggal? Saya bekerja di R.
rbatt
Masukkan data ke dalam bingkai data di mana satu kolom adalah Boolean dan yang lainnya adalah tanggal. Kemudian gunakan: fit1 = glm (membeku ~ x, frame, family = "binomial") fit2 = lm (date ~ x, frame)
Tom Minka
Maaf, bolehkah saya mengerti "fit2 = lm (date ~ x, frame, subset = Boolean == BENAR)"?
Sergio
Itu akan menjadi dua model terpisah. Dalam model di mana "tanggal" adalah jawabannya, apa yang harus saya lakukan dengan tahun-tahun ketika air tidak pernah membeku? Jika saya hanya menghapus tahun-tahun itu, maka saya membiaskan hasilnya (atau sangat mengurangi rentang respons yang saya amati) karena saya secara selektif menghilangkan pengamatan respons yang paling ekstrem (yaitu, tidak pernah beku adalah tanggal es paling ekstrem). Jadi tahun-tahun ketika air tidak pernah membeku harus memberi tahu kita sesuatu tentang pengaruh para pengemudi itu pada kencan es. Tampaknya informasi di kedua model harus digabungkan.
rbatt
Saya merasa tidak nyaman dengan memperlakukan pembekuan sebagai variabel boolean karena proses yang mendasarinya tidak diragukan lagi lebih berkelanjutan dari itu.
cboettig
0

Apa yang Anda miliki adalah data waktu-ke-peristiwa, yang juga disebut analisis survival. Itu bukan daerah saya, jadi saya tidak memberikan jawaban rinci di sini. Googling untuk "data acara-ke-waktu" atau "analisis survival" akan memberi Anda banyak hasil!

Salah satu titik awal yang baik adalah bab (13) tentang analisis survival di Venables / Ripley: MASS, atau klasik "Analisis Statistik Data Waktu Kegagalan, Edisi Kedua" oleh John D. Kalbfleisch, Ross L. Prentice (auth.)

EDIT, JAWABAN YANG DIPERPANJANG

Sebagai alternatif untuk analisis survival, Anda dapat memperkirakannya dengan regresi logistik ordinal. Sebagai contoh, dalam contoh kasus tanggal pembekuan pertama, tentukan beberapa tanggal yang Anda beri status "telah dibekukan pada atau sebelum", 0 (tanpa beku), 1 (beku). Itu dengan baik mengakomodasi tahun-tahun tanpa pembekuan, Anda hanya memiliki vektor respons nol. Jika tanggal yang Anda pilih adalah, katakan,

1:08   15:08 1:09 15:09 1:10 15:10 1:11 15:11 1:12  15:12  1:01  15:01
and the actual date of first freezing was  17:11, then your observed vector will be
0       0    0    0     0    0     0    0      1     1     1      1

dan, secara umum, semua vektor respons akan memiliki blok nol awal, diikuti oleh satu blok. Kemudian, Anda dapat menggunakan ini dengan regresi logistik ordinal, memperoleh perkiraan probabilitas pembekuan untuk setiap tanggal. Merencanakan kurva itu akan memberikan perkiraan untuk kurva survival (survival, dalam konteks ini, menjadi "belum beku").

EDIT

Anda juga bisa melihat data Anda sebagai peristiwa berulang, karena sungai membeku (hampir) setiap tahun. Se jawaban saya di sini: Menemukan prediktor signifikan dari penerimaan psikiatris

kjetil b halvorsen
sumber