Dalam kasus khusus ini saya mengacu pada hari di mana sebuah danau membeku. Tanggal "es" ini hanya terjadi setahun sekali, tetapi kadang-kadang tidak terjadi sama sekali (jika musim dingin hangat). Jadi pada satu tahun danau itu mungkin membeku pada hari 20 (20 Januari), dan satu tahun lagi mungkin tidak membeku sama sekali.
Tujuannya adalah untuk mencari tahu pengendara ice-on date.
Prediktor akan menjadi hal-hal seperti suhu udara musim gugur / musim dingin setiap tahun. Tahun bisa menjadi prediktor untuk tren linear jangka panjang.
1) Apakah bilangan bulat "hari tahun" merupakan variabel respons yang masuk akal (jika tidak, apa itu?)?
2) Bagaimana seharusnya seseorang menangani tahun-tahun ketika danau tidak pernah membeku?
Edit:
Saya tidak tahu apa etiket di sini, tetapi saya pikir saya akan memposting hasil dari saran yang saya terima. Ini kertasnya, akses terbuka . Saya mendapat umpan balik yang baik tentang pendekatan yang digunakan, terima kasih @pedrofigueira dan @cboettig. Tentu saja, kesalahan adalah milik saya sendiri.
Jawaban:
Saya pikir seseorang dapat mempertimbangkan "hari dalam setahun" sebagai variabel respon terhadap regresi multivariat. Untuk menangani tahun-tahun ketika danau tidak pernah membeku saya hanya akan mempertimbangkan bahwa hari pembekuan lebih besar dari batas bawah yang dapat diamati yang sesuai, misalnya, dengan hari ketika kandungan es mulai meleleh (atau meleleh sepenuhnya, jika Anda ingin sangat konservatif). Secara teoritis itu harus membeku setelah itu, atau bisa membeku setelah itu, tetapi kita tidak tahu. Dengan cara ini Anda bisa menggunakan data yang Anda kumpulkan pada parameter yang berbeda untuk memahami bagaimana hari pembekuan tergantung pada mereka, jika itu dibiarkan lebih lambat dari tanggal terbaru yang dapat diamati. Anda kemudian dapat menggunakan model Tobituntuk menangani hari-hari pembekuan secara bersamaan (sesuai dengan titik-titik data "normal") dan batas bawah (sesuai dengan batas-batas dan dengan demikian merupakan regresi yang disensor).
Untuk memasukkan dengan benar batas bawah yang diukur dalam analisis, Anda dapat menggunakan model regresi yang disensor di mana variabel dependen memiliki batas pada nilai batas bawah. Model Tobit yang disebutkan di atas sesuai untuk kasus ini; itu mengasumsikan adanya variabel dependen (laten) yang tidak dapat diobservasi yang dalam kasus kami sesuai dengan tanggal pembekuan jika musim dingin diperpanjang tanpa batas waktu. Variabel dependen yang dapat diamati (yaitu batas bawah yang diukur pada tanggal pembekuan) kemudian dianggap sama dengan variabel laten dengan tidak adanya batas bawah , dan sama dengan batas bawah jika tidaky∗saya ysaya Lsaya
Penerapan model Tobit untuk menangani sensor pengamatan demi pengamatan, menghasilkan fungsi log-likelihood dari formulir.
di mana dan masing-masing menunjukkan probabilitas dan fungsi kepadatan kumulatif, dari distribusi normal standar. Indeks berjalan pada pengamatan dan pada variabel independen. Solusi untuk regresi linier adalah serangkaian parameter (termasuk intersep) yang memaksimalkan fungsi log-likelihood.Φ ( . ) i j β jϕ ( . ) Φ ( . ) saya j βj
sumber
Hari tahun adalah salah satu variabel prediktor yang masuk akal, dan untuk itu saya pikir masuk akal untuk memperlakukannya seperti yang disarankan @pedrofigueira.
Untuk variabel prediktor lain, Anda mungkin perlu berhati-hati tentang cara merepresentasikan waktu. Misalnya, bayangkan Anda memiliki suhu udara pada siang hari - bagaimana Anda memodelkan suhu udara sebagai prediktor hari es? Saya tidak berpikir membandingkan sampel hari-tahun yang sama sudah cukup.
Dalam analisis semacam itu, saya pikir akan membantu untuk menuliskan apa yang Anda pikirkan sebagai model pembangkit (atau model) data yang mungkin, (di mana beberapa fisika mungkin tersedia sebagai panduan). Misalnya, model yang masuk akal mungkin untuk mengintegrasikan jumlah hari di bawah titik beku, dan ketika integral itu melewati ambang batas (misalnya terkait dengan massa termal danau), es terjadi. Dari model seperti itu, Anda kemudian dapat menanyakan apa yang merupakan perkiraan yang masuk akal dan mana yang tidak.
Sebagai contoh, hari-tahun sebagai prediktor penting bagi model itu hanya dalam hari tahun adalah prediktor suhu yang baik. Dengan demikian hanya mengetahui hari dalam setahun, seseorang hanya akan memiliki rata-rata hari-tahun yang sesuai dengan ambang es, dengan mungkin beberapa distribusi normal tentang hal itu dihasilkan dari variasi suhu antar tahun, dan karena itu mencari tren dalam hari tahun benar-benar dibenarkan.
Tetapi jika Anda tahu variabel lain seperti air-temp di siang hari, Anda mungkin berhadapan dengan model yang sedikit lebih rumit secara langsung. Jika Anda hanya menggunakan nilai tahunan (minimum? Berarti?) Dari variabel sebagai prediktor hari es juga tampak masuk akal (dengan argumen yang sama seperti di atas).
sumber
Untuk masalah ini, Anda memerlukan dua variabel respons. Satu respons Boolean yang menunjukkan apakah danau membeku atau tidak, dan satu respons bilangan bulat memberi hari dalam setahun, tergantung pada indikator yang benar. Pada tahun-tahun ketika danau membeku, Boolean dan bilangan bulat diamati. Pada tahun-tahun ketika danau tidak membeku, Boolean diamati dan bilangan bulatnya tidak. Anda dapat menggunakan regresi logistik untuk Boolean. Regresi untuk hari dalam setahun dapat berupa regresi linier biasa.
Sifat sirkuler hari dalam setahun seharusnya tidak menjadi masalah selama Anda menghitung hari-hari pembekuan yang mungkin terjadi secara berurutan dalam periode waktu tertentu. Jika Anda bertanya-tanya di mana harus memulai penomoran, saya sarankan hari ketika prediktor diukur. Jika Anda ingin model mewakili efek kausal, itu harus menjadi kasus bahwa semua prediktor diukur sebelum kemungkinan pembekuan.
Untuk menangani sifat bilangan bulat dan terbatas pada hari itu, dapat menggunakan model diskritisasi. Artinya, ada nilai laten nyata yang menghasilkan pengamatan dengan cara berikut: jika nilainya berada dalam batas maka pengamatan sama dengan nilai laten dibulatkan ke bilangan bulat terdekat, jika tidak, nilainya dipotong ke batas. Nilai laten itu sendiri kemudian dapat dimodelkan sebagai fungsi linier dari prediktor ditambah noise.
sumber
Apa yang Anda miliki adalah data waktu-ke-peristiwa, yang juga disebut analisis survival. Itu bukan daerah saya, jadi saya tidak memberikan jawaban rinci di sini. Googling untuk "data acara-ke-waktu" atau "analisis survival" akan memberi Anda banyak hasil!
Salah satu titik awal yang baik adalah bab (13) tentang analisis survival di Venables / Ripley: MASS, atau klasik "Analisis Statistik Data Waktu Kegagalan, Edisi Kedua" oleh John D. Kalbfleisch, Ross L. Prentice (auth.)
EDIT, JAWABAN YANG DIPERPANJANG
Sebagai alternatif untuk analisis survival, Anda dapat memperkirakannya dengan regresi logistik ordinal. Sebagai contoh, dalam contoh kasus tanggal pembekuan pertama, tentukan beberapa tanggal yang Anda beri status "telah dibekukan pada atau sebelum", 0 (tanpa beku), 1 (beku). Itu dengan baik mengakomodasi tahun-tahun tanpa pembekuan, Anda hanya memiliki vektor respons nol. Jika tanggal yang Anda pilih adalah, katakan,
dan, secara umum, semua vektor respons akan memiliki blok nol awal, diikuti oleh satu blok. Kemudian, Anda dapat menggunakan ini dengan regresi logistik ordinal, memperoleh perkiraan probabilitas pembekuan untuk setiap tanggal. Merencanakan kurva itu akan memberikan perkiraan untuk kurva survival (survival, dalam konteks ini, menjadi "belum beku").
Anda juga bisa melihat data Anda sebagai peristiwa berulang, karena sungai membeku (hampir) setiap tahun. Se jawaban saya di sini: Menemukan prediktor signifikan dari penerimaan psikiatris
sumber