Metode terbaik untuk membuat grafik pertumbuhan

10

Saya harus membuat grafik (mirip dengan grafik pertumbuhan) untuk anak-anak usia 5 hingga 15 tahun (hanya 5,6,7 dll; tidak ada nilai fraksional seperti 2,6 tahun) untuk variabel kesehatan yang tidak negatif, berkelanjutan dan dalam kisaran 50-150 (dengan hanya beberapa nilai di luar rentang ini). Saya harus membuat kurva persentil ke-90, ke-95 dan ke-99 dan juga membuat tabel untuk persentil ini. Ukuran sampel sekitar 8000.

Saya memeriksa dan menemukan cara-cara berikut yang mungkin:

  1. Temukan kuantil dan kemudian gunakan metode loess untuk mendapatkan kurva halus dari kuantil ini. Tingkat kehalusan dapat disesuaikan dengan parameter 'span'.

  2. Gunakan metode LMS (Lambda-Mu-Sigma) (misalnya menggunakan paket gamlss atau VGAM di R).

  3. Gunakan regresi kuantitatif.

  4. Gunakan mean dan SD dari setiap kelompok umur untuk memperkirakan persentil untuk usia itu dan membuat kurva persentil.

Apa cara terbaik untuk melakukannya? Yang 'terbaik' yang saya maksud adalah metode ideal yang merupakan metode standar untuk pembuatan kurva pertumbuhan seperti itu dan dapat diterima oleh semua. Atau metode yang lebih mudah dan lebih sederhana untuk diterapkan, yang mungkin memiliki beberapa keterbatasan, tetapi merupakan metode yang dapat diterima dan lebih cepat. (Misalnya menggunakan loess pada nilai persentil jauh lebih cepat daripada menggunakan LMS paket gamlss).

Juga apa yang akan menjadi kode R dasar untuk metode itu.

Terima kasih atas bantuan Anda.

juga
sumber
2
Anda meminta "yang terbaik" yang biasanya sulit dan tidak mungkin untuk didiskusikan secara pasti. (Ukuran level "terbaik" cukup sulit.) Anda telah dengan jelas mengikat pertanyaan Anda dengan perubahan kesehatan pada anak-anak, tetapi kriteria Anda tentang "terbaik" tidak eksplisit, khususnya jenis atau tingkat kelancaran apa yang dapat diterima atau tidak dapat diterima.
Nick Cox
Saya menyambut baik upaya ini, tetapi a) jelas tidak ada, kalau tidak mengapa ada solusi yang bersaing, atau mengapa ini tidak terbukti dalam literatur yang Anda baca? Ketertarikan pada masalah ini sudah pasti puluhan tahun jika tidak berabad-abad. Lebih mudah berarti: lebih mudah dipahami, lebih mudah dijelaskan kepada petugas medis atau profesional yang tidak berpikiran statistik secara umum, lebih mudah diimplementasikan, ...? Saya tidak diragukan lagi tampaknya pemilih, tetapi mengapa Anda harus peduli tentang kecepatan di sini? Tidak satu pun dari metode ini yang menuntut komputasi.
Nick Cox
@NickCox: Saya telah mengedit pertanyaan sesuai dengan komentar Anda. Saya akan menghargai jawaban nyata.
rnso
1
Maaf, tapi saya tidak bekerja di bidang ini dan saya pikir pertanyaan Anda terlalu sulit untuk dijawab. Komentar ada karena orang mungkin tidak dapat atau tidak mau menjawab tetapi tetap memiliki sesuatu untuk dikatakan. Saya tidak menulis jawaban sesuai pesanan.
Nick Cox

Jawaban:

6

Ada literatur besar tentang kurva pertumbuhan. Dalam pikiran saya ada tiga pendekatan "atas". Dalam ketiganya, waktu dimodelkan sebagai spline kubik terbatas dengan jumlah simpul yang cukup (misalnya, 6). Ini adalah parametrik yang lebih halus dengan kinerja luar biasa dan interpretasi yang mudah.

  1. Model kurva pertumbuhan klasik (generalised least squares) untuk data longitudinal dengan pola korelasi yang masuk akal seperti AR1 waktu kontinu. Jika Anda dapat menunjukkan bahwa residu adalah Gaussian, Anda bisa mendapatkan MLEs dari kuantil menggunakan estimasi rata-rata dan deviasi standar umum.
  2. n
  3. YY
Frank Harrell
sumber
Ketika Anda telah menggunakan peluang proporsional, bagaimana Anda mengakomodasi asumsi PO (dengan asumsi itu gagal) dengan begitu banyak tingkat hasil? Terima kasih.
Juli 315
2
Sekalipun gagal, model tersebut mungkin berkinerja lebih baik daripada beberapa model lain karena asumsi yang lebih sedikit secara keseluruhan. Atau beralih ke salah satu dari model ordinal kumulatif probabilitas keluarga lainnya seperti bahaya proporsional (log-log link prob kumulatif).
Frank Harrell
1

Regresi proses Gaussian . Mulailah dengan kernel eksponensial kuadrat dan coba dan sesuaikan parameter dengan mata. Kemudian, jika Anda ingin melakukan hal-hal dengan benar, bereksperimenlah dengan kernel yang berbeda dan gunakan kemungkinan marginal untuk mengoptimalkan parameter.

Jika Anda ingin detail lebih dari tutorial yang ditautkan di atas, buku ini hebat .

Andy Jones
sumber
Terima kasih atas jawaban anda. Bagaimana Anda menilai regresi proses Gaussian dibandingkan dengan metode lain yang disebutkan. Plot Gaussian kedua pada scikit-learn.org/0.11/auto_examples/gaussian_process/… tampak sangat mirip dengan plot terakhir kedua pada halaman LOESS (regresi lokal): princeofslides.blogspot.in/2011/05/… . LOESS jauh lebih mudah dilakukan.
rnso
Secara pribadi, saya sangat suka GPR untuk dataset apa pun yang cukup kecil agar Anda dapat menyesuaikannya. Selain lebih "bagus" dari perspektif teoretis, ini juga lebih fleksibel, kuat, dan memberikan keluaran probabilistik yang terkalibrasi dengan baik. Setelah mengatakan semua itu, jika data Anda padat dan berperilaku baik, maka audiens Anda mungkin tidak akan dapat membedakan antara LOESS dan GPR kecuali mereka ahli statistik.
Andy Jones
3
yx
1
@Nick: Saran saya yang dimaksudkan adalah untuk membangun model data Anda dan kemudian menggunakan model untuk membangun kurva persentil (halus). Sekarang Anda sudah menyebutkannya, ya saya benar-benar merindukan komponen kedua (yaitu pertanyaan aktual).
Andy Jones
1
Menggunakan 1.96 untuk membuat batasan seperti itu adalah asumsi yang sangat kuat (berdasarkan Normality) yang notabene mungkin dilanggar oleh kurva pertumbuhan.
whuber