Uji hubungan untuk DV berdistribusi normal dengan variabel independen terarah?

10

Apakah ada tes hipotesis apakah variabel dependen yang terdistribusi normal dikaitkan dengan variabel yang terdistribusi secara terarah ?

Sebagai contoh, jika waktu dalam sehari adalah variabel penjelas (dan menganggap hal-hal seperti hari dalam seminggu, bulan dalam setahun, dll. Tidak relevan) - itu adalah bagaimana menjelaskan fakta bahwa 11 malam adalah 22 jam lebih awal dari jam 1 pagi, dan juga 2 jam di belakang jam 1 pagi dalam ujian asosiasi? Dapatkah saya menguji apakah waktu terus-menerus dalam sehari menjelaskan variabel dependen tanpa mengasumsikan bahwa 12:00 tengah malam tidak mengikuti satu menit setelah 11:59 malam?

Apakah tes ini juga berlaku untuk variabel penjelas directional directional ( modular ?)? Atau apakah itu memerlukan tes terpisah? Misalnya, cara menguji apakah variabel dependen dijelaskan berdasarkan bulan tahun (dengan asumsi hari dan musim tahun, dan tahun atau dekade tertentu tidak relevan). Memperlakukan bulan dalam setahun dengan tegas mengabaikan pemesanan. Tetapi memperlakukan bulan dalam setahun sebagai variabel ordinal standar (katakanlah Jan = 1 ... Dec = 12) mengabaikan bahwa Januari datang dua bulan setelah November.

Alexis
sumber
1
Jawabannya bisa mengisi buku (dan ada beberapa di antaranya). Menjadikan pertanyaan Anda lebih spesifik dapat membantu memfokuskan jawaban pada hal-hal yang penting bagi Anda.
whuber
@whuber Um ... astaga ... bisakah Anda membantu saya tentang cara mempersempit? Menentukan distribusi untuk DV? Membatasi hanya satu tes, bukan regresi? Saya agak bingung dan tidak tahu harus mulai dari mana ...
Alexis
@whuber Saya telah mencoba sedikit mempersempit pertanyaan, dan akan berterima kasih atas petunjuk tentang membuatnya lebih berguna (saya benar-benar hanya ingin tempat awal untuk berpikir tentang prediktor modular). Jika ini sekarang dalam bentuk yang layak, saya kemungkinan akan menindaklanjuti dengan pertanyaan serupa tentang tes seperti itu yang bebas distribusi dalam DV.
Alexis
@whuber Memikirkan diskrit modular IV lebih dalam konteks regresi: apakah model campuran dua tingkat dengan diskrit modular IV sebagai pengenal level-2 dengan masing-masing unit level-2 yang memiliki variabel efek sebelum dan sesudah acak sama dengan nilai sebelumnya dan selanjutnya dalam sistem angka berada di jalur yang benar?
Alexis
Lihat di sini jstatsoft.org/article/view/v031i10/v31i10.pdf , halaman 16.
amoeba

Jawaban:

9

Secara umum, saya pikir lebih bermanfaat secara ilmiah dan statistik untuk memulai dengan mengajukan pertanyaan yang lebih luas dan berbeda, yaitu sejauh mana respons dapat diprediksi dari prediktor sirkuler. Saya katakan melingkar di sini daripada terarah , sebagian karena yang terakhir mencakup ruang bulat dan bahkan lebih luar biasa, yang semuanya tidak dapat dicakup dalam satu jawaban; dan sebagian karena contoh Anda, waktu hari dan waktu tahun , keduanya melingkar. Contoh utama selanjutnya adalah arah kompas (relevan dengan angin, gerakan hewan atau manusia, keberpihakan, dll.), Yang muncul dalam banyak masalah melingkar: memang, bagi beberapa ilmuwan ini adalah titik awal yang lebih jelas.

Kapan pun Anda bisa melewatinya, menggunakan fungsi waktu sinus dan kosinus dalam beberapa jenis model regresi adalah metode pemodelan yang sederhana dan mudah diterapkan. Ini adalah pelabuhan panggilan pertama untuk banyak contoh biologis dan / atau lingkungan. (Kedua jenis ini sering disatukan, karena fenomena biotik yang menunjukkan musim biasanya merespons secara langsung atau tidak langsung terhadap iklim, atau terhadap cuaca.)

Untuk konkret, bayangkan pengukuran waktu lebih dari 24 jam atau 12 bulan, sehingga mis

sin[2π(hour/24)],  cos[2π(hour/24)]

sin[2π(month/12)],  cos[2π(month/12)]

masing-masing menggambarkan satu siklus sepanjang hari atau tahun. Tes formal tidak ada hubungan antara respons yang diukur atau dihitung dan beberapa waktu melingkar kemudian akan menjadi tes standar apakah koefisien sinus dan kosinus secara bersama-sama nol dalam model linier umum dengan sinus dan cosinus sebagai prediktor, hubungan yang sesuai dan keluarga dipilih sesuai dengan sifat responsnya.

Pertanyaan tentang distribusi respon marjinal (normal atau lainnya) adalah dalam pendekatan ini sekunder dan / atau harus ditangani oleh pilihan keluarga.

Kelebihan dari sinus dan cosinus adalah secara alami bahwa mereka periodik dan membungkus secara otomatis, sehingga nilai-nilai pada awal dan akhir setiap hari atau tahun harus satu dan sama. Tidak ada masalah dengan syarat batas, karena tidak ada batasan.

Pendekatan ini disebut regresi sirkuler, periodik, trigonometri dan Fourier. Untuk satu ulasan tutorial pengantar, lihat di sini

Dalam praktek,

  1. Tes semacam itu biasanya menunjukkan hasil yang sangat signifikan pada tingkat konvensional setiap kali kita mengharapkan musiman. Pertanyaan yang lebih menarik adalah perkiraan kurva musiman yang tepat, dan apakah kita memerlukan model yang lebih rumit dengan istilah sinusoidal lainnya juga.

  2. Tidak ada yang mengesampingkan prediktor lain juga, dalam hal ini kita hanya perlu model yang lebih komprehensif dengan prediktor lain termasuk, katakanlah sinus dan cosinus untuk musiman dan prediktor lain untuk segalanya.

  3. Pada titik tertentu, tergantung bersama-sama pada data, masalah dan selera dan pengalaman peneliti, mungkin menjadi lebih alami untuk menekankan aspek rangkaian waktu dari masalah dan membangun model dengan ketergantungan waktu yang eksplisit. Memang, beberapa orang yang berpikiran statistik akan menyangkal bahwa ada cara lain untuk mendekatinya.

Apa yang dengan mudah disebut sebagai tren (tetapi tidak selalu dapat dengan mudah diidentifikasi) berada di bawah # 2 atau # 3, atau bahkan keduanya.

Banyak ekonom dan ilmuwan sosial lain yang peduli dengan musiman di pasar, ekonomi nasional dan internasional, atau fenomena manusia lainnya biasanya lebih terkesan dengan kemungkinan variabilitas yang lebih rumit dalam setiap hari atau (lebih umum) tahun. Seringkali, meskipun tidak selalu, musiman merupakan gangguan yang harus dihapus atau disesuaikan, berbeda dengan ilmuwan biologi dan lingkungan yang sering menganggap musiman sebagai hal yang menarik dan penting, bahkan menjadi fokus utama suatu proyek. Yang mengatakan, ekonom dan lain-lain juga sering mengadopsi pendekatan tipe regresi juga, tetapi dengan amunisi sejumlah variabel indikator (dummy), paling sederhana variabel untuk setiap bulan atau setiap kuartal dalam setahun0,1. Ini bisa menjadi cara praktis untuk mencoba menangkap efek dari liburan, periode liburan, efek samping tahun sekolah, dll., Serta pengaruh atau guncangan iklim atau asal cuaca. Dengan perbedaan-perbedaan tersebut dicatat, sebagian besar komentar di atas juga berlaku dalam ilmu ekonomi dan sosial.

Sikap, dan pendekatan oleh, ahli epidemiologi dan ahli statistik medis yang peduli dengan variasi dalam morbiditas, mortalitas, perawatan di rumah sakit, kunjungan klinik, dan sejenisnya, cenderung jatuh di antara kedua ekstrem ini.

Dalam pandangan saya, membagi hari atau tahun menjadi dua bagian untuk dibandingkan biasanya sewenang-wenang, buatan, dan paling tidak canggung. Itu juga mengabaikan jenis struktur halus yang biasanya ada dalam data.

EDIT Akun sejauh ini tidak membahas perbedaan antara waktu diskrit dan waktu terus menerus, tetapi saya tidak menganggap pengalaman saya sebagai masalah besar dalam praktik.

Tetapi pilihan yang tepat tergantung pada bagaimana data tiba dan pada pola perubahan.

Jika data triwulanan dan manusia, saya akan cenderung menggunakan variabel indikator (mis. Kuartal 3 dan 4 sering berbeda). Jika bulanan dan manusia, pilihannya tidak jelas, tetapi Anda harus bekerja keras untuk menjual sinus dan kosmetik kepada sebagian besar ekonom. Jika bulanan atau lebih halus dan biologis atau lingkungan, pasti sinus dan cosinus.

EDIT 2 Rincian lebih lanjut tentang regresi trigonometri

Detail khas dari regresi trigonometri (dinamai dengan cara lain jika Anda suka) adalah bahwa hampir selalu istilah sinus dan kosinus paling baik disajikan kepada model berpasangan. Kami pertama-tama skala waktu hari, waktu tahun atau arah kompas sehingga direpresentasikan sebagai sudut pada lingkaran dalam radian, maka pada interval [ 0 , 2 π ] . Kemudian kita menggunakan banyak pasangan dosa k θ , cos k θ , k = 1 , 2 , 3 , θ[0,2π]sinkθ,coskθ,k=1,2,3,seperti yang dibutuhkan dalam suatu model. (Dalam statistik sirkuler, konvensi trigonometrik cenderung mengalahkan konvensi statistik, sehingga simbol-simbol Yunani seperti digunakan untuk variabel dan juga parameter.)θ,ϕ,ψ

Jika kami menawarkan sepasang prediktor seperti ke model seperti regresi, maka kami memiliki estimasi koefisien, katakanlah b 1 , b 2 , untuk istilah dalam model, yaitu b 1 sin θ , b 2 cos θ . Ini adalah cara pemasangan fase serta amplitudo sinyal periodik. Jika tidak, fungsi seperti sin ( θ + ϕ ) dapat ditulis ulang sebagaisinθ,cosθb1,b2b1sinθ,b2cosθsin(θ+ϕ)

sinθcosϕ+cosθsinϕ,

tetapi dan sin ϕ mewakili fase yang diperkirakan dalam model pas. Dengan begitu kita menghindari masalah estimasi non-linear.cosϕsinϕ

Jika kita menggunakan untuk memodelkan variasi lingkaran, maka secara otomatis maksimum dan minimum dari kurva itu adalah setengah lingkaran terpisah. Itu sering merupakan perkiraan yang sangat baik untuk variasi biologis atau lingkungan, tetapi sebaliknya kita mungkin perlu beberapa istilah lagi untuk menangkap musiman ekonomi khususnya. Itu bisa menjadi alasan yang sangat baik untuk menggunakan variabel indikator sebagai gantinya, yang langsung mengarah pada interpretasi sederhana dari koefisien.b1sinθ+b2cosθ

Nick Cox
sumber
Saya perhatikan beberapa tumpang tindih yang tidak mengejutkan dengan jawaban dari @Kelvin.
Nick Cox
+1 (Esp. Untuk menggunakan "luar biasa" seperti yang Anda lakukan! :) Nick Cox, apakah Anda akan berbaik hati untuk secara eksplisit menjelaskan variabel melingkar diskrit juga, sesuai pertanyaan saya? Apakah itu sesederhana pendekatan "pemodelan trigonometri" yang Anda gambarkan menggunakan ukuran waktu yang berbeda? Atau akankah perlu semacam "koreksi kontinuitas"?
Alexis
Sejauh yang saya ketahui, satu-satunya perbedaan antara variabel melingkar diskrit dan kontinu adalah dalam pembulatan nilai ke titik diskrit (misalnya, 2pm vs 14.12345hrs), seperti halnya variabel non-sirkuler, sehingga tidak akan ada banyak perbedaan selama Anda menerapkan pembulatan kurang dengan langkah-langkah kecil relatif terhadap periode keseluruhan. Pada dasarnya, ini hanya masalah memiliki kesalahan pembulatan atau tidak. Sebaiknya tidak, jika Anda bisa menghindarinya.
Kelvin
Saya setuju bahwa diskrit dan kontinu tidak jauh berbeda. Dalam praktiknya, banyak pengukuran yang kurang lebih kasar dengan melaporkan hanya dalam kuartal, setengah tahun, bulan, hari, dll. Atau apa pun mulai dari (N. S) hingga (N, E, S, W) hingga resolusi yang lebih halus untuk arah kompas. Secara rinci, ada perbedaan antara pengukuran titik (suhu pada waktu yang tepat) dan pengukuran interval (misalnya total penjualan bulanan). Saya tidak akan menyatukan semua rincian tersebut sebagai kesalahan pembulatan, karena terkadang tidak ada kesalahan sebanyak agregasi atau rata-rata.
Nick Cox
4

Ini adalah opsi bebas distribusi, karena sepertinya itulah yang Anda cari. Ini tidak khusus untuk bidang statistik sirkuler, yang saya cukup bodoh, tetapi ini berlaku di sini dan di banyak pengaturan lainnya.

X

YRdd1

Z:=(X,Y)mzi=(xi,yi)

Sekarang, lakukan tes menggunakan Hilbert Schmidt Independence Criterion (HSIC), seperti dalam makalah berikut:

Gretton, Fukumizu, Teo, Song, Schölkopf, dan Smola. Sebuah Uji Statistik Independen Kernel. NIPS 2008. ( pdf )

Itu adalah:

  • kX

    • XR2k(x,x)=exp(12σ2xx2)σX
    • X[π,π]k(x,x)=exp(κcos(xx))κ
  • lYYRn

  • HKLm×mKij=k(xi,xj)Lij=l(yi,yj)H H=I1m11T1m2tr(KHLH)

Kode Matlab untuk melaksanakan hal ini dengan kernel RBF tersedia dari penulis pertama di sini .


Pendekatan ini bagus karena bersifat umum dan cenderung berkinerja baik. Kelemahan utama adalah:

  • m2
  • mm
  • kl


k(xx)[π,π]

Dougal
sumber
3

Anda dapat menjalankan uji- t antara rata-rata dari "belahan" periode yang berlawanan, misalnya dengan membandingkan nilai rata-rata dari jam 12 pagi sampai jam 12 siang dengan nilai rata-rata dari jam 12 siang sampai jam 12 pagi. Dan kemudian membandingkan nilai rata-rata dari jam 6 sore sampai 6 pagi dengan nilai rata-rata dari jam 6 pagi sampai jam 6 sore.

Atau jika Anda memiliki data yang cukup, Anda dapat membagi periode menjadi segmen yang lebih kecil (misalnya, setiap jam) dan melakukan uji- t di antara setiap pasangan segmen, sambil mengoreksi beberapa perbandingan.

Atau, untuk analisis yang lebih "berkelanjutan" (yaitu, tanpa segmentasi sewenang-wenang), Anda dapat menjalankan regresi linier terhadap fungsi sinus dan kosinus dari variabel arah Anda (dengan periode yang benar), yang secara otomatis akan "mengedarkan" data Anda:

x=sin(x2π/period)
x=cos(x2π/period)

a

x=sin((x+a)2π/period)

a

yxx

Bagaimanapun, saya pikir Anda harus membuat beberapa asumsi mengenai periode, dan kemudian menguji sesuai.

Kelvin
sumber
Kelvin, "memecah" data sirkular seperti yang Anda gambarkan tampaknya mengabaikan persis masalah yang saya ajukan tentang pemesanan modular.
Alexis
Apakah Anda membaca bagian kedua dari jawaban saya, yang menggambarkan analisis berkelanjutan dengan regresi berganda?
Kelvin
Anda benar tentang sinus dan cosinus bersama. Ini dijelaskan lebih lanjut dalam jawaban saya dan dalam makalah 2006 ini mengutip dan dalam referensi lebih lanjut yang dikutip.
Nick Cox
@Nick - Saya belum melihat jawaban Anda ketika Anda memposting setelah edit terakhir saya, tapi bagus bahwa kami sampai pada jawaban yang sama secara mandiri karena saya hanya menjadi kreatif (berpikir keras-keras) dan belum pernah melihat ini dilakukan sebelumnya.
Kelvin