Saya harap ini tidak terlalu mendasar atau berlebihan. Saya sudah mencari-cari panduan, tetapi sejauh ini saya masih tidak yakin bagaimana untuk melanjutkan.
Data saya terdiri dari jumlah struktur tertentu yang digunakan dalam percakapan antara pasangan lawan bicara. Hipotesis yang ingin saya uji adalah sebagai berikut: lebih sering menggunakan struktur ini oleh satu pembicara akan cenderung meningkatkan frekuensi struktur oleh pembicara lain (yaitu, ini mungkin bukti efek priming).
Jadi saya hanya memiliki dua vektor, jumlah untuk penutur A dan jumlah untuk penutur B adalah kolom, dan jika mereka berbaris setiap baris mewakili percakapan tertentu, seperti ini:
AB
0 1
0 2
1 0
3 1
0 2
2 0
2 1
Ada sekitar 420 percakapan (baris). Ada banyak nol dalam data ini.
Apa cara terbaik untuk menganalisis data ini? Saya menggunakan R, jika itu membuat perbedaan.
Berikut adalah plot frekuensi (jumlah). Sumbu x adalah jumlah penggunaan oleh penutur A, jumlah sumbu penggunaan y oleh penutur B. Perbedaan antara penutur hanya berarti bahwa penutur A berbicara terlebih dahulu, dan tidak ada alasan khusus mengapa mereka melakukannya. Kalau tidak, perbedaan antara pembicara A dan pembicara B pada dasarnya tidak ada artinya:
Valid XHTML http://phonematic.com/convplot.jpg
Dan ini adalah frekuensi relatif terhadap jumlah kalimat yang diucapkan oleh masing-masing pembicara dalam setiap percakapan. :
Valid XHTML http://phonematic.com/rs_plot.jpg
(Saya harus menyebutkan bahwa saya telah membuang percakapan tanpa hit sama sekali, yaitu {0,0}.)
sumber
Jawaban:
Model log-linear mungkin menjadi pilihan lain untuk dilihat, jika Anda ingin mempelajari struktur data dua arah Anda.
Jika Anda berasumsi bahwa dua sampel cocok (yaitu, ada beberapa jenis ketergantungan antara dua rangkaian lokasi) dan Anda mempertimbangkan bahwa data sebenarnya jumlah yang dapat dianggap sebagai skor atau respons yang dipesan (seperti yang disarankan oleh @caracal ), maka Anda juga dapat melihat model marginal untuk pasangan yang cocok, yang biasanya melibatkan analisis tabel kontingensi kuadrat. Mungkin belum tentu Anda berakhir dengan Tabel persegi seperti itu, tetapi kami juga dapat memutuskan batas atas untuk jumlah, misalnya kalimat pasif. Bagaimanapun, model untuk pasangan yang cocok dijelaskan dengan baik di Bab 10 dari Agresti, Analisis Data Kategorikal ; model yang relevan untuk kategori ordinal dalam tabel kuadrat sedang menguji kuasi-simetri(perbedaan dalam pengaruh kategori dari satu kasus ke yang lain mengikuti tren linear dalam skor kategori), simetri bersyarat ( atau , ), dan asosiasi kuasi-seragam ( asosiasi linier demi linier dari diagonal utama, yang dalam kasus skor interval-sama berarti asosiasi lokal seragam). Ordinal quasi-symmetry (OQS) adalah kasus khusus dari model logit linier, dan dapat dibandingkan dengan model yang lebih sederhana di mana hanya homogenitas marginal berlaku dengan uji LR, karena ordinal kuasi-simetri + homogenitas marginal simetri.πa b<πa b πa b>πa b ∀ a , b =
Mengikuti notasi Agresti (hlm. 429), kami menganggap memesan skor untuk variabel (dalam baris) dan variabel (dalam kolom); atau menunjukkan setiap baris atau kolom. Model OQS dibaca sebagai model log-linear berikut:kamu1≤ ⋯ ≤kamusaya X Y Sebuah b
di mana untuk semua . Dibandingkan dengan model QS biasa untuk data nominal yaitu , di mana akan berarti independensi antara kedua variabel , dalam model OQS kami memaksakan (karenanya memperkenalkan gagasan tren linear). Representasi logit yang setara adalah , untuk .λa b=λb a a < b catatanμa b= λ +λXSebuah+λYb+λa b λa b= 0 λYb-λXb= βkamub catatan(πa b/πb a) = β(kamub-kamuSebuah) a ≤ b
Jika , maka kita memiliki simetri sebagai kasus khusus dari model ini. Jika , maka kami memiliki stok yang dipesan secara stokastik, yaitu berarti rata-rata kolom lebih tinggi dibandingkan dengan rata-rata baris (dan semakin besar , semakin besar perbedaan antara dua distribusi probabilitas gabungan dan adalah, yang akan tercermin dalam perbedaan antara distribusi marginal baris dan kolom). Tes sesuai dengan tes homogenitas marginal. Interpretasi dari estimasi adalah langsung: estimasi probabilitas bahwa skor pada variabel adalahβ= 0 β≠ 0 β> 0 | β| πa b πb a β= 0 β X x unit lebih positif daripada skor pada adalah dikalikan probabilitas terbalik. Dalam kasus khusus Anda, itu berarti memungkinkan untuk mengukur pengaruh yang diberikan oleh satu penutur tertentu.Y exp(β^x ) β^
Sebagai catatan, semua kode R disediakan oleh Laura Thompson dalam Manual S- nya untuk Mendampingi Analisis Data Kategorikal Agresti .
Selanjutnya, saya memberikan beberapa contoh kode R sehingga Anda dapat memainkannya dengan data Anda sendiri. Jadi, mari kita coba menghasilkan beberapa data terlebih dahulu:
Secara visual, klasifikasi silang terlihat seperti ini:
Sekarang, kita dapat menyesuaikan model OQS. Tidak seperti Laura Thompson yang menggunakanβ
glm()
fungsi dasar dan matriks desain khusus untuk simetri, kita dapat mengandalkan paket gnm ; namun, kita perlu menambahkan vektor untuk skor numerik untuk memperkirakan dalam model di atas.Di sini, kita punyaβ^= 0,123 , dan dengan demikian probabilitas bahwa Speaker B mendapat skor 4 ketika Speaker A mendapat skor 3 exp( 0.123 ) = 1.13 kali probabilitas bahwa Speaker B memiliki skor 3 sedangkan Speaker A memiliki skor 4.
Baru-baru ini saya menemukan paket catspec R yang tampaknya menawarkan fasilitas serupa, tetapi saya tidak mencobanya. Ada tutorial yang bagus di UseR! 2009 tentang semua hal ini: Pengantar Generalized Nonlinear Models dalam R , tetapi lihat juga sketsa yang menyertainya, Generalized nonlinear models in R: Tinjauan umum paket gnm .
Jika Anda ingin memahami ide dengan data nyata, ada banyak contoh dengan rangkaian data nyata dalam paket vcdExtra dari Michael Friendly. Tentang model OQS, Agresti menggunakan data tentang Seks Pranikah dan Seks Luar Nikah (Tabel 10.5, p. 421). Hasilnya dibahas dalam §10.4.7 (p. 430), danβ^ diperkirakan -2,86. Kode di bawah ini memungkinkan (sebagian diambil dari buku teks Thompson) untuk mereproduksi hasil ini. Kita perlu melepaskan level faktor untuk menetapkan baseline yang sama dari Agresti.
sumber
Anda tampaknya telah memesan data kategorikal, oleh karena itu saya menyarankan tes linier demi linier seperti yang dijelaskan oleh Agresti (2007, p229 ff). Fungsi
lbl_test()
paketcoin
mengimplementasikannya dalam R.Agresti, A. (2007). Pengantar Analisis Data Kategorikal. 2nd Ed. Hoboken, New Jersey: John Wiley & Sons. Hoboken, NJ: Wiley.
sumber
Saya mungkin akan mulai dengan analisis korelasi peringkat .
Masalahnya adalah Anda mungkin memiliki korelasi yang sangat rendah karena efek yang Anda coba tangkap kecil.
Koefisien korelasi Kendall dan Spearman diimplementasikan dalam R in
sumber