Baru-baru ini saya telah melakukan beberapa analisis tentang efek reputasi pada upvote (lihat posting blog ), dan kemudian saya punya beberapa pertanyaan tentang analisis dan grafik yang mungkin lebih mencerahkan (atau lebih tepat).
Jadi beberapa pertanyaan (dan jangan ragu untuk menanggapi siapa pun khususnya dan mengabaikan yang lain):
Dalam inkarnasi saat ini, saya tidak bermaksud memusatkan nomor pos. Saya pikir apa yang dilakukannya adalah memberikan tampilan yang salah dari korelasi negatif di sebar, karena ada lebih banyak posting ke ujung bawah jumlah posting (Anda lihat ini tidak terjadi di panel Jon Skeet, hanya di pengguna fana panel). Apakah pantas untuk tidak memusatkan nomor pos (karena maksud saya memusatkan skor per skor rata-rata pengguna)?
Harus jelas dari grafik bahwa skor miring sangat benar (dan rata-rata pemusatan tidak mengubah itu). Ketika memasang garis regresi, saya cocok dengan model linier dan model yang menggunakan kesalahan pasir Huber-White (melalui
rlm
paket MASS R ) dan tidak ada perbedaan dalam perkiraan kemiringan. Haruskah saya mempertimbangkan transformasi pada data alih-alih regresi yang kuat? Perhatikan bahwa setiap transformasi harus memperhitungkan kemungkinan skor 0 dan negatif. Atau haruskah saya menggunakan jenis model lain untuk menghitung data, bukan OLS?Saya percaya dua grafik terakhir, secara umum, dapat ditingkatkan (dan terkait dengan strategi pemodelan yang ditingkatkan juga). Menurut pendapat saya (letih), saya akan curiga jika efek reputasi itu nyata mereka akan terwujud cukup awal dalam sejarah poster (saya kira jika benar, ini mungkin dipertimbangkan kembali "Anda memberikan beberapa jawaban yang sangat baik sehingga sekarang saya akan mengambil alih semua dari Anda memposting efek "bukannya" reputasi berdasarkan skor total "). Bagaimana saya bisa membuat grafik untuk menunjukkan apakah ini benar, sambil memperhitungkan plot yang berlebihan? Saya pikir mungkin cara yang baik untuk menunjukkan ini adalah agar sesuai dengan model formulir;
di mana adalah (sama dengan di scatterplots saat ini), X 1 adalah , dan Z 1 ⋯ Z k adalah variabel dummy yang mewakili beberapa rentang nomor posting yang sewenang-wenang (misalnya Z 1 sama dengan jika nomor posting adalah , Z 2 sama dengan jika nomor posting adalah dll.) β 0 dan ϵ masing-masing adalah istilah intercept dan error. Maka saya hanya akan memeriksa perkiraan γscore - (mean score per user)
post number
1
1 through 25
1
26 through 50
lereng untuk menentukan apakah efek reputasi muncul sejak awal dalam sejarah poster (atau menampilkannya secara grafis). Apakah ini pendekatan yang masuk akal (dan tepat)?
Tampaknya populer untuk mencocokkan beberapa jenis garis pemulusan non-parametrik ke plot pencar seperti ini (seperti loess atau splines), tetapi eksperimen saya dengan splines tidak mengungkapkan apa pun yang mencerahkan (bukti efek postive awal sejarah poster sedikit dan tempermental) ke jumlah splines saya sertakan). Karena saya memiliki hipotesis bahwa efeknya terjadi sejak awal, apakah pendekatan pemodelan saya di atas lebih masuk akal daripada splines?
Juga perhatikan meskipun saya sudah cukup banyak mengeruk semua data ini, masih ada banyak komunitas lain di luar sana untuk diperiksa (dan beberapa seperti superuser dan serverfault memiliki sampel yang sama besar untuk menarik dari), sehingga banyak masuk akal untuk menyarankan di masa depan analisis yang saya gunakan sampel tahan untuk memeriksa hubungan apa pun.
Jawaban:
Ini adalah upaya yang berani, tetapi dengan data ini saja, akan sulit atau tidak mungkin untuk menjawab pertanyaan penelitian Anda mengenai "efek reputasi pada upvotes." Masalahnya terletak pada memisahkan efek dari fenomena lain, yang saya daftarkan bersama dengan indikasi singkat tentang bagaimana mereka ditangani.
Efek belajar . Seiring dengan meningkatnya reputasi, pengalaman pun meningkat; seiring dengan meningkatnya pengalaman, kami berharap seseorang akan mengajukan pertanyaan dan jawaban yang lebih baik; karena kualitasnya meningkat, kami mengharapkan lebih banyak suara per pos. Dapat dibayangkan, satu cara untuk menangani ini dalam analisis adalah mengidentifikasi orang yang aktif di lebih dari satu situs SE . Di situs mana pun, reputasi mereka akan meningkat lebih lambat daripada jumlah pengalaman mereka, sehingga memberikan pegangan untuk memisahkan reputasi dan efek pembelajaran.
Perubahan temporal dalam konteks. Ini banyak sekali, tetapi yang jelas akan mencakup
Perubahan dalam jumlah pemilih dari waktu ke waktu , termasuk tren naik secara keseluruhan, tren musiman (sering dikaitkan dengan siklus akademik), dan pencilan (yang timbul dari publisitas eksternal seperti tautan ke utas tertentu). Analisis apa pun harus memperhitungkan faktor ini ketika mengevaluasi tren reputasi untuk setiap individu .
Perubahan adat-istiadat komunitas dari waktu ke waktu . Komunitas, dan bagaimana mereka berinteraksi, berkembang dan berkembang. Seiring waktu mereka cenderung cenderung untuk memilih lebih atau kurang sering. Setiap analisis harus mengevaluasi efek ini dan memfaktorkannya .
Waktu itu sendiri. Seiring berjalannya waktu, posting sebelumnya tetap tersedia untuk mencari dan terus mengumpulkan suara. Dengan demikian, caeteris paribus , posting lama harus menghasilkan lebih banyak suara daripada yang lebih baru. (Ini adalah efek yang kuat : beberapa orang yang secara konsisten tinggi pada liga reputasi bulanan belum mengunjungi situs ini sepanjang tahun!) Ini akan menutupi atau bahkan membalikkan efek reputasi positif yang sebenarnya. Setiap analisis perlu memperhitungkan lamanya waktu setiap posting telah ada di situs .
Popularitas subjek. Beberapa tag (misalnya, r ) jauh lebih populer daripada yang lain. Dengan demikian, perubahan dalam jenis pertanyaan yang dijawab seseorang dapat dikacaukan dengan perubahan temporal, seperti efek reputasi. Karena itu, setiap analisis perlu mempertimbangkan sifat pertanyaan yang dijawab.
Tampilan [ditambahkan sebagai edit]. Pertanyaan dilihat oleh jumlah orang yang berbeda karena berbagai alasan (filter, tautan, dll.). Ada kemungkinan jumlah suara yang diterima oleh jawaban terkait dengan jumlah pandangan, meskipun orang akan mengharapkan proporsi yang menurun ketika jumlah pandangan meningkat. (Ini masalah berapa banyak orang yang benar-benar tertarik dengan pertanyaan yang benar-benar melihatnya, bukan angka mentah. Pengalaman saya sendiri - anekdotal - adalah bahwa sekitar setengah dari upvote yang saya terima pada banyak pertanyaan datang dalam 5-15 pertama pandangan, meskipun akhirnya pertanyaan dilihat ratusan kali.) Oleh karena itu, setiap analisis perlu memperhitungkan jumlah pandangan, tetapi mungkin tidak secara linear.
Kesulitan pengukuran. "Reputasi" adalah jumlah suara yang diterima untuk kegiatan yang berbeda: reputasi awal, jawaban, pertanyaan, menyetujui pertanyaan, mengedit wiki tag, downvoting, dan mendapatkan downvoted (dalam urutan nilai yang menurun). Karena komponen-komponen ini menilai hal-hal yang berbeda, dan tidak semua berada di bawah kendali pemilih masyarakat, mereka harus dipisahkan untuk dianalisis . "Efek reputasi" mungkin diasosiasikan dengan kenaikan pada jawaban dan, mungkin, pada pertanyaan, tetapi seharusnya tidak mempengaruhi sumber reputasi lainnya. Reputasi awal harus dikurangi (tetapi mungkin dapat digunakan sebagai proksi untuk sejumlah pengalaman awal).
Faktor tersembunyi. Mungkin ada banyak faktor pembaur lain yang tidak mungkin untuk diukur. Misalnya, ada berbagai bentuk "kelelahan" dalam partisipasi di forum. Apa yang dilakukan orang setelah beberapa minggu awal, berbulan-bulan, atau bertahun-tahun antusiasme? Beberapa kemungkinan termasuk fokus pada pertanyaan yang jarang, tidak biasa, atau sulit; memberikan jawaban hanya untuk pertanyaan yang tidak terjawab; memberikan lebih sedikit jawaban tetapi dengan kualitas lebih tinggi; dll. Beberapa di antaranya bisa menutupi efek reputasi, sedangkan yang lain bisa keliru dikacaukan dengan satu. Proksi untuk faktor-faktor tersebut dapat berupa perubahan tingkat partisipasi oleh seorang individu : mereka dapat menandakan perubahan dalam sifat posting orang itu.
Fenomena subkomunitas. Melihat statistik dengan susah payah, bahkan pada halaman SE yang sangat aktif, menunjukkan bahwa sejumlah kecil orang melakukan sebagian besar menjawab dan memberikan suara. Sebuah klik sekecil dua atau tiga orang dapat memiliki pengaruh besar pada pertumbuhan reputasi. Klik dua orang akan dideteksi oleh monitor bawaan situs (dan ada satu grup di situs ini), tetapi klik yang lebih besar mungkin tidak. (Saya tidak berbicara tentang kolusi formal: orang bisa menjadi anggota kelompok seperti itu tanpa menyadarinya.) Bagaimana kita memisahkan pengaruh reputasi yang tampak dari kegiatan klik tidak resmi yang tidak terdeteksi ini? Data suara terperinci dapat digunakan secara diagnostik, tetapi saya tidak yakin kami memiliki akses ke data ini.
Data terbatas. Untuk mendeteksi efek reputasi, Anda mungkin perlu fokus pada individu dengan lusinan hingga ratusan pos (setidaknya). Itu menurunkan populasi saat ini menjadi kurang dari 50 individu. Dengan semua kemungkinan variasi dan perancu, itu terlalu kecil untuk menghilangkan efek signifikan kecuali mereka memang sangat kuat. Obatnya adalah menambah dataset dengan catatan dari situs SE lainnya .
Mengingat semua komplikasi ini, harus jelas bahwa grafik eksplorasi dalam artikel blog memiliki sedikit kesempatan untuk mengungkapkan apa pun kecuali itu sangat jelas. Tidak ada yang keluar dari kita: seperti yang diharapkan, datanya berantakan dan rumit. Terlalu dini untuk merekomendasikan perbaikan pada plot atau analisis yang telah disajikan: perubahan tambahan dan analisis tambahan tidak akan membantu sampai masalah mendasar ini telah diatasi .
sumber
Ahli ekonometrika telah melihat masalah serupa dalam kerangka kerja kausalitas Granger . Jika Anda memiliki dua seri,Yt dan Zt , Anda dapat menjalankan model autoregresif vektor , yang dalam bentuk paling sederhana dengan tampilan lag tunggal sepertiYt= a0+ a1Yt−1+a2Zt−1+ϵt , Zt=b0+b1Yt−1+b2Zt−1+δt . If you see that say a2 is significant, then you can claim that Z (Granger-)causes Y : adding information about Z improves the precision of your model for Y . Here, your time t would be the post number, and the variables are obviously reputation and the score. Both are non-stationary, so a more serious fiddling with the data, like taking the increments ΔYt=Yt−Yt−1 in place of Yt in the above equations will be called for. (Note that you may lose the normal and normal-based F or χ2 distributions with non-stationary data, and the rate of convergence with trend variables, if you include them into analysis, may be T−1 or even faster, rather than T−1/2 that most of us are used to from the Central Limit Theorem. You need to be super-careful with these.) So I guess if Yt is the answer score, and Zt is reputation, then clearly a0 is the average score, a1 is how the person learns to write better answers, and a2 is how their reputation precedes their word (provided the model assumptions are satisfied, etc.)
On point 1: if you were doing fixed effects by hand, you should've centered both the response variable and the explanatory variables. The panel data regression package would've done this for you, but the official econometric way of looking at things is to subtract the "between" regression from the "pooled" regression (see Wooldridge's black book; I have not checked the second edition, but I generally view the first edition as the best textbook-type description of econometric panel data).
On your point 2: of course Eicker/White standard errors won't affect your point estimates; if they did, that would indicate an incorrect implementation! In the context of time-series, an even more appropriate estimator is due to Newey and West (1987). Trying transformations might help. I am personally a big fan of the Box-Cox transformation, but in the context of the analysis that you are undertaking, it is difficult to do it cleanly. First, you would need a shift parameter on top of the shape parameter, and the shift parameters are notoriously difficult to identify in models like this. Second, you would probably need different shift/shape parameters for different people, and/or different posts, and/or... (all the hell breaking loose). Count data is an option, too, but in the context of mean modeling, a Poisson regression is just as good as the log transformation, yet it imposes an unwieldy assumption of variance = mean.
P.S. You could probably tag this with "longitudinal-data" and "time-series".
sumber
Several other changes to plots:
Modeling this will be harder. You might consider Poisson regression. Frankly, though, developing good plots is a much better method of developing insights and skills. Begin modeling after you have a better understanding of the data.
sumber
coplot()
.Whoa there. (And I mean that in a good way ;-)) Before going further with models, you need to address what's going on with the data.
I don't see an explanation for the very peculiar curve in the middle of this plot: http://stats.blogoverflow.com/files/2011/07/Rep_Correlated_With_Upvotes.png
Seeing such a curve makes me think that there's something very weird about those points - that they're not independent from each other and instead reflect some sequence of observations of the same source.
(Minor note: titling that plot "Correlation..." is misleading.)
sumber
Rep(t) - Rep(t-1)
as users can gain reputation from other places), the X axis is the current reputation (including reputation gained from that post). The X axis is what I suggested should be replaced (subtracting the upvotes gained from the answer in question I plotted on the Y axis).