Saya punya masalah dengan parameter estimasi untuk Zipf. Situasi saya adalah sebagai berikut:
Saya memiliki kumpulan sampel (diukur dari percobaan yang menghasilkan panggilan yang harus mengikuti distribusi Zipf). Saya harus menunjukkan bahwa generator ini benar-benar menghasilkan panggilan dengan distribusi zipf. Saya sudah membaca T&J ini. Bagaimana cara menghitung koefisien hukum Zipf dari satu set frekuensi teratas? tapi saya mencapai hasil yang buruk karena saya menggunakan distribusi terpotong. Misalnya jika saya menetapkan nilai "s" menjadi "0,9" untuk proses pembuatan, jika saya mencoba memperkirakan nilai "s" seperti yang ditulis dalam Q&A yang dilaporkan, saya memperoleh "s" sama dengan 0,2 ca. Saya pikir ini adalah karena saya menggunakan distribusi TRUNCATED (saya harus membatasi zipf dengan titik pemotongan, itu benar-terpotong).
Bagaimana saya bisa memperkirakan parameter dengan distribusi zipf terpotong?
sumber
Jawaban:
Pembaruan : 7 Apr 2011 Jawaban ini semakin panjang dan mencakup banyak aspek masalah yang dihadapi. Namun, saya telah menolak, sejauh ini, memecahnya menjadi jawaban yang terpisah.
Saya telah menambahkan di bagian paling bawah diskusi tentang kinerja Pearson's untuk contoh ini.χ2
Bruce M. Hill menulis, mungkin, makalah "seminal" tentang estimasi dalam konteks seperti Zipf. Dia menulis beberapa makalah pada pertengahan 1970 tentang topik itu. Namun, "penaksir Hill" (seperti yang sekarang disebut) pada dasarnya bergantung pada statistik urutan maksimal sampel dan, tergantung pada jenis pemotongan yang ada, yang dapat membuat Anda dalam beberapa masalah.
Makalah utama adalah:
BM Hill, Sebuah pendekatan umum sederhana untuk menarik kesimpulan tentang ekor suatu distribusi , Ann. Stat. , 1975.
Jika data Anda benar-benar awalnya Zipf dan kemudian dipotong, maka korespondensi yang bagus antara distribusi derajat dan plot Zipf dapat dimanfaatkan untuk keuntungan Anda.
Secara khusus, distribusi derajat hanyalah distribusi empiris dari berapa kali setiap respons bilangan terlihat,
Jika kita plot ini terhadap pada plot log-log, kita akan mendapatkan tren linier dengan kemiringan yang sesuai dengan koefisien penskalaan.saya
Di sisi lain, jika kita memplot plot Zipf , di mana kita mengurutkan sampel dari yang terbesar ke yang terkecil dan kemudian memplot nilai-nilai terhadap peringkat mereka, kita mendapatkan tren linier yang berbeda dengan kemiringan yang berbeda . Namun lereng terkait.
Jika adalah koefisien hukum skala untuk distribusi Zipf, maka kemiringan dalam plot pertama adalah dan kemiringan dalam plot kedua adalah . Di bawah ini adalah contoh plot untuk dan . Panel kiri adalah distribusi derajat dan kemiringan garis merah adalah . Sisi kanan adalah plot Zipf, dengan garis merah yang ditumpangkan memiliki kemiringan .- α - 1 / ( α - 1 ) α = 2 n = 10 6 - 2 - 1 / ( 2 - 1 ) = - 1α - α - 1 / ( α - 1 ) α = 2 n = 106 - 2 - 1 / ( 2 - 1 ) = - 1
Jadi, jika data Anda telah terpotong sehingga Anda tidak melihat nilai yang lebih besar dari beberapa ambang , tetapi data tersebut didistribusikan secara Zipf dan cukup besar, maka Anda dapat memperkirakan dari distribusi derajat . Pendekatan yang sangat sederhana adalah mencocokkan baris ke plot log-log dan menggunakan koefisien yang sesuai.τ ατ τ α
Jika data Anda terpotong sehingga Anda tidak melihat nilai - nilai kecil (misalnya, cara banyak penyaringan dilakukan untuk set data web yang besar), maka Anda dapat menggunakan plot Zipf untuk memperkirakan kemiringan pada skala log-log dan kemudian " mundur "eksponen penskalaan. Katakanlah perkiraan kemiringan Anda dari plot Zipf adalah . Kemudian, satu perkiraan sederhana dari koefisien scaling-law adalah a =1-1β^
@csgillespie memberikan satu makalah baru yang ditulis bersama oleh Mark Newman di Michigan mengenai topik ini. Dia sepertinya menerbitkan banyak artikel serupa tentang ini. Di bawah ini adalah satu lagi bersama dengan beberapa referensi lain yang mungkin menarik. Newman terkadang tidak melakukan hal yang paling masuk akal secara statistik, jadi berhati-hatilah.
MEJ Newman, hukum Power, distribusi Pareto dan hukum Zipf , Fisika Kontemporer 46, 2005, hlm. 323-351.
M. Mitzenmacher, Sejarah Singkat Model Generatif untuk Hukum Daya dan Distribusi Lognormal , Matematika Internet. , vol. 1, tidak. 2, 2003, hlm. 226-251.
K. Knight, Sebuah modifikasi sederhana dari estimator Hill dengan aplikasi untuk ketahanan dan pengurangan bias , 2010.
Adendum :
Plot yang dihasilkan adalah
Namun, dari sudut pandang praktis, plot semacam itu harus relatif menarik.
Kami juga akan menghitung statistik kedua yang dibentuk dengan terlebih dahulu menampar hitungan dalam nampan berukuran 40, seperti yang ditunjukkan dalam lembar kerja Maurizio (nampan terakhir hanya berisi jumlah dari dua puluh nilai hasil terpisah.
sumber
Kertas
Clauset, A et al , Distribusi Power-law dalam Data Empiris . 2009
berisi deskripsi yang sangat baik tentang bagaimana cara menyesuaikan model hukum kekuasaan Halaman web terkait memiliki sampel kode. Sayangnya, itu tidak memberikan kode untuk distribusi terpotong, tetapi mungkin memberi Anda pointer.
Sebagai tambahan, makalah ini membahas fakta bahwa banyak "dataset kekuasaan-hukum" dapat dimodelkan dengan baik (dan dalam beberapa kasus lebih baik) dengan distribusi Log normal atau eksponensial!
sumber
Mengikuti jawaban terperinci dari kardinal pengguna, saya melakukan uji chi-square pada distribusi zipf saya yang mungkin terpotong. Hasil uji chi-square dilaporkan dalam tabel berikut:
Di mana StartInterval dan EndInterval mewakili misalnya rentang panggilan dan Yang Teramati adalah jumlah penelepon yang menghasilkan dari 0 hingga 19 panggilan, dan seterusnya .. Uji chi-square baik sampai kolom terakhir tercapai, mereka meningkatkan final perhitungan, jika tidak sampai titik itu nilai chi-square "parsial" dapat diterima!
Dengan tes lain hasilnya sama, kolom terakhir (atau 2 kolom terakhir) selalu meningkatkan nilai akhir dan saya tidak tahu mengapa dan saya tidak tahu jika (dan bagaimana) menggunakan tes validasi lain.
PS: untuk kelengkapan, untuk menghitung nilai yang diharapkan ( Diharapkan ) saya mengikuti saran kardinal dengan cara ini:
di mana x_i 's digunakan untuk menghitung:
x <- (1:n)^-S
, yang P_i ' s untuk menghitungp <- x / sum(x)
dan akhirnya E_i (diharapkan nr pengguna untuk setiap nr panggilan) diperoleh denganP_i * Total_Caller_Observed
dan dengan Derajat Kebebasan = 13 kebaikan Chi-Square selalu menolak Hipotesis bahwa set sampel mengikuti Distribusi Zipf karena Statistik Uji (64,14 dalam kasus ini) lebih besar daripada yang dilaporkan dalam tabel chi-square, "demerit" untuk kolom terakhir. Hasil grafis dilaporkan di sini:
meskipun titik pemotongan diatur ke 500 nilai maksimum yang diperoleh adalah 294. Saya pikir bahwa "dispersi" akhir adalah penyebab kegagalan uji chi-square.
MEMPERBARUI!!
Saya mencoba untuk melakukan uji chi-square pada sampel data zipf yang mungkin dihasilkan dengan kode R yang dilaporkan dalam jawaban di atas.
Plot terkait adalah sebagai berikut:
Hasil uji chi-square dilaporkan dalam gambar berikut:
dan statistik uji chi-square (44,57) terlalu tinggi untuk validasi dengan Gelar Kebebasan yang dipilih. Juga dalam hal ini "dispersi" data terakhir adalah penyebab dari nilai chi-square yang tinggi. Tetapi ada prosedur untuk memvalidasi distribusi zipf ini (terlepas dari generator "salah" saya, saya ingin fokus pada sampel data R) ???
sumber