Menafsirkan perbedaan antara distribusi hukum lognormal dan kekuasaan (distribusi tingkat jaringan)

22

Pertama, saya bukan ahli statistik. Namun, saya telah melakukan analisis jaringan statistik untuk PhD saya.

Sebagai bagian dari analisis jaringan, saya merencanakan Fungsi Distribusi Kumulatif Pelengkap (CCDF) dari derajat jaringan. Apa yang saya temukan adalah bahwa, tidak seperti distribusi jaringan konvensional (mis. WWW), distribusi paling baik dipasang oleh distribusi lognormal. Saya memang mencoba untuk mencocokkannya dengan hukum kekuatan dan menggunakan skrip Matlab Clauset et al, saya menemukan bahwa ekor kurva mengikuti hukum kekuasaan dengan cut-off.

masukkan deskripsi gambar di sini

Garis putus-putus menunjukkan kecocokan hukum kekuasaan. Garis ungu mewakili log-normal fit. Garis hijau menunjukkan kecocokan eksponensial.

Apa yang saya perjuangkan adalah apa arti semua ini? Saya sudah membaca makalah ini oleh Newman yang sedikit menyentuh tentang topik ini: http://arxiv.org/abs/cond-mat/0412004

Di bawah ini adalah tebakan liar saya:

Jika distribusi derajat mengikuti distribusi hukum kekuasaan, saya mengerti bahwa itu berarti ada lampiran preferensial linier dalam distribusi tautan dan tingkat jaringan (kaya mendapat efek yang lebih kaya atau proses Yules).

Apakah saya benar mengatakan bahwa dengan distribusi lognormal yang saya saksikan, ada lampiran preferensial sublinear pada awal kurva dan menjadi lebih linier ke arah ekor di mana ia dapat dipasang oleh hukum kekuatan?

Juga, karena distribusi log-normal terjadi ketika logaritma variabel acak (katakanlah X) terdistribusi secara normal, apakah ini berarti bahwa dalam distribusi log-normal, ada nilai X yang lebih kecil dan nilai X yang lebih kecil daripada variabel acak yang mengikuti distribusi kuasa hukum akan memiliki?

Lebih penting lagi, berkenaan dengan distribusi tingkat jaringan, apakah lampiran preferensi log-normal masih menyarankan jaringan bebas skala? Naluri saya memberi tahu saya bahwa karena ujung kurva dapat dipasang oleh hukum daya, jaringan masih dapat disimpulkan sebagai menunjukkan karakteristik bebas-skala.

Mike
sumber
2
Mike, saya pikir akan sangat menarik untuk melihat plot yang Anda lihat. Maukah Anda mengedit jawaban Anda untuk memasukkannya? Satu hal yang saya segera perhatikan adalah bahwa implikasi mengenai undang-undang kekuasaan dan lampiran preferensial adalah mundur. Sementara (beberapa) skema lampiran preferensial menghasilkan distribusi derajat hukum-kekuatan, implikasi sebaliknya tidak benar (yaitu, itu bukan satu-satunya cara). Beberapa informasi tentang jenis jaringan yang Anda lihat mungkin juga bermanfaat. Tepuk tangan.
kardinal
1
Maksud saya lampiran preferensial hanyalah nama lain untuk efek "kaya semakin kaya" bukan? Jika demikian, maka distribusi derajat jaringan linear (daya) adalah salah satu dari banyak distribusi derajat yang dapat menunjukkan lampiran preferensial? Dengan kata lain, selama gradien kurva negatif pada plot log-log maka ada beberapa elemen lampiran preferensial, terlepas dari distribusinya? Maka perbedaan antara distribusi derajat log-normal dan derajat kuasa-tidak begitu banyak pada apakah ada lampiran preferensial tetapi proporsionalitasnya.
Mike
1
Perhatikan bahwa lampiran preferensial adalah proses (stokastik) yang menghasilkan distribusi tingkat hukum-daya untuk jaringan. Kemiringan garis akan berubah sesuai dengan eksponen penskalaan untuk hukum-kekuatan, tetapi dalam kasus lognormal, plot tidak akan linier, bahkan di bagian ekor. Gradien dari distribusi survival akan selalu negatif tidak peduli apa efeknya. (Kenapa?)
kardinal
Itu hasil edit yang sangat bagus. Terima kasih, Michael! Kecocokan lognormal di wilayah yang Anda tunjukkan sangat luar biasa. Sepertinya itu mungkin sedikit rusak di bagian ekor.
kardinal
Terima kasih atas balasan Anda lagi. Jadi, apakah Anda setuju bahwa lampiran preferensial masih berfungsi di jaringan yang saya amati? Pertanyaan lain yang mengarah pada apakah jaringan tersebut bebas skala. Jika lampiran preferensial bekerja di jaringan dan selama jaringan mengambil anggota baru maka jaringan dapat diklasifikasikan sebagai bebas skala meskipun distribusi tingkat jaringan tidak linier. Di sinilah saya tidak begitu yakin.
Mike

Jawaban:

12

Saya pikir akan sangat membantu untuk memisahkan pertanyaan menjadi dua bagian:

  1. Apa bentuk fungsional dari distribusi empiris Anda? dan
  2. Apa arti bentuk fungsional itu tentang proses pembuatan di jaringan Anda?

hal>0,1x15hal<0,1berarti pada dasarnya melakukan hal yang sama. Bisakah Anda menolak model itu sebagai proses menghasilkan data distribusi derajat yang Anda miliki? Jika tidak, maka Anda diizinkan memasukkan log-normal ke dalam kategori "masuk akal".

x1

Pertanyaan kedua sebenarnya lebih sulit dari keduanya. Seperti yang ditunjukkan oleh beberapa orang di komentar di atas, ada banyak mekanisme yang menghasilkan distribusi hukum-kekuasaan dan keterikatan preferensial (dalam semua variasi dan kemuliaannya) hanyalah satu dari sekian banyak. Jadi, mengamati distribusi kekuatan-hukum dalam data Anda (bahkan yang asli yang melewati tes statistik yang diperlukan) bukanlah bukti yang cukup untuk menyimpulkan bahwa proses pembuatan adalah lampiran preferensial. Atau, lebih umum, jika Anda memiliki mekanisme A yang menghasilkan beberapa pola X dalam data (misalnya, distribusi derajat log-normal di jaringan Anda). Mengamati pola X dalam data Anda bukan bukti bahwa data Anda dihasilkan oleh mekanisme A. Data konsisten dengan A, tetapi itu tidak berarti A adalah mekanisme yang tepat.

Untuk benar-benar menunjukkan bahwa A adalah jawabannya, Anda harus menguji asumsi mekanistiknya secara langsung dan menunjukkan bahwa mereka juga berlaku untuk sistem Anda, dan lebih disukai juga menunjukkan bahwa prediksi lain dari mekanisme tersebut juga berlaku pada data. Sebuah contoh yang sangat bagus dari bagian pengujian asumsi dilakukan oleh Sid Redner (lihat Gambar 4 makalah ini ), di mana ia menunjukkan bahwa untuk jaringan kutipan, asumsi lampiran preferensial linier benar-benar berlaku dalam data.

Akhirnya, istilah "jaringan bebas skala" kelebihan beban dalam literatur, jadi saya sangat menyarankan untuk menghindarinya. Orang-orang menggunakannya untuk merujuk ke jaringan dengan distribusi gelar kuasa-hukum danke jaringan yang ditanam oleh lampiran preferensial (linier). Tetapi seperti yang baru saja kami jelaskan, kedua hal ini tidak sama, jadi menggunakan satu istilah untuk merujuk keduanya sama membingungkan. Dalam kasus Anda, distribusi log-normal benar-benar tidak konsisten dengan mekanisme lampiran preferensial linier klasik, jadi jika Anda memutuskan bahwa log-normal adalah jawaban untuk pertanyaan 1 (dalam jawaban saya), maka itu akan menyiratkan bahwa jaringan Anda tidak ' skala bebas 'dalam arti itu. Fakta bahwa ekor atas 'baik-baik saja' sebagai distribusi hukum-kuasa tidak akan berarti dalam kasus itu, karena selalu ada beberapa bagian dari ekor atas dari setiap distribusi empiris yang akan lulus tes itu (dan itu akan lulus karena tes kehilangan daya ketika tidak ada banyak data untuk melanjutkan, yang persis apa yang terjadi di ekor atas yang ekstrim).

aaronclauset
sumber
Apakah Anda mencampuradukkan <dan> ketika berbicara tentang nilai p untuk fit ekor atas?
David Nathan
Kondisi nilai-p dalam komentar ini benar. Nilai-p yang dimaksud di sini berasal dari bagian 4.1 dari arxiv.org/abs/0706.1062 , di mana nilai-nilai besar mewakili kecocokan baik dan nilai-nilai kecil mewakili kecocokan buruk. Lihat catatan kaki 8 di bagian bawah halaman 17.
Jonathan S.
3

Pertanyaan yang sangat keren. Saya memiliki percakapan terkait tentang ini yang terkait dengan pertanyaan yang saya ajukan di tempat lain di CrossValidated. Di sana, saya bertanya apakah distribusi gamma adalah distribusi yang baik untuk digunakan dalam simulasi jaringan sosial di mana kemungkinan ikatannya bersifat endogen terhadap beberapa karakteristik "popularitas" node yang berkelanjutan. @NickCox menyarankan agar saya menggunakan distribusi lognormal sebagai gantinya. Saya menjawab bahwa distribusi lognormal memiliki beberapa pembenaran teoretis sebagai proses mendasar yang menggambarkan popularitas karena popularitas dapat diartikan sebagai produk dari banyak variabel acak bernilai positif (misalnya, kekayaan, pendapatan, tinggi, kecakapan seksual, kecakapan bertarung, IQ). Bagi saya ini lebih masuk akal daripada justifikasi teoretis untuk hukum kekuasaan, dan itu sesuai dengan data empiris, yang menunjukkan bahwa bentuk hukum kekuasaan terlalu tidak fleksibel untuk menjelaskan variasi lintas jaringan dalam distribusi derajat. Lognormal, sebagai perbandingan, memiliki bentuk yang sangat fleksibel, dengan mode mendekati nol untuk varian tinggi. Selain itu, masuk akal bahwa kemiringan distribusi derajat harus meningkat dengan varians karena efek lampiran preferensial.

Singkatnya, saya berpikir bahwa distribusi lognormal paling cocok dengan data Anda karena distribusi lognormal menggambarkan proses yang mendasari pembentukan distribusi derajat lebih baik daripada hukum kekuasaan atau distribusi eksponensial.

Keseimbangan kurang ajar
sumber
2

Datang ke situs ini setelah menghitung distribusi gelembung saya dan menggunakan hukum daya untuk data viskositas.

Membaca sekilas contoh data dalam makalah law law oleh Clauset et al. mereka telah memasang beberapa kengerian set data yang nyata, jauh dari kumpulan data hukum kekuasaan untuk mendukung argumen mereka. Hanya dari akal sehat saya tentu tidak akan mencoba mencocokkan fungsi hukum kekuasaan untuk seluruh rentang data bagi kebanyakan dari mereka. Namun, perilaku penskalaan diri di dunia nyata mungkin berlaku di seluruh bagian dari sistem yang diamati, tetapi rusak ketika beberapa properti sistem mencapai batas fisik atau fungsional.

Makalah-makalah yang sangat mudah dibaca di bawah ini merujuk pada penyesuaian kurva pertumbuhan untuk para ahli ekologi, dengan diskusi yang baik tentang hukum kekuasaan dan distribusi terkait, berdasarkan pada model perilaku populasi berdasarkan observasi.

Penulis jauh lebih pragmatis daripada Clauset et al. Mengutip: "... jika tujuannya hanya sesuai dan skala di luar jendela skala set data tidak dibahas, model apa pun mungkin cukup mengingat bahwa itu menghasilkan sesuai dan tidak menghasilkan maksimal atau minimum di dalam jendela skala yang diteliti . " "Seseorang sering dipaksa menggunakan model yang sama, seperti yang telah diterapkan oleh peneliti lain pada data mereka, untuk dapat membandingkan nilai parameter, tetapi orang dapat melakukan ini sebagai tambahan terhadap penerapan model atau model pemasangan yang lebih baik dengan harapan yang lebih baik bentuk, atau keduanya. " Kata-kata yang tenang.

Tjørve, E. (2003). Bentuk dan fungsi kurva area spesies: Tinjauan model yang mungkin. Jurnal Biogeografi, 30 (6), 827-835.

Tjørve, E. (2009). Bentuk dan fungsi kurva area spesies (ii): Tinjauan model dan parameterisasi baru. Jurnal Biogeografi, 36 (8), 1435-1445.

TerryW
sumber
1

Hasil di atas menunjukkan bahwa distribusi derajat dapat berupa hukum daya dan lognormal, yang mungkin menunjukkan bahwa dunia kecil dan properti skala bebas hidup berdampingan dalam jaringan yang diteliti. Untuk memeriksa apakah jaringan tersebut bebas skala (dengan parameter penskalaan konstan) dengan lampiran preferensial, desain eksperimental sering diperlukan. Dalam artikel Sid Redner yang disebutkan di atas, laju pertumbuhan digunakan untuk memahami mekanisme pertumbuhan. Sementara Gallos, Song dan Makse menggunakan kotak untuk menutup jaringan, dan menyimpulkan bahwa distribusi tingkat jaringan mengikuti distribusi hukum daya, jika NB (lB) ~ lB ^ -dB. Atau menjelaskan hubungan antara koefisien dan derajat klaster (apakah hubungan memenuhi hukum kekuasaan). Kalau tidak, dibahas bahwa jaringan hierachical memiliki properti jaringan skala kecil dan skala dunia. (Mengetik skala fraktal gratis,

liandexinshi
sumber