Apa cabang statistik?

30

Dalam matematika, ada cabang-cabang seperti aljabar, analisis, topologi, dll. Dalam pembelajaran mesin ada yang diawasi, tidak diawasi, dan pembelajaran penguatan. Di dalam masing-masing cabang ini, ada cabang yang lebih baik yang membagi metode lebih lanjut.

Saya mengalami masalah menggambar paralel dengan statistik. Apa yang akan menjadi cabang utama statistik (dan cabang pembantu)? Partisi yang sempurna kemungkinan tidak mungkin, tetapi segalanya lebih baik daripada peta kosong besar.

Contoh visual: masukkan deskripsi gambar di sini masukkan deskripsi gambar di sini

Silly.deer
sumber
6
Untuk menawarkan alasan lain mengapa pertanyaan ini tidak dapat dijawab (dan mengapa, mungkin premisnya salah tempat): kurang dipahami bahwa tujuan keras, ilmu teoritis (seperti matematika) adalah untuk menggeneralisasi daripada mengkhususkan . Jadi jika kita memvisualisasikan lintasan penyelidikan yang berhasil ke lapangan, kita tidak akan melihatnya seolah-olah bercabang ke cabang-cabang yang lebih kecil, lebih halus, melainkan lensa yang terus melebar ke konsep dan pemikiran yang lebih abstrak.
AdamO
@Rob Hyndman sepertinya masih menggangguku. Saya sangat skeptis terhadap klasifikasi apa pun di sini. Lebih lanjut, ini adalah tempat yang baik untuk menandai bahwa daftar topik yang terjadi pada seseorang jauh dari klasifikasi berbasis pohon. Dan meskipun representasi dendrogram atau hairball sedikit menarik, apa gunanya atau minat yang mereka layani selain menunjukkan sifat bermacam-macam bidang?
Nick Cox

Jawaban:

52

Saya menemukan sistem klasifikasi ini sangat tidak membantu dan bertentangan. Sebagai contoh:

  • jaringan saraf adalah bentuk pembelajaran yang diawasi
  • Kalkulus digunakan dalam geometri diferensial
  • Teori probabilitas dapat diformalkan sebagai bagian dari teori himpunan

dan seterusnya. Tidak ada "cabang" matematika yang jelas, dan statistik seharusnya tidak ada.

Rob Hyndman
sumber
11
"jaringan saraf adalah bentuk pembelajaran yang diawasi". Itu juga tidak sepenuhnya benar, bukan? Maksud saya, seseorang dapat menggunakan (dan memang menggunakan) NNs dalam pembelajaran terawasi, pembelajaran tanpa pengawasan dan bahkan pembelajaran penguatan! Yah konsep jaringan syaraf setidaknya (itu hanya fungsi nonlinier besar yang dapat dioptimalkan melalui berbagai metode optimasi, di antaranya SL, UL dan RL). Tapi mungkin terminologinya hanya digunakan dalam cara Anda menggunakannya, dalam hal ini .. siapa pun bisa benar.
BlueRine S
7
Tentu, tidak ada kebenaran, tapi itu tidak terlalu berguna. Apakah ada model yang memenuhi kebutuhan OP?
Jay Schyler Raadt
3
Rob benar. Pohon keputusan digunakan dalam regresi dan AdaBoost adalah metode klasifikasi, tetapi peta tidak menunjukkan ini.
Zen
4
Saya akui saya tidak terlalu memahami perspektif ini. Buku teks statistik juga harus mengatur urutan bab-babnya, dan halaman isinya mencerminkan organisasi itu. Struktur halaman konten menyampaikan setidaknya beberapa informasi tentang bagaimana konsep-konsep lapangan diorganisasikan, dan ia melakukannya dengan cara yang jauh lebih terbatas daripada yang dimungkinkan oleh visualisasi. Jika tidak ada yang memiliki masalah dengan keberadaan halaman konten buku teks meskipun mereka tidak menangkap kompleksitas lapangan, saya tidak melihat mengapa orang akan keberatan dengan visualisasi seperti yang diharapkan OP.
mkt - Pasang kembali Monica
4
Buku teks tidak terstruktur secara hierarkis, tetapi terstruktur secara linear. Kemudian dalam buku ini, tautan antara bab-bab awal sering dikembangkan menunjukkan bahwa topik yang diperkenalkan secara terpisah sebelumnya sebenarnya terkait. Untuk mengambil contoh, buku teks saya sendiri tentang peramalan di mana kami memperkenalkan model regresi dinamis di bab selanjutnya, yang menghubungkan regresi dan model ARIMA yang diperkenalkan sebelumnya.
Rob Hyndman
29

Ini adalah tandingan minor untuk jawaban Rob Hyndman. Ini dimulai sebagai komentar dan kemudian tumbuh terlalu kompleks untuk satu. Jika ini terlalu jauh untuk menjawab pertanyaan utama, saya minta maaf dan akan menghapusnya.


Biologi telah menggambarkan hubungan hierarkis sejak jauh sebelum orat-oret pertama Darwin (lihat komentar Nick Cox untuk tautannya). Sebagian besar hubungan evolusi masih ditunjukkan dengan jenis 'pohon filogenetik' yang bagus, bersih, bercabang:

masukkan deskripsi gambar di sini Namun, kami akhirnya menyadari bahwa biologi lebih berantakan dari ini. Kadang-kadang ada pertukaran genetik (melalui kawin silang dan proses lainnya) antara spesies berbeda dan gen yang ada di satu bagian pohon 'lompat' ke bagian pohon yang berbeda. Transfer gen horizontal memindahkan gen dengan cara yang membuat penggambaran pohon sederhana di atas tidak akurat. Namun, kami tidak meninggalkan pohon, tetapi hanya membuat modifikasi pada jenis visualisasi ini:

Sama seperti gambar sebelumnya, tetapi dengan transfer gen lintas cabang ditampilkan

Ini lebih sulit untuk diikuti, tetapi menyampaikan gambaran realitas yang lebih akurat.

Contoh lain:

masukkan deskripsi gambar di sini

Namun, kami tidak pernah memperkenalkan angka yang lebih kompleks ini untuk memulainya, karena mereka sulit untuk dipahami tanpa memahami konsep dasar. Sebagai gantinya, kami mengajarkan ide dasar dengan figur sederhana, dan kemudian menyajikannya dengan figur yang lebih kompleks dan komplikasi yang lebih baru dalam cerita.

'Peta' statistik apa pun akan menjadi tidak akurat dan juga merupakan alat pengajaran yang berharga. Visualisasi bentuk OP menyarankan sangat berguna bagi siswa dan tidak boleh diabaikan hanya karena mereka gagal menangkap realitas secara total. Kita dapat menambahkan lebih banyak kerumitan pada gambar begitu mereka memiliki kerangka dasar di tempatnya.

mkt - Pasang kembali Monica
sumber
4
FWIW, representasi pohon dari hubungan antara organisme lama sebelum Darwin. Saya akan menambahkan referensi nanti.
Nick Cox
2
jhupbooks.press.jhu.edu/title/trees-life bersifat ilmiah namun menarik.
Nick Cox
3
Bukan sekadar tandingan daripada argumen pendukung: mempertanyakan keabsahan pohon. Setidaknya, dengan filogeni, kami menggunakan data untuk membuat struktur seperti itu, baik itu catatan fosil, ekspresi gen, apa pun. Tanpa data, kami dengan serius bertanya siapa yang memiliki wewenang untuk memilih blok dan panah yang menyebarkan informasi yang salah.
AdamO
2
@ AdamO Saya tidak berharap ada 'peta' statistik universal tunggal. Sangat masuk akal bagi dua orang untuk menggunakan struktur yang berbeda dan rangkaian tautan yang berbeda, meskipun orang akan mengharapkan struktur luasnya cukup kuat (perbedaan tingkat rendah juga terjadi antara pohon filogenetik yang dibangun dari dataset yang sama, meskipun pada titik ini kami meregangkan metafora terlalu jauh). Saya akan mengatakan bahwa keahlian (mengesampingkan pengertian otoritas untuk saat ini) ada di antara banyak orang yang telah menulis buku teks statistik umum, atau bahkan mengajar statistik umum.
mkt - Pasang kembali Monica
2
Saya cukup suka diagram di sini untuk mengungguli ini, tetapi tidak benar-benar menjawab pertanyaan.
Nick Cox
24

Anda dapat melihat kata kunci / tag dari situs web Cross Validated.


Cabang sebagai jaringan

Salah satu cara untuk melakukan ini adalah dengan memplotnya sebagai jaringan berdasarkan hubungan antara kata kunci (seberapa sering mereka bertepatan dalam posting yang sama).

Saat Anda menggunakan skrip sql ini untuk mendapatkan data situs dari (data.stackexchange.com/stats/query/edit/1122036)

select Tags from Posts where PostTypeId = 1 and Score >2

Kemudian Anda mendapatkan daftar kata kunci untuk semua pertanyaan dengan skor 2 atau lebih tinggi.

Anda dapat menjelajahi daftar itu dengan merencanakan sesuatu seperti berikut ini:

hubungan antar tag

Pembaruan: sama dengan warna (berdasarkan vektor eigen dari matriks relasi) dan tanpa tag belajar sendiri

hubungan antar tag

Anda dapat membersihkan grafik ini sedikit lebih jauh (mis. Mengambil tag yang tidak berhubungan dengan konsep statistik seperti tag perangkat lunak, dalam grafik di atas ini sudah dilakukan untuk tag 'r') dan meningkatkan representasi visual, tapi saya kira bahwa gambar di atas sudah menunjukkan titik awal yang bagus.

Kode-R:

#the sql-script saved like an sql file
network <- read.csv("~/../Desktop/network.csv", stringsAsFactors = 0)
#it looks like this:
> network[1][1:5,]
 [1] "<r><biostatistics><bioinformatics>"                                 
 [2] "<hypothesis-testing><nonlinear-regression><regression-coefficients>"
 [3] "<aic>"                                                              
 [4] "<regression><nonparametric><kernel-smoothing>"                      
 [5] "<r><regression><experiment-design><simulation><random-generation>"  

l <- length(network[,1])
nk <- 1
keywords <- c("<r>")
M <- matrix(0,1)

for (j in 1:l) {                              # loop all lines in the text file
  s <- stringr::str_match_all(network[j,],"<.*?>")           # extract keywords
  m <- c(0)                                             
  for (is in s[[1]]) {
    if (sum(keywords == is) == 0) {           # check if there is a new keyword
      keywords <- c(keywords,is)              # add to the keywords table
      nk<-nk+1
      M <- cbind(M,rep(0,nk-1))               # expand the relation matrix with zero's
      M <- rbind(M,rep(0,nk))
    }
    m <- c(m, which(keywords == is))
    lm <- length(m)
    if (lm>2) {                               # for keywords >2 add +1 to the relations
      for (mi in m[-c(1,lm)]) {
        M[mi,m[lm]] <- M[mi,m[lm]]+1
        M[m[lm],mi] <- M[m[lm],mi]+1
      }
    }
  }
}


#getting rid of <  >
skeywords <- sub(c("<"),"",keywords)
skeywords <- sub(c(">"),"",skeywords) 


# plotting connections 

library(igraph)
library("visNetwork")

# reduces nodes and edges
Ms<-M[-1,-1]             # -1,-1 elliminates the 'r' tag which offsets the graph
Ms[which(Ms<50)] <- 0
ww <- colSums(Ms)
el <- which(ww==0)

# convert to data object for VisNetwork function
g <- graph.adjacency(Ms[-el,-el], weighted=TRUE, mode = "undirected")
data <- toVisNetworkData(g)

# adjust some plotting parameters some 
data$nodes['label'] <- skeywords[-1][-el]
data$nodes['title'] <- skeywords[-1][-el]
data$nodes['value'] <- colSums(Ms)[-el]
data$edges['width'] <- sqrt(data$edges['weight'])*1
data$nodes['font.size'] <- 20+log(ww[-el])*6
data$edges['color'] <- "#eeeeff"

#plot
visNetwork(nodes = data$nodes, edges = data$edges) %>%
visPhysics(solver = "forceAtlas2Based", stabilization = TRUE,
           forceAtlas2Based = list(nodeDistance=70, springConstant = 0.04,
                                   springLength = 50,
                                   avoidOverlap =1)
           )

Cabang hierarkis

Saya percaya bahwa jenis grafik jaringan di atas berhubungan dengan beberapa kritik mengenai struktur hierarki yang murni bercabang. Jika Anda suka, saya kira Anda bisa melakukan pengelompokan hierarkis untuk memaksanya ke dalam struktur hierarkis.

Di bawah ini adalah contoh model hierarkis tersebut. Kita masih perlu menemukan nama grup yang tepat untuk berbagai kluster (tapi, saya tidak berpikir bahwa pengelompokan hierarkis ini adalah arah yang baik, jadi saya membiarkannya terbuka).

pengelompokan hierarkis

Ukuran jarak untuk pengelompokan telah ditemukan oleh coba-coba (membuat penyesuaian sampai kelompok tampak bagus.

#####
#####  cluster

library(cluster)

Ms<-M[-1,-1]
Ms[which(Ms<50)] <- 0
ww <- colSums(Ms)
el <- which(ww==0)

Ms<-M[-1,-1]
R <- (keycount[-1]^-1) %*% t(keycount[-1]^-1)
Ms <- log(Ms*R+0.00000001)

Mc <- Ms[-el,-el]
colnames(Mc) <- skeywords[-1][-el]

cmod <- agnes(-Mc, diss = TRUE)

plot(as.hclust(cmod), cex = 0.65, hang=-1, xlab = "", ylab ="")

Ditulis oleh StackExchangeStrike

Sextus Empiricus
sumber
2
Mungkin saya akan melakukan beberapa pekerjaan dalam membuat grafik lebih rapi. Mungkin menyenangkan memiliki beberapa grafik yang jelas yang memetakan topik di situs web ini.
Sextus Empiricus
1
Ini pendekatan hebat! Bagus sekali.
Andrew Brēza
Dari grafik berwarna Anda, tiga area besar adalah probabilitas, regresi, dan pembelajaran mesin.
Matt F.
@ MatF. grafik sebenarnya sedikit bermasalah dan lebih sesuai dengan frekuensi penggunaan. Saya mencoba menskalakan matriks dengan frekuensi (seperti beralih dari matriks kovarians ke matriks korelasi), tetapi tidak banyak berubah. Grafik 2D tidak menunjukkan struktur dengan sangat baik dan model fisik, yang memperlakukan jalur sebagai string, menempatkan node dalam bentuk heksagonal / segitiga (yang paling efisien).
Sextus Empiricus
1
Saya akan mengatakan bahwa pada stackoverflow itu adalah lima kategori utama: probabilitas, regresi, pembelajaran mesin, tetapi juga pengujian hipotesis dan deret waktu.
Sextus Empiricus
9

Cara mudah untuk menjawab pertanyaan Anda adalah dengan melihat tabel klasifikasi umum. Misalnya, Klasifikasi Subjek Matematika 2010 digunakan oleh beberapa publikasi untuk mengklasifikasikan makalah. Ini relevan karena begitulah banyak penulis mengklasifikasikan makalah mereka sendiri. masukkan deskripsi gambar di sini

Ada banyak contoh klasifikasi serupa, misalnya klasifikasi arxiv atau UDK kementerian pendidikan Rusia (klasifikasi universal desimal universal) yang digunakan secara luas untuk semua publikasi dan penelitian.

masukkan deskripsi gambar di sini

Contoh lain adalah Sistem Klasifikasi JEL dari American Economic Association. Makalah Rob Hyndman " Peramalan seri waktu otomatis: paket prakiraan untuk R " Ini diklasifikasikan sebagai C53, C22, C52 menurut JEL. Hyndman ada benarnya dalam mengkritik klasifikasi pohon. Pendekatan yang lebih baik bisa berupa penandaan, misalnya kata kunci dalam makalahnya adalah: "model ARIMA, peramalan otomatis, perataan eksponensial, interval prediksi, model ruang angkasa, seri waktu, R." Orang bisa berpendapat bahwa ini adalah cara yang lebih baik untuk mengklasifikasikan makalah, karena mereka tidak hierarkis dan beberapa hierarki dapat dibangun.

@whuber menunjukkan bahwa beberapa kemajuan terbaru seperti pembelajaran mesin tidak akan berada di bawah statistik dalam klasifikasi saat ini. Sebagai contoh, lihatlah makalah " Pembelajaran Dalam: Pengantar untuk Ahli Matematika Terapan " oleh Catherine F. Higham, Desmond J. Higham. Mereka mengklasifikasikan makalah mereka di bawah MSC tersebut sebagai 97R40, 68T01, 65K10, 62M45. ini berada di bawah ilmu komputer, pendidikan matematika dan analisis numerik di samping statistik

Aksakal
sumber
3
Saya pikir akan lebih akurat untuk mengatakan ini adalah bagaimana banyak penulis diminta untuk mengklasifikasikan makalah mereka. Saya tahu saya tidak pernah cukup puas ketika diminta untuk menggunakan kategori apriori seperti itu untuk pekerjaan saya.
Alexis
6
Ini adalah dasar yang baik untuk mengidentifikasi cabang-cabang statistik matematika. Mengetahui itu membantu kami mengidentifikasi apa yang telah ditinggalkan, yang mencakup banyak bagian pembelajaran mesin. Memang, mungkin adil untuk mengkarakterisasi klasifikasi mata pelajaran matematika 2010 sebagai menggambarkan "statistik pada tahun 1950" dan kemudian melemparkan segala sesuatu yang muncul kemudian, seperti geostatistik, genomik, bootstrap, dan sebagainya (beberapa di antaranya mungkin jatuh di bawah yang lama). kategori, mungkin).
whuber
4

Salah satu cara untuk mendekati masalah tersebut adalah dengan melihat jaringan kutipan dan rekan penulis dalam jurnal statistik, seperti Annals of Statistics, Biometrika, JASA, dan JRSS-B. Ini dilakukan oleh:

Ji, P., & Jin, J. (2016). Kerjasama penulisan dan jaringan kutipan untuk ahli statistik. The Annals of Applied Statistics, 10 (4), 1779-1812.

Mereka mengidentifikasi komunitas ahli statistik dan menggunakan pemahaman domain mereka untuk memberi label komunitas sebagai:

  • Analisis Data Dimensi Tinggi (HDDA-Coau-A)
  • Pembelajaran Mesin Teoritis
  • Pengurangan Dimensi
  • Johns Hopkins
  • Duke
  • Stanford
  • Regresi Kuantil
  • Desain eksperimental
  • Bayes obyektif
  • Biostatistik
  • Analisis Data Dimensi Tinggi (HDDA-Coau-B)
  • Pengujian Berganda Skala Besar
  • Seleksi Variabel
  • Statistik Tata Ruang & Semi-parametrik / Non-parametrik

Makalah ini mencakup diskusi terperinci tentang komunitas bersama dengan dekomposisi yang lebih besar menjadi subkomunitas lebih lanjut.

Ini mungkin tidak sepenuhnya menjawab pertanyaan, karena ini menyangkut bidang penelitian ahli statistik daripada semua bidang, termasuk yang tidak lagi aktif. Semoga ini bermanfaat. Tentu saja, ada peringatan lain (seperti hanya mempertimbangkan empat jurnal ini) yang dibahas lebih lanjut di koran.

pengguna257566
sumber
2
Saya sedang berpikir untuk melakukan ini untuk situs web ini. Mendefinisikan "co-authorhip" sebagai orang yang merespon / menjawab pertanyaan yang sama.
Sextus Empiricus
@ MartijnWeterings Ya, jawaban Anda tampaknya sangat mirip dengan pendekatan ini!
user257566
2

Saya melihat banyak jawaban yang luar biasa, dan saya tidak tahu bagaimana klasifikasi sederhana yang dibuat sendiri dapat diterima, tetapi saya tidak tahu buku yang lengkap dari semua statistik untuk menunjukkan ringkasan, dan saya pikir itu, seperti @ mkt berkomentar dengan cemerlang, klasifikasi bidang studi dapat berguna. Jadi, inilah bidikan saya:

  • Statistik deskriptif
    • inferensi sederhana
      • pengujian hipotesis sederhana
    • merencanakan / visualisasi data
  • desain pengambilan sampel
    • desain eksperimental
    • desain survei
  • statistik multivarian (tidak diawasi)
    • pengelompokan
    • analisis komponen
    • model variabel laten
  • model linier (yang sebenarnya juga multivarian)
    • kotak terkecil biasa
    • model linier umum
      • model logit
    • model linier lainnya
      • Model Cox
      • regresi kuantitatif
    • inferensi multivariat
      • pengujian hipotesis berganda
      • pengujian hipotesis yang disesuaikan
    • model untuk data terstruktur
      • model efek campuran
      • model ruang
      • model deret waktu
    • ekstensi tidak linier
      • model aditif umum
  • statistik bayesian (sebenarnya metode bayesian ada untuk banyak hal yang sudah saya sebutkan)
  • regresi dan klasifikasi non parametrik
    • banyak metode pembelajaran mesin pas di sini

Tentu saja ini terlalu sederhana, itu hanya dimaksudkan untuk memberikan beberapa ide langsung kepada seseorang yang nyaris tidak mengenal bidangnya, kita masing-masing di sini pasti tahu bahwa ada banyak metode di antara kategori di sini, banyak yang lain yang tidak saya ketahui. t daftar karena mereka kurang terkenal atau karena saya hanya lupa. Harap Anda menyukainya.

carlo
sumber
1

Salah satu cara untuk mengatur informasi ini adalah dengan mencari buku yang bagus dan melihat daftar isi. Ini adalah paradoks karena Anda secara khusus bertanya tentang statistik , sedangkan sebagian besar teks tingkat pascasarjana pengantar tentang topik ini adalah statistik dan teori probabilitas secara bersamaan. Buku yang saya baca tentang regresi sekarang memiliki TOC berikut:

  • Inferensi Sering
  • Bayesian Inference
  • Pengujian Hipotesis dan Seleksi Variabel
  • Model Linier
  • Model Regresi Umum
  • Model Data Biner

  • Model Regresi Umum

  • Pendahuluan untuk Regresi Nonparametrik [pendahulu untuk ...]
  • Metode Spline dan Kernel
  • Regresi Nonparametrik dengan Berbagai Prediktor

(Bagian yang tersisa mendukung matematika dan teori probabilitas)

  • Diferensiasi Ekspresi Matriks
  • Hasil Matriks
  • Beberapa Aljabar Linier
  • Distribusi Probabilitas dan Fungsi Pembangkitan
  • Fungsi Variabel Acak Normal
  • Beberapa Hasil dari Statistik Klasik
  • Teori Sampel Besar Dasar
AdamO
sumber
2
Orang mungkin mempertimbangkan buku semacam itu untuk menyampaikan bagian dari satu cabang disiplin ilmu. Namun, kecuali jika ia dimaksudkan untuk menjadi survei ensiklopedis dari semua statistik, judul babnya hampir tidak dapat dianggap sebagai cabang utama bidang ini!
Whuber
3
@whuber setuju. Saya berhati-hati untuk menyebutkan bahwa buku itu tentang regresi, dan bahwa saya tidak menganggap buku apa pun tentang topik "statistik" cukup umum atau pada tingkat yang sesuai bagi seorang ahli statistik untuk mempertimbangkan topik-topik yang disusun sebagai cukup. Contoh khusus ini berasal dari teks Wakefield dan merupakan perlakuan yang sangat umum (T-test dengan estimasi varians tidak sama dibahas dalam konteks regresi linier dengan kovariat biner dan estimasi kesalahan kuat, misalnya).
AdamO