Pertanyaan yang diberi tag python

11

Visualisasi data multi dimensi (LSI) dalam 2D

Saya menggunakan pengindeksan semantik laten untuk menemukan kesamaan antara dokumen ( terima kasih, JMS! ) Setelah pengurangan dimensi, saya sudah mencoba k-means clustering untuk mengelompokkan dokumen menjadi cluster, yang berfungsi dengan sangat baik. Tapi saya ingin melangkah lebih jauh, dan...

11

Cara menggambar plot scree dengan python? [Tutup]

Tutup. Pertanyaan ini di luar topik . Saat ini tidak menerima jawaban. Ingin meningkatkan pertanyaan ini? Perbarui pertanyaan sehingga sesuai topik untuk Cross Validated. Ditutup tahun lalu . Saya menggunakan dekomposisi vektor singular pada sebuah...

data-visualization python svd

11

Tes Kolmogorov – Smirnov: statistik p-value dan ks-test menurun ketika ukuran sampel meningkat

Mengapa statistik p-value dan ks-test menurun dengan meningkatnya ukuran sampel? Ambil kode Python ini sebagai contoh: import numpy as np from scipy.stats import norm, ks_2samp np.random.seed(0) for n in [10, 100, 1000, 10000, 100000, 1000000]: x = norm(0, 4).rvs(n) y = norm(0, 4.1).rvs(n)...

python p-value goodness-of-fit intuition scipy

11

Model Markov tersembunyi dengan algoritma Baum-Welch menggunakan python

Saya mencari beberapa implementasi python (dalam python murni atau membungkus barang yang ada) dari HMM dan Baum-Welch. Beberapa ide? Saya baru saja mencari di google dan saya menemukan materi yang sangat buruk sehubungan dengan teknik pembelajaran mesin lainnya.

python hidden-markov-model

11

Haruskah saya memilih pengoreksi atau pengelompokan Hutan Acak?

Saya cocok dengan dataset dengan kelas target biner oleh hutan acak. Dengan python, saya bisa melakukannya dengan randomforestclassifier atau randomforestregressor. Saya bisa mendapatkan klasifikasi langsung dari randomforestclassifier atau saya bisa menjalankan randomforestregressor terlebih...

python random-forest

11

Memvisualisasikan data dimensi tinggi

Saya memiliki sampel dua kelas yang merupakan vektor dalam ruang dimensi tinggi dan saya ingin memplotnya dalam 2D atau 3D. Saya tahu tentang teknik reduksi dimensi, tetapi saya membutuhkan alat yang sangat sederhana dan mudah digunakan (dalam matlab, python, atau prebuilt .exe). Juga saya...

data-visualization matlab python dimensionality-reduction

11

Plot batas keputusan untuk perceptron

Saya mencoba untuk merencanakan batas keputusan algoritma perceptron dan saya benar-benar bingung tentang beberapa hal. Contoh input saya adalah dalam bentuk , pada dasarnya contoh input 2D ( x 1 dan x 2 ) dan nilai target kelas biner ( y ) [1 atau 0].[ ( x1, x2) , y][(x1,x2),y][(x_{1},x_{2}),...

machine-learning neural-networks python decision-theory perceptron

11

Analisis Komponen Utama dan Regresi dengan Python

Saya mencoba mencari cara untuk mereproduksi di Python beberapa pekerjaan yang telah saya lakukan di SAS. Menggunakan dataset ini , di mana multicollinearity adalah masalah, saya ingin melakukan analisis komponen utama dalam Python. Saya telah melihat scikit-learn dan statsmodels, tapi saya tidak...

pca python scikit-learn

11

Mengapa saya mendapatkan entropi informasi lebih dari 1?

Saya menerapkan fungsi berikut untuk menghitung entropi: from math import log def calc_entropy(probs): my_sum = 0 for p in probs: if p > 0: my_sum += p * log(p, 2) return - my_sum Hasil: >>> calc_entropy([1/7.0, 1/7.0, 5/7.0]) 1.1488348542809168 >>> from scipy.stats...

mathematical-statistics python entropy

11

Metode dalam R atau Python untuk melakukan pemilihan fitur dalam pembelajaran tanpa pengawasan [ditutup]

Tutup. Pertanyaan ini di luar topik . Saat ini tidak menerima jawaban. Ingin meningkatkan pertanyaan ini? Perbarui pertanyaan sehingga sesuai topik untuk Cross Validated. Ditutup 2 tahun yang lalu . Apa metode / implementasi yang tersedia dalam R /...

r feature-selection python

10

Bagaimana cara menghasilkan angka sesuai dengan distribusi Soliton?

The distribusi Soliton adalah distribusi probabilitas diskrit melalui serangkaian dengan fungsi massa probabilitas{1,…,N}{1,…,N}\{1,\dots, N\} p(1)=1N,p(k)=1k(k−1)for k∈{2,…,N}p(1)=1N,p(k)=1k(k−1)for k∈{2,…,N} p(1)=\frac{1}{N},\qquad p(k)=\frac{1}{k(k-1)}\quad\text{for }k\in\{2,\dots, N\} Saya...

distributions python

10

Model pas untuk dua distribusi normal di PyMC

Karena saya seorang insinyur perangkat lunak yang mencoba mempelajari lebih banyak statistik, Anda harus memaafkan saya bahkan sebelum saya mulai, ini adalah wilayah newb yang serius ... Saya telah belajar PyMC dan bekerja melalui beberapa contoh sederhana. Satu masalah yang saya tidak dapat mulai...

modeling python pymc

10

Bagaimana cara menghitung informasi timbal balik?

Saya sedikit bingung. Bisakah seseorang menjelaskan kepada saya bagaimana menghitung informasi timbal balik antara dua istilah berdasarkan matriks dokumen-jangka dengan kemunculan istilah biner sebagai bobot? Document1Document2D o c ument3′Why′111′How′101′Wh en′111′Wh e r...

python information-theory mutual-information numpy pandas

10

Bagaimana cara saya memasukkan pencilan inovatif pada pengamatan 48 dalam model ARIMA saya?

Saya sedang mengerjakan kumpulan data. Setelah menggunakan beberapa teknik identifikasi model, saya keluar dengan model ARIMA (0,2,1). Saya menggunakan detectIOfungsi dalam paket TSAdalam R untuk mendeteksi outlier inovatif (IO) pada pengamatan ke-48 set data asli saya. Bagaimana cara memasukkan...

r time-series arima outliers hypergeometric fishers-exact r time-series intraclass-correlation r logistic glmm clogit mixed-model spss repeated-measures ancova machine-learning python scikit-learn distributions data-transformation stochastic-processes web standard-deviation r machine-learning spatial similarities spatio-temporal binomial sparse poisson-process r regression nonparametric r regression logistic simulation power-analysis r svm random-forest anova repeated-measures manova regression statistical-significance cross-validation group-differences model-comparison r spatial model-evaluation parallel-computing generalized-least-squares r stata fitting mixture hypothesis-testing categorical-data hypothesis-testing anova statistical-significance repeated-measures likert wilcoxon-mann-whitney boxplot statistical-significance confidence-interval forecasting prediction-interval regression categorical-data stata least-squares experiment-design skewness reliability cronbachs-alpha r regression splines maximum-likelihood modeling likelihood-ratio profile-likelihood nested-models

10

PyMC untuk pengelompokan nonparametrik: Proses Dirichlet untuk memperkirakan parameter campuran Gaussian gagal dikelompokkan

Pengaturan masalah Salah satu masalah mainan pertama yang ingin saya terapkan pada PyMC adalah pengelompokan nonparametrik: diberi beberapa data, modelkan sebagai campuran Gaussian, dan pelajari jumlah cluster dan rata-rata dan kovarian setiap cluster. Sebagian besar yang saya ketahui tentang...

bayesian clustering python pymc nonparametric-bayes

10

t-SNE dengan variabel kontinu dan biner campuran

Saat ini saya sedang menyelidiki visualisasi data dimensi tinggi menggunakan t-SNE. Saya punya beberapa data dengan variabel biner campuran dan kontinu dan data tersebut tampaknya terlalu mudah mengelompokkan data biner. Tentu saja ini diharapkan untuk data berskala (antara 0 dan 1): jarak...

python dimensionality-reduction unsupervised-learning tsne mixed-type-data

10

Standar deviasi dari rata-rata tertimbang secara eksponensial

Saya menulis fungsi sederhana dengan Python untuk menghitung rata-rata tertimbang secara eksponensial: def test(): x = [1,2,3,4,5] alpha = 0.98 s_old = x[0] for i in range(1, len(x)): s = alpha * x[i] + (1- alpha) * s_old s_old = s return s Namun, bagaimana saya bisa menghitung SD yang...

standard-deviation python exponential-smoothing

10

Deteksi Anomali Time Series dengan Python

Saya perlu menerapkan deteksi anomali pada beberapa dataset time-series. Saya belum pernah melakukan ini sebelumnya dan mengharapkan saran. Saya sangat nyaman dengan python, jadi saya lebih suka solusi diimplementasikan di dalamnya (sebagian besar kode saya adalah python untuk bagian lain dari...

machine-learning time-series python computational-statistics anomaly-detection

10

Prediksi Probabilitas Hutan Acak vs suara terbanyak

Scikit belajar tampaknya menggunakan prediksi probabilistik alih-alih suara mayoritas untuk teknik agregasi model tanpa penjelasan mengapa (1.9.2.1. Hutan Acak). Apakah ada penjelasan yang jelas mengapa? Lebih lanjut apakah ada makalah yang bagus atau ulasan artikel untuk berbagai teknik agregasi...

random-forest python scikit-learn aggregation bagging

10

Implementasi validasi silang bersarang

Saya mencoba mencari tahu apakah pemahaman saya tentang validasi silang bersarang benar, oleh karena itu saya menulis contoh mainan ini untuk melihat apakah saya benar: import operator import numpy as np from sklearn import cross_validation from sklearn import ensemble from sklearn.datasets...

cross-validation python scikit-learn