Berikut ini adalah kueri Google berkorelasi:
http://www.google.com/trends/correlate/search?e=internet+usage&t=weekly#
Seperti yang Anda lihat di kotak pencarian di tautan itu, saya memasukkan "penggunaan internet" dan Google melakukan sisanya. Ini menunjukkan nilai 0,9298 sebagai "korelasi" dengan kueri "data mining". Namun, ketika saya membaca halaman 2 dari kertas putih Google [PDF] , tertulis:
The objective of Google Correlate is to surface the queries in the database whose spatial or temporal pattern is most highly correlated with a target pattern. Google Correlate employs a novel approximate nearest neighbor (ANN) algorithm over millions of candidate queries in an online search tree to produce results similar to the batch-based approach employed by Google Flu Trends but in a fraction of a second. For additional details, please see the Methods section below....
Jadi, pertanyaan saya adalah:
Apakah Google menggunakan korelasi Pearson atau Spearman yang normal untuk menemukan barang-barang ini atau mereka menggunakan sesuatu yang lain? Jika demikian, dapatkah Anda menjelaskan teknik umum?
==================
Perhatikan juga dalam plot bahwa pencarian untuk "penggunaan internet" (dan "penambangan data") turun selama bulan-bulan musim panas dan benar-benar menyelam sekitar Natal. Saya kira anak-anak dan pekerjaan rumah mereka ada hubungannya dengan ini.
sumber
Jawaban:
Seperti yang ditunjukkan oleh chl, tutorial Google Correlate menyatakan bahwa Google Correlate menggunakan koefisien korelasi momen-produk Pearson .
Mereka tidak menyebutkan bahasa ini diimplementasikan, meskipun Google menggunakan R untuk beberapa aplikasi, jadi saya akan menebaknya.
sumber