Konteks
Pertanyaan populer di situs ini adalah " Apa dosa statistik umum? ". Salah satu dosa yang disebutkan adalah dengan asumsi bahwa tautan "korelasi menyiratkan hubungan sebab akibat ..."
Kemudian, dalam komentar dengan 5 upvotes disarankan bahwa: "Google menghasilkan $ 65 miliar setahun tidak peduli dengan perbedaannya."
Dengan risiko terlalu banyak menganalisis sindiran ringan, saya pikir ini mungkin menjadi titik diskusi yang berguna untuk menyempurnakan perbedaan antara korelasi dan sebab akibat dan relevansi praktis dari perbedaan; dan mungkin itu bisa menyoroti sesuatu tentang hubungan antara pembelajaran mesin dan perbedaan antara korelasi dan sebab-akibat.
Saya berasumsi bahwa komentar tersebut membahas teknologi yang mendasari generasi hasil mesin pencari dan teknologi terkait tampilan iklan.
Pertanyaan
- Sejauh mana perbedaan antara korelasi dan sebab-akibat yang relevan dengan penghasilan Google, mungkin berfokus terutama pada pendapatan melalui iklan yang menampilkan teknologi terkait dan hasil pencarian berkualitas?
sumber
Jawaban:
Jawaban sederhananya adalah bahwa Google (atau siapa saja) harus peduli tentang perbedaan sejauh mereka berniat untuk campur tangan . Pengetahuan kausal memberi tahu Anda tentang efek intervensi (tindakan) dalam domain yang diberikan.
Jika, misalnya, Google ingin meningkatkan rasio klik-tayang pada iklan, meningkatkan jumlah pengguna GMail atau Google+, atau mendorong pengguna untuk menggunakan Google daripada Bing, maka mereka perlu mengetahui efek dari tindakan potensial (misalnya, meningkatkan ukuran font iklan, mempromosikan Google+ di majalah cetak, atau mempublikasikan perbedaan antara hasil pencarian Google dan Bing, masing-masing). Korelasi cukup baik untuk membuat mesin pencari Google bekerja dengan baik, tetapi untuk sistem mereka yang lain (dan bisnis mereka secara keseluruhan) perbedaan sering penting.
Perlu dicatat bahwa Google (dan banyak perusahaan dengan bisnis berbasis web) terus menjalankan eksperimen online. Ini adalah cara paling sederhana dan terbaik untuk mengidentifikasi dan memperkirakan dependensi kausal.
sumber
Pertama, ini hanya lelucon dan salah. Google memiliki banyak ahli statistik yang sangat berbakat, ahli pencarian informasi, ahli bahasa, ekonom, beberapa psikolog, dan lainnya. Orang-orang ini menghabiskan banyak waktu mendidik banyak non-statistik tentang perbedaan antara korelasi dan sebab-akibat. Mengingat bahwa ini adalah organisasi besar, mungkin ada kantong, bahkan kantong besar, ketidaktahuan, tetapi pernyataan itu jelas salah. Selain itu, banyak pendidikan yang menghadapi pelanggan, terutama pengiklan.
Jawaban yang lebih dalam: Perbedaannya sangat penting. Lihat saja peringkat hasil pencarian, dan izinkan saya memperluas lebih dari sekadar "korelasi" untuk memasukkan ukuran-ukuran kesamaan, fungsi penilaian, dll. Beberapa halaman diukur menjadi hasil yang baik untuk kueri tertentu. Ini memiliki berbagai fitur prediktor yang penting untuk peringkat mereka. Berbeda dengan halaman-halaman bagus ini yang merupakan hasil yang bagus untuk kueri adalah sekumpulan halaman web yang merupakan halaman yang hasilnya sangat buruk untuk kueri yang sama. Namun, pembuat halaman tersebut menghabiskan banyak upaya untuk membuatnya terlihat seperti halaman yang bagus dari sudut pandang numerik, seperti kecocokan teks, tautan internet, dan lainnya. Namun, hanya karena halaman-halaman ini secara numerik "mirip" dengan halaman yang baik tidak berarti bahwa ini sebenarnya adalah halaman yang baik. Oleh karena itu, Google telah berinvestasi dan akan terus menginvestasikan banyak upaya untuk menentukan fitur apa yang masuk akal membedakan (memisahkan) halaman baik dan buruk.
Ini bukan korelasi dan sebab-akibat, tetapi lebih dalam dari itu. Halaman yang baik untuk permintaan tertentu dapat memetakan ke ruang numerik di mana mereka tampak serupa dan berbeda dari banyak halaman yang tidak relevan atau buruk, tetapi hanya karena hasilnya berada di wilayah yang sama dari ruang fitur tidak menyiratkan mereka berasal dari subset "kualitas tinggi" yang sama dari web.
Jawaban yang lebih sederhana: Perspektif yang sangat sederhana adalah membahas peringkat hasil. Hasil terbaik harus menjadi yang pertama, tetapi hanya karena sesuatu berada di peringkat pertama bukan berarti itu adalah hasil terbaik. Dengan beberapa metrik penilaian, Anda mungkin menemukan bahwa peringkat Google berkorelasi dengan standar emas penilaian kualitas, tetapi itu tidak berarti bahwa peringkat mereka menyiratkan bahwa hasilnya benar-benar dalam urutan ini dalam hal kualitas dan relevansi.
Pembaruan (jawaban ketiga): Seiring waktu, ada aspek lain yang memengaruhi kita semua: itu adalah hasil Google teratas dapat dianggap otoritatif, karena itu adalah hasil teratas di Google. Meskipun analisis tautan (mis. "PageRank" - salah satu metode untuk analisis tautan) adalah upaya untuk mencerminkan keabsahan yang dirasakan, seiring waktu halaman-halaman baru pada suatu topik dapat dengan mudah memperkuat struktur tautan tersebut dengan menautkan ke hasil teratas di Google. Halaman yang lebih baru yang lebih otoritatif memiliki masalah dengan headstart relatif terhadap hasil pertama. Karena Google ingin memberikan halaman yang paling relevan saat ini , berbagai faktor, termasuk apa yang disebut "kaya-kaya" fenomena, muncul karena efek implisit korelasi pada sebab-sebab yang dirasakan.
Pembaruan (jawaban keempat): Saya menyadari (untuk komentar di bawah) bahwa mungkin berguna untuk membaca Allegory of the Cave milik Plato untuk mendapatkan pengertian bagaimana menafsirkan korelasi dan sebab akibat sebagai hasil dari "refleksi / proyeksi" kenyataan & bagaimana kami (atau mesin kami) melihatnya. Korelasi, sangat terbatas pada Korelasi Pearson, terlalu terbatas sebagai interpretasi dari masalah asosiasi kesalahpahaman (lebih luas dari sekadar korelasi) dan sebab-akibat.
sumber
Penulis sindiran di sini.
Komentar itu sebagian terinspirasi oleh ceramah oleh David Mease (di Google), di mana dia berkata, dan saya parafrase, perusahaan asuransi mobil tidak peduli jika menjadi laki-laki menyebabkan lebih banyak kecelakaan, selama itu berkorelasi, mereka harus mengenakan biaya lebih banyak. Faktanya, mustahil untuk mengubah jenis kelamin seseorang dalam suatu eksperimen, sehingga penyebabnya tidak pernah bisa ditunjukkan.
Dengan cara yang sama, Google tidak perlu peduli jika warna merah membuat seseorang mengklik iklan, jika itu berkorelasi dengan lebih banyak klik, mereka dapat mengenakan biaya lebih banyak untuk iklan itu.
Itu juga terinspirasi oleh artikel ini di Wired: The End of Theory: Data Banjir Membuat Metode Ilmiah Usang . Kutipan:
"Filosofi pendiri Google adalah bahwa kita tidak tahu mengapa halaman ini lebih baik daripada yang itu: Jika statistik dari tautan yang masuk mengatakan itu, itu cukup bagus."
Jelas, Google memiliki banyak orang yang sangat pandai yang tahu perbedaan antara sebab akibat dan korelasi, tetapi dalam kasus mereka, mereka dapat menghasilkan banyak uang tanpa peduli.
sumber
Saya setuju dengan David : Perbedaannya penting jika Anda ingin melakukan intervensi, dan Google dapat menguji hasil intervensi dengan menjalankan eksperimen terkontrol. (Jadwal optimal dari eksperimen semacam itu tergantung pada set hipotesis kausal Anda, yang Anda pelajari dari eksperimen sebelumnya ditambah data pengamatan , sehingga korelasi masih berguna!)
Ada alasan kedua Google mungkin ingin mempelajari hubungan sebab akibat. Hubungan kausal lebih kuat untuk intervensi pemain lain . Intervensi cenderung bersifat lokal, sehingga mereka dapat mengubah satu bagian dari jaringan sebab-akibat tetapi membiarkan semua mekanisme sebab-akibat lainnya tidak berubah. Sebaliknya, hubungan prediktif dapat gagal jika hubungan sebab akibat yang jauh rusak. Internet terus berubah, dan Google harus tertarik dengan fitur lingkungan online mana yang lebih kuat terhadap perubahan itu.
sumber