Buku Taleb "The Black Swan" adalah buku terlaris New York Times ketika diterbitkan beberapa tahun yang lalu. Buku ini sekarang dalam edisi kedua. Setelah bertemu dengan ahli statistik di JSM (konferensi statistik tahunan), Taleb sedikit mengurangi kritiknya terhadap statistik. Tetapi tujuan buku ini adalah bahwa statistik tidak terlalu berguna karena ia bergantung pada distribusi normal dan peristiwa yang sangat jarang: "Black Swans" tidak memiliki distribusi normal.
Apakah Anda pikir ini adalah kritik yang valid? Apakah Taleb kehilangan beberapa aspek penting dari pemodelan statistik? Dapatkah peristiwa langka diprediksi setidaknya dalam arti bahwa probabilitas kejadian dapat diperkirakan?
extreme-value
rare-events
Michael Chernick
sumber
sumber
Jawaban:
Saya membaca Black Swan beberapa tahun yang lalu. Gagasan Black Swan bagus dan serangan terhadap kesalahan ludis (melihat hal-hal seolah-olah itu adalah permainan dadu, dengan probabilitas yang dapat diketahui) adalah baik tetapi statistik salah mengartikan, dengan masalah utama adalah klaim yang salah bahwa semua statistik berantakan jika variabel tidak terdistribusi secara normal. Saya cukup jengkel dengan aspek ini untuk menulis surat kepada Taleb di bawah ini:
Dr Taleb yang terhormat
Saya baru-baru ini membaca "The Black Swan". Seperti Anda, saya adalah penggemar Karl Popper, dan saya menemukan diri saya setuju dengan banyak hal yang ada di dalamnya. Saya pikir eksposisi Anda tentang kesalahan ludis pada dasarnya adalah suara, dan menarik perhatian pada masalah yang nyata dan umum. Namun, saya pikir sebagian besar Bagian III membuat keseluruhan argumen Anda buruk, bahkan mungkin mendiskreditkan sisa buku ini. Ini memalukan, karena saya pikir argumen yang berkaitan dengan Black Swans dan "tidak diketahui" berdiri di atas jasa mereka tanpa bergantung pada beberapa kesalahan dalam Bagian III.
Masalah utama yang ingin saya tunjukkan - dan mencari tanggapan Anda, terutama jika saya memiliki masalah yang salah paham - adalah kesalahan representasi Anda dalam bidang statistik terapan. Dalam penilaian saya, bab 14, 15 dan 16 sebagian besar bergantung pada argumen manusia jerami, salah menggambarkan statistik dan ekonometrika. Bidang ekonometrik yang Anda gambarkan bukanlah bidang yang saya ajarkan ketika saya mempelajari statistik terapan, ekonometrik, dan teori risiko aktuaria (di Australian National University, tetapi menggunakan teks yang tampaknya cukup standar). Masalah-masalah yang Anda ajukan (seperti keterbatasan distribusi Gaussian) dipahami dengan baik dan benar-benar diajarkan, bahkan di tingkat sarjana.
Misalnya, Anda berusaha keras untuk menunjukkan bagaimana distribusi pendapatan tidak mengikuti distribusi normal, dan menyajikan ini sebagai argumen terhadap praktik statistik secara umum. Tidak ada ahli statistik yang kompeten yang akan mengklaim demikian, dan cara-cara untuk mengatasi masalah ini sudah mapan. Hanya dengan menggunakan teknik-teknik dari tingkat "tahun pertama ekonometrik" yang paling dasar, misalnya, mentransformasikan variabel dengan mengambil logaritma akan membuat contoh numerik Anda terlihat jauh kurang meyakinkan. Transformasi seperti itu pada kenyataannya akan membatalkan sebagian besar dari apa yang Anda katakan, karena varians dari variabel asli akan meningkat dengan meningkatnya rata-rata.
Saya yakin ada beberapa ahli ekonometrika yang tidak kompeten yang melakukan regresi OLS dll dengan variabel respons yang tidak diubah seperti yang Anda katakan, tetapi itu hanya membuat mereka tidak kompeten dan menggunakan teknik yang sudah mapan menjadi tidak pantas. Mereka pasti akan gagal bahkan dalam kursus sarjana, yang menghabiskan banyak waktu mencari cara yang lebih tepat untuk memodelkan variabel seperti pendapatan, yang mencerminkan distribusi yang diamati (non-Gaussian) yang sebenarnya.
Keluarga Generalized Linear Models adalah satu set teknik yang dikembangkan sebagian untuk mengatasi masalah yang Anda ajukan. Banyak keluarga distribusi eksponensial (mis. Distribusi Gamma, Eksponensial, dan Poisson) bersifat asimetris dan memiliki varian yang meningkat ketika pusat distribusi meningkat, mengatasi masalah yang Anda tunjukkan dengan menggunakan distribusi Gaussian. Jika ini masih terlalu terbatas, dimungkinkan untuk menjatuhkan "bentuk" yang sudah ada sebelumnya dan hanya menentukan hubungan antara rata-rata distribusi dan variansnya (misalnya memungkinkan varians meningkat secara proporsional ke kuadrat rata-rata), menggunakan metode estimasi "quasi-likelihood".
Tentu saja, Anda dapat berargumen bahwa bentuk pemodelan ini masih terlalu sederhana dan jebakan intelektual yang menidurkan kita untuk berpikir masa depan akan seperti masa lalu. Anda mungkin benar, dan saya pikir kekuatan buku Anda adalah membuat orang seperti saya mempertimbangkan hal ini. Tetapi Anda membutuhkan argumen yang berbeda dengan argumen yang Anda gunakan dalam bab 14-16. Bobot besar yang Anda tempatkan pada fakta bahwa varian distribusi Gaussian adalah konstan terlepas dari rata-rata (yang menyebabkan masalah dengan skalabilitas), misalnya, tidak valid. Begitu juga penekanan Anda pada fakta bahwa distribusi kehidupan nyata cenderung lebih asimetris daripada kurva lonceng.
Pada dasarnya, Anda telah mengambil satu penyederhanaan berlebihan dari pendekatan yang paling mendasar untuk statistik (pemodelan naif variabel mentah memiliki distribusi Gaussian) dan menunjukkan, pada akhirnya, (dengan benar) kekurangan dari pendekatan yang disederhanakan. Anda kemudian menggunakan ini untuk membuat celah untuk mendiskreditkan seluruh bidang. Entah ini kesalahan serius dalam logika, atau teknik propaganda. Sangat disayangkan karena mengurangi keseluruhan argumen Anda, yang sebagian besar (seperti yang saya katakan) saya anggap valid dan persuasif.
Saya akan tertarik untuk mendengar apa yang Anda katakan sebagai tanggapan. Saya ragu saya orang pertama yang mengangkat masalah ini.
Dengan hormat
pe
sumber
Saya belum membaca buku itu, tetapi seperti yang dikatakan kritik itu tampaknya tidak masuk akal bagi saya. Jika peristiwa ekstrem penting, maka statistik memiliki alat yang sesuai dalam kotak alat, seperti teori nilai ekstrem, dan ahli statistik yang baik akan tahu cara menggunakannya (atau setidaknya mencari tahu cara menggunakannya dan akan cukup terlibat dengan tujuan analisis untuk melihat). Kritik itu tampaknya "statistik itu buruk karena ada statistik yang buruk yang hanya tahu tentang distribusi normal".
sumber
Mengatakan bahwa "dorongan buku ini adalah statistik tidak terlalu berguna" tidak akurat, saya pikir. Setelah membaca buku itu, apa yang tampaknya ia katakan adalah bahwa hal-hal seperti keuangan kuantitatif atau segala jenis perdagangan sekuritas yang mengasumsikan distribusi normal pada dasarnya cacat (sebenarnya, dalam buku itu, ia memanggil orang-orang yang mengaku menggunakan model-model ini untuk membuat prediksi , "penipu"). Menurut Taleb, sementara distribusi normal melakukan pekerjaan yang baik untuk memodelkan nilai-nilai benda nyata / fisik (mis. Tinggi, berat, rentang hidup, dll.), Sistem seperti pasar sering didorong oleh emosi manusia dan karenanya, cenderung ayunan besar yang distribusi normal tidak dapat memprediksi secara akurat.
Saya tidak memahami statistik dengan baik, dan sampai membaca jawaban di sini, saya belum pernah mendengar hal-hal seperti teori nilai ekstrem. Apapun itu, Black Swan dan Fooled By Randomness tampaknya memiliki premis yang serupa, yaitu "distribusi normal tidak selalu OK". Saya tidak ingat dia memfitnah seluruh bidang statistik.
sumber
Saya membaca "The Black Swan", saya menikmatinya, dan saya seorang ahli statistik. Saya sama sekali tidak menemukan "kritik statistik". Poin demi poin:
Bagi mereka yang tidak menyukai jawaban ini, atau tidak suka buku ini, dapat melihat argumen teknis Taleb di https://fernandonogueiracosta.files.wordpress.com/2014/07/taleb-nassim-silent-risk. pdf "Risiko Senyap", yang bersifat teknis.
sumber
Saya belum membaca Black Swan, tetapi jika kritiknya terhadap statistik benar-benar sesederhana yang Anda katakan, maka itu konyol. Jelas beberapa statistik bergantung pada distribusi Normal, tetapi banyak yang tidak.
Bisakah peristiwa langka dimodelkan? Tentu saja mereka bisa. Pertanyaan sebenarnya adalah seberapa baik mereka dapat dimodelkan. Dan pertanyaan itu akan memiliki jawaban yang berbeda di bidang yang berbeda, berdasarkan seberapa banyak yang kita ketahui tentang peristiwa langka dan pendahulunya.
Di NY Times Magazine hari ini ada artikel yang menarik dari Nate Silver tentang bagaimana ramalan cuaca telah meningkat dalam dekade terakhir ini. Ini termasuk pemodelan yang lebih baik dari peristiwa langka seperti badai.
Apakah buku itu layak dibaca?
sumber
Saya juga belum membaca buku itu, tetapi tidak mungkin maksudnya sesederhana seperti mengatakan bahwa ada distribusi dengan ekor yang lebih gemuk daripada distribusi normal. Ini akan menjadi komentar untuk jawaban yang lain, tetapi saya belum mengumpulkan cukup penghargaan di situs web ini.
Dari Wikipedia:
"Dia menyatakan bahwa statistik pada dasarnya tidak lengkap sebagai bidang karena tidak dapat memprediksi risiko peristiwa langka ..."
Pertanyaan ini juga sangat mirip dengan Apa pendapat masyarakat tentang Kuadran Keempat?
sumber
Saya sangat merekomendasikan ulasan Dennis Lindley tentang buku ini. Ini berisi sejumlah argumen yang menghancurkan terhadap eksposisi gagasan yang miskin dan arogan dalam buku ini:
http://onlinelibrary.wiley.com/doi/10.1111/j.1740-9713.2008.00281.x/abstract
Black Swan adalah contoh lain di mana menjadi "Best-seller" tidak menjamin konten berkualitas tinggi.
sumber
Saya tidak berpikir Taleb akan benar-benar mengatakan bahwa teknik statistik yang mengandalkan distribusi Gaussian tidak berguna. Maksudnya dalam buku ini adalah bahwa mereka sangat berguna bagi banyak (tetapi tidak semua) proses dan pemodelan fisik atau biologis. Dia membuat beberapa poin baik dan buruk (The Black Swan dan Linked adalah awal dari "semuanya adalah hukum kekuatan!" esai dimaksudkan untuk orang awam.
Itu mengatakan saya pikir Taleb suka memperburuk orang. Anda dapat melihat ini dalam pertempurannya dengan Myron Scholes. Dalam hal ini mungkin berguna sebagai pendidikan statistik di tingkat sarjana, dan kadang-kadang di tingkat pascasarjana, semacam melompati asumsi distribusi Gaussian. Saya membayangkan selama bertahun-tahun di bidang keuangan, dia menjumpai sejumlah besar pertanyaan dengan pengetahuan besar tentang Black-Scholes dan teknik lainnya, tetapi yang tidak mempertimbangkan asumsi mendasar seperti distribusi. Saya curiga Taleb mengincar lembaga pendidikan karena gagal mendidik dengan baik.
sumber
Anda yang belum membaca buku itu tidak masuk akal. Dia membuat perbedaan besar antara yang scalable dan unscalable. Untuk hal-hal yang tidak dapat disembuhkan, statistik tradisional akan berfungsi dengan cukup baik. Dia tidak mengkritik itu sama sekali. Black Swans berasal dari scalable dan sulit diprediksi mengingat data empiris masa lalu. Buku ini adalah tentang bagaimana peristiwa ini dapat memiliki dampak yang sangat besar dan umumnya hanya dijelaskan setelah fakta. Epistemologinya sangat bagus.
sumber
Tanpa membaca buku itu saya merasa bahwa lonceng Gaussian gagal karena mereka tidak pernah memberikan definisi yang jelas tentang "probabilitas kepadatan"; Selain itu, mereka tidak pernah memberikan satu set lengkap titik kurva Lorenz yang mencakup pada saat yang sama total variabel terdistribusi dan total populasi yang mempersepsikan sebelumnya. Jika "kepadatan" digunakan maka perlu dijelaskan sehubungan dengan variabel apa; misalnya jika Anda berbicara tentang kilogram per liter itu mengacu pada kepadatan berat terkait dengan volume. Langkah itu tidak diberikan oleh teori Gaussian dalam buku teks. Tidak heran jika orang muda tidak memahami statistik dengan baik.
sumber