Saya merencanakan sesuatu untuk menunjukkan pada diri sendiri atau orang lain. Biasanya, sebuah pertanyaan memulai proses ini, dan seringkali orang tersebut menanyakan harapan untuk jawaban tertentu.
Bagaimana saya bisa belajar hal-hal menarik tentang data dengan cara yang kurang bias?
Saat ini saya kira-kira mengikuti metode ini:
- Statistik ringkasan.
- Stripchart.
- Plot pencar.
- Mungkin ulangi dengan subkumpulan data yang menarik.
Tapi itu tampaknya tidak cukup metodis atau ilmiah.
Apakah ada pedoman atau prosedur untuk diikuti yang mengungkapkan hal-hal tentang data yang saya tidak akan bertanya? Bagaimana saya tahu ketika saya telah melakukan analisis yang memadai?
Jika Anda memiliki data kronologis, seri data seumur hidup maka ada "dikenal" dan menunggu untuk ditemukan adalah "tidak diketahui". Sebagai contoh jika Anda memiliki urutan poin data selama 10 periode seperti 1,9,1,9,1,5,1,9,1,9 maka berdasarkan sampel ini orang bisa berharap 1,9,1,9 , ... muncul di masa depan. Apa yang diungkapkan oleh analisis data adalah bahwa ada pembacaan yang "tidak biasa" pada periode 6 meskipun berada dalam batas + -3 sigma yang menunjukkan bahwa DJP tidak memegang. Membuka kedok Inlier / Outlier memungkinkan kita untuk mengungkapkan hal-hal tentang data. Kami juga mencatat bahwa Nilai Rata-rata bukan Nilai yang Diharapkan. Gagasan ini dengan mudah meluas ke pendeteksian Pergeseran Rata-rata dan / atau Tren Waktu Lokal yang mungkin tidak diketahui sebelum data dianalisis (Pembuatan Hipotesis). Sekarang sangat mungkin bahwa 10 bacaan berikutnya juga 1,9,1,9, 1,5,1,9,1,9 menunjukkan bahwa "5" tidak selalu tidak diinginkan. Jika kita mengamati proses kesalahan dari model yang sesuai yang menunjukkan varian non-konstan yang dapat dibuktikan, kita mungkin akan mengungkapkan salah satu dari sifat berikut ini: 1) parameter mungkin telah berubah pada titik waktu tertentu; 2. Mungkin ada kebutuhan untuk Analisis Berbobot (GLS); 3. Mungkin ada kebutuhan untuk mengubah data melalui transformasi daya; 4. Mungkin ada kebutuhan untuk benar-benar memodelkan varians kesalahan. Jika Anda memiliki data harian, analisis yang baik dapat mengungkapkan bahwa ada jendela respons (timbal, kontemporer dan struktur lag) di sekitar setiap Hari Libur yang mencerminkan perilaku yang konsisten / dapat diprediksi. Anda mungkin juga dapat mengungkapkan bahwa hari-hari tertentu dalam bulan tersebut memiliki efek yang signifikan atau bahwa hari Jumat sebelum liburan Senin memiliki aktivitas luar biasa. 9 menyarankan bahwa "5" tidak selalu tidak diinginkan. Jika kita mengamati proses kesalahan dari model yang sesuai yang menunjukkan varian tidak konstan yang dapat dibuktikan, kita mungkin akan mengungkapkan salah satu dari keadaan alam berikut: 1) parameter mungkin telah berubah pada titik waktu tertentu; 2. Mungkin ada kebutuhan untuk Analisis Berbobot (GLS); 3. Mungkin ada kebutuhan untuk mengubah data melalui transformasi daya; 4. Mungkin ada kebutuhan untuk benar-benar memodelkan varians kesalahan. Jika Anda memiliki data harian, analisis yang baik dapat mengungkapkan bahwa ada jendela respons (timbal, kontemporer dan struktur lag) di sekitar setiap Hari Libur yang mencerminkan perilaku yang konsisten / dapat diprediksi. Anda mungkin juga dapat mengungkapkan bahwa hari-hari tertentu dalam bulan tersebut memiliki efek yang signifikan atau bahwa hari Jumat sebelum liburan Senin memiliki aktivitas luar biasa. 9 menyarankan bahwa "5" tidak selalu tidak diinginkan. Jika kita mengamati proses kesalahan dari model yang sesuai yang menunjukkan varian tidak konstan yang dapat dibuktikan, kita mungkin akan mengungkapkan salah satu dari keadaan alam berikut: 1) parameter mungkin telah berubah pada titik waktu tertentu; 2. Mungkin ada kebutuhan untuk Analisis Berbobot (GLS); 3. Mungkin ada kebutuhan untuk mengubah data melalui transformasi daya; 4. Mungkin ada kebutuhan untuk benar-benar memodelkan varians kesalahan. Jika Anda memiliki data harian, analisis yang baik dapat mengungkapkan bahwa ada jendela respons (timbal, kontemporer dan struktur lag) di sekitar setiap Hari Libur yang mencerminkan perilaku yang konsisten / dapat diprediksi. Anda mungkin juga dapat mengungkapkan bahwa hari-hari tertentu dalam bulan tersebut memiliki efek yang signifikan atau bahwa hari Jumat sebelum liburan Senin memiliki aktivitas luar biasa. belum tentu tidak diinginkan. Jika kita mengamati proses kesalahan dari model yang sesuai yang menunjukkan varian tidak konstan yang dapat dibuktikan, kita mungkin akan mengungkapkan salah satu dari keadaan alam berikut: 1) parameter mungkin telah berubah pada titik waktu tertentu; 2. Mungkin ada kebutuhan untuk Analisis Berbobot (GLS); 3. Mungkin ada kebutuhan untuk mengubah data melalui transformasi daya; 4. Mungkin ada kebutuhan untuk benar-benar memodelkan varians kesalahan. Jika Anda memiliki data harian, analisis yang baik dapat mengungkapkan bahwa ada jendela respons (timbal, kontemporer dan struktur lag) di sekitar setiap Hari Libur yang mencerminkan perilaku yang konsisten / dapat diprediksi. Anda mungkin juga dapat mengungkapkan bahwa hari-hari tertentu dalam bulan tersebut memiliki efek yang signifikan atau bahwa hari Jumat sebelum liburan Senin memiliki aktivitas luar biasa. belum tentu tidak diinginkan. Jika kita mengamati proses kesalahan dari model yang sesuai yang menunjukkan varian tidak konstan yang dapat dibuktikan, kita mungkin akan mengungkapkan salah satu dari keadaan alam berikut: 1) parameter mungkin telah berubah pada titik waktu tertentu; 2. Mungkin ada kebutuhan untuk Analisis Berbobot (GLS); 3. Mungkin ada kebutuhan untuk mengubah data melalui transformasi daya; 4. Mungkin ada kebutuhan untuk benar-benar memodelkan varians kesalahan. Jika Anda memiliki data harian, analisis yang baik dapat mengungkapkan bahwa ada jendela respons (timbal, kontemporer dan struktur lag) di sekitar setiap Hari Libur yang mencerminkan perilaku yang konsisten / dapat diprediksi. Anda mungkin juga dapat mengungkapkan bahwa hari-hari tertentu dalam bulan tersebut memiliki efek yang signifikan atau bahwa hari Jumat sebelum liburan Senin memiliki aktivitas luar biasa. Jika kita mengamati proses kesalahan dari model yang sesuai yang menunjukkan varian tidak konstan yang dapat dibuktikan, kita mungkin akan mengungkapkan salah satu dari keadaan alam berikut: 1) parameter mungkin telah berubah pada titik waktu tertentu; 2. Mungkin ada kebutuhan untuk Analisis Berbobot (GLS); 3. Mungkin ada kebutuhan untuk mengubah data melalui transformasi daya; 4. Mungkin ada kebutuhan untuk benar-benar memodelkan varians kesalahan. Jika Anda memiliki data harian, analisis yang baik dapat mengungkapkan bahwa ada jendela respons (timbal, kontemporer dan struktur lag) di sekitar setiap Hari Libur yang mencerminkan perilaku yang konsisten / dapat diprediksi. Anda mungkin juga dapat mengungkapkan bahwa hari-hari tertentu dalam bulan tersebut memiliki efek yang signifikan atau bahwa hari Jumat sebelum liburan Senin memiliki aktivitas luar biasa. Jika kita mengamati proses kesalahan dari model yang sesuai yang menunjukkan varian tidak konstan yang dapat dibuktikan, kita mungkin akan mengungkapkan salah satu dari keadaan alam berikut: 1) parameter mungkin telah berubah pada titik waktu tertentu; 2. Mungkin ada kebutuhan untuk Analisis Berbobot (GLS); 3. Mungkin ada kebutuhan untuk mengubah data melalui transformasi daya; 4. Mungkin ada kebutuhan untuk benar-benar memodelkan varians kesalahan. Jika Anda memiliki data harian, analisis yang baik dapat mengungkapkan bahwa ada jendela respons (timbal, kontemporer dan struktur lag) di sekitar setiap Hari Libur yang mencerminkan perilaku yang konsisten / dapat diprediksi. Anda mungkin juga dapat mengungkapkan bahwa hari-hari tertentu dalam bulan tersebut memiliki efek yang signifikan atau bahwa hari Jumat sebelum liburan Senin memiliki aktivitas luar biasa. Mungkin ada kebutuhan untuk Analisis Berbobot (GLS); 3. Mungkin ada kebutuhan untuk mengubah data melalui transformasi daya; 4. Mungkin ada kebutuhan untuk benar-benar memodelkan varians kesalahan. Jika Anda memiliki data harian, analisis yang baik dapat mengungkapkan bahwa ada jendela respons (timbal, kontemporer dan struktur lag) di sekitar setiap Hari Libur yang mencerminkan perilaku yang konsisten / dapat diprediksi. Anda mungkin juga dapat mengungkapkan bahwa hari-hari tertentu dalam bulan tersebut memiliki efek yang signifikan atau bahwa hari Jumat sebelum liburan Senin memiliki aktivitas luar biasa. Mungkin ada kebutuhan untuk Analisis Berbobot (GLS); 3. Mungkin ada kebutuhan untuk mengubah data melalui transformasi daya; 4. Mungkin ada kebutuhan untuk benar-benar memodelkan varians kesalahan. Jika Anda memiliki data harian, analisis yang baik dapat mengungkapkan bahwa ada jendela respons (timbal, kontemporer dan struktur lag) di sekitar setiap Hari Libur yang mencerminkan perilaku yang konsisten / dapat diprediksi. Anda mungkin juga dapat mengungkapkan bahwa hari-hari tertentu dalam bulan tersebut memiliki efek yang signifikan atau bahwa hari Jumat sebelum liburan Senin memiliki aktivitas luar biasa. kontemporer dan struktur lag) di sekitar hari libur yang mencerminkan perilaku yang konsisten / dapat diprediksi. Anda mungkin juga dapat mengungkapkan bahwa hari-hari tertentu dalam bulan tersebut memiliki efek yang signifikan atau bahwa hari Jumat sebelum liburan Senin memiliki aktivitas luar biasa. kontemporer dan struktur lag) di sekitar hari libur yang mencerminkan perilaku yang konsisten / dapat diprediksi. Anda mungkin juga dapat mengungkapkan bahwa hari-hari tertentu dalam bulan tersebut memiliki efek yang signifikan atau bahwa hari Jumat sebelum liburan Senin memiliki aktivitas luar biasa.
sumber
Datamining dapat dipecah menjadi dua kategori. Jika Anda tertarik untuk mengukur pengaruh set data / variabel pada variabel tertentu maka ini akan dianggap pembelajaran yang diawasi. Untuk pembelajaran yang mendalam dan mengeksplorasi tanpa tujuan, Anda menjalani pembelajaran tanpa pengawasan.
Grafik dan analisis statistik data (memahami distribusi dan mendapatkan intuisi) adalah langkah pertama.
sumber