Apakah ada nama yang lebih baik daripada "rata-rata integral"?

12

Saya menguji sensor posisi throttle (TPS) yang dijual oleh bisnis saya dan saya mencetak plot respons tegangan terhadap rotasi poros throttle. TPS adalah sensor rotasi dengan kisaran 90 ° dan outputnya seperti potensiometer dengan keterbukaan penuh 5V (atau nilai input sensor) dan bukaan awal berupa beberapa nilai antara 0 dan 0,5V. Saya membangun bangku tes dengan pengontrol PIC32 untuk melakukan pengukuran tegangan setiap 0,75 ° dan garis hitam menghubungkan pengukuran ini.

Salah satu produk saya memiliki kecenderungan untuk membuat variasi amplitudo rendah yang dilokalkan dari (dan di bawah) garis yang ideal. Pertanyaan ini adalah tentang algoritme saya untuk menghitung "penurunan" yang dilokalkan ini; apa nama yang baik atau deskripsi untuk proses pengukuran dips? (Penjelasan lengkap berikut) Pada gambar di bawah ini, penurunan terjadi pada sepertiga kiri plot dan merupakan kasus kecil apakah saya akan lulus atau gagal bagian ini:

Cetak bagian tersangka

Jadi saya membangun detektor celup ( stackoverflow qa tentang algoritma ) untuk mengukur perasaan usus saya. Awalnya saya pikir saya sedang mengukur "area". Grafik ini didasarkan pada cetakan di atas dan upaya saya untuk menjelaskan algoritmanya secara grafis. Ada penurunan untuk 13 sampel antara 17 dan 31:

Data sampel ditunjukkan dengan "dip" yang diperbesar

Data uji masuk dalam array dan saya membuat array lain untuk "naik" dari satu titik data ke titik berikutnya, yang saya sebut . Saya menggunakan perpustakaan untuk mendapatkan rata-rata dan standar deviasi untuk .d e l t a sdeltasdeltas

Menganalisis array diwakili dalam grafik di bawah ini, di mana kemiringan dihapus dari grafik di atas. Awalnya, saya menganggap ini sebagai "normalisasi" atau "menyatukan" data sebagai sumbu x adalah langkah yang sama dan saya sekarang hanya bekerja dengan kenaikan antara titik data. Ketika meneliti pertanyaan ini, saya ingat ini adalah turunan, dari data asli.d ydeltasdydx

Analisis turunannya ...?

Saya berjalan melalui untuk menemukan urutan di mana ada 5 atau lebih nilai negatif yang berdekatan. Bilah biru adalah serangkaian titik data yang berada di bawah rata-rata semua . Nilai bilah biru adalah:d e ldeltasdeltas

0.7+1.2+1.3+1.4+1.8+2.5+2.9+3.0+2.5+2.0+1.5+1.0+1.2

Mereka berjumlah , yang mewakili area (atau integral). Pikiran pertama saya adalah "Saya baru saja mengintegrasikan turunannya" yang seharusnya berarti saya mendapatkan kembali data asli, meskipun saya yakin ada istilah untuk ini.23

Garis hijau adalah rata-rata "di bawah nilai rata-rata" yang ditemukan melalui pembagian area dengan panjang penurunan:

23÷13=1.77

Selama pengujian 100+ bagian, saya memutuskan bahwa penurunan dengan rata-rata garis hijau saya kurang dari dapat diterima. Deviasi standar yang dihitung di seluruh set data bukanlah tes yang cukup ketat untuk penurunan ini, karena tanpa area total yang cukup, mereka masih berada dalam batas yang saya buat untuk bagian yang baik. Saya secara observasi memilih standar deviasi menjadi yang tertinggi yang saya ijinkan.3.02.63.0

Mengatur cutoff untuk standar deviasi yang cukup ketat untuk gagal bagian ini maka akan sangat ketat untuk gagal bagian yang dinyatakan memiliki plot besar. Saya juga punya detektor lonjakan yang gagal bagian jika ada .|deltasavg|>avg+stddev

Sudah hampir 20 tahun sejak Calc 1, jadi tolong santai saja, tapi ini terasa seperti ketika seorang profesor menggunakan kalkulus dan persamaan perpindahan untuk menjelaskan bagaimana dalam balap, seorang pesaing dengan sedikit akselerasi yang mempertahankan kecepatan sudut yang lebih tinggi dapat mengalahkan yang lain Pesaing memiliki akselerasi yang lebih besar ke belokan berikutnya: melewati belokan sebelumnya lebih cepat, semakin tinggi kecepatan awal berarti area di bawah kecepatannya (perpindahan) lebih besar.

Untuk menerjemahkan itu ke pertanyaan saya, saya merasa garis hijau saya akan seperti akselerasi, turunan ke-2 dari data asli.

Saya mengunjungi wikipedia untuk membaca kembali dasar-dasar kalkulus dan definisi turunan dan integral , mempelajari istilah yang tepat untuk menjumlahkan area di bawah kurva melalui pengukuran diam-diam sebagai Integrasi Numerik . Jauh lebih banyak googling rata-rata integral dan saya mengarah ke topik nonlinier dan pemrosesan sinyal digital. Rata-rata integral tampaknya menjadi metrik populer untuk mengukur data .

Apakah ada istilah untuk Rata-rata Integral? ( , garis hijau)? 1.77
... atau untuk proses menggunakannya untuk mengevaluasi data?

Chris K
sumber
Saya pikir "rata-rata penurunan" cukup baik. Itu tidak memiliki dimensi akselerasi, jadi tentu saja tidak ada hubungannya dengan itu.
ShreevatsaR
Dan saya akan menghargai pengamatan atau komentar tentang topik ini secara keseluruhan. Saya agak terganggu dengan bagaimana pengukuran "firasat" ini tidak diungkapkan secara matematis.
Chris K
Bisakah Anda menambahkan semua titik data yang Anda gunakan untuk membangun garis ideal, atau menambahkan sedikit informasi lebih lanjut tentang bagaimana garis merah putus-putus dihitung untuk membenarkan bilah biru sebagai "delta yang berada di bawah rata-rata semua titik data "? Jika secara moral jarak rata-rata dari rata-rata, maka harus ada nama gaya akselerasi untuknya, menggantikan diferensiasi saja dengan mengambil rata-rata.
1
Bermigrasi dari Math.SE dengan permintaan OP: meta.stats.stackexchange.com/questions/1845/…
Willie Wong
1
Saya mungkin menambahkan kata "lokal" untuk memperjelas bahwa langkah 1 ada - saya setuju dengan @Glen_b (Glen lain - hai!) Bahwa ini penting. Jadi saya akan menyarankan sementara "cacat rata-rata lokal" di mana saya hanya menyatukan "penyimpangan dari ideal" ke "cacat". Sepertinya cocok.
Glen Wheeler

Jawaban:

3

Pertama-tama, ini adalah deskripsi yang bagus tentang proyek Anda dan masalahnya. Dan saya penggemar berat kerangka pengukuran buatan rumah Anda, yang sangat keren ... jadi mengapa Anda peduli apa yang Anda sebut "rata-rata integral"?

x[n]>αSD(x[1:n1])=>x[n] is outlier
x[n]nthSD(x[1:n1])1st(n1)thαh
x[n]>αSD(x[nh1:n1])=>x[n] is outlier

x[n]

Ada juga aturan lain yang mungkin ingin Anda pertimbangkan untuk tujuan mengklasifikasikan perangkat sebagai salah:

  • jika ada penyimpangan (delta) lebih besar dari beberapa kelipatan SD dari semua delta
  • jika jumlah kuadrat dari penyimpangan lebih besar dari ambang tertentu
  • jika rasio jumlah delta positif dan negatif tidak kira-kira sama (yang mungkin berguna jika Anda lebih suka kesalahan yang lebih kecil di kedua arah daripada bias yang kuat di satu arah)

Tentu saja Anda dapat menemukan lebih banyak aturan dan menggabungkannya menggunakan logika boolean, tetapi saya pikir Anda bisa sangat jauh dengan ketiga aturan di atas.

Terakhir tetapi tidak kalah pentingnya, setelah Anda mengaturnya, Anda perlu menguji classifier (classifier adalah sistem / model yang memetakan input ke kelas, dalam hal ini data masing-masing perangkat, baik "baik", atau " salah"). Buat set pengujian dengan memberi label secara manual kinerja masing-masing perangkat. Kemudian lihat ke ROC , yang pada dasarnya memberi tahu Anda offset antara berapa banyak perangkat yang diambil dengan benar oleh sistem Anda dari yang dikembalikan, terkait dengan berapa banyak perangkat yang salah yang diambilnya.

berarti-untuk-makna
sumber
Saya percaya "mengapa ini penting" adalah fungsi dari nama pengguna Anda sendiri. :) Kenapa? Alasan yang sama ada lambang iliaka: kita membutuhkan kata-kata untuk secara khusus mengukur segala sesuatu yang unik dalam hidup. Imho, QA ini adalah contoh betapa terbatasnya kosakata dalam statistik. Kita perlu menggabungkan deskriptor yang membingungkan atau kontradiktif dengan apa yang "terlihat" begitu sederhana.
Chris K
Hehe, sudah ketahuan Pak! :) Jika saya menghilangkan usaha apa pun ke tanah branding kreatif, itu hanya karena saya merasa terdorong untuk mendukung akal dan dedikasi dari upaya dan ide Anda daripada membuat label yang sia-sia. Karena Anda bersikeras memberi nama mean integral, waspadalah bahwa apa yang Anda anggap "mean integral" adalah rata-rata sederhana dari delta Anda. Dan dengan demikian, outlier Anda hanyalah "penyimpangan dari mean", atau mungkin penyimpangan dari mean lokal. Saya tidak begitu melihat keuntungan dari berpikir secara integral, kecuali jika Anda tidak memiliki titik pengambilan sampel yang cukup.
means-to-meaning