Text
Process Mining Techniques in Business Environments; Theoretical Aspects, Algorithms, Techniques and Open Challenges in Process Mining
Buku ini mencakup versi revisi dari disertasi Ph. D., yang ditulis oleh penulis, di Departemen Matematika Universitas Padua (Italia), dan di Departemen Ilmu Komputer Universitas Bologna (Italia). Pada tahun 2014, disertasi memenangkan "Penghargaan Disertasi Penambangan Proses Terbaik", yang diberikan oleh Gugus Tugas IEEE untuk Penambangan Proses kepada tesis PhD paling menonjol, yang dibahas antara tahun 2012 dan 2013, dengan fokus pada bidang intelijen proses bisnis. Meningkatnya ketersediaan penyimpanan dan kemampuan komputasi, dikombinasikan dengan munculnya perangkat "pintar" baru, merupakan dasar fundamental dari apa yang disebut "Internet of Things" (IoT). Perusahaan bisnis juga memusatkan perhatian mereka pada IoT, karena dapat dieksploitasi dengan cara yang berharga. Salah satu hasil dari difusi IoT semacam itu, tetapi secara lebih umum, tren umum tahun-tahun ini, adalah pengumpulan data meningkat secara monumental. Penting untuk diingatkan bahwa nilai data terkait erat dengan pengetahuan yang dapat disintesis darinya. Selain itu, untuk memperkuat bisnis mereka, fokus perusahaan harus pada konsolidasi dan peningkatan proses bisnis mereka, bukan pada data mereka. Ini adalah skenario di mana proses penambangan berada: di antara penambangan data, dan pemodelan proses bisnis. Setelah presentasi singkat tentang keadaan seni teknik penambangan proses, buku ini mengusulkan skenario yang berbeda untuk penyebaran proyek penambangan proses. Secara khusus, karakterisasi perusahaan, dalam hal "kesadaran proses" mereka (dan kesadaran proses terhadap sistem informasi mereka), dirinci. Pekerjaan terus mengidentifikasi dan melaporkan kemungkinan keadaan di mana masalah, baik "praktis" maupun "konseptual", dapat muncul. Kami mengidentifikasi tiga area ini sebagai kemungkinan sumber masalah: (i) persiapan data (mis., terjemahan sintaksis data, data yang hilang); (ii) fase penambangan aktual (mis., algoritme penambangan mengeksploitasi semua data yang tersedia); dan (iii) interpretasi hasil. Beberapa masalah tidak terbatas pada satu fase, tetapi ortogonal untuk semua sumber yang disebutkan: misalnya, konfigurasi parameter oleh pengguna non-ahli atau kompleksitas komputasi dari beberapa teknik. Dalam buku ini kita akan menganalisis setidaknya satu solusi untuk setiap masalah yang disajikan. Deskripsi solusi ini dibuat umum, agar mudah disesuaikan dengan domain aplikasi tertentu. Solusi yang diusulkan dalam buku ini termasuk dalam dua paradigma komputasi yang berbeda: yang pertama mempertimbangkan "penambangan proses batch" klasik (juga dikenal sebagai"offline"); yang kedua memperkenalkan "penambangan proses online". Mengenai penambangan proses batch, kami akan menyelidiki terlebih dahulu masalah persiapan data dan kami akan menganalisis dan menyajikan solusi untuk masalah data tersembunyi (yaitu, ketika bidang wajib tidak ditunjukkan secara eksplisit). Dalam contoh kita, kita akan mempertimbangkan " Nomor Identifikasi yang ditetapkan untuk kasus atau insiden tertentu ". Secara khusus, pendekatan kami mencoba mengidentifikasi informasi yang hilang ini dengan melihat metadata yang direkam untuk setiap peristiwa. Setelah itu, kami akan berkonsentrasi pada langkah kedua (fase penambangan) dan, khususnya, pada masalah pemanfaatan semua informasi yang tersedia. Sebagai contoh, kami mengusulkan generalisasi algoritma penemuan aliran kontrol yang terkenal (yaitu, Penambang Heuristik) untuk mengeksploitasi peristiwa yang tidak terjadi seketika. Penggunaan perekaman berbasis interval mengarah pada peningkatan penting dari kinerja algoritme. Sebagai contoh lain dari eksploitasi data, kami menyajikan pendekatan otomatis untuk perluasan model aliran kontrol dengan informasi sosial (yaitu, peran), untuk menyederhanakan analisis dari dua perspektif ini (aliran kontrol dan sumber daya) digabungkan. Nanti, kami akan memusatkan perhatian kami pada masalah penting lainnya dan, bagi pengguna non-ahli, berdampak pada: konfigurasi parameter. Sebagai contoh, kami mempertimbangkan konfigurasi algoritma penemuan aliran kontrol. Pendekatan kami terdiri dari dua langkah: pertama, kami memperkenalkan metode untuk secara otomatis mendiskritisasi ruang nilai parameter. Kemudian, kami menyajikan dua pendekatan untuk memilih konfigurasi parameter "terbaik". Yang pertama, sepenuhnya otonom, menggunakan prinsip Panjang Deskripsi Minimum untuk menyeimbangkan kompleksitas model dan penjelasan data; yang kedua membutuhkan interaksi manusia untuk menavigasi hierarki model dan menemukan hasil yang paling sesuai. Fase interpretasi data dan evaluasi hasil juga tidak bebas masalah. Juga dalam hal ini, kami akan menganalisis masalah dan mengusulkan dua metrik baru: model-to-model dan model-to-log (yang terakhir mempertimbangkan model yang diekspresikan dalam bahasa deklaratif). Bagian terakhir dari buku ini membahas adaptasi proses penambangan ke pengaturan online. Kami akan mempertimbangkan, sebagai contoh, masalah penemuan aliran kontrol on-line. Secara khusus, kami akan mengusulkan definisi formal dari masalah tersebut dan kemudian menyajikan dua pendekatan dasar. Kedua pendekatan dasar ini hanya digunakan untuk tujuan validasi. Algoritma penambangan aktual yang diusulkan akan menjadi dua: yang pertama adalah adaptasi, terhadap masalah penemuan aliran kontrol, dari algoritma penghitungan frekuensi yang terkenal (yaitu, Penghitungan Lossy); yang kedua merupakan kerangka model yang dapat digunakan untuk berbagai jenis aliran (misalnya, aliran stasioner atau aliran dengan konsep drift). "Drift" pada konteksnya perangkat lunak: Penyimpangan atau perbedaan yang dapat merujuk pada sistem atau aplikasi dari waktu ke waktu, karena perubahan konfigurasi, pembaruan, atau pengaruh eksternal. Penambang Heuristik adalah teknik yang digunakan untuk menemukan model proses secara otomatis dari log peristiwa. Ini menyimpulkan model proses yang mendasarinya dengan menganalisis urutan peristiwa yang dicatat dalam log. Penambang menggunakan heuristik, atau aturan praktis, untuk membuat tebakan terpelajar tentang alur proses berdasarkan perilaku yang diamati dalam log peristiwa.
No copy data
No other version available