Text
Predictive Analytics with Microsoft Azure Machine Learning
Analisis Prediktif dengan Microsoft Azure Machine Learning, Edisi Kedua adalah pengantar tutorial praktis untuk bidang ilmu data dan pembelajaran mesin, dengan fokus pada pembuatan dan penerapan model prediktif, Buku ini memberikan gambaran menyeluruh tentang layanan Pembelajaran Mesin Microsoft Azure yang dirilis untuk ketersediaan umum pada 18 Februari 2015 dengan panduan praktis untuk rekomendasi bangunan, model kecenderungan, dan model pemeliharaan churn dan prediktif. --> I. Kata pengantar. Hanya sedikit orang yang menghargai potensi besar pembelajaran mesin (ML) dalam aplikasi perusahaan. Saya cukup beruntung untuk merasakan potensi manfaatnya hanya beberapa bulan setelah pekerjaan pertama saya. Saat itu tahun 1995, dan penerbit kartu kredit mulai mengadopsi model jaringan saraf untuk mendeteksi penipuan kartu kredit secara real time. Saat kartu kredit digunakan, data transaksi dari sistem point of sale dikirim ke sistem otorisasi kredit penerbit kartu di mana jaringan saraf menilai kemungkinan penipuan. Jika probabilitasnya tinggi, transaksi ditolak secara real time. Saya adalah seorang ilmuwan yang membuat model seperti itu, dan salah satu pengiriman model pertama saya adalah untuk sebuah bank di Amerika Selatan. Ketika model tersebut diterapkan, bank mengidentifikasi lebih dari satu juta dolar penipuan yang sebelumnya tidak terdeteksi pada hari pertama. Ini adalah pembuka mata yang besar. Pada tahun-tahun berikutnya, saya telah melihat ML memberikan nilai yang sangat besar dalam beragam aplikasi seperti perkiraan permintaan, deteksi kegagalan dan anomali, penargetan iklan, rekomendasi online, dan asisten virtual seperti Cortana. Dengan menyematkan ML ke dalam sistem perusahaan mereka, organisasi dapat meningkatkan pengalaman pelanggan, mengurangi risiko kegagalan sistemik, meningkatkan pendapatan, dan mewujudkan penghematan biaya yang signifikan. Namun, membangun sistem ML lambat, memakan waktu, dan rawan kesalahan. Meskipun kami dapat menganalisis kumpulan data yang sangat besar akhir-akhir ini dan menerapkan pada tingkat transaksi yang sangat tinggi, hambatan berikut tetap ada • * Pengembangan sistem ML membutuhkan keahlian yang mendalam. Meskipun prinsip inti ML sekarang dapat diakses oleh khalayak yang lebih luas, ilmuwan data berbakat saat ini sama sulitnya untuk dipekerjakan seperti dua dekade lalu. * Praktisi dipaksa untuk menggunakan berbagai alat untuk mengumpulkan, membersihkan, menggabungkan, dan menganalisis data. Alat-alat ini memiliki kurva belajar yang curam dan tidak terintegrasi. Perangkat lunak ML komersial mahal untuk diterapkan dan dipelihara. * Membangun dan memverifikasi model membutuhkan eksperimen yang cukup besar. Ilmuwan data sering kali merasa dibatasi oleh komputasi dan penyimpanan karena mereka perlu menjalankan sejumlah besar eksperimen yang menghasilkan banyak data baru. * Perangkat lunak tidak mendukung eksperimen yang dapat diskalakan atau metode untuk mengatur proses eksperimen. Tindakan berkolaborasi dengan tim dalam eksperimen dan berbagi variabel turunan, skrip, dll. bersifat manual dan ad-hoc tanpa dukungan alat. Mengevaluasi dan men-debug model statistik tetap menjadi tantangan. Ilmuwan data mengatasi batasan ini dengan menulis program khusus dan dengan melakukan angkat berat yang tidak berbeda saat mereka melakukan eksperimen ML mereka. Tapi itu semakin sulit dalam fase penerapan. Menerapkan model ML dalam proses bisnis yang sangat penting seperti pencegahan penipuan waktu nyata atau penargetan iklan memerlukan rekayasa yang canggih. Kebutuhan berikut harus dipenuhi • * Biasanya, model ML yang telah dikembangkan secara offline sekarang harus diimplementasikan kembali dalam bahasa seperti C++, C#, atau Java. * Alur data transaksi harus diselaraskan. Transformasi data dan variabel yang digunakan dalam model offline harus dikodekan ulang dan dikompilasi. * Penerapan ulang ini pasti menimbulkan bug, memerlukan verifikasi bahwa model berfungsi seperti yang dirancang semula. * Wadah khusus untuk model harus dibuat, dengan monitor, metrik, dan pencatatan yang sesuai. * Penerapan lanjutan memerlukan kerangka pengujian A / B untuk mengevaluasi model alternatif secara berdampingan. Seseorang membutuhkan mekanisme untuk mengganti model masuk atau keluar, sebaiknya tanpa mengkompilasi ulang dan menerapkan seluruh aplikasi. * Seseorang harus memvalidasi bahwa model produksi kandidat berfungsi seperti yang dirancang semula melalui uji statistik. * Keputusan otomatis yang dibuat oleh sistem dan hasil bisnis harus dicatat untuk menyempurnakan model ML dan untuk pemantauan. * Layanan harus dirancang untuk ketersediaan tinggi, pemulihan bencana, dan kedekatan geografis dengan titik akhir. * Saat layanan harus diskalakan untuk memenuhi tingkat transaksi yang lebih tinggi dan / atau latensi rendah, lebih banyak pekerjaan diperlukan untuk menyediakan perangkat keras baru, menerapkan layanan ke mesin baru, dan meningkatkan skala. Ini adalah langkah-langkah yang memakan waktu dan rekayasa yang intensif, mahal baik dari segi infrastruktur maupun tenaga kerja. Rekayasa ujung ke ujung dan pemeliharaan aplikasi ML produksi membutuhkan tim yang sangat terampil yang hanya dapat dibangun dan dipertahankan oleh sedikit organisasi. Microsoft Azure ML dirancang untuk mengatasi masalah ini. • Ini adalah layanan cloud yang dikelola sepenuhnya tanpa perangkat lunak untuk diinstal, tanpa perangkat keras untuk dikelola, dan tanpa versi OS atau lingkungan pengembangan yang harus dihadapi. * Berbekal apa pun selain browser, ilmuwan data dapat masuk ke Azure dan mulai mengembangkan model ML dari lokasi mana pun, dari perangkat apa pun. Mereka dapat meng-host file dalam jumlah yang praktis tidak terbatas di penyimpanan Azure. * ML Studio, lingkungan pengembangan terintegrasi untuk ML, memungkinkan Anda menyiapkan eksperimen sebagai grafik aliran data sederhana, dengan paradigma seret, lepas, dan hubungkan yang mudah digunakan. Ilmuwan data dapat menghindari pemrograman untuk sejumlah besar tugas umum, memungkinkan mereka untuk fokus pada desain eksperimen dan iterasi. • Banyak percobaan sampel disediakan untuk memudahkan memulai. * Kumpulan algoritme terbaik yang dikembangkan oleh Microsoft Research sudah ada di dalamnya, seperti dukungan untuk kode R khusus. Lebih dari 350 paket R open source dapat digunakan dengan aman di dalam Azure ML. * Grafik aliran data dapat memiliki beberapa jalur paralel yang berjalan secara otomatis secara paralel, memungkinkan para ilmuwan untuk melakukan eksperimen yang kompleks dan membuat perbandingan berdampingan tanpa batasan komputasi yang biasa. * Eksperimen dapat dibagikan dengan mudah, sehingga orang lain dapat melanjutkan pekerjaan Anda dan melanjutkan dari bagian terakhir yang Anda tinggalkan. Azure ML juga memudahkan pembuatan penerapan produksi dalam skala besar di cloud. Model ML yang telah dilatih sebelumnya dapat digabungkan ke dalam alur kerja penilaian dan, dengan beberapa klik, REST API baru yang dihosting di cloud dapat dibuat. REST API ini telah direkayasa untuk merespons dengan latensi rendah. Tidak diperlukan implementasi ulang atau porting, yang merupakan keunggulan utama dibandingkan perangkat lunak analisis data tradisional. Data dari mana saja di Internet (laptop, situs web, perangkat seluler, perangkat yang dapat dikenakan, dan mesin yang terhubung) dapat dikirim ke API yang baru dibuat untuk mendapatkan kembali prediksi. Misalnya, ilmuwan data dapat membuat API deteksi penipuan yang mengambil informasi transaksi sebagai masukan dan mengembalikan indikator risiko rendah / sedang / tinggi sebagai keluaran. API semacam itu kemudian akan "hidup" di cloud, siap menerima panggilan dari perangkat lunak apa pun yang dipilih pengembang untuk memanggilnya. Backend API menskalakan secara elastis, sehingga ketika tingkat transaksi melonjak, layanan Azure ML dapat menangani beban secara otomatis. Hampir tidak ada batasan jumlah API ML yang dapat dibuat dan diterapkan oleh ilmuwan data–dan semua ini tanpa ketergantungan pada rekayasa. Untuk rekayasa dan TI, menjadi mudah untuk mengintegrasikan model ML baru menggunakan REST API tersebut, dan menguji beberapa model secara berdampingan sebelum penerapan menjadi mudah, memungkinkan kelincahan yang jauh lebih baik dengan biaya rendah. Azure menyediakan mekanisme untuk menskalakan dan mengelola API dalam produksi, termasuk mekanisme untuk mengukur ketersediaan, latensi, dan kinerja. Membangun sistem ML yang kuat, sangat tersedia, dan andal serta mengelola penyebaran produksi secara dramatis lebih cepat, lebih murah, dan lebih mudah bagi perusahaan, dengan manfaat bisnis yang sangat besar. Kami percaya Azure ML adalah pengubah permainan. Itu membuat potensi ML yang luar biasa dapat diakses baik oleh pemula maupun perusahaan besar. Startup sekarang dapat menggunakan kemampuan yang sama yang sebelumnya hanya tersedia untuk bisnis paling canggih. Perusahaan yang lebih besar dapat melepaskan nilai laten dalam data besar mereka untuk menghasilkan lebih banyak pendapatan dan efisiensi secara signifikan. Di atas segalanya, kecepatan iterasi dan eksperimen yang sekarang dimungkinkan akan memungkinkan inovasi yang cepat dan membuka jalan bagi kecerdasan di perangkat yang terhubung dengan cloud di sekitar kita. Ketika saya memulai karir saya pada tahun 1995, dibutuhkan sebuah organisasi besar untuk membangun dan menerapkan sistem deteksi penipuan kartu kredit. Dengan alat seperti Azure ML dan kekuatan cloud, satu ilmuwan data berbakat dapat mencapai hal yang sama. Para penulis buku ini, yang memiliki pengalaman panjang dengan ilmu data, telah merancangnya untuk membantu Anda memulai perjalanan yang luar biasa ini dengan Azure ML. II. Perkenalan. Ilmu data dan pembelajaran mesin sangat diminati, karena pelanggan semakin mencari cara untuk mengumpulkan wawasan dari data mereka. Lebih banyak pelanggan sekarang menyadari bahwa intelijen bisnis tidak cukup, karena volume, kecepatan, dan kompleksitas data sekarang menentang alat analisis tradisional. Sementara intelijen bisnis membahas analisis deskriptif dan diagnostik, ilmu data membuka peluang baru melalui analisis prediktif dan preskriptif. Buku ini memberikan gambaran umum tentang ilmu data dan pandangan mendalam tentang Pembelajaran Mesin Microsoft Azure, yang merupakan bagian dari Rangkaian Cortana Analytics. Cortana Analytics Suite adalah rangkaian analitik canggih dan data besar yang dikelola sepenuhnya yang membantu organisasi mengubah data menjadi tindakan cerdas. Buku ini memberikan pendekatan terstruktur untuk ilmu data dan panduan praktis untuk memecahkan masalah bisnis dunia nyata seperti pemodelan kecenderungan pembeli, analisis churn pelanggan, pemeliharaan prediktif, dan rekomendasi produk. Kesederhanaan layanan Pembelajaran Mesin Azure dari Microsoft akan membantu membawa ilmu data dan pembelajaran mesin ke audiens yang jauh lebih luas daripada produk yang ada di ruang ini. Pelajari bagaimana Anda dapat dengan cepat membuat dan menerapkan model prediktif canggih sebagai layanan web pembelajaran mesin dengan layanan Pembelajaran Mesin Azure baru dari Microsoft. A. Pengantar Ilmu Data. Jadi apa itu ilmu data dan mengapa begitu topikal? Apakah itu hanya iseng-iseng yang akan memudar setelah hype? Kita akan mulai dengan pengenalan sederhana tentang ilmu data, mendefinisikan apa itu, mengapa itu penting, dan mengapa itu penting sekarang. Bab ini akan menyoroti proses ilmu data dengan pedoman dan praktik terbaik. Ini akan memperkenalkan beberapa teknik dan algoritma yang paling umum digunakan dalam ilmu data. Dan itu akan mengeksplorasi model ensemble, teknologi kunci di ujung tombak ilmu data. Apa itu Ilmu Data?. Ilmu data adalah praktik memperoleh wawasan yang berguna dari data. Meskipun juga berlaku untuk data kecil, ilmu data sangat penting untuk data besar, karena kami sekarang mengumpulkan petabyte data terstruktur dan tidak terstruktur dari banyak sumber di dalam dan di luar organisasi. Akibatnya, kita sekarang kaya akan data tetapi miskin informasi. Ilmu data menyediakan proses dan teknik yang kuat untuk mengumpulkan informasi yang dapat ditindaklanjuti dari lautan data ini. Ilmu data mengambil dari beberapa disiplin ilmu termasuk statistik, matematika, riset operasi, pemrosesan sinyal, linguistik, basis data dan penyimpanan, pemrograman, pembelajaran mesin, dan komputasi ilmiah. Gambar 1-1 mengilustrasikan disiplin ilmu data yang paling umum. Meskipun istilah ilmu data baru dalam bisnis, istilah ini sudah ada sejak tahun 1960 ketika pertama kali digunakan oleh Peter Naur untuk merujuk pada metode pemrosesan data dalam ilmu komputer. Sejak akhir 1990-an ahli statistik terkemuka seperti C. F. Jeff Wu dan William S. Cleveland juga menggunakan istilah ilmu data, suatu disiplin ilmu yang mereka anggap sama atau merupakan perpanjangan dari statistik. Praktisi ilmu data adalah ilmuwan data, yang keahliannya mencakup statistik, matematika, riset operasi, pemrosesan sinyal, linguistik, basis data dan penyimpanan, pemrograman, pembelajaran mesin, dan komputasi ilmiah. Selain itu, agar efektif, ilmuwan data juga membutuhkan kemampuan komunikasi dan visualisasi data yang baik. Pengetahuan domain juga penting untuk memberikan hasil yang berarti dengan cepat. Luasnya keterampilan ini sangat sulit ditemukan dalam satu orang, itulah sebabnya ilmu data adalah olahraga tim, bukan upaya individu. Agar efektif, seseorang perlu merekrut tim dengan keterampilan ilmu data yang saling melengkapi.
No copy data
No other version available