Text
Primer to Analysis of Genomic Data Using R
Analisis langsung langkah demi langkah menggunakan platform genomik tinggi terkini, Penekanan pada bagaimana mengembangkan dan menerapkan solusi analitik yang sepenuhnya otomatis dari data mentah hingga laporan akhir, Menunjukkan cara menyimpan, menangani, memanipulasi, dan menganalisis file data berukuran besar ?. Hampir semua teks yang ditulis tentang analisis data genom akan dimulai dengan menyebutkan laju perubahan yang cepat di lapangan. Bagaimana teknologi bergerak maju dengan panik dan bagaimana kumpulan data menjadi semakin besar. Eksperimen besar satu tahun hanyalah bukti konsep kecil di tahun berikutnya. Basis data tumbuh secara eksponensial. Literatur tentang mata pelajaran yang bahkan cukup spesifik sangat banyak dan kita harus memutuskan apakah kita akan tetap up to date atau benar-benar menyelesaikan beberapa pekerjaan. Rasanya baru beberapa tahun yang lalu, pemindaian genom dengan 300-400 penanda mikrosatelit merupakan masalah yang cukup besar (sebenarnya, itu baru beberapa tahun yang lalu)! Kemudian datanglah chip SNP 10k, lalu 50k, 500k, dan kemudian, tentu saja, satu, dua, dan tiga juta susunan SNP. Data urutan individu lengkap dengan cepat menjadi platform pilihan. Pada cakupan 10x, itu sekitar 30 miliar pembacaan nukleotida per pasien / hewan / sampel dalam file fastq yang belum diproses. Tentu saja, kami tidak dapat lagi beroperasi secara manual pada skala seperti ini. Analisis data menjadi sangat bergantung pada komputer dan algoritme yang efisien untuk menyaring lautan data dan memahami semuanya. Sejumlah besar alat komputasi telah ditulis untuk mengatasi volume data yang tinggi ini. Sebagian besar telah dikembangkan untuk mengatasi masalah tertentu, dan bahkan jika mereka unggul dalam tugas spesifik mereka, mereka mungkin tidak ideal untuk proses otomatis—output dari satu alat tidak dalam format yang memadai untuk alat lain di bagian bawah alur analisis. Ini memberi kita tugas untuk mencari tahu alat mana yang tersedia untuk setiap langkah dalam analisis, memilih yang memenuhi kebutuhan kita, mencari tahu cara kerja masing-masing, dan menjahitnya bersama-sama. Alternatifnya, beberapa perangkat lunak (biasanya komersial, alias membutuhkan biaya) akan menangani analisis lengkap dengan mulus dari awal hingga akhir, tetapi pengguna dibatasi pada pilihan algoritme yang dikodekan ke dalam program, fleksibilitas dalam apa yang dapat dilakukan lebih sedikit, dan selalu ada perasaan kotak hitam yang tersisa tentang hal itu. Dalam beberapa tahun terakhir, R [90], bahasa pemrograman statistik dan lingkungan, telah menjadi populer untuk analisis data genom dan lebih jauh lagi telah menjadi alat de facto untuk analisis data ekspresi gen. R menyediakan lingkungan pengembangan terintegrasi untuk analisis dan pada saat yang sama fleksibilitas dan kontrol penuh atas alur kerja analitik. Dalam buku ini, kita akan fokus menggunakan R untuk analisis data genom dan cara mengatur rutinitas untuk mengotomatiskan langkah-langkah analitik. Kami tidak akan membahas semua yang dapat dilakukan R (itu sendiri akan menjadi buku yang agak besar dan sudah ada beberapa yang sangat bagus), tetapi kami akan fokus pada beberapa poin kunci yang relevan dengan analisis data genom: kurang penekanan pada teori dan lebih banyak penekanan pada pendekatan handson, how to get the job done yang praktis. Tujuan dari buku ini adalah untuk menjadi teks pendamping bagi unit sarjana dan pascasarjana tingkat lanjut dalam analisis genom dan bioinformatika dan dapat digunakan sebagai komponen praktis dalam sesi lab.Buku ini juga harus berguna bagi para peneliti yang ingin menggunakan R untuk analisis data genom. Sebenarnya, tidak diperlukan pengetahuan sebelumnya tentang R—bab pertama mencakup beberapa dasar, tetapi pembaca pasti akan mendapat manfaat dari beberapa paparan sebelumnya terhadap R. Keakraban dengan biostatistik dan genetika tingkat sarjana diasumsikan. Saya terutama terlibat dengan proyek peternakan, jadi ada bias yang sangat kuat terhadap contoh-contoh di bidang ini. Ini mungkin bukan hal yang buruk karena peternakan terletak di antara genetika manusia, tikus, dan beberapa organisme model lain yang alat komputasinya dan sumber informasinya tersedia cukup matang, sementara di sisi lain kita memiliki spesies yang ada. tidak ada platform komersial, informasi biologis terbatas dalam database, dan tidak ada alat yang dapat digunakan di luar kotak. Ternak, misalnya, sapi, domba, dan babi, merupakan sumber daya yang sangat baik untuk dikerjakan karena kita dipaksa untuk menyesuaikan metodologi agar sesuai dengan kebutuhan kita, tetapi pada saat yang sama kita memiliki sumber daya yang cukup untuk mengeksplorasi sebagian besar aspek di ujung tombak penelitian genom.
No copy data
No other version available