Data warehouse adalah sebuah sistem yang mengambil dan menggabungkan data secara periodik dari sistem sumber data ke penyimpanan data bentuk dimensional atau normal (Rainardi, 2008). Data warehouse merupakan penyimpanan data yang berorientasi objek, terintegrasi, mempunyai variant waktu, dan menyimpan data dalam bentuk nonvolatile sebagai pendukung manejemen dalam proses pengambilan keputusan (Han, 2006).
Data warehouse menyatukan dan menggabungkan data dalam bentuk multidimensi. Pembangunan data warehouse meliputi pembersihan data, penyatuan data dan transformasi data dan dapat dilihat sebagai praproses yang penting untuk digunakan dalam data mining. Selain itu data warehouse mendukung On-line Analitycal Processing (OLAP), sebuah kakas yang digunakan untuk menganalisis secara interaktif dari bentuk multidimensi yang mempunyai data yang rinci. Sehingga dapat memfasilitasi secara efektif data generalization dan data mining.
Banyak metode-metode data mining yang lain seperti asosiasi, klasifikasi, prediksi, dan clustering, dapat diintegrasikan dengan operasi OLAP untuk meningkatkan proses mining yang interaktif dari beberapa level dari abstraksi. Oleh karena itu data warehouse menjadi platform yang penting untuk data analisis dan OLAP untuk dapat menyediakan platform yang efektif untuk proses data mining.
Empat karakteristik dari Datawarehouse meliputi :
- Subject oriented : sebuah data warehouse disusun dalam subjek utama, seperti pelanggan, suplier, produk, dan sales. Meskipun data warehouse terkonsentrasi pada operasi harian dan proses transaksi dalam perusahaan, data warehouse fokus pada pemodelan dan analisis data untuk pembuat keputusan. Oleh karena itu data warehouse mempunyai karakter menyediakan secara singkat dan sederhana gambaran seputar subjek lebih detail yang dibuat dari data luar yang tidak berguna dalam proses pendukung keputusan.
- Integrated : Data warehouse biasanya dibangun dari bermacam-macam sumber yang berbeda, seperti database relasional, flat files, dan on-line transaction records. Pembersihan dan penyatuan data diterapkan untuk menjamin konsistensi dalam penamaan, struktur kode, ukuran atribut, dan yang lainnya.
- Time Variant : data disimpan untuk menyajikan informasi dari sudut pandang masa lampau (misal 5 – 10 tahun yang lalu). Setiap struktur kunci dalam data warehouse mempunyai elemen waktu baik secara implisit maupun eksplisit
- Non volatile : sebuah data warehouse secara fisik selalu disimpan terpisah dari data aplikasi operasional. Penyimpanan yang terpisah ini, data warehouse tidak memerlukan proses transaksi, recovery dan mekanisme pengendalian konkurensi. Biasanya hanya membutuhkan dua operasi dalam akses data yaitu initial load of data dan access of data
Dari pengertian tersebut, sebuah data warehouse merupakan penyimpanan data tetap sebagai implementasi fisik dari pendukung keputusan model data. Data warehouse juga biasanya dilihat sebagai arsitektur, pembangunan dan penyatuan data dari bermacam macam sumber data yang berbeda untuk mendukung struktur dan atau query tertentu, laporan analisis, dan pembuatan keputusan (Han, 2006).
Extract, transform, dan load ( ETL ) merupakan sebuah sistem yang dapat membaca data dari suatu data store, merubah bentuk data, dan menyimpan ke data store yang lain. Data store yang dibaca ETL disebut data source, sedangkan data store yang disimpan ETL disebut target. Proses pengubahan data digunakan agar data sesuai dengan format dan kriteria, atau sebagai validasi data dari source system. Proses ETL tidak hanya menyimpan data ke data warehouse, tetapi juga digunakan untuk berbagai proses pemindahan data.
Kebanyakan ETL mempunya mekanisme untuk membersihkan data dari source system sebelum disimpan ke warehouse. Pembersihan data merupakan proses identifikasi dan koreksi data yang kotor. Proses pembersihan ini menerapkan aturan-aturan tertentu yang mendefinisikan data bersih.
Berdasarkan siapa yang memindahkan data, ETL dapat dibedakan menjadi empat seperti yang dapat dilihat pada gambar 2.1, yaitu :
1. Proses ETL menarik data keluar dengan query tertentu di source system database secara periodik.
2. Triggers pada source system mendorong data keluar. Triggers adalah Suatu SQL statement yang dijalankan setiap ada perintah insert, update, atau delete dalam tabel.
3. Penjadwalan proses dalam source system untuk mengekspor data secara periodik. Hal ini mirip dengan proses yang pertama namun query disimpan dalam data source.
4. Sebuah log reader yang bertugas membaca log dalam source system untuk mengidentifikasi perubahan data. Log reader merupakan program yang membaca log file. Setelah dibaca, kemudian data dipindahkan keluar ke tempat penyimpanan yang lain.
Gambar 2.1 Kategori ETL berdasarkan siapa yang menjalankan |
Berdasarkan dimana proses pembangkitan ETL, ETL dibedakan menjadi tiga macam seperti yang digambarkan pada gambar 2.2, yaitu :
1. ETL dijalankan dalam server terpisah diantara source system dan data warehouse sistem. Pendekatan ini menghasilkan kinerja tinggi, ETL jalan di server sendiri, sehingga tidak menggunakan sumber daya dari data warehouse server atau data source server. Namun hal ini lebih mahal karena harus menambah server lagi.
2. ETL dijalankan dalam data warehouse server. Pendekatan ini dapat digunakan jika mempunyai kapasitas lebih dalam data warehouse server atau jika mempunyai idle time ketika datawarehouse tidak digunakan (misal pada waktu malam). Pendekatan ini lebih murah dibandingkan pendekatan pertama karena tidak membutuhkan tambahan server.
3. ETL dijalankan pada server data source. Pendekatan ini diimplementasikan ketika membutuhkan real time data warehousing. Dengan kata lain, jika data dalam source system berubah, perubahan ini dilakukan juga ke dalam data warehouse. Hal ini dapat dilakukan dengan penggunaan trigger dalam source system.
Gambar 2.2 Kategori ETL berdasarkan tempat dijalankan |
Tidak semua data warehouse mempunyai komponen lengkap seperti mekanisme kualitas data, database multidimensi, aplikasi analisis, aplikasi pengguna, control sistem, audit sistem, metadata. Secara sederhana data warehouse dapat digambarkan seperti gambar 2.3
Gambar 2.3 Gambaran data warehouse secara sederhana |
Dalam hal ini, data warehouse hanya mempunyai sebuah ETL dan sebuah data store. Source system bukan merupakan bagian dari data warehouse sistem. Hal ini merupakan minimum dari sebuah data warehouse. Jika satu komponen diambil sudah bukan merupakan data warehouse lagi (Rainardi, 2008).
Sumber dari :
Skripsi Nuqson Masykur Huda, September 2010, Aplikasi Data Mining Untuk Menampilkan Informasi Tingkat Kelulusan Mahasiswa, SEMARANG : PROGRAM STUDI TEKNIK INFORMATIKA JURUSAN MATEMATIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS DIPONEGORO
6 komentar:
Kami juga mempunyai artikel yang terkait implementasi data warehouse, bisa di download disini:
http://repository.gunadarma.ac.id/bitstream/123456789/2979/1/78.pdf
semoga bermanfaat :D
@Anonymous: Terimakasih mau berbagi juga.. :D
ijin share di blog saya ya mas.. :)
@obix gondrink: Oke silahkan...jgn lupa cantumkan sumbernya ya.. :D
perdalam datawarehouse juga kak?
makasih infonya :)
ada contoh peper tentang data wharehouse min 20 lembar gak ??
http://cobacoba-tutorial.blogspot.com/
Post a Comment
Catatan : Berkomentarlah dengan baik dan sopan. Karena penulis memberi kebebasan berkomentar tanpa melalui moderasi. Dilarang menaruh link website di kotak komentar karena akan langsung dihapus. Pilih profile Name/URL apabila ingin meninggalkan link/backlink.