Kamis, 11 November 2010

Data Warehouse

Data Warehouse merupakan sebuah perangkat yang biasa digunakan untuk mendukung pengambilan keputusan pada perusahaan modern. Saat pembangunan data warehouse kerap terjadi beberapa permasalahan yaitu diperlukannya kemampuan untuk memahami kebutuhan organisasi intra maupun lintas departemen (cross functional) dalam pembangunan data warehouse, waktu pengembangan data warehouse relatif lama, perubahan kebutuhan user akan informasi, dan perubahan user data warehouse.
Solusi untuk permasalahan tersebut adalah dengan memanfaatkan peran metadata terutama dengan membuat laporan mengenai definisi data (data definition reporting), melakukan analisis dampak perubahan yang terjadi pada data yang tersimpan pada data warehouse (impact analysis) dan menjadikan manajemen metadata sebagai salah satu tahapan dalam metodologi pembangunan data warehouse. Sebuah metodologi RK-X-Meta yang diadopsi dari metodologi X-Meta dan metodologi Ralph Kimball disusun untuk memenuhi mengatasi permasalahan yang terjadi saat pembangunan data warehouse.
Penerapan metodologi RK-X-Meta dilakukan dengan menggunakan kasus Adventure Works Cycle yang merupakan kasus contoh pada SQL Server 2005. Pengujian dilakukan untuk membuktikan kebenaran data yang tersimpan dalam data warehouse yang dihasilkan dengan menggunakan metodologi RK-X-Meta dan untuk membuktikan bahwa metodologi RK-X-Meta berhasil menerapkan peranan metadata khusus untuk data definition reporting maupun sebagai impact analysis. Hasil pengujian menunjukkan bahwa metodologi RK-X-Meta menghasilkan data warehouse yang benar dan berhasil menerapkan peranan metadata baik sebagai data definition reporting maupun sebagai impact analysis.

Pengenalan Datawarehouse


Menurut W.H. Inmon dan Richard D.H., data warehouse adalah koleksi data yang mempunyai sifat berorientasi subjek,terintegrasi,time-variant, dan bersifat tetap dari koleksi data dalam mendukung proses pengambilan keputusan management.
Menurut Vidette Poe, data warehouse merupakan database yang bersifat analisis dan read only yang digunakan sebagai fondasi dari sistem penunjang keputusan.
Menurut Paul Lane, data warehouse merupakan database relasional yang didesain lebih kepada query dan analisa dari pada proses transaksi, biasanya mengandung history data dari proses transaksi dan bisa juga data dari sumber lainnya. Data warehouse memisahkan beban kerja analisis dari beban kerja transaksi dan memungkinkan organisasi menggabung/konsolidasi data dari berbagai macam sumber.
Jadi, data warehouse merupakan metode dalam perancangan database, yang menunjang DSS(Decission Support System) dan EIS (Executive Information System). Secara fisik data warehouse adalah database, tapi perancangan data warehouse dan database sangat berbeda. Dalam perancangan database tradisional menggunakan normalisasi, sedangkan pada data warehouse normalisasi bukanlah cara yang terbaik.
Dari definisi-definisi yang dijelaskan tadi, dapat disimpulkan data warehouse adalah database yang saling bereaksi yang dapat digunakan untuk query dan analisisis, bersifat orientasi subjek, terintegrasi, time-variant,tidak berubah yang digunakan untuk membantu para pengambil keputusan.
Data warehouse mengandung beberapa elemen penting antara lain [Mallach, 2000,h.473]:
1. Sumber data yang digunakan oleh data warehouse, database transaksional dan sumber data eksternal.
2. Proses ETL (Extraction, Transformation, Loading) dari sumber data ke database data warehouse.
3. Membuat suatu ringkasan atau summary terhadap data warehouse misalkan dengan menggunakan fungsi agregat.
4. Metadata.
Metadata mengacu data tentang data. Metadata menguraikan struktur dan beberapa arti tentang data, dengan demikian mendukung penggunaan efektif atau tidak efektif dari data.
5. Database data warehouse.
Database ini berisi data yang detail dan ringkasan data dari data yang ada di dalam data warehouse. Karena data warehouse tidak digunakan dalam proses transaksi individu, maka databasenya tidak perlu diorganisasikan untuk akses transaksi dan untuk pengambilan data, melainkan dioptimisasikan untuk pola akses yang berbeda di dalam analisis.
6. Query Tools yaitu dengan OLAP (Online Analytical Processing ) dan data mining. Tool untuk query ini meliputi antarmuka pengguna akhir dalam mengajukan pertanyaan kepada database, dimana proses ini disebut sebagai On-line Analytical Processing (OLAP). Tool ini juga terdiri dari tool otomatis yang menemukan pola-pola di dalam data, yang sering disebut sebagai data mining. Data warehouse harus memiliki salah satu dari kedua tipe ini atau malah kedua-duanya.
7. User.
Pengguna yang memanfaatkan data warehouse tersebut.

Perbedaan Istilah Data Warehouse dan Data Mining
Pertanyaan soal perbedaan kedua istilah ini terkadang sulit untuk dipahami, sering kali kita bingung karena kedua istilah tersebut mirip-mirip, sering dipertukarkan dan banyak bersinggungan dalam konteks yang sama.
Kita mulai cari definisi data warehouse dulu. Saya coba ambil salah satu definisi yang ada pada bukunya Vincent Rainardi - Building a Data Warehouse With Examples in SQL Server. Beliau menyampaikan definisi sebagai berikut.
A data warehouse is a system that retrieves and consolidates data periodically from the source systems into a dimensional or normalized data store. It usually keeps years of history and is queried for business intelligence or other analytical activities. It is typically updated in batches, not every time a transaction happens in the source system.
Jadi data warehouse merupakan suatu sistem yang mengkonsolidasikan data secara periodik dari sistem-sistem yang ada (OLTP) ke dalam suatu penyimpanan dimensional. Pada umumnya, data warehouse menyimpan data histori beberapa tahun dan di-quey untuk keperluan business intelligence atau aktifitas analisis lainnya. Data warehouse diremajakan secara batch, tidak serta-merta setiap terjadinya transaksi pada sistem-sistem sumber tersebut.
Dari penjelasan di atas terlihat jelas perbedaan antara data warehouse dibandingkan business intelligence ataupun data mining.
Sebagai tambahan informasi, perkembangan saat ini data warehouse digunakan sebagai sumber data untuk Business Intelligence (BI), penyempurnaan CRM (Customer Relationship Management) ataupun Data Mining (DM).
Lalu, apa yang dimaksud dengan Data Mining?
Coba kita buka lagi, definisi data mining dari buku tersebut. Dalam buku tersebut, kita coba telaah paragraph berikut ini :
Data mining is a field that has been growing fast in the past few years. It is also known as knowledge discovery, because it includes trying to find meaningful and useful information from a large amount of data. It is an interactive or automated process to find patterns describing the data and to predict the future behavior of the data based on these patterns.
Data Mining disebut juga knowledge discovery karena merupakan bidang yang berupaya untuk menemukan informasi yang punya arti dan berguna dari jumlah data yang besar. Data mining merupakan suatu proses yang interaktif atau terotomatisasi untuk menemukan pola (pattern) data tersebut dan memprediksi kelakuan (trend) di masa mendatang berdasarkan pola data tersebut.

source here

0 komentar:

Posting Komentar

Twitter Delicious Facebook Digg Stumbleupon Favorites More