Senin, 24 September 2018

Proses Dalam Data Warehouse pada Data Mining

Pengertian Data Warehoause pada Data Mining

Data Warehouse didefinisikan sebagai tempat penyimpanan data terpusat yang dapat di-query untuk manfaat bisnis. Data warehousing merupakan teknik baru yang powerful yang membuatnya mungkin untuk mengekstrak data operasional yang diarsipkan dan mengatasi ketidakkonsistensian dari format-format data warisan yang berbeda.

Baca Juga: Karakteristik Data Warehouse pada Data Mining 

Sumber gambar: datawarehouse4u.info

Proses Data Warehouse pada Data Mining

Tahap pertama dalam data warehousing adalah menyekat informasi operasional sekarang Misalnya menjaga keamanan dan integrasi aplikasi 0LTP mission-critical saat kita mengakses basis data yang lebih luas. Hasil basisdata atau data warehouse mungkin menghabiskan ratusan gigabyte atau bahkan terabytes dari ruang disk. Apa yang diperlukan kemudian adalah teknik efisien untuk menyimfian dan mengambil kembali sejumlah informasi secara besar-besaran. Organisasi-organisasi yang besar menemukan bahwa hanya sistem pengolahan pararel memberikan bandWidth yang cukup.

Data warehouse mengambil kembali data dari bermacam basisdata operasional yang beraneka ragam. Data kemudian ditransformasikan dan dikirimkan ke data warehouse berdasarkan model yang dipilih (atau definisi pemetaan]. Proses transformasi dan perpindahan data yang dijalankan pada saat update data ke warehouse diperlukan sehingga seharusnya ada beberapa bentuk automatisasLuntuk mengatur dan menjalankan fungsi-fungsi ini. Informasi yang menggambarkan model dan definisi dari elemen data sumber disebut dengan “metadata”.Metadata diartikan sebagai bagaimana end-user menemukan dan memahami data dalam warehouse dan merupakan bagian penting dari warehouse tersebut.

Paling tidak,metadata harus terdiri dari :
  1. Struktur data
  2. Algoritma yang digunakan untuk meringkas (summary).
  3. Dan pemetaan dari lingkungan operasional ke data warehouse.
Pembersihan data merupakan aspek penting dari pembuatan sebuah data warehouse yang efisien dalam hal menghilangkan aspek-aspek tertentu dari data operasional seperti informasi transaksi level rendah yang memperlambat waktu query. Tahap pembersihan harus dibuat sedinamis mungkin untuk mengakomodasi semua tipe query bahkan mungkin saat membutuhkan informasi level rendah. Data harus diekstrak dari sumber produksi pada interval yang tetap dan disatukan secara terpusat kecuali proses pembersihan untuk menghilangkan duplikasi dan beda rekonsil antara bermacam bentuk kumpulan data.

Baca Juga: Pengertian Gudang Data (Data WareHouse) pada Data Mining 

Setelah data dibersihkan kemudian ditransfer ke dalam data warehouse yang secara khusus merupakan sebuah basisdata yang besar pada sebuah kotak yang punya performasi tinggi seperti SMP (Symmetric Multi—Processing) atau MPP (Massively Parallel Processing). Iumlah kekuatan perekahan merupakan aspek penting lainnya dari data warehouse karena kompleksitas menjadi bagian dalam pengolahan query ad hoc dan kuantitas data yang luas yang ingin digunakan organisasi dalam warehouse. Suatu data warehouse dapat digunakan dalam berbagai cara misalkan digunakan sebagai pusat penyimpanan yang menghadapi pertanyaan-pertanyaan yang dijalankan atau digunakan seperti sebuah pasar data. Pasar data yang merupakan warehouse kecil dapat dibentuk untuk  menyediakan himpunan bagian dari toko utama dan meringkas informasi sesuai dengan kebutuhan dari kelompok atau departemen tertentu. Secara umum, pendekatan toko pusat menggunakan struktur data yang sangat sederhana dengan asumsi-asumsi yang sangat kecil mengenai hubungan antardata, padahal pasar sering menggunakan basisdata multidimensi yang dapat mempercepat proses query sebagaimana mereka dapat mempunyai struktur data yang mencerminkan sebagian besar pertanyaan-pertanyaan yang serupa. .

Banyak vendor mempunyai produk yang menyediakan satu atau lebih fungsi-fungsi data warehouse diatas. Meski begitu, dapat juga menggunakan sejumlah kerja-yang-penting dan pemrograman khusus untuk melengkapi kebutuhan operasional antar produk dari banyak vendor untuk memungkinkan mereka melakukan proses—proses data warehouse yang diperlukan. Implementasi khusus terdiri dari campuran produk—produk dari bermacam suplier.

0 komentar: