Popular Post

Archive for September 2014

Data Warehouse, Data Mart, Metadata

By : ddyarmada
Perbedaan OLTP dan Data Warehouse

OLTP :

  • Menangani data saat ini
  • Data diorganisasikan berdasarkan fungsi atau operasi seperti penjualan, produksi, dan pemrosesan pemesanan
  • Pemrosesan bersifat berulang
  • Untuk mendukug keputusan harian
  • melayani banyak pemakai opersai
  • Berorientasi pada transaksi
Data Warehouse :
  • Lebih cenderung menagngani data masa lalu
  • Data disimpan dalam satu platfor
  • Data diorganisasikan menurut subjek seperti pelanggan atau produk
  • Pemrosesan sewaktu-waktu, tak terstruktur, dan bersifat heuristik
  • Untuk mendukung keputusan yang strategis
  • Untuk mendukung pemakai manajerial yang berjumlah relatif sedikit
Sifat Data Warehouse
  • Multidimensional yang berarti bahwa terdapat banyak lapisan kolom dan baris (Ini berbeda dengan tabel pada model relasional yang hanya berdimensi dua)
  • Berdasarkan susunan data seperti itu, amatlah mudah untuk memperoleh jawaban atas pertanyaan seperti: “Berapakah jumlah produk 1 terjual di Jawa Tengah pada tahun n-3?”
Data Mart
Bagian dari data warehouse yang mendukung kebutuhan pada tingkat departemen atau 
fungsi bisnis tertentu dalam perusahaan. Karakteristik yang membedakan data mart dan data 
warehouse adalah sebagai berikut (Connolly, Begg, Strachan 1999).
   Data mart memfokuskan hanya pada kebutuhan-kebutuhan pemakai yang 
      terkait dalam sebuah departemen atau fungsi bisnis.
   Data mart biasanya tidak mengandung data operasional yang rinci seperti pada data
     warehouse.
    Data mart hanya mengandung sedikit informasi dibandingkan dengan data 
      warehouse. Data mart lebih mudah dipahami dan dinavigasi.

Perbedaan Data Warehouse dengan Data Mart

DATAWAREHOUSE
Perusahaan, melingkupi semua proses
Gabungan datamart
Data didapat dari proses Staging
Merepresentasikan data  dari perusahaan atau organisasi
Diorganisasi dlm E-R Model

DATAMART
Departemen
Satu bisnis proses
Start-Join (fakta dan dimensi)
Teknologinya optimal untuk pengaksesan dan analisis data
Cocok untuk merepresentasikan data departemen

Metadata
     Istilah metadata mulai sering muncul dalam literature tentang database management systems (DBMS) pada tahun 1980 an. lstilah tersebut digunakan untuk menggambarkan informasi yang diperlukan untuk mencatat karakteristik informasi yang terdapat pada pangkalan data. Banyak sumber yang mengartikan istilah metadata. Metadata dapat diartikan sumber, menunjukan lokasi dokumen, serta memberikan ringkasan yang diperlukan untuk memanfaat-kannya. Secara umum ada 3 bagian yang digunakan untuk membuat metadata sebagai sebuah paket informasi, dan penyandian (encoding) pembuatan deskripsi paket informasi, dan penyediaan akses terhadap deskripsi tersebut. Dalam makalah ini diuraikan mengenai konsep data dalam kaitannya dengan perpustakaan. Uraian meliputi definisi metadata; fungsi metadata; standar penyandian (encoding), cantuman bibliografis. surogat, metadata; penciptaan isi cantuman surogat; ancangan terhadap format metadata; serta metadata dan standar metadata.
Pengertian yang lainnya menyebutkan metadata adalah informasi terstruktur yang mendeskripsikan, menjelaskan, menemukan, atau setidaknya membuat menjadikan suatu informasi mudah untuk ditemukan kembali, digunakan, atau dikelola. Metadata sering disebut sebagai data tentang data atau informasi tentang informasi. Metadata ini mengandung informasi mengenai isi dari suatu data yang dipakai untuk keperluan manajemen file/data itu nantinya dalam suatu basis data. Jika data tersebut dalam bentuk teks, metadatanya biasanya berupa keterangan mengenai nama ruas (field), panjang field, dan tipe fieldnya: integer, character, date, dll. Untuk jenis data gambar (image), metadata mengandung informasi mengenai siapa pemotretnya, kapan pemotretannya, dan setting kamera pada saat dilakukan pemotretan. Satu lagi untuk jenis data berupa kumpulan file, metadatanya adalah nama-nama file, tipe file, dan nama pengelola (administrator) dari file-file tersebut.

Fungsi Metadata :
Metadata memberikan fungsi yang sama seperti katalog yaitu:
         membuat sumberdaya bisa ditemukan dengan menggunakan kriteria yang relevan;
         mengidentifikasi sumberdaya
         mengelompokkan sumberdaya yang serupa
         membedakan sumberdaya yang tak miliki kesamaan
         memberikan informasi lokasi

Jenis Metadata :
            Terdapat tiga jenis utama metadata ;
1.Metadata deskriptif menggambarkan suatu sumberdaya dalam maksud seperti penemuan dan identifikasi. Dia bisa meliputi elemen semisal judul, abstrak, pengarang, dan kata kunci.
2.Metadata struktural menunjukkan bagaimana kumpulan obyek disusun secara bersama-sama menjadi satu, semisal bagaimana halaman-halaman ditata untuk membentuk suatu bab.
3.Metadata administratif menyediakan informasi untuk membantu mengelola sumberdaya, semisal terkait kapan dan bagaimana suatu informasi diciptakan, tipe dokumen dan informasi teknis lainnya, serta siapa yang bisa mengaksesnya.

P





Data Warehouse

By : ddyarmada
Data Warehouse adalah suatu sistem komputer untuk mengarsipkan dan menganalisis data historis suatu organisasi . Pada umumnya suatu organisasi menyalin informasi dari sistem operasionalnya (seperti penjualan dan SDM) ke gudang data menurut jadwal teratur, misalnya setiap malam atau setiap akhir minggu. Setelah itu, manajemen dapat melakukan kueri kompleks dan analisis (contohnya penambangan datadata mining) terhadap informasi tersebut tanpa membebani sistem yang operasional.

Menurut W.H. Inmon dan Richard D.H., data warehouse adalah koleksi data yang mempunyai sifat berorientasi subjek,terintegrasi,time-variant, dan bersifat tetap dari koleksi data dalam mendukung proses pengambilan keputusan management. Sedangkan Vidette Poe, data warehouse merupakan database yang bersifat analisis dan read only yang digunakan sebagai fondasi dari sistem penunjang keputusan. Data warehouse juga bisa diartikan sebagai database relasional yang didesain lebih kepada query dan analisa dari pada proses transaksi, biasanya mengandung history data dari proses transaksi dan bisa juga data dari sumber lainnya.

Berikut karakrteristik dari Data Warehouse :

a. Subject Oriented (Berorientasi subject)
Tabel 5. Data Operasiaonal dan Data Warehouse
Data Operasional
Data Warehouse
Dirancang berorientasi hanya pada aplikasi dan fungsi tertentu
Dirancang berdasar pada subjek-subjek tertentu(utama)
Focusnya pada desain database dan proses
Focusnya pada pemodelan data dan desain data
Berisi rincian atau detail data
Berisi data-data history yang akan dipakai dalam proses analisis
Relasi antar table berdasar aturan terkini(selalu mengikuti rule(aturan) terbaru)
Banyak aturan bisnis dapat tersaji antara tabel-tabel
 Data warehouse berorientasi subject artinya data warehouse didesain untuk menganalisa data berdasarkan subject-subject tertentu dalam organisasi,bukan pada proses atau fungsi aplikasi tertentu. Data warehouse diorganisasikan disekitar subjek-subjek utama dari perusahaan(customers,products dan sales) dan tidak  diorganisasikan pada area-area aplikasi utama(customer invoicing,stock control dan product sales). Hal ini dikarenakan kebutuhan dari data warehouse untuk menyimpan data-data yang bersifat sebagai penunjang suatu keputusan, dari pada aplikasi yang berorientasi terhadap data. Jadi dengan kata lain, data yang disimpan adalah berorientasi kepada subjek bukan terhadap proses. Secara garis besar perbedaan antara data operasional dan data warehouse dapat dilihat pada Tabel 2.1.

b.Integrated (Terintegrasi)
Data Warehouse dapat menyimpan data-data yang berasal dari sumber-sumber yang terpisah kedalam suatu format yang konsisten dan saling terintegrasi satu dengan lainnya. Dengan demikian data tidak bisa dipecah-pecah karena data yang ada merupakan suatu kesatuan yang menunjang keseluruhan konsep data warehouse itu sendiri. Syarat integrasi sumber data dapat dipenuhi dengan berbagai cara sepeti konsisten dalam penamaan variable,konsisten dalam ukuran variable,konsisten dalam struktur pengkodean dan konsisten dalam atribut fisik dari data. Contoh pada lingkungan operasional terdapat berbagai macam aplikasi yang mungkin pula dibuat oleh developer yang berbeda. Oleh karena itu, mungkin dalam aplikasi-aplikasi tersebut ada variable yang memiliki maksud yang sama tetapi nama dan format nya berbeda. Variable tersebut harus dikonversi menjadi nama yang sama dan format yang disepakati bersama. Dengan demikian tidak ada lagi kerancuan karena perbedaan nama, format dan lain sebagainya. Barulah data tersebut bisa dikategorikan sebagai data yang terintegrasi karena kekonsistenannya.
c. Time-variant (Rentang Waktu)
Seluruh data pada data warehouse dapat dikatakan akurat atau valid pada rentang waktu tertentu. Untuk melihat interval waktu yang digunakan dalam mengukur keakuratan suatu data warehouse, kita dapat menggunakan cara antara lain :
  • Cara yang paling sederhana adalah menyajikan data warehouse pada rentang waktu tertentu, misalnya antara 5 sampai 10 tahun ke depan.
  • Cara yang kedua, dengan menggunakan variasi/perbedaan waktu yang disajikan dalam data warehouse baik implicit maupun explicit secara explicit dengan unsur waktu dalam hari, minggu, bulan dsb. Secara implicit misalnya pada saat data tersebut diduplikasi pada setiap akhir bulan, atau per tiga bulan. Unsur waktu akan tetap ada secara implisit didalam data tersebut.
  • Cara yang ketiga,variasi waktu yang disajikan data warehouse melalui serangkaian snapshot yang panjang. Snapshot merupakan tampilan dari sebagian data tertentu sesuai keinginan pemakai dari keseluruhan data yang ada bersifat read-only.
d. Non-Volatile
Karakteristik keempat dari data warehouse adalah non-volatile,maksudnya data pada data warehouse tidak di-update secara real time tetapi di refresh dari sistem operasional secara reguler. Data yang baru selalu  ditambahkan sebagai suplemen bagi database itu sendiri dari pada sebagai sebuah perubahan. Database tersebut secara kontinyu menyerap data baru ini, kemudian secara incremental disatukan dengan data sebelumnya. Berbeda dengan database operasional yang dapat melakukan update,insert dan delete terhadap data yang mengubah isi dari database sedangkan pada data warehouse hanya ada dua kegiatan memanipulasi data yaitu loading data (mengambil data) dan akses data (mengakses data warehouse seperti melakukan query atau menampilan laporan yang dibutuhkan, tidak ada kegiatan updating data).
Data warehouse merupakan pendekatan untuk menyimpan data dimana sumber-sumber data yang heterogen(yang biasanya tersebar pada beberapa database OLTP) dimigrasikan untuk penyimpanan data yang homogen dan terpisah. Keuntungan yang didapatkan dengan menggunakan data warehouse tersebut dibawah ini (Ramelho).
Sedangkan kombinasi data mining verifikasi dan penemuan merupakan perkembangan data mining di masa depan akan mengkombinasikan pendekatan hipotesis dan penemuan. Perkembangan ini menggunakan penalaran yang sama yang mendasari konsep Sistem Pendukung Keputusan (Decision Support System – DSS). Konsep tersebut memungkinkan pemakai dan komputer bekerja sama untuk memecahkan suatu masalah. Pemakai menerapkan keahliannya dalam hal masalah, dan komputer melakukan analisis data yang canggih untuk memilih data yang tepat dan menempatkannya dalam format yang tepat untuk pengambilan keputusan. Menurut Fayyad Usama (1996), proses KDD secara garis besar dapat dijelaskan sebagai berikut:
1.  Data Selection
Pemilihan (seleksi) data daru sekumpulan data operasional perlu dilakukan sebelum tahap penggalian informasi dalam KDD dimulai. Data hasil seleksi yang akan digunakan untuk proses data mining, disimpan dalam suatu berkas, terpisah dari basis data operasional.
2. Pre-processing/ Cleaning
Sebelum proses data mining dapat dilaksanakan, perlu dilakukan proses cleaning pada data yang menjadi fokus KDD.Proses cleaning mencakup antara lain membuang duplikasi data, memeriksa data yang inkonsisten, dan memperbaiki kesalahan pada data, seperti kesalahan cetak (tipografi).Juga dilakukan proses enrichment, yaitu  proses “memperkaya” data yang sudah ada dengan data atau informasi lain yang relevan dan diperlukan untuk KDD, seperti data atau informasi eksternal.
3. Transformation
Coding adalah proses transformasi pada data yang telah dipilih, sehingga data tersebut sesuai untuk proses data mining. Proses coding dalam KDD merupakan proses kreatif dan sangat tergantung pada jenis atau pola informasi yang akan dicari dalam basis data
4. Data mining
Data mining adalah proses mencari pola atau informasi menarik dalam data terpilih dengan menggunakan teknik atau metode tertentu. Teknik, metode, atau algoritma dalam data mining sangat bervariasi. Pemilihan metode atau algoritma yang tepat sangat bergantung pada tujuan dan proses KDD secara keseluruhan.
5. Interpretation/ Evaluation
Pola informasi yang dihasilkan dari proses data mining perlu ditampilkan dalam bentuk yang mudah dimengerti oleh pihak yang berkepentingan. Tahap ini merupakan bagian dari proses KDD yang disebut dengan interpretation. Tahap ini mencakup pemeriksaan apakah pola atau informasi yang ditemukan bertentangan dengan fakta atau hipotesa yang ada sebelumnya.
Proses KDD secara garis besar memang terdiri dari 5 tahap seperti yang telah dijelaskan sebelumnya. Akan tetapi, dalam proses KDD yang sesungguhnya, dapat saja terjadi iterasi atau pengulangan pada tahap tahap tertentu. Pada setiap tahap dalam proses KDD, seorang analis dapat saja kembali ke tahap sebelumnya. Sebagai contoh, pada saat coding atau data mining, analis menyadari proses cleaning belum dilakukan dengan sempurna, atau mungkin saja analis menemukan data atau informasi baru untuk “memperkaya” data yang sudah ada.
KDD mencakup keseluruhan proses pencarian pola atau informasi dalam basis data, dimulai dari pemilihan dan persiapan data sampai representasi pola yang ditemukan dalam bentuk yang mudah dimengerti oleh pihak yang berkepentingan. Data mining merupakan salah satu komponen dalam KDD yang difokuskan pada penggalian pola tersembunyi dalam basis data.
Pengertian OLTP dan OLAP
Secara singkat OLTP adalah segala penanganan dalam proses transaksi sehari-hari, misalkan sebuah toko Alfamart yang menangani ransaksi pembelian setiap harinya, bayangkan ada berapa banyak transaksi input ke dalam database? pasti banyak sekali. lantas apakah data transaksi tersebut akan di diamkan menumpuk sampai berbulan-bulan bahkan bertahun-tahun? disinilah OLAP berperan,
Secara singkat OLAP adalah suatu proses yang digunakan untuk melakukan permintaan terhadap data dalam bentuk yang kompleks dan menganalisa data yang bervolume besar. maka dari itu OLAP seringkali disebut analisis data multidimensi. Lalu bagaimana OLAP itu bekerja? OLAP bekerja dengan data dalam bentuk multidimensiyang biasanya berbentuk 3 dimensi yang disebut kubus (cube). bagaimana kubus itu dibuat dalam OLAP? nanti akan saya bahas di artikel berikutnya. Dibawah ini adalah gambar bagaimana OLTP dan OLAP, yang saya jelaskan diatas.
Pada OLAP biasanya digunakan untuk pengambilan suatu keputusan, misalkan sebagai contoh para top level di Alfamart ingin melihat data transaksi perbulan, per 3 bulan atau bahkan per tahun untuk pengambilan keputusan barang apa saja yang paling laku dijual da barang apa saja yang tidak laku di pasar. pada OLAP dikenal dengan istilah drill-downslicing dan dicing.
  • Skema Bintang (Star Skema)
    Skema ini seperti bentuk bintang, dimana tabel fakta(fact) dipusatkan di tengah dimensi tabel, Tabel fakta memiliki beberapa key yang merupakan kunci indek individual dalam tabel dimensi.
  • Skema Bola Salju (Snowflake Schema)
    Skema ini berdasarkan perluasan dari Skema bintang, dengan tambahan beberapa dimensi yang tidak berhubungan dengan tabel fakta (Fact table)
  • Fact constellations
    Pada skema ini terdapat beberapa tabel fakta yang menggunakan satu atau beberapa tabel dimensi secara bersama-sama sehingga jika digambarkan akan terlihat seperti sekumpulan bintang.

- Copyright © 2013 ddyarmada - Date A Live - Powered by Blogger - Designed by Johanes Djogan -