Pengenalan Data Mining

Data Mining adalah campuran dari statistic, kecerdasan buatan dan riset basis data yang masih berkembang.

4 akar bidang data mining:

  1. Statistik.
  2. Kecerdasan buatan.
  3. Pengenalan pola.
  4. Sistem basis data.

Kebutuhan ‘penggalian’ informasi dari dalam data dapat dilihat pada kasus dunia nyata, diantaranya:

  • Ada sejumlah data yang sangat besar yang dikumpulkan dari berbagai bidang, seperti data web, e-commerce, supermarket, transaksi keuangan dan perbankan yang siap dianalisis dengan tujuan untuk mendapatkan keputusan yang optimal terkait tujuan lembaga.
  • Pelayanan kesehatan. Saat ini ada banyak basis data berbeda dalam bidang pelayanan kesehatan (medis dan farmasi), yang dianalisis secara parsial, khususnya dengan cara medis sendiri, padahal sebenarnya dalam data tersembunyi banyak informasi yang belum dibuka secara tepat.
  • Riset pengetahuan. Ada basis data besar yang dikumpulkan bertahun-tahun dalam bermacam-macam bidang yang tidak dapat dieksplorasi menggunakan cara tradisional.

Jadi kesimpulannya, metode dalam data mining melakukan identifikasi pola dan hubungan tersembunyi yang tidak selalu jelas dibawah keadaan asumsi tertentu. Pencarian dalam data mining tidak mencari secara individualis, tetapi set individualis atau dengan kata lain dikelompokkan dengan kriteria tertentu. Perbedaan antara pencarian biasa dengan data mining dianalogikan dengan pencarian pohon dengan pencarian hutan “tidak bisa menilai hutan hanya dengan menilai pohon”

Pekerjaan dalam data mining

  1. Model prediksi. Pekerjaan ini berkaitan dengan pembuatan sebuah model yang dapat melakukan pemetaan dari setiap himpunan variable ke setiap targetnya, kemudian menggunakan model tersebut untuk memberikan nilai target pada himpunan baru yang di dapat. Contohnya adalah melakukan deteksi jenis penyakit pasien berdasarkan sejumlah nilai parameter penyakit yang diderita masuk. Sementara melakukan prediksi jumlah penjualan yang didapatkan pada 3 bulan ke depan itu termasuk regresi karena untuk mendapatkan nilai penjualan bulan ketiga harus mendapatkan nilai penjualan bulan kedua dan untuk mendapat nilai penjualan bulan kedua harus mendapat nilai penjualan bulan pertama.
  2. Analisis kluster. Contohnya adalah bagaimana bisa mengetahui pola pembelian barang oleh konsumen pada waktu tertentu.
  3. Analisis asosiasi. Digunakan untuk menemukan pola yang menggambarkan kekuatan hubungan fitur dalam data. Contoh jika ibu rumah tangga akan membeli barang kebutuhan rumah tangga (misal beras) di sebuah supermarket, maka sangat besar kemungkinan ibu rumah tangga tsb juga akan membeli kebutuhan rumah tangga yang lain, misalnya minyak atau telur dan tidak mungkin (atau jarang) membeli barang lain seperti topi atau buku.
  4. Deteksi anomaly. Berkaitan dengan pengamatan sebuah data dari sejumlah data yang secara signifikan mempunyai karakteristik yang berbeda dari sisa data yang lain.

Proses data mining

Ada tiga langkah utama dalam data mining:

  1. Eksplorasi pemrosesan awal data. Terdiri dari ‘pembersihan’ data, normalisasi data, transformasi data, penanganan data yang salah, reduksi dimensi, pemilihan subset fitur.
  2. Membangun model dan melakukan validasi terhadapnya. Berarti melakukan analisis berbagai model dan memilih model dengan kinerja prediksi terbaik.
  3. Berarti menerapkan model pada data yang baru untuk menghasilkan perkiraan/prediksi masalah yang diinvestigasi.

Set Data

Kumpulan objek dengan atribut tertentu dimana objek tersebut adalah individu berupa data dimana setiap data memilih sejumlah atribut. Ordered data adalah data-data yang tersusun dengan suatu cara dalam urutan atau aturan tertentu, misalnya data struktur DNA mempunyai urutan genetic tertentu.

Konsep Kluster

Klustering data dapat dibedakan menjadi 2 tujuan, yaitu klustering untuk pemahaman dan klustering untuk penggunaan. Jika tujuannya untuk pemahaman maka kluster yang terbentuk harus menangkap struktur alami data. Jika tujuannya untuk penggunaan, biasanya tujuan utamanya untuk mencari prototype kluster yang paling representative terhadap data dan memberikan abstraksi dan setiap objek data dalam kluster dimana sebuah data terletak di dalamnya.

Menurut struktur, klustering terbagi menjadi 2, yaitu hirarki dan partisi. Dalam pengelompokkan berbasis hirarki, satu data tunggal bisa dianggap sebuah kluster, dua atau lebih kluster dapat bergabung menjadi sebuah kluster besar, begitu seterusnya hingga semua data dapat bergabung menjadi sebuah kluster.

Dalam kategori eksklusif, sebuah data bisa dipastikan hanya menjadi anggota satu kluster dan tidak menjadi anggota di kluster yang lain. Sementara yang termasuk kategori tumpang tindih adalah metode klustering yang membolehkan sebuah data menjadi anggota di lebih dari satu kluster, misalnya Fuzzy C-Means dan pengelompokkan berbasis hirarki.

11 Desember 2014 (22:54 PM)

Advertisements

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s