Single post

Tugas Big Data Minggu Ke-2

Intan Tamara Febrinzky

1401164228

MB-40-05

 

 

Model

Pada penelitian ini, penulis memakai model klusterisasi atau lebih tepatnya k-means clustering. Dimana klusterisasi merupakan metode penganalisaan data, yang sering dimasukkan sebagai salah satu metode data mining, yang tujuannya adalah untuk mengelompokkan data dengan karakteristik yang sama ke suatu wilayah yang sama dengan data dengan karakteristik yang berbeda ke wilayah lain.

Sedangkan k-means clustering dalam penelitian ini digunakan untuk mengelompokkan big data berupa dokumen yang berisi informasi tertentu dari kumpulan dokumen yang ada pada beberapa alamat web. Lalu akan dilakukan pencocokan jumlah kata kunci hasil text mining dalam tiap-tiap dokumen. Dari hasil tersebut, lalu dilakukan pengklasteran dengan k-means clustering terhadap koordinat titik yang menunjukan jumlah kata kunci dari masing-masing dokumen.

 

Metode

Untuk jurnal ini, metode yang digunakan adalah linkage hierarchical method, dimana sekumpulan big data  yang telah dikumpulkan akan dikelompokkan terlebih dahulu. Setelah dikelompokkan, mereka baru akan diproses. Metode ini dipilih karena akan memudahkan kita dalam mengelola big data tersebut.

 

Measurement (Pengukuran)

Di jurnal ini dijelaskan bahwa pengukuran ditinjau dari nilai precision, recall, dan waktu komputasi dari sistem. Dimana semakin tinggi nilai precision dan recall, maka semakin tinggi nilai pula nilai tingkat akurasi. Sebaliknya, semakin rendah nilai precision dan recall, maka semakin rendah pula tingkat akurasi.

Precision sendiri merupakan perbandingan jumlah dokumen relevan yang didapatkan sistem dengan jumlah seluruh dokumen yang terambil oleh sistem baik relevan maupun tidak relevan. Sedangkan recall adalah keberhasilan sistem dalam menemukan kembali sebuah informasi.

Sedangkan untuk waktu komputasi adalah Pengukuran ini dilakukan dengan cara mengetahui waktu tempuh yang terjadi ketika proses text mining berjalan hingga menampilkan hasil klasterisasi.

 

Accuracy

            Pada penelitian ini, penulis menggunakan 80% dokumen yang relevan dengan kata kunci “gol ronaldo” dan 20% tidak relevan dengan sejumlah dokumen yang berbeda. Pengujian dilakukan dengan penambahan klasterisasi menggunakan k-means clustering. Pengujian dilakukan pada sejumlah dokumen yang berbeda. Dan didapatkan hasil bahwa nilai precision menunjukkan angka tetap. Namun nilai recall dan waktu komputasi bervariasi seiring dengan bertambahnya jumlah dokumen. Nilai rata-rata precisionnya sebesar 0.8, recall 0.741, dan nilai rata-rata untuk waktu komputasi 0.579 detik.

 

Evaluasi

Untuk mengatasi big data yang tidak terstruktur dapat dengan menambahkan klasterisasi dalam indexing informasi.

 

Link jurnalhttp://jurnal.stiki.ac.id/index.php/SMATIKA/article/view/75/42

LEAVE A COMMENT

theme by teslathemes