Analisis Data Sosial Media Twitter Menggunakan Hadoop dan Spark

Irfan Rizqi Prabaswara; Ragil Saputra

doi:10.25299/itjrd.2020.vol4(2).4099

Authors

Irfan Rizqi Prabaswara Departemen Ilmu Komputer/ Informatika, Fakultas Sains dan Matematika, Universitas Diponegoro
Ragil Saputra Departemen Ilmu Komputer/ Informatika, Fakultas Sains dan Matematika, Universitas Diponegoro

DOI:

https://doi.org/10.25299/itjrd.2020.vol4(2).4099

Abstract

Big data merupakan sumber data yang memiliki volume yang besar, variasi yang banyak, dan aliran data yang sangat cepat. Contoh big data antara lain data dari media sosial dan query pencarian Google. Data tersebut mampu melacak aktivitas penyakit dan data yang ada tersedia setiap saat. Pengolahan big data bukanlah suatu hal yang mudah, sehingga diperlukan suatu tools yang dapat membantu proses pengolahan terhadap big data. Salah satu tools tersebut adalah hadoop. Meskipun kinerja hadoop lebih unggul daripada RDBMS tradisional, akan tetapi pengolahan data menggunakan hadoop belum maksimal. Sehingga, diperlukan pengolahan data yang lebih cepat. Salah satu cara untuk meningkatkan kecepatan pengolahan data ialah menerapkan spark untuk proses pengolahan data yang ada di HDFS (Hadoop Distributed File System). Pada penelitian ini dilakukan plotting tren dan pemetaan pada data Demam Berdarah Dengue (DBD) yang berasal dari media sosial twitter. Penelitian ini bertujuan untuk membuat visualisasi data yang diperoleh dari twitter dengan menggunakan hadoop dan spark dalam memantau perkembangan DBD di wilayah Asia Tenggara. Hasil dari plotting tren menunjukkan adanya hubungan yang kuat antara data twitter, data asli kejadian DBD yang diperoleh dari WHO. Penelitian ini juga melakukan pengujian performa hadoop dan spark. Semakin besar alokasi memory executor yang diterapkan serta semakin besar dan serupa alokasi maksimal memory scheduler yang diterapkan pada tiap node, maka waktu yang dibutuhkan untuk menyelesaikan task semakin singkat. Akan tetapi, pada titik tertentu konfigurasi hadoop dan spark menemui titik puncaknya, sehingga jika alokasi diperbesar menghasilkan hasil yang sama.

Downloads

Download data is not yet available.

References

J. Hurwitz, A. Nugent, F. Halper, and M. Kaufman, Big Data for Dummies. New Jersey: John Wiley & Sons, Inc.

K. Basuki, H. Palit, and L. Dewi, “Implementasi hadoop: Studi kasus pengolahan data peminjaman perpustakaan universitas kristen petra,” Jurnal Infra, vol. 3, no. 2, pp. 226–232,.

B. RA, O. MJ, and B. WA, Mapping collective behavior in the big-data era. Cambridge University.

C. A. M. Toledo, C. Degener, L. Vinhal, G. Coelho, W. Meira, C. Codeco, and M. Teixeira, “Dengue prediction by the web: Tweets are a useful tool for estimating and forecasting dengue at country and city

level,” PLOS, vol. 11, no. 7, pp. 1–13,.

M. Carlos, M. Nogueira, and R. Machado, “Analysis of dengue outbreaks using big data analytics and social networks,” in 4th International Conference on Systems and Informatics (ICSAI, Hangzhou.

A. Ryanto, “Analisis kinerja framework big data pada cluster tervirtualisasi : Hadoop mapreduce dan apache spark,” Makassar.

A. S. Foundation, “Apache hadoop,” available:. [Online]. Available: https://hadoop.apache.org/.

S. Oliviandi, A. Osmond, and R. Latuconsina, “Implementation apache spark on big data based hadoop distributed file system,” e-Proceeding of Engineering, vol. 5, no. 1, pp. 1005–1012,.

A. S. Foundation, “Apache spark,” available:. [Online]. Available: https://spark.apache.org/.