|
ABSTRACT We have evaluated the analysis result of classification network traffic usage method of machine learning. Covered amount of data in unit of time and usage of port number in network traffic. The experiment could analyze unknown application such as peer to peer with unknown port number and it is usually more than 1024 port number for application. The usual method that has been utilized: ip address and port number for classification.This experiment combined amount of data, ip address also port number. For analyzing another method clustering to compare the resutl is used. The next development will be expected to see information network traffic in real time. Key Words Network traffic, Machine Learning, Internet Traffic 1. Pendahuluan Untuk mengetahui dan menganalisa lalu lintas jaringan dapat menggunakan paket header, dimana paket header menyimpan informasi IP Address asal, IP Address tujuan serta aplikasi yang digunakan berupa protokol dan jumlah data. Dalam perkembangannya, tantangan untuk menganalisa jaringan adalah mengadaptasi traffic internet yang bersifat dinamik. Aplikasi P2P file sharing, game online semakin berkembang [7]. Sehingga untuk menganalisa traffic internet tidak hanya IP Address dan port number sebagai acuan. Dalam penelitian sebelumnya telah dilakukan metode – metode untuk analisa traffic internet, diantaranya [7]: 1. Analisa dengan Port number Analisa ini berdasarkan port number yang sudah ditetapkan oleh IANA. Dalam analisa ini didapatkan hasil yang baik dengan port number yang sudah ditetapkan. Seiring dengan perkembangan teknologi P2P. analisa ini memiliki kelemahan dalam mengelompokan port number yang dinamik. 2. Analisa Pay Load Metode ini menggunakan signature dari setiap aplikasi yang sudah diketahui. Hasil yang diperoleh dapat bekerja baik dengan aplikasi P2P. Kelemahan dari aplikasi ini lebih terfokuskan kepada security sehingga diperlukan waktu pemrosesan yang tinggi. Bila data yang diterima menggunakan enkripsi metoda ini tidak dapat digunakan. 3. Analisa Machine Learning Umumnya menggunakan unsupervised dan supervised leaning. Analisa yang dilakukan mengelompokan informasi pada layar transport, yaitu SYN dan FIN dimana SYN paket yang dikirim dan FIN infromasi untuk mengakhiri paket yang dikirim, hasil yang diperoleh total number packet, mean packet size, flow duration Untuk klasifikasi menggunakan IP Address sebagai analisa jaringan, memiliki beberapa kelemahan [1] yaitu: 1. Jika aplikasi yang digunakan adalah single connection seperti HTTP, tidak dapat diketahui secara pasti protokol yang digunakan, karena semua aplikasi tersembunyi atau terbungkus oleh protokol HTTP, seperti aplikasi e-mail, peer to peer, FTP dsb 2. Terdapat tingkat security dalam IP Address, seperti IPSec, dimana IPSec merupakan protokol yang menyembunyikan alamat IP atau pun data. 3. Tidak ada perbedaan jumlah data yang digunakan dalam protokol yang berbeda, seperti HTTP dan FTP, hal ini dapat menimbulkan kerancuan dalam analisa data. Untuk beberapa hal alasan diatas, maka dalam pengujian ini kami menganalisa fitur berdasarkan jumlah data, nomor port dan IP Address sebagai klasifikasi. Untuk rangkuman dalam paper ini dapat dibagi menjadi: Bagian 2 Metoda yang digunakan, Bagian 3 Pengujian dan Hasil dan terakhir. Bagian 4 menjelaskan rangkuman dan hasil percobaan dan rencana selanjutnya. 2. Klasifikasi Machine Learning Pendekatan pada laporan ini berdasarkan klasifikasi traffic internet menggunakan flow statistic. 2.1 Pendekatan Supervised Machine Learning Klasifikasi yang digunakan adalah klasifikasi Naive Bayes. Metoda Naive Bayes menggunakan Gausian distribution untuk memperkirakan setiap kelas berdasarkan label data training. Jika sebuah koneksi baru akan diklasifikasi kemudian dengan probabilitas berdasarkan atribut yang dimiliki akan ditempatkan ke kelas yang telah di set sebelumnya. Untuk menghitung probabilitas dengan Bayes rule: 
Untuk menghitung probability ini menggunakan software WEKA dalam menghitung probabilitas. 2.1 Pendekatan Unsupervised Machine Learning Pada Unsupervised berdasarkan klasifikasi yang dibangun dari cluster yang ditemukan dan dilabelkan berdasarkan data training. Jika sebuah klasifikasi dibentuk, proses klasifikasi berdasarkan dari perhitungan klasifikasi dengan cluster yang terdekat, dan menggunakan label dari cluster untuk mengidentifikasi connection. v Proses Clustering. Proses clustering untuk menemukan cluster dalam data training. Dalam unsupervised ini menempatkan object ke dalam sebuah group berdasarkan kesamaan yang dimiliki. pendekatan unsupervised dikarenakan algoritma yang digunakan tidak mengetahui pengetahuan tentang kelas yang benar. Dalam penerapannya digunakan EM algorithm untuk mencari kesamaan dari masing –masing atribut. Awalnya algoritma expectation untuk mencari parameter yang sama, kemudian maximization untuk menghitung nilai mean (rata-rata) dan perbedaan yang digunakan untuk reestimate parameter dan dilakukan secara berulang–ulang hingga mencapai local maximum. Local maksimum disimpan dan proses EM dihitung kembali sampai semua parameter ditemukan. v Klasifikasi dari hasil Cluster. Cluster kemudian dilabelkan dengan kategori traffic yang lebih umum. Setiap koneksi baru akan diklasifikasikan dengan kelas label traffic dengan kemiripan dari cluster yang telah terbentuk. 2.2.1 Algoritma Clustring: 1. Farthest First Algoritma farthest first menggunakan pemilihan secara acak untuk menentukan centroid dalam setiap pembentukan cluster. Untuk setiap perhitungan dilakukan dengan membandingkan setiap jarak antar kejadian dan mencari jarak yang terdekat dengan centroid. Pemilihan untuk cluster centroid selanjutnya menggunakan jarak yang terjauh dari cluster centroid yang aktif. Proses ini akan terus diulang sampai jumlah cluster yang terbentuk lebih dari batas yang telah ditetapkan. 2. K Means Merupakan algoritma clustering yang berulang–ulang. Algoritma K-Means dimulai dengan pemilihan secara acak K untuk cluster centroid (nilai K umumnya ditetapkan dahulu). Setiap kejadian membentuk sebuah cluster kemudian dicari sebagai center kemudian jika jumlah anggota cluster sama dengan nilai K maka cluster tersebut ditutup. Selanjutnya setiap kejadian yang telah terbentuk centroid akan diproses ulang. Proses ini akan diulang sampai cluster centroid menjadi stabil 3. EM ( Expectation Maximization ) Untuk model algoritma EM setiap cluster sama dengan distibution probability ( kemungkinan penyebaran) dan untuk setiap kejadian data digunakan parameter nilai estimate pada setiap distribution. Algoritma pencarian yang digunakan adalah maximum likelihood, algoritma ini menguraikan parameter dari distribution dengan cara melakukan secara berulang-ulang untuk memperkirakan nilai expected dari parameter dengan hipotesis yang digunakan. Hipotesis tersebut dihitung ulang dengan expected values. EM terdiri dari dua tahap yaitu Estimation dan Maximization. Pada tahap estimation dilakukan perhitungan expected values dari parameter menggunakan hipotesis. Tahap maximization menghitung nilai hipotesis maximum likelihood dengan mengasumsikan parameter sama dengan expected value dari tahap estimation. Kedua tahap tersebut dilakukan berulang-ulang sampai hypotesa dari converge (terpusat) mencapai nilai yang stationer 4. Make Density Based Cluster Algoritma ini didukung pula dalam analisis menggunakan WEKA, dalam algoritma ini menemukan kembali cluster dengan bentuk yang arbitary (secara acak). Pertumbuhan setiap region dengan kepadatan yang cukup dari setiap cluster. Mengikuti jaringan (rantai) dari setiap objek yang terhubung dengan region. Dalam model ini menghasilkan setiap estimate anggota di setiap cluster. 3. Hasil Percobaan Dalam bagian ini dievaluasi efektifitas dari masing –masing algoritma seperti farhest first, K-Means dan Make Density Based Cluster, pertama pengumpulan data, kedua klasifikasi untuk data dan terakhir hasil dari masing–masing algoritma. a. Data Set Data berasal dari data publik yang berasal dari internet di universitas Indonesia di peroleh tanggal 21 juli 2007 dari jam 22- 23 PM dengan aplikasi snort. a. Klasifikasi Data set Untuk test klasifikasi sebelumnya dilakukan pre-classified untuk pengujian algoritma. Pre-classified dikelompokan berdasarkan protokol yang bersifat connection oriented, protokol UDP dan ICMP diabaikan karena tidak melakukan koneksi dari antar dua host. Untuk klasifikasi berikutnya berdasarkan informasi TCP Header, pay load based tidak digunakan karena sulit dalam menentukan aplikasi yang digunakan. b. Hasil Untuk perhitungan setiap algoritma ini menggunakan software weka, dan hasil dari masing –masing algoritma dapat dilihat pada tabel 1. Tabe1 1. Perbandingan Metoda Clustering | Metode | Cluster 1 | Cluster 2 | Cluster 3 | Cluster 4 | Cluster 5 | | Farther First | 2716 -36% | 1385 -18% | 372 - 5% | 723 -10% | 2314 -31% | | Make Densitity Based Clustered | 1932 - 26% | 1382 - 18% | 1507 -20% | 1297 - 17% | 1392 - 19% | | K-Means | 1762- 23% | 372 - 5% | 1677 - 22% | 1888 - 25% | 1811 - 24% | Hasil pengelompokan jumlah data dalam satuan byte dengan waktu akses ditampikan pada gambar 1. dalam hasil tersebut dalam waktu yang bersamaan jumlah data yang digunkaan berkisar 60-64 byte, 1023 byte dan 1500 byte.
Hasil pengelompokan jumlah port yang digunakan untuk koneksi dalam jaringan dan waktu akses terlihat pada gambar 2. dari hasil tersebut umumnya tujuan ke port 8080 dan unutk port asal bervariasi dari port 1123-1500.
4. Kesimpulan Dari hasil percobaan dengan analisa menggunakan software WEKA didapatkan, besaran jumlah data umumnya : 60 byte, 64 byte dan 1023 – 1500 kbyte. Port yang digunakan dalam percobaan ini didapatkan : diantara 1123 sampai 2000, dan 8080 Dari hasil yang didapatkan, dapat disimpulkan : 1. Proses capture data menggunakan teknik sniffing dengan software snort, umumnya data yang diuji adalah protokol HTTP, data browsing internet umumnya 60 – 64 byte, dan untuk data download berkisar 1023 – 1500 byte. 2. Dalam proses analisa WEKA dengan metode clustering seperti Farthest First, Make Densitity Based Clusterd, K-Means. Didapatkan K-Means dan Farthest First memiliki persentase 5 % dalam hasil pembentukan clustering. Metode Make Densitity Based Clusterd memiliki presentase diatas 15 %, metoda Make Density lebih unggul dari K-Means dan Farthest First dikarenakan metoda ini menggunakan dua proses, proses pertama memilih metoda umum seperti k-means kemudian dihitung kembali dengan algoritma make density sehingga data yang dihasilkan lebih akurat dari k-means. 3. Pada pengujian ketiga metoda tersebut dibandingkan jumlah cluster yang berbeda mulai dari 5,10,15 dan 20 dari hasil didapatkan Make Density Based lebih unggul dalam presentase data. 4. Dalam pengujian ini masih memiliki kekurangan, dikarenakan dalam hal analisa data tidak menganalisa untuk protokol yang lain, seperti FTP, SMTP dan protokol lainnya. 5. Untuk penelitian berikutnya, hasil penelitian ini dapat pula digunakan untuk mendeteksi Internet Detection System dengan melihat jumlah besar data dalam kurun waktu tertentu, atau untuk membaca data email yang digunakan untuk email filtering REFERENSI [1] Anthony McGregor, Mark Hall, Perry Lorer and James Brunskill. Flow Clustering Using Machine Learning Techniques,, 1997, ( tanggal akses :3 Maret 2007) [2] Waikato Environment for Knowledge Analysis (WEKA), http://www.cs.waikato.ac.nz/ml/weka.( tanggal akses: 3 april 2007) [3] WEKA software Machine Learning, http://www.cs.waikato.ac.nz/ml/weka, The University of waikato Hamilton, New Zealand.( tanggal akses: 3 april 2007) [4] Snort, Network Intrusion Detection System, http://www.snort.org (tanggal akses : 20 maret 2007) [5] A.W Moore and D.Zuev. Internet Traffic Classification Using Bayesian Analysis Techniques. In SIGNETRIC’05,Banff,Canada, June, 6-10,2005, ( tanggal akses: 2 Maret 2007) [6] Ian H.Witten,Eibe Frank.2000 “Data Mining Practical Machine Learning Tools and Techniques with Java Implementation”, Academic Press.United States of America [7] Jeffery Erman, ANirban Mahanti “Internet Traffic Identification using Machine Learning” (tanggal akses 5 Maret 2007) [8] T. karagiannis, A.Broido, M. Faloutsos, and K.claffy, “ Transport Layer Identification of P2P Traffic” in IMC’04, Taormina, italy, October, 25- 27, 2004 [9] Christina Lee,”An Evaluation of Machine Learning Techniques in Intrusion Detection”, Thesis, Vanderbilt University, May 2007 [10] J.R.Quinlan.C5.5:programs for machine learning.Morgan AKufmann Publisher Inc.,1993 Be first to comment this article | Views: 1740 |