SI dapat digunakan untuk memvalidasi baik sebuah data, cluster tunggal (satu cluster dari sejumlah cluster), atau bahkan keseluruhan cluster. Untuk menghitung nilai SI dari
sebuah data ke-i, ada 2 komponen yaitu ai dan bi. ai
adalah rata-rata jarak data ke-i terhadap semua semua data lainnya dalam
satu cluster, sedangakan bi didapatkan
dengan menghitung rata-rata jarak data ke-i terhadap semua data dari cluster yang lain tidak dalam satu cluster dengan data ke-i, kemudian
diambil yang terkecil (Tan et al, 2006,
dalam Prasetyo, 2014).
Nilai
ai mengukur seberapa tidakmirip sebuah data degnan cluster yang diikutinya, nilai yang
semakin kecil menunjukkan semakin tepat data tersebut berada di cluster tersebut. Nilai bi yang
besar menunjukkan seberapa jeleknya data terhadap cluster lain. Nilai SI yang didapat dalam rentang [-1,+1]. Nilai SI
yang mendekati 1 menunjukkan bahwa data tersebut semakin tepat berada dalam cluster tersebut. Nilai SI negatif
menunjukkan bahwa data tersebut tidak tepat berada dalam cluster tersebut. SI bernilai 0 (atau mendekati nol) menunjukkan
data tersebut posisinya berada di perbatasan di antara dua cluster. Berikut persamaan untuk menghitung nilai SI dari sebuah cluster:
No comments:
Post a Comment