Normallaşdırma lazımsız verilənləri aradan qaldırmaq üçün istifadə olunur və klasterləşdirmə alqoritmlərinin səmərəliliyini artıra bilən keyfiyyətli klasterlərin yaradılmasını təmin edir. Beləliklə, Evklid məsafəsi kimi klasterləşmədən əvvəl vacib bir addım olur. fərqlərdəki dəyişikliklərə çox həssasdır[3].
K-vasitələrinin qruplaşdırılması üçün məlumatları normallaşdırmalıyıq?
K-NN metodunda olduğu kimi, qruplaşma üçün istifadə olunan xüsusiyyətlər müqayisəli vahidlərlə ölçülməlidir. Bu halda, vahidlər problem deyil, çünki bütün 6 xüsusiyyət 5 ballıq şkala ilə ifadə edilir. Normallaşdırma və ya standartlaşdırma lazım deyil.
Klasterləşdirmədən əvvəl məlumatları necə hazırlayırsınız?
Məlumatların Hazırlanması
R-də klaster analizini yerinə yetirmək üçün, ümumiyyətlə, məlumatlar aşağıdakı kimi hazırlanmalıdır: Satırlar müşahidələrdir (fərdlər), sütunlar isə dəyişənlərdir. Məlumatda hər hansı çatışmayan dəyər silinməli və ya təxmin edilməlidir. Dəyişənləri müqayisə etmək üçün verilənlər standartlaşdırılmalıdır (yəni miqyaslı).
Klasterləşmə üçün verilənlər miqyaslanmalıdır?
Klasterləşdirmə zamanı siz bu nümunələr üçün bütün xüsusiyyət məlumatlarını ədədi dəyərdə birləşdirməklə iki nümunə arasındakı oxşarlığı hesablayırsınız. Funksiya datasının birləşdirilməsi datanın eyni miqyasda olmasını tələb edir.
Klasterləşdirmədən əvvəl funksiyaları normallaşdırmaq nə üçün vacibdir?
Standartlaşdırma Datanın mühüm addımıdırqabaqcadan emal.
Bu yazıda izah edildiyi kimi, k-vasitəsi Nyuton alqoritmindən, yəni qradient əsaslı optimallaşdırma alqoritmindən istifadə edərək xəta funksiyasını minimuma endirir. Məlumatların normallaşdırılması belə alqoritmlərin yaxınlaşmasını yaxşılaşdırır.