Verileri ne zaman normalleştirmeli veya standartlaştırmalı?

Verileri ne zaman normalleştirmeli veya standartlaştırmalı?
Verileri ne zaman normalleştirmeli veya standartlaştırmalı?
Anonim

Normalleştirme yararlıdır verilerinizin değişen ölçekleri olduğunda ve kullandığınız algoritma, k-en yakın komşular ve yapay sinir gibi, verilerinizin dağılımı hakkında varsayımlarda bulunmaz ağlar. Standardizasyon, verilerinizin Gauss (çan eğrisi) dağılımına sahip olduğunu varsayar.

Verileri ne zaman normalleştirmeliyiz?

Tüm değişkenleri birbiriyle orantılı hale getirmek için veriler normalleştirilmeli veya standartlaştırılmalıdır. Örneğin, bir değişken diğerinden (ortalama olarak) 100 kat daha büyükse, iki değişkeni yaklaşık olarak eşdeğer olacak şekilde normalleştirirseniz/standartlaştırırsanız modeliniz daha iyi davranabilir.

Normalleştirme ve standardizasyon arasındaki fark nedir?

Normalleştirme tipik olarak değerleri [0, 1] aralığında yeniden ölçeklendirmek anlamına gelir. Standardizasyon tipik olarak, verilerin ortalaması 0 ve standart sapması 1 (birim varyans) olacak şekilde yeniden ölçeklenmesi anlamına gelir.

Veri normalleştirmeye ne zaman ve neden ihtiyacımız var?

Daha basit bir ifadeyle, normalleştirme, tüm verilerinizin tüm kayıtlarda aynı şekilde görünmesini ve okumasını sağlar. Normalleştirme, şirket adları, kişi adları, URL'ler, adres bilgileri (caddeler, eyaletler ve şehirler), telefon numaraları ve iş unvanları gibi alanları standartlaştıracaktır.

Normalleştirmeyi ve standardizasyonu nasıl seçersiniz?

İş dünyasında "normalleştirme" tipik olarak değer aralığının"0.0 ile 1.0 arasında normalleştirildi". "Standartlaştırma" tipik olarak, değerin ortalamasından kaç standart sapma olduğunu ölçmek için değer aralığının "standartlaştırıldığı" anlamına gelir.

Önerilen: