Skip to content
Kezdőlap » Egyszerű, de nagyszerű adattisztítás & egyszerű és bonyolultabb adatpótlás

Egyszerű, de nagyszerű adattisztítás & egyszerű és bonyolultabb adatpótlás

Hogyan hozzuk az adatainkat elemezhető formára?

Az adattisztítás, adatelőkészítés az egész elemzési munkafolyamat 40-70%-át is adhatja. Bármilyen elemzést, adatmodellezést vagy vizualizációt azzal kell kezdenünk, hogy az adatokat megismerjük, megfelelően előkészítjük a további lépésekhez.

Alapvető adattisztítási lépések:

  • azonos oszlopok, felesleges oszlopok elhagyása
  • kategorikus változók kódolása numerikus értékekkel:
    • szükség szerint: adatvizualizációk esetén sokkal kifejezőbb a kategorikus forma, de vannak olyan elemző módszerek, amik csak numerikusan kódolt adatokkal dolgoznak
  • hiányzó adatok vizsgálata:
    • nézzük meg, hogy melyik változónál hány rekord adata hiányos, ennek függvényében dönthetünk a további adatpótlási, elemzési lépésekről
    • érdemes megvizsgálni, hogy véletlenszerű adathiányról van-e szó, vagy felfedezhetünk bennük valamilyen mintázatot
  • szöveges adatok vizsgálata:
    • előfordulhatnak különböző, kódolásból fakadó jelek a változókban, amik nem tartalmaznak jelentést, szűrjük ki őket
    • felesleges szóközök elhagyása
  • dátum változók formátumának beállítása

Néhány adatpótlási ötlet:

  • numerikus adatot középmutatóval:
    • Pótoljuk a hiányzó adatokat a változó valamely középmutatójával: célszerű a mediánt választanunk, ez nem érzékeny a kiugró adatokra, ellenben az átlaggal. Természetesen, ha indokolt, az átlagot is használhatjuk.
    • Ha kategorikus változóink is vannak, akkor csoportszinten is számolhatjuk a középmutatót, ezzel kevésbé torzítunk.
  • numerikus adatot regresszióval:
    • Adjunk becslést a hiányzó változóra a többi segítségével.
    • Akár átlag, akár mediánregressziót is készíthetünk.
  • kategorikus adatot középmutatóval: Használjuk a móduszt!
  • kategorikus adatot valamilyen kategorizációra, klasszifikációra alkalmas módszerrel:
    • Becslés bináris/multinominális logisztikus regresszióval
    • k-legközelebbi szomszéd módszer segítségével

A fenti módszerek véletlenszerű adathiányok kezelésére alkalmasak. Mielőtt kiválasztjuk az alkalmazandó módszert, gondoljuk végig, hogy milyen elemzést szeretnénk elvégezni, ennek megfelelően döntsünk! (Pl. ha regresszió segítségével szeretnénk elemezni, ne azt válasszuk adatpótlásra, mert később könnyen torz eredményeket kaphatunk!) Ha elvégeztük a megfelelő átalakításokat, adatpótlásokat, kezdhetjük is az elemzést, modellezést!

Forrás: towardsdatascience.com