Egyszerű, de nagyszerű adattisztítás & egyszerű és bonyolultabb adatpótlás

Hogyan hozzuk az adatainkat elemezhető formára?

Forrás: https://it-s.com/what-is-data-cleansing-2/

Az adattisztítás, adatelőkészítés az egész elemzési munkafolyamat 40-70%-át is adhatja. Bármilyen elemzést, adatmodellezést vagy vizualizációt azzal kell kezdenünk, hogy az adatokat megismerjük, megfelelően előkészítjük a további lépésekhez.

Alapvető adattisztítási lépések:

azonos oszlopok, felesleges oszlopok elhagyása
kategorikus változók kódolása numerikus értékekkel:
- szükség szerint: adatvizualizációk esetén sokkal kifejezőbb a kategorikus forma, de vannak olyan elemző módszerek, amik csak numerikusan kódolt adatokkal dolgoznak
hiányzó adatok vizsgálata:
- nézzük meg, hogy melyik változónál hány rekord adata hiányos, ennek függvényében dönthetünk a további adatpótlási, elemzési lépésekről
- érdemes megvizsgálni, hogy véletlenszerű adathiányról van-e szó, vagy felfedezhetünk bennük valamilyen mintázatot
szöveges adatok vizsgálata:
- előfordulhatnak különböző, kódolásból fakadó jelek a változókban, amik nem tartalmaznak jelentést, szűrjük ki őket
- felesleges szóközök elhagyása
dátum változók formátumának beállítása

Néhány adatpótlási ötlet:

numerikus adatot középmutatóval:
- Pótoljuk a hiányzó adatokat a változó valamely középmutatójával: célszerű a mediánt választanunk, ez nem érzékeny a kiugró adatokra, ellenben az átlaggal. Természetesen, ha indokolt, az átlagot is használhatjuk.
- Ha kategorikus változóink is vannak, akkor csoportszinten is számolhatjuk a középmutatót, ezzel kevésbé torzítunk.
numerikus adatot regresszióval:
- Adjunk becslést a hiányzó változóra a többi segítségével.
- Akár átlag, akár mediánregressziót is készíthetünk.
kategorikus adatot középmutatóval: Használjuk a móduszt!
kategorikus adatot valamilyen kategorizációra, klasszifikációra alkalmas módszerrel:
- Becslés bináris/multinominális logisztikus regresszióval
- k-legközelebbi szomszéd módszer segítségével

A fenti módszerek véletlenszerű adathiányok kezelésére alkalmasak. Mielőtt kiválasztjuk az alkalmazandó módszert, gondoljuk végig, hogy milyen elemzést szeretnénk elvégezni, ennek megfelelően döntsünk! (Pl. ha regresszió segítségével szeretnénk elemezni, ne azt válasszuk adatpótlásra, mert később könnyen torz eredményeket kaphatunk!) Ha elvégeztük a megfelelő átalakításokat, adatpótlásokat, kezdhetjük is az elemzést, modellezést!

Forrás: towardsdatascience.com

Cookie	Duration	Description
cookielawinfo-checkbox-analytics	11 months	Ezt a cookie-t a GDPR Cookie Consent plugin állítja be. A cookie az „Analytics” kategóriába tartozó cookie-khoz való felhasználói hozzájárulás tárolására szolgál.
cookielawinfo-checkbox-functional	11 months	A cookie-t a GDPR cookie hozzájárulása állítja be, hogy rögzítse a felhasználó hozzájárulását a „Funkcionális” kategóriába tartozó cookie-khoz.
cookielawinfo-checkbox-necessary	11 months	Ezt a cookie-t a GDPR Cookie Consent plugin állítja be. A cookie-k a „Szükséges” kategóriába tartozó cookie-khoz való felhasználói hozzájárulás tárolására szolgálnak.
cookielawinfo-checkbox-others	11 months	Ezt a cookie-t a GDPR Cookie Consent plugin állítja be. A cookie az „Egyéb” kategóriában lévő cookie-khoz való felhasználói hozzájárulás tárolására szolgál.
cookielawinfo-checkbox-performance	11 months	Ezt a cookie-t a GDPR Cookie Consent plugin állítja be. A cookie a felhasználó hozzájárulásának tárolására szolgál a „Teljesítmény” kategóriába tartozó cookie-khoz.
viewed_cookie_policy	11 months	A cookie-t a GDPR Cookie Consent plugin állítja be, és annak tárolására szolgál, hogy a felhasználó hozzájárult-e a cookie-k használatához. Nem tárol semmilyen személyes adatot.

Egyszerű, de nagyszerű adattisztítás & egyszerű és bonyolultabb adatpótlás

Ez a weboldal sütiket használ