Hosszú ideig az adatok kezelése lényegében csak az adatok gyűjtését, tárolását és időnkénti hozzáférését jelentette. Az elmúlt években azonban ez megváltozott és a vállalkozások el kezdték keresni azokat a kritikus információkat, amelyek több különböző helyen – a vállalati adatközpontoktól a felhőig és a peremterületig – keletkező, elérhető és tárolt hatalmas mennyiségű adatból ki lehet nyerni.
Ennek fényében az adatelemzés – amelyet olyan modern technológiák, mint a mesterséges intelligencia (MI) és a gépi tanulás is segítenek – elengedhetetlen képességgé vált, és 2022-ben ennek jelentősége még inkább felerősödött. Az adatokat – amelyek nagy része strukturálatlan – egyre gyorsabban kell elemezni, azért, hogy a vállalatok megtalálják az üzleti döntésekhez szükséges kritikus információkat.
Az adatelemzők a strukturálatlan adatok elemzésére kezdenek összpontosítani
Hagyományosan az adattudomány a strukturált adatoknak az adattárházakba történő betöltésére koncentrált. Azonban a világ adatainak 90 százaléka mára már strukturálatlan adat, az ezekre támaszkodó gépi tanulás térhódításával pedig az adattudósoknak is szükségük van az ehhez kapcsolódó képességek elsajátítására. Ezeknek a készségeknek a fejlesztése, amely magában foglalja a meglévő tudás szinten tartását, a Data Lake koncepciójának elsajátítását, valamint a strukturálatlan adatkezelési technikák elsajátítását, kiemelkedő fontosságúvá vált 2022-ben és a jövőben még fontosabb lesz.
A „jó adatok” elemzése fontosabb lesz a Big Data analitikánál
A Big Data napjainkra már túl nagyra nőtt, és olyan „adat mocsarak” jöttek létre, amelyeket csak nagyon nehezen lehet kiaknázni. A jó adatok megtalálása, függetlenül attól, hogy azok hol keletkeztek, és azok elemzése megváltoztatja az adatelemzést, hiszen ezzel rengeteg időt és kézi munkát lehet megtakarítani, miközben relevánsabb elemzést biztosít. A Big Data helyett tehát új trend lett az úgynevezett „jó adatok” elemzése.
A tárolás-agnosztikus adatkezelés a modern adatszövet egyik legfontosabb eleme
Az adatszövet egy olyan architektúra, amely biztosítja az adatok átláthatóságát, valamint az adatok hibrid tárolási és felhőalapú erőforrások közötti mozgatásának, replikálásának és hozzáférésének a képességét. A közel valós idejű elemzéseknek köszönhetően az adattulajdonosok könnyedén ellenőrizhetik, hogy az adatok a megfelelő helyen és a megfelelő időben tartózkodnak-e.
Az adatszövetek meghatározó IT trenddé válnak
Az adatszövet egyelőre még csak egy vízió. Az adatszövet-kutatás jellemzően a félig strukturált és strukturált adatokra összpontosított eddig. Azonban a világ adatainak 90 százaléka strukturálatlan (gondoljunk csak videókra, röntgenfelvételekre, log fájlokra és a szenzorokból származó adatokra), és nincs meghatározott sémájuk. A Data lake és az egyéb analitikához használt alkalmazások nem igazán tudják kiaknázni ezeket az adatokat. Ezért az adatszövet-technológiának meg kell oldania a strukturálatlan adatok tárolását (fájltárolás és objektumtárolás) és azok elemzését (beleértve Data lake-et, a gépi tanulást, és a képelemzést). A strukturálatlan adatok elemzése kulcsfontosságú, mivel a gépi tanulás ezekre az adatokra támaszkodik. Ezért az adatszövet-technológiáknak nyitottnak és szabványalapúnak kell lenniük. Tekintettel az adatok növekvő jelentőségére és puszta nagyságrendjére, a gyártóknak muszáj beépíteniük a strukturálatlan adatokat az adatszövet-architektúrájukba.
A multi-cloud különböző adatstratégiákkal fejlődik
Manapság sok szervezet rendelkezik hibrid felhőkörnyezettel, amelyben az adatok nagy részét magán adatközpontokban tárolják, és biztonsági mentéseket készítenek több szállító rendszeren keresztül. Mivel a strukturálatlan (fájl) adatok exponenciálisan nőnek, ezért a felhőt másodlagos vagy harmadlagos tárolási szintként szokták használni. Éppen emiatt az adatok értékének kinyerése a felhők és a helyhez kötött környezetek között óriási kihívást jelent. A többfelhős stratégiák akkor működnek a legjobban, ha a szervezetek különböző felhőket használnak különböző adatkészletekhez. Ez azonban egy másik problémát is felvet: az adatok mozgatása nagyon költséges, ha és amennyiben később az adatokat az egyik felhőből a másikba kell áthelyezni. Egy újabb koncepció a számítási teljesítményt az egy helyen élő adatok felé húzza.
Az adatnövekedés kezeléséhez szintetikus adatokra és strukturálatlan adatokra van szükség
Az adatbiztonság és az adatvédelem egyre fontosabbá válik, és a szintetikus adatok kiváló megoldást jelentenek a felhasználói adatok gyűjtésének megakadályozására. A szintetikus adatok emellett hordozhatóbbak is, mivel kevesebb adatvédelmi törvény vonatkozik rájuk. Bár a szintetikus adatok csökkentik az ügyféladatok lábnyomát, még mindig csak egy kis részét teszik ki a strukturálatlan adatoknak. Az adatok nagy része alkalmazás által generált adat, nem pedig felhasználói adat, ezért az adatnövekedés kezeléséhez szintetikus adatokra van szükség a strukturálatlan adatok kezelésével párosítva. A vállalatokra egyre nagyobb nyomás nehezedik, hiszen olyan adatkezelési stratégiákra van szükségük, amelyek lehetővé teszik számukra, hogy hasznos adatokat nyerjenek a kritikus üzleti döntések meghozatalához. Az analitika pedig központi szerepet játszik ebben az erőfeszítésben, csakúgy, mint a nyílt és szabványokon alapuló adatszövetek létrehozása, amelyek lehetővé teszik a szervezetek számára, hogy mindezen adatokat elemzés és cselekvés céljából ellenőrzés alá vonják.
Forrás: dataconomy