Döntéstámogatási technikák

Figyelem! Kérjük, az értelmezésénél a megjelenés időpontját (2002. február 1.) vegye figyelembe!

Megjelent a Cégvezetés (archív) 46. számában (2002. február 1.)

Az adattárház (Data Warehousing) a döntéstámogatási technikák gyűjteménye, amit arra szántak, hogy a döntéshozók (igazgató, menedzser, elemző) gyorsabban és megalapozottabban dönthessenek. Az utóbbi három évben robbanásszerű növekedés tapasztalható nemcsak a kínált termékek és szolgáltatások számában, hanem ezeknek a technikáknak az iparban történő alkalmazásában is. Az adattárház és az OLAP (on-line analytical processing) a döntéstámogatás alapvető elemei, amelyek mindinkább az adatbázisipar fókuszába kerültek. Manapság több kereskedelmi termék és szolgáltatás is elérhető, és az összes vezető adatbázis-menedzsment rendszer (DBMS) gyártónak van kínálata ezen a területen. A döntéstámogatás eltérő követelményeket támaszt az adatbázis-technológiával szemben, összehasonlítva a hagyományos on-line tranzakciófeldolgozó alkalmazásokkal.

Adattárház és OLAP-technológia

Az adattárház egy "témaorientált, integrált, történeti, nem változó adatgyűjtemény, amelyet elsősorban a szervezési döntéshozásban használnak". Az adattárházat tipikusan a szervezet operatív adatbázisaiból tartják karban. A technológia támogatja az OLAP-ot, amelynek funkcionális és teljesítménybeli követelményei különböznek az on-line tranzakciófeldolgozó (OLTP) alkalmazásokéitól, amelyeket az operatív adatbázisok hagyományosan támogatnak.

Az OLTP-alkalmazások jellemzően az irodai adatfeldolgozási feladatokat automatizálják, mint például rendelésbejegyzés, banki tranzakciók, amik egy-egy szervezet egyszerű, hétköznapi tevékenységei. Ezek az ismétlődő és strukturált feladatok rövid, atomi, izolált tranzakciókat tartalmaznak. A tranzakciók naprakész és részletes adatokat igényelnek, valamint nem sok (néhányszor tíz) rekordot olvasnak és módosítanak, amelyeket általában az elsődleges kulcsukkal érnek el. Az operatív adatbázisok mérete néhány száz megabájttól a gigabájtokig terjedhet. Kritikus az adatbázis konzisztenciája, visszaállíthatósága és a teljesítménymérés kulcsa, a tranzakció teljes teljesítőképességének a maximalizálása. Következésképpen az adatbázist arra tervezték, hogy az ismert alkalmazások műveleti szemantikáját kifejezze, és részben azért is, hogy minimalizálja a konkurens konfliktusokat, amelyek a párhuzamos, többklienses feldolgozásból adódnak.

Ezzel ellentétben az adattárházakat a döntéstámogatásra irányozzák. A történeti, összesített, véglegesített adatok sokkal fontosabbak, mint a részletes, egyedi rekordok. Mivel az adattárházak véglegesített adatokat tartalmaznak – akár több operatív adatbázisból, nagy időtartományból is –, ezért nagyságrendekkel nagyobbak, mint az operatív adatbázisok (a vállalati adattárházakat néhány száz gigabájttól terrabájtos méretűre tervezik). A terhelések lekérdezés (query)-központúak, főként alkalmi, komplex lekérdezésekkel, amelyek rekordok millióit érhetik el, és nagyon sok kapcsolatot (join), scant és aggregációt hajtanak végre. A lekérdezés teljesítőképessége és a válaszidők fontosabbak, mint a tranzakció teljesítőképessége.

A komplex analízisek és a megjelenítés megkönnyítésére a tárházban lévő adatokat multidimenzionálisan modellezik. Például egy üzleti adattárházban az eladás dátuma, körzete, az eladó és a termék lehet néhány lényeges dimenzió. Ezek a dimenziók gyakran hierarchikusak: az eladás dátuma nap-hónap-negyedév-év, a termék pedig termék-kategória-iparág hierarchiába szervezhető. A tipikus OLAP-műveletek tartalmazzák a "roll-up"-ot (a csoportosítás szintjét növeli) és a "drill-down"-t (csökkenti a csoportosítás szintjét vagy növeli a részletezettséget) egy vagy több dimenzió hierarchia mentén, valamint a "slice and dice"-t (szelekció és projekció) és a "pivot"-ot (átalakítja az adatok multidimenzionális képét).

Mivel az operatív adatbázisokat az ismert OLTP-terhelések támogatására hangolták, egy komplex OLAP-lekérdezés futtatása elfogadhatatlan teljesítményt eredményezne. Ráadásul a döntéstámogatás olyan adatokat igényelne, amelyek az operatív adatbázisokból hiányozhatnak (például a trendek megállapítása vagy az előrejelzés-készítés történeti adatokat igényel), ezzel szemben az operatív adatbázisok csak az aktuális adatokat tárolják. A döntéstámogatás általában több heterogén forrásból származó adat összegyűjtését igényli. A különböző források változó minőségű adatokat tartalmazhatnak, vagy ellentmondó megjelenítéseket, kódokat, formátumokat használhatnak, amelyeket össze kell hangolni. Végül, a multidimenzionális adatmodellek támogatása és a tipikus OLAP-műveletek speciális adatszervezést, elérési és implementálási módszereket igényelnek, amelyeket a kereskedelmi, OLTP-re tervezett DBMS-ek általában nem nyújtanak. Mindezek miatt az adattárházakat és az operatív adatbázisokat külön-külön valósítják meg.

Az adattárházakat standard vagy kibővített relációs DBMS-eken is megvalósíthatjuk, ezeket relációs OLAP (ROLAP)-szervernek nevezzük. Ezek a szerverek feltételezik, hogy az adatokat relációs adatbázisokban tároljuk, és támogatják az SQL (Structured Query Language) kiterjesztéseit és a speciális elérési és implementációs módszereket a multidimenzionális adatmodell és műveletek hatékony megvalósításához. Ezzel szemben a multidimenzionális OLAP (MOLAP)-szerverek speciális adatstruktúrákban (pl. tömbökben) közvetlenül tárolják az adatokat, és ezekkel valósítják meg a műveleteket.

Felépíteni és karbantartani egy adattárházat összetettebb feladat, mint egy OLAP-szerver kiválasztása, a séma és néhány lekérdezés definiálása. Több alternatív architektúra létezik. Több szervezet akar egy integrált vállalati adattárházat implementálni, ami összegyűjti az összes témában az információkat (pl. vevők, termékek, eladások, vagyon, személyzet), átfogva az egész szervezetet. Azonban egy vállalati adattárház felépítése hosszú és komplex folyamat, ami kiterjedt üzleti modellezést igényel, és sok évbe telhet, mire sikerül. Sok szervezet megelégszik e helyett a data martokkal (adatpiac, azaz az adattárház része), amik az osztályhoz tartozó, a kiválasztott témákra összpontosító alhalmazok (pl. egy marketing data mart tartalmazhatja a vevőt, a terméket és az eladási információt). Ezek a data martok lehetővé teszik a gyorsabb válaszadást, mivel nem igényelnek az egész vállalatra kiterjedő konszenzust, de hosszú távon integrációs problémákhoz vezethetnek, ha nem alakítottak ki komplett üzleti modellt.

Adatbányászat

Az adatbányászat (Data Mining) kifejezés a 90-es években jelent meg az informatikai rendszerek területén, és ma már széles körben használják, illetve hivatkoznak rá. Pontos jelentését és mibenlétét azonban napjainkban is csak kevesen ismerik. Ha definíciószerűen szeretnénk meghatározni pontos fogalmát, azt mondhatnánk, hogy az adatbányászat a nagy bázisokban rejlő és kevésbé rejtett információk felismerése és kinyerése. Az adatbányászat tehát egy adatelemzés, amelynek más eljárásokhoz hasonlóan van módszertana, és vannak eszközök, melyek hozzá köthetőek.

Az adatbányászat egyfajta üzleti döntéstámogatási módszer, amely segít megtalálni és kiaknázni új üzleti lehetőségeket a nagy tömegű adathalmazokban rejlő, nem ismert összefüggések feltárásával. Egyesíti az adatbázis-kezelés, a statisztika és a mesterséges intelligencia kutatások eredményeit. Új távlatokat nyit meg ott, ahol a hagyományos módszerek nem elég jók, vagy nem elég gyorsak az igazán hatékony adatelemzéshez. Valós múltbeli összefüggésekre alapozva segít a jövő döntéseinek megalapozásában. Általános módszer, amely minden üzleti területen hatékonyan alkalmazható.

Az adatbányászati algoritmusok meglévő alkalmazásokba való beépítésével (pl. ügyfélszolgálat) intelligens alkalmazások hozhatók létre. Olyan komplex összefüggések feltárását teszi lehetővé, amelyek nem nyerhetők ki egyszerű vagy multidimenzionális lekérdezésekkel. Hatékony eszköze az elektronikus kereskedelem bevezetésének és fejlesztésének. Az üzleti döntéstámogatás eszköztárának egyedi, mással nem pótolható része.

Egy lehetséges módszertan alapján az adatbányászati munka folyamatai: az üzleti probléma megértése, az adatok megismerése, adat-előkészítés, modellezés, a kapott eredmények értékelése, az eredmények felhasználása.

Az adatbányászat sikeres alkalmazási területei tipikusan a nagy adatbázisokon megvalósított elemzések lehetnek, ezáltal használhatóak ki igazán előnyei. Az általános statisztikai módszerek az adatállomány, illetve annak az elemző által kiválasztott részhalmazainak vagy valamilyen aggregátumainak leírására, jellemzésére és grafikai megjelenítésére alkalmasak. Az adatbányászat – a fentieken túl tanuló algoritmusai segítségével – hipotézisek felvetése nélkül képes a vizsgált jelenség szempontjából legrelevánsabb tényezők és összefüggések feltárására. Lényeges különbség van tehát a két módszer segítségével megválaszolható kérdések típusa között. Nézzünk erre egy konkrét példát:

Klasszikus statisztikai módszerek: Tényleg nagyobb a cégtől elpártolók aránya az egyedülállók körében?

Adatbányászati módszerek: Milyen paraméterekkel jellemezhetők (milyen szabályokkal írhatók le) a cégtől elpártoló ügyfeleink?

Az adatbányászat valódi értéke nem abban rejlik, hogy 100 százalékosan megbízható eredményt produkál, hanem sokkal inkább abban, hogy segítségével mekkora többletnyereséget vagy költségcsökkentést érhetünk el. Például egy direkt marketing levél kiküldésénél lehet, hogy a modell segítségével kijelölt ügyfélszegmensnek csak 5 százaléka fog válaszolni, de ez nagyon nagy szám, ha a modell alkalmazása nélkül előálló 2,5 százalékos válaszadási arányhoz viszonyítjuk.

Tanuló algoritmusok: segítségükkel hatalmas adatbázisokból komplex összefüggésrendszereket tárhatunk fel. Ehhez többszintű elemzésre van szükség. A számítástechnika csak néhány éve ért el arra a fejlettségi szintre, hogy ezek az algoritmusok beépülhessenek a mindennapi elemzésekbe. Az algoritmusok létrehozásánál általában két fontos, egymásnak ellentmondó szempont játszik meghatározó szerepet: minél gyorsabban, minél pontosabb eredmény elérése. E két szempont együttes kielégítése nem könnyű feladat, de a ma használatos algoritmusok az üzleti elemzések szempontjából már megbízható eredményeket adnak.

Döntési fa: a szabálygeneráló tanuló algoritmusokkal végzett elemzéseknek olyan vizuális reprezentálása, amikor a vizsgált kérdés egy lehetséges válaszáig vezető összefüggések rendszere pontról pontra nyomon követhető, mintha egy fán haladnánk ágról ágra. Minden elágazás azonosítható egy kérdéssel, és a továbbhaladás iránya függ a kérdésre adott választól. Például ha egy ügyfelünk nő, férjezett, és rendelkezik folyószámlával (kérdések), akkor (igen válasz) küldjünk neki a legújabb termékakciónkról direkt marketing levelet, mert valószínűleg pozitívan fog rá reagálni.

Neuronhálózatok: a tanuló algoritmusoknak egy másik típusa, ahol a keletkezett szabályrendszerek nem követhetők nyomon úgy, mint a döntési fák esetében, mivel a neuronhálózatok matematikai háttere nem teszi ezt lehetővé. Erre azonban nincs is mindig szükség. Egy kétértékű változósorra támaszkodó következtetés esetében például, ha nincs szükség arra, hogy melyik változó milyen értéket vett föl, a neuronhálózatok pontosabban és gyorsabban alkalmazhatók.

Osztályozás: olyan eljárás, amikor az ügyfeleinket már meglévő csoportokba próbáljuk meg besorolni.

Szegmentáció: ennek során az elemző tárja föl, hogy az ügyfélkör milyen csoportokra bontható, majd az ügyfeleket ezekbe a csoportokba helyezi el. A szegmentáció nagyon sok szempont alapján történhet, például profitabilitás, megbízhatóság vagy termékportfólió.

Ügyfél-életciklus érték: egy cég ügyfeleihez rendelt személyes mutató, amely általában nettó jelenértéken számított profitérték. Számításában szerepet játszhat egyrészt az adott ügyfélen eddig elért profit, másrészt egyéb, az ügyfélhez rendelt mutatók (pl. cross-selling, churn score, vásárlási hajlandóság) alapján számított, a jövőben várható profitérték. Konkrét számítási mechanizmusa erősen cégfüggő, mivel minden egyes cég, profiljától és céljaitól függően, különböző módon vehet figyelembe paramétereket (pl. marketingköltségek, támogatások, bevételi források).

Scoring: az adatbányászati elemzések eredménye – az ügyfelek várható viselkedését tekintve – szinte soha nem jelent egyértelmű besorolást. Az egyes ügyfelek a vizsgált szempont szerint a várható viselkedésük valószínűsége alapján rangsorolhatók, ezt nevezzük scoringnak. Ilyenek lehetnek például az elvándorlási valószínűség (churn score), fizetési megbízhatóság (credit score), ügyfél-életciklus érték stb.

DAS-megoldások

A DAS (Direct Attached Storage)-megoldás a legolcsóbb és legegyszerűbb adattárolásra ad lehetőséget. Hagyományos SCSI-alapú technológiával, közvetlenül a kiszolgálóeszközhöz kapcsolódó külső diszkházak és tárolótömbök alkalmazását jelenti. A DAS megvalósítása roppant egyszerű, emiatt főleg kis- és középvállalkozásoknál elterjedt módszer.

A közvetlen DAS-megoldás előnyei:

Egyszeri alacsony költséggel járó kapacitásnövekedés.

Kis munkabefektetéssel járó beüzemelés.

Magas rendelkezésre állás (clustering, hot-swapping).

Szétosztott tárolási megoldást biztosít.

Gyors telepítési és implementációs lehetőség.

A DAS hátrányai:

Az eszköz élettartamára vonatkozó mutatók kedvezőtlenek.

Rugalmatlan hordozhatóság és bővíthetőség szempontjából.

Magas és növekvő fenntartási költség.

Csak alacsony kapacitásigény mellett hatékony.

Korlátozott az eszközök közti távolság.

Teljesítménybeli és menedzselhetőségi problémák.

NAS-eszközök

A NAS (Network Attached Storage)-megoldások elsősorban a kis- és középvállalkozások számára nyújtanak gyors és hatékony megoldást. Az eszközök közvetlenül a lokális hálózatra (LAN) kapcsolódnak, saját operációs rendszerrel rendelkeznek, mely a megosztott fájlerőforrások kiszolgálásra összpontosít. E tárolóeszközök úgynevezett célrendszereknek minősülnek, és így elsődleges tulajdonságuk az egyszerű menedzselhetőség, installálhatóság.

A NAS-eszközök kívánatos jellemzőkkel rendelkeznek: Dedikáltság: ezek az eszközök előre konfigurált módon speciális feladatot látnak el (fájlok szolgáltatását a hálózaton keresztül). Más alkalmazások nem futnak. Egyszerűség: a célorientáltságból és az előkonfiguráltságból adódóan meglehetősen könnyű és gyors a NAS-eszközök telepítése és üzembe helyezése. Megbízhatóság: széles körben alkalmazzák a jól ismert redundáns tárolási és adatmentési technikákat; hardveres RAID-támogatás (tükrözés, csíkozás), menet közben cserélhető lemezek (hot-swapping) és redundáns, cserélhető áramforrások. Ehhez társul a célfeladatra optimalizált kezelőszoftver. Flexibilitás: heterogén nagyvállalati környezetekre szabottan, rengeteg nyílt szabvány és protokoll támogatása, amely megkönnyíti a felhasználás és a teljesítmény optimalizálását.

Infrastrukturális előnyök: a hibatűrő tervezésének köszönhetően, az eszköz segít kivédeni a katasztrófahelyzeteket, a váratlan leállásokat. Gyorsítja a feléledési időt, hogy folyamatos legyen az adatok zökkenőmentes elérhetősége.

A NAS-rendszereket alacsony kezdeti beruházási és alacsony folyamatos üzemeltetési költség (TCO) jellemzi.

SAN-hálózatok

A SAN (Storage Area Network) egy dedikált, központilag menedzselt, biztonságos információs infrastruktúra, amely tetszőleges szerver és adattároló rendszer csatlakozását teszi lehetővé. A gyakorlatban ez annyit jelent, hogy a megosztott erőforrásokat tároló berendezések infrastrukturálisan elkülönülnek, egy külön hálózattá alakulnak.

A mai nagyvállalati (enterprise) környezetben különböző szoftver- és hardvergyártók termékei alkotnak nyílt rendszereket, kliens/szerver vagy éppen elosztott architektúrákat. Mindegyik alrendszer különböző igényeknek felel meg, és specifikus feladatokat lát el. E rendszerek laza vagy szoros kapcsolata magában hordozza az IT-növekedési tényezőből adódó, jövőbeli problémákat, ha nincs egy jól átgondolt, központosított adattárolási koncepció, illetve egy SAN-architektúrájú infrastruktúra. Gondoljunk bele, hogy egy intenzív adatmennyiség-bővülést támogató, és folyamatos, nagy teljesítményű elérést biztosító adattároló hálózat nélkül a nagyvállalati környezetünk minden egyes alrendszere "saját problémaként éli meg" az adatarchiválás, -visszatöltés kérdését, a megfelelő jogosultságok és hozzáférések menedzselését, valamint az adatintegritás biztosítását. Ez a szigetszerű elképzelés számos hibalehetőséget okozhat, s menedzselése sokkal költségesebb, mint egy jól strukturált központi adattároló fenntartása. Ebből az elképzelésből született meg a SAN-hálózatok elmélete.

A SAN-hálózat elsődleges feladatai:

Univerzális csatlakozási felületet teremt a megosztásra kerülő erőforrásokhoz.

Tetszőleges nagyságú és minőségű IT-fejlődést támogat.

Az erőforrások eléréséhez 24x365 hozzáférést biztosít.

Egyszerű és centralizált erőforrás-menedzsment.

Hatékony információvédelem és katasztrófatűrés.

Az egész SAN-architektúrára kiterjedő, erős biztonsági védelem és adatintegritás.

A technológia felhasználásának kulcstényezői:

E-business. Biztonságosan végrehajtott adattranszformációk kezelése, amely az interneten lebonyolított vásárlási és eladási folyamatok kapcsolatából adódik.

Globalizáció. Az IT-rendszerek nemzetközi kiterjesztéséből és fejlődéséből fakadó tárolási igények kielégítése.

Nulla késleltetés. Az adatok azonnali továbbítása és feldolgozhatósága kimutatható előnyökkel jár.

Transzformáció. Lehetőség a folyamatos adaptációhoz, amely az üzleti igényekből adódó változásokból indukálódott adatok feldolgozását és elérését érinti.

Lássuk, milyen előnyöket kínál a SAN használata? A SAN adatforgalmat szabadít fel, ezzel teret enged az adattermelő IT-rendszerek teljesítményének és hatékonyságának növekedéséhez. Teszi ezt azzal, hogy számos funkciót (pl.: adatarchiválás, visszaállítás) leválaszt az IT-hálózatról, és saját infrastrukturális hatáskörben oldja meg.

A SAN növeli az adatok elérésének sebességét. Üvegszálas optikai hálózati technológiára (Fibre Channel, FC) épülve nagyon gyors hálózati adatkapcsolatot realizál a megosztott erőforrások eléréséhez.

Az IT-menedzsereknek segít a jogosultság-kontroll és archiválási stratégiák megvalósításában. Ezzel növelhetik egész rendszerük teljesítményét, valamint egyszerűbben telepíthető rendszert eredményez, amely jobban ellenáll az esetleges környezeti vagy informatikai katasztrófáknak.

A SAN a hálózati eszközök (hubok, switchek) használatával a végtelenségig rugalmasan bővíthető. A teljes adattároló hálózat megsértése nélkül egyszerűen bővíthető vagy akár csökkenthető az eszközök száma és elrendezése. Ez üzletileg roppant értékálló és flexibilisen kialakítható beruházási és üzemeltetési költséget jelent. A SAN-hálózat nemcsak hogy nagyobb és biztonságosabb működést biztosít, de fenntartási költsége – a centralizáltságból fakadóan – kisebb, mint egy szigetszerű IT-rendszeré.

Irányi Csaba

Üvegszálas technológia

Az üvegszálas (Fibre Channel, FC) szabvány az 1992-ben alapított Fibre Channel Systems Initiative szervezet munkái alapján készült el. Hatalmas előnye, hogy több különböző adatátviteli szabványt támogat, így a SCSI, ATM, TCP/IP, HiPPi protokollokat. Ahogy látható, ugyanazon a médián létezhetnek egyszerre az adat- és a hálózati protokollok. Optikai kábelezés esetén a csomópontok akár 10 km-re is lehetnek egymástól, így magában hordozza a redundáns és flexibilis rendszerek felépítésének a lehetőségét. * A Fibre Channel megoldás különböző hálózati elrendezéseket támogat, így a pont-pont, illetve a switchelt lehetőséget is. * A pont-pont jellegű elrendezés direkt kapcsolatot jelent két csomópont közt, például a szerver és a diszktömb közt. A kiszolgálószerver egy PCI-alapú illesztőkártyát tartalmaz, melyen keresztül közvetlenül kapcsolódik az adattárházhoz, s így nagyon jó teljesítményadatok érhetők el. * A switchelt elrendezés elsősorban a heterogén nagyvállalati kategóriában ajánlott, ahol nagyszámú kiszolgáló, illetve felhasználói kör szeretné ugyanazt az osztott adatterületet elérni. A rendelkezésre álló párhuzamos útvonalak miatt a lehető legnagyobb adatátvitel érhető el.

Figyelem! Kérjük, az értelmezésénél a megjelenés időpontját (2002. február 1.) vegye figyelembe!