Mity i fakty na temat hurtowni danych
Hurtownie danych stanowiły sztandarowe hasło postępu
technologicznego lat 90-tych. Zdarzało się, że wdrożenia "hurtowni" w firmach
miały na celu nie tyle usprawnianie biznesu, ile poprawianie marketingowego
wizerunku firmy wobec klientów i konkurentów. W wyniku tego stanu rzeczy termin "hurtownia
danych" jakby zestarzał się przedwcześnie (szczególnie w Polsce) zanim doszło
do wdrożeń tej technologii na szerszą skalę. W tej sytuacji nie trudno było o
tworzenie mitów.
Mit 90 dni
Opracowanie
hurtowni danych “od zera” w ciągu 3 miesięcy jest nierealne jeśli mamy na
myśli coś poważniejszego niż prosty datamart, czyli aplikację zorientowaną na
proste struktury danych (np. kilkadziesiąt pól nie stowarzyszonych ze
złożonymi algorytmami obliczeń), wymagającą jedynie wizualizacji
wielowymiarowej techniką “drill down” w postaci np.kilkunastu predefiniowanych
raportów. Okres kilkudziesięciu dni może okazać się również wystarczający dla
“przyrostów” tematycznych, wykonywanych w stosunku do istniejących baz
danych
Eksperci sądzą (np. Sean Kelly), że typowy nietrywialny
projekt hurtowni danych trwa co najmniej 1
rok. , gdyż wymaga
przygotowania odpowiedniej infrastruktury. Infrastruktura ta polega m.i. na
zdefiniowaniu celów biznesowych i modelu
biznesowego pod kątem hurtowni
danych, przeniesieniu modelu biznesowego na poziom modelu danych, opracowaniu
strategii budowy hurtowni danych, założeniu centralnego repozytorium
metadanych, wyborze “tematu” dla pierwszej hurtowni danych, sformułowaniu
potrzeb informacyjnych do uzyskania z pierwszej aplikacji oraz zdefiniowaniu
danych wejściowych do hurtowni wraz z algorytmami kontroli ich jakości.
Czynności powyższe zwykle trzeba powtarzać w kilku iteracyjnych nawrotach,
zanim ustalone zostaną cele biznesowe możliwe do osiągnięcia w technologii
hurtowni danych oraz osiągnie się zadowalającą zgodność podejścia biznesowego i
informatycznego. Zbytni pośpiech w formułowaniu potrzeb
biznesowych nie jest wskazany, gdyż
koszt usuwania błędów tego etapu jest bardzo wysoki na etapie wdrażania
hurtowni
Z reguły są to zadania koncepcyjne i analityczne wymagające
dłuższego czasu, natomiast sama realizacja projektowo-programistyczna
(polegająca na implementacji już ustalonych reguł ekstraktyzacji, czyszczenia,
transformacji i ładowania danych wejściowych oraz utworzeniu predefiniowanych
raportów i prezentacji graficznych) wspierana metodycznie i narzędziowo może
być wykonana w kilkumiesięcznych terminach. Pracochłonne jest uzyskanie danych
odpowiedniej jakości - czasem samo wykonanie operacji czyszczenia danych,
pochodzących z wielu aplikacji, trwa od paru miesięcy do roku. Ponadto
niektóre aplikacje (oparte na wykrywaniu trendów) mogą funkcjonować dopiero po
nagromadzeniu odpowiednich danych historycznych (np. za okres 2 lat).
Dopiero po zbudowaniu wspomnianej wyżej infrastruktury
możliwe są tematyczne “przyrosty” co “90 dni”, co określane jest jako
strategia drobnych kroków (tzw. rapid development methodology) podporządkowana
zasadzie “Think globally, act locally” (myśl globalnie działaj
lokalnie).
Mit 90 dni coraz częściej zastępowany jest okresem 180 dni i
zasadą “zadanie na 6 miesięcy dla nie więcej niż 6 osób
projektujących. Krótkoterminowość dotyczy więc z reguły poszczególnych kroków, które można
nazwac “przyrostami” hurtowni danych. W bankach istnieje zazwyczaj wiele
(kilkadziesiąt) systemów transakcyjnych. Transformacja danych z tych systemów
do hurtowni danych może trwać lata.
Mit kosztu “minimalnego"
Koszt minimalny jest inny dla dużego banku, a inny dla
małego. W sytuacji kiedy 1 terabajt pamięci dyskowej kosztuje ok.1 ml dolarów
wolumen danych rzutuje zasadniczo na koszt przedsięwzięcia. Jeśli liczyć nie
tylko komputery do usadowienia hurtowni, licencje oprogramowania, koszty
projektu i wykonania oprogramowania, lecz też okresy zaangażowania personelu
banku, koszty konsultantów, wyjazdów konferencyjnych i szkoleniowych,
minimalny koszt przedsięwzięcia początkowego (z wdrożeniem pierwszej aplikacji
“hurtownianej” z bazą rzędu 100GB) wyniesie zapewne ok.1 ml dolarów. Koszt
budowy rozszerzonej hurtowni danych może być bardzo różny i wynosi od kilku
milionów do kilkudziesięciu milionów dolarów. Praktyka zachodnia wskazuje, że
im wyższy koszt tym wyższe ryzyko, gdyż prawdopodobieństwo niepowodzenia
dużego (i dłużej trwającego) projektu jest o wiele wyższe niż małego, ale w
przypadku powodzenia duże przedsięwzięcie (obejmujące krytyczne obszary działalnosci firmy) przynosi z reguły większy zysk .
Na hurtownię danych nie musi być stać każdą firmę. Na
zachodzie ocenia się, iż typowymi użytkownikami hurtowni danych są i będą
firmy o dochodach 100 - 700 ml dolarów rocznie. W większości przypadków (ponad
60% obrotów na rynku hurtowni danych – [IDC-2 s.10]) decydują się one na
rozwiązania globalne (enterprise wide) a nie fragmentaryczne
(data-martowe).
W małych bankach (i wszędzie tam, gdzie nie docenia się
potrzeby globalnych hurtowni danych) zapewne uprawiana będzie strategia
“małych kroków” (np. tworzenie wielu podhurtowni typu datamart zlokalizowanych
na niewielkich serwerach a nawet komputerach biurkowych), które niewiele
kosztują z osobna ale w sumie kosztują dużo, a niekoniecznie prowadzą do końcowego
sukcesu.
Mit budowy hurtowni własnymi siłami banku
Zakończone sukcesem
przedsięwzięcia hurtowni danych realizowane były z reguły jako wspólne
przedsięwzięcie konsorcjum składające się z :
- firmy software’owej, dostarczającej oprogramowanie bazodanowe lub
datamartowe oraz narzędzia typu ETL (Extraction Tranformation Loading),
oprogramowanie repozytorium metadanych i odpowiedzialnej za integrację tego
oprogramowania oraz “tuning” (ustawienie, skonfigurowanie) wydajnościowy,
- firmy konsultingowej,
zapewniającej metodologię budowy hurtowni, analizującej potrzeby biznesowe,
podnoszącej kulturę biznesową i informacyjną, wspierającej tworzenie
sponsoringu, wspomagającej dobór sprzętu i oprogramowania, umożliwiającej
kontakty z bankami które już wdrażały hurtownie
- własnego zespołu projektowego, obejmującego zarówno ludzi ze sfery
biznesu jak i informatyki, zapewniającego nie tylko techniczną sprawność
hurtowni, lecz również zdolnego do konwersji modelu biznesowego na model
danych i algorytmy komputerowe.
Mit przedsięwzięcia z góry skazanego na niepowodzenie
Czasem spotyka się w kierownictwie firmy osoby z poglądem
następującym: “Nie będziemy budować hurtowni danych, bo nigdzie się to
przedsięwzięcie nie powiodło”. Jest to wyraz albo braku rzeczywistego
przekonania do użyteczności tej technologii albo forma robienia uników przed
odpowiedzialnością za przedsięwzięcie.
Fakty mówią same za siebie (zarówno o powodzeniach jak i
ryzyku niepowodzenia). Wystarczy wziąć udział w konferencjach międzynarodowych
poświęconych hurtowniom danych i wysłuchac wystąpień przedstawicieli banków.
Ponadto warto zwrócić uwagę na nakłady ponoszone w świecie na hurtownie danych
(w 1996 roku - 2.6 mld dolarów na oprogramowanie hurtowni i wydatki sprzętowe w wysokości 3,7
mld dolarów [IDC-2].
Okresy budowy hurtowni danych
Analogicznie do innych złożonych przedsięwzięć, intuicyjnie wyróżnić można
w procesie budowy hurtowni danych następujące okresy:
okres “nieporozumień”
okres “dojrzewania”
okres działania decyzyjnego i przygotowawczego
okres twórczego działania: projektowania i budowy hurtowni danych
okres wdrażania
okres iteracyjnych modyfikacji i rozszerzania hurtowni danych
Pierwsze dwa etapy trwają zwykle 1-3 lata i w każdym
konkretnym przypadku okres ten jest trudny do skrócenia, gdyż przebiega w
“naturalnym” tempie właściwym dla danego środowiska bankowego.
Środowisko to cechuje określony poziom kultury biznesowej i informacyjnej,
a kultury nie można zmienić z dnia na dzień.
Okresy nieporozumień i dojrzewania poprzedzają pierwszą fazę
budowy hurtowni, jaką jest okres działania decyzyjnego i przygotowawczego.
Faza ta powinna doprowadzić do stanu gotowości banku do podjęcia
przedsięwzięcia zwanego za granicą “warehousingiem”.
Gotowość ta wg Seana Kelly’ego [SE-1.2] mierzona jest
następującymi dokonaniami:
- wyłonieniem sponsora przedsięwzięcia
- zdefiniowaniem biznesowych potrzeb (sił napędowych - business drivers)
wymagających zastosowania technologii hurtowni danych
- oceną środowiska danych (czyli źródeł zasilania hurtowni i jakości
danych)
- ustaleniem kierunków i kluczowych etapów budowy hurtowni danych
(roadmap).
Do gotowości tej należy jeszcze dodać zabezpieczenie odpowiednich środkow
inwestycyjnych na zakup sprzętu, oprogramowania bazodanowego, OLAPowego,
narzędziowego oraz utrzymanie personelu.
Okres “nieporozumień”
Okres “nieporozumień” jest typowy dla pierwszego okresu
budowy hurtowni danych. Korzenie jego tkwią w konieczności zmiany sposobu
myślenia zarówno kierownictwa, jak i analityków bankowych i informatyków, a w
szczególności sposobu kojarzenia potrzeb biznesowych z potrzebami
informacyjnymi oraz myślenia kategoriami wielowymiarowej analizy danych.
Chodzi tutaj
przede wszystkim o oderwanie się od stałych raportów, wskaźników i stabilnych
scenariuszy na rzecz zadawania takich pytań jak:
- co się “może” zdarzyć ( w tym “najgorsze” i “najlepsze” zdarzenia) ?
- kim są nasi klienci i co oddziaływuje na ich zachowanie ?
- co robią i zrobią konkurenci oraz klienci ?
- jak zmieni się struktura usług rynkowych i struktura klientów
uwzględniając trendy demograficzne i restrukturalizację biznesu ( rozwój czy
zanikanie małych firm, prognozy rozwoju gospodarczego rejonów i branż)
Konieczne jest zarówno zrozumienie potrzeb biznesowych jak i
specyfiki hurtowni danych. O możliwości wykorzystania technologii hurtowni
danych decyduje więc głęboka orientacja w mechanizmach rozwoju biznesu i
wyczuwanie potrzeb informacyjnych nie pod układy personalne i aktualne
struktury organizacyjne, ale pod zachodzące procesy i trendy biznesowe.
Problemu nie da się rozwiązać wyłącznie poprzez zarządzenia i powoływanie
zespołów problemowych, składających się często z przypadkowych (wolnych w danej chwili) ludzi..
Okres “nieporozumień” kończy się z chwilą przechodzenia z
postawy odrzucania idei hurtowni danych (“brak czasu”, “ważniejsze są problemy
bieżące”, “wystarczą nam ekstrakty z systemów transakcyjnych i raporty
sprawozdawcze dla NBP”) do postawy uczenia się poprzez wizyty w bankach,
seminaria prowadzone przez zewnętrzne firmy doradcze, prezentacje firm
oferujących rozwiązania aplikacyjne i narzędzia olapowe itp.
2. okres “dojrzewania”
Hurtownia danych jest w rzeczy samej nie tylko jedną z aplikacji komputerowych, lecz infrastrukturą
informacyjną w skali całej firmy, rzutującą często na warunki funkcjonowania
każdej biznesowej komórki organizacyjnej.
Dojrzewanie rozpoczyna się z chwilą uświadomienia konieczności zbudowania takich
fundamentów hurtowni danych jak:
Sprecyzowanie potrzeb biznesowych nadających się do obsługi w technologii hurtowni danych tzn.
wymagających informacji przechowywanych w kilkuletniej perspektywie czasowej
i wielowymiarowej analizy danych lub inteligentnej
eksploracji typu “data-mining”
Oto przykładowe potrzeby: typowe koszyki produktowe
klientów, ustalenie najlepszych (z punktu widzenia dochodowości banku) i
najgorszych klientów, opracowanie kluczowych mierników oceny działalności,
itp. Formułowanie potrzeb odbywa się zwykle w drodze wyodrębnienia etapu pracy
zwanego “business discovery”. Potrzeby powinny być definiowane w sposób
możliwie jasny i prosty
- Zapewnienie danym źródłowym dobrej jakości,
poprzez ulepszenie kontroli wprowadzania danych w systemach transakcyjnych i
obudowanie ekstraktów algorytmami
badania poprawności danych, nie dopuszczającymi do zaśmiecenia hurtowni.
Zapewnienie odpowiedniej jakości danych wejściowych to czasem
pon ad 50%
pracochłonności wdrożenia hurtowni danych i jeden z najważniejszych
czynników powodzenia przedsięwzięcia.
- Wybranie problemu biznesowego
odpowiedniego do pierwszego wdrożenia- niekoniecznie
najważniejszego, ale takiego który ma duże szanse powodzenia i pokazania
możliwości technologii hurtowni danych. Dla tego problemu powinny istnieć
dane odpowiedniej jakosci, niewielki stopień złożoności ma umozliwić
realizację w ciągu krótkiego okresu czasu (najlepiej w ciągu 3 miesięcy),
zaś jego wdrożenie nie utrudni późniejszej konsolidacji danych w globalnej
hurtowni. Czyli powinien to być temat względnie odosobniony o akceptowalnym
koszcie realizacji przedsięwzięcia (w przypadku ewentualnego niepowodzenia
nie wpłynie negatywnie na wyniki finansowe firmy).
- Utworzenie centralnego repozytorium metadanych
Rozpoczęcie budowy centralnego repozytorium metadanych jest
świadectwem doceniania ważności zadania porządkowania informacji w firmie,
polegającego na inwentaryzacji danych istniejących w systemach transakcyjnych,
ustaleniu jednego źródła (jednej “prawdy”) wiarygodnej informacji, zasad
weryfikacji jakości i transformacji danych na etapie zasilania hurtowni
danych, ustalenie harmonogramu migracji danych do hurtowni
etc.
Okres dojrzewania kończy się z
chwilą pojawienia się sponsora na szczeblu kierowniczym, umiejącego ocenić
stopień dopasowania potrzeb biznesowych i informacyjnych, rozumie specyfikę
przedsięwzięcia budowy hurtowni danych, potrafi nadać mu odpowiednią rangę w
skali firmy i zapewnić odpowiednie srodki realizacji.
3. okres działania decyzyjnego i przygotowawczego
W okresie tym podejmowane są konkretne działania polegające
na początku głównie na zabezpieczeniu zasobów finansowych na realizację
przedsięwzięcia oraz przygotowanie zasobów wykonawczych, w tym powołanie
(najlepiej samodzielnej) komórki organizacyjnej d/s hurtowni
danych.
Następnie
dokonywana jest ocena stanu zasobów informacyjnych oraz budowane są fundamenty
wymienione w charakterystyce okresu dojrzewania. Trudnym, m.i. ze względu na
różnorodność ofert przy braku obiektywnych ocen porównawczych, i ważnym
zadaniem będzie również przetarg na dostawę sprzętu i oprogramowania oraz
budowę hurtowni danych
4. okres twórczego działania : projektowanie i budowa
hurtowni danych
Okres ten jest najważniejszy z punktu widzenia efektów
końcowych. W przypadku budowy pierwszej aplikacji w zakresie hurtowni danych
wskazane jest oparcie metodyczne i wykonawcze o konsultantów posiadających
duże doświadczenie w budowie hurtowni danych o tej tematyce, którą bank wybrał
na pierwsze wdrożenie (zwane “Right Start” lub “Fast Start”).
Do najważniejszych decyzji w tym zakresie należy wybór
strategii budowy hurtowni danych: baz globalnych i data-martów (podhurtowni,
minihurtowni, hurtowni tematycznych). Ograniczenie budowy hurtowni danych
jedynie do data-martów może doprowadzić do ich niekontrolowanego rozrostu,
znacznego dublowania danych i związanych z tym trudności aktualizacyjnych,
nie mówiąc o utracie skonsolidowanego spojrzenia na całość zasobów informacyjnych banku.
Całościowe ujęcie wymaga opracowania globalnej (zwykle wielowarstwowej)
architektury hurtowni danych w skali banku oraz strategii jej przyrostowej
realizacji.
5.okres wdrażania
Testem dojrzałości użytkowników hurtowni danych jest
przejście na bezpośrednie korzystanie z zasobów
informacyjnych hurtowni poprzez ich własne stacje robocze, a nie w trybie
składania zapotrzebowań na raporty do sekcji informatyków czy też
administratorów hurtowni danych. Formułowanie własnych zapytań zwykle
następuje po pewnym okresie korzystania z gotowych (predefiniowanych) układów
raportowania, które potem przestają wystarczać.
Nie należy zapominać o tym, że wdrożenie hurtowni danych polega nie tyle na
jej jednorazowym załadowaniu, ile na zachowaniu staranności jej zasilania i
utrzymywaniu na bieżąco repozytorium metadanych. Staranność polega na
zapewnieniu danym dobrej jakości (w wyniku oczyszczania danych) i
terminowej aktualizacji danymi zarówno z własnych systemów transakcyjnych jak i źródeł
zewnętrznych. Do wykonywania tych czynności musi być zapewniony odpowiedni
personel. Przykładowo, w CBA (Common Bank of Australia) na 1 administratora
hurtowni danych przypada dwóch “ładowaczy” danych oraz trzech administratorów
słowników danych (tak w tym banku nazywa się repozytorium
metadanych).
6. czas refleksji i rozszerzania hurtowni danych
Budowa hurtowni danych nie jest zadaniem jednorazowym, lecz
procesem trwającym lata, gdyż jako
przedsięwzięcie integrujące dane i ukierunkowane na obsługę procesów
decyzyjnych dotyczy infrastruktury całego banku i powinno być realizowane
stopniowo, dając po każdym wdrożeniu czas na refleksję związaną z oceną tego
co zrobiono i skorygowanie założeń ogólnych o zmiany jakie w międzyczasie zaszły w
działalnosci biznesowej.
Przykładowo, jeśli rozpoczęto implementację hurtowni od
stosunkowo prostego systemu wskaźników opartych na danych księgowych, to
przyjdzie zapewne pora też na hurtownię marketingowo-klientowską ściśle
związaną z systemem zarządzania relacjami z klientem (CRM), badanie
dochodowości klientów i produktów, liczenie ryzyka rynku np. metodą kalkulacji
wartości narażonej na ryzyko VaR, itp.
Stosownie do zwiększających się wolumenów danych powinna być
rozbudowywana konfiguracja sprzętowa i software’owa. Nie kupujmy od razu na
początku przysłowiowej “armaty na muchę”, lecz decydujmy się na rozwiązania
skalowalne, czyli rozszerzalne zgodnie z potrzebami.
|