Oprogramowanie

Jak zaprojektować system dla Big Data?

przeczytasz w 4 min.

Rodzaje projektów Big Data i masowa analiza danych

[źródło: sxc.hu]

Rynek Big Data dojrzewa powoli, ale nieustannie. Źródłem projektów tego typu są potrzeby odbiorców biznesowych, poszukujących nowych możliwości wykorzystania takich zasobów informacyjnych, których objętość lub złożoność przetwarzania i analiz wykraczała dotąd poza możliwości organizacji.

autor: Marcin Chwin

Autor artykułu jest Business Development Managerem w regionie Oracle CEE

Większość klientów zainteresowanych Big Data poszukuje obecnie przede wszystkim odpowiedzi na pytania – jaką wartość może wnieść wykorzystanie nowych obszarów danych,  jak to wpływa na model działania firmy oraz jaka jest skala i charakter możliwych do uzyskania realnych korzyści specyficznych dla profilu działalności.

Rodzaje projektów Big Data

Wdrożenia projektów realizowane na świecie przez firmę Oracle pozwoliły pracującym tam informatykom wyróżnić trzy najczęściej uruchamiane rodzaje projektów Big Data, które wyodrębnić można ze względu na charakter, zakres i cel gromadzonych w nich informacji. Są to – rozbudowa zasobów wiedzy o klientach, pozyskiwanie informacji o rynku, reagowanie na sygnały z otoczenia organizacji. Przyjrzyjmy się uważniej tym trzem kategoriom.

[źródło: FreeDigitalPhotos]

Rozbudowa zasobów wiedzy o klientach – W tej kategorii mieszczą się projekty Big Data, których celem jest wartościowe uzupełnienie zasobów wiedzy o klientach, ich zachowaniu i otoczeniu o informacje niedostępne w systemach transakcyjnych organizacji. Istniejące repozytoria są uzupełniane o dane wywiedzione z niestrukturyzowanych informacji pozyskanych ze źródeł zewnętrznych: z portali branżowych, specjalistycznych i firmowych, sieci społecznościowych, list dyskusyjnych, newsów czy blogów, ale także z wewnętrznych zasobów danych nieustrukturyzowanych, takich jak dane z elektronicznych kanałów kontaktu czy archiwa dokumentów.

Pozyskiwanie informacji o rynku – W ramach tej grupy projektów firmy wykorzystują środowiska Big Data do gromadzenia i analiz informacji z przestrzeni publicznej dotyczących rynku i konkurencji, wizerunku, efektów działań PR oraz reakcji na kampanie marketingowe. Wspólną cechą tych projektów jest repozytorium informacyjne gromadzące połączone informacje o działaniach firmy oraz informacje pozyskiwane z portali konkurencji, branżowych, analityków rynku, portali informacyjnych, mediów społecznościowych i list dyskusyjnych.

Reagowanie na sygnały z otoczenia organizacji – Ta klasa inicjatyw obejmuje takie projekty z obszaru Big Data, których celem jest ciągłe monitorowanie wybranych zewnętrznych źródeł informacji niestrukturyzowanych oraz automatyzacja reakcji na sygnały płynące z tych źródeł. Zakres danych gromadzonych w projektach tego typu jest zazwyczaj ograniczony do minimum niezbędnego do realizacji konkretnego celu biznesowego. Rozwiązania tego typu są wykorzystywane przede wszystkim przez działy marketingu i sprzedaży (identyfikacja okazji sprzedażowych, kampanie sterowane zdarzeniami) oraz działy odpowiedzialne za inwestycje (monitorowanie rynku).

Zadbać o jakość danych

Jednym z najważniejszych wyróżników projektów Big Data jest fakt, że dotyczą one gromadzenia i przetwarzania wyjątkowo szerokiego zakresu informacji o bardzo zróżnicowanej strukturze. Dodatkowo odbywa się to w repozytorium, w którym model danych nie jest z góry ustalony, zaś poziom szczegółowości informacji zwykle określany jest w momencie wyboru i odczytu informacji. Przy wyszukiwaniu informacji w takich repozytoriach należy mieć dobry pomysł na to, jak te informacje można wykorzystać, a także jak uzyskać efekt synergii starych i nowych zasobów wiedzy.

[źródło: FreeDigitalPhotos]

W poszukiwaniu nowych, potencjalnie użytecznych danych pomagają specjalizowane narzędzia umożliwiające eksplorację zasobów informacji niestrukturyzowanych. Przykładem takiego narzędzia jest aplikacja Oracle Endeca, pozwalająca analitykowi informacji pozyskać dane z rozpoznawanych źródeł, interaktywnie poruszać się w środowisku danych bez struktury oraz identyfikować wartościowe treści i ukryte zależności. Uzyskana w trakcie prac analitycznych wiedza o zasobach informacji, po które można sięgnąć (źródła, zakres danych, zależności), jest wykorzystana następnie na etapie budowy automatycznie zasilanych środowisk analitycznych wspierających praktyczną realizację konkretnego pomysłu biznesowego.

Proces identyfikacji, selekcji, podziału, kategoryzacji i konwersji pozyskiwanych informacji do postaci użytecznej dla firmy wymaga wykorzystania zaawansowanych metod analitycznych i specjalizowanych narzędzi informatycznych. W przypadku Oracle realizacja takiego środowiska odbywa się przez budowę dedykowanego repozytorium danych niestrukturyzowanych (wykorzystującego środowisko Oracle Big Data Appliance), zastosowanie narzędzi do eksploracji i analiz danych niestrukturyzowanych (Oracle Endeca, Oracle Advanced Analytics) oraz standardowych narzędzi Business Intelligence (Oracle OBIEE).

Gromadzenie danych wymaga planowania

Oprócz dbałości o jakość gromadzonych danych, należy także przyjąć odpowiednią strategię ich gromadzenia, aby nie dopuścić do nie przynoszącego wymiernych korzyści rozrostu repozytoriów Big Data. Zwłaszcza dobrze jest zadbać o przeprowadzenie analizy potencjalnych źródeł informacji w zestawieniu z celami biznesowymi. Co prawda, koncepcja Big Data zakłada możliwość gromadzenia danych, których przydatność czy wartość ujawni się dopiero w przyszłości, jednak nie zwalnia to wdrażających z obowiązku refleksji i planowania, zapewniającego jak najszybsze osiąganie korzyści biznesowych.

[źródło: FreeDigitalPhotos]

Analizy rynku wykonane przez firmę Oracle wskazują, że głównym problemem wynikającym z rozrostu baz danych nie jest nadmierny wzrost kosztów, a raczej problemy z wydajnością przetwarzania danych. Warto przy tym wymienić dwie ważne przyczyny, dla których projekty Big Data faktycznie mogą generować wysokie koszty, nie przynosząc firmie wymiernych korzyści. Są to

– brak zrozumienia specyfiki Big Data, co skutkuje nierealnymi lub niesprecyzowanymi oczekiwaniami potencjalnych użytkowników oraz brak możliwości dyskontowania pozyskanych informacji, wynikający z nie przygotowania organizacji do wykorzystywania wyników projektu Big Data lub z braku odpowiednich narzędzi do eksploracji i analizy danych niestrukturyzowanych.

Strategiczne doradztwo

Na obecnym etapie rozwoju rynku, kluczowym zadaniem firm projektujących i budujących systemy Big Data jest strategiczne doradztwo dla ich klientów. Takie usługi powinny objąć identyfikację obszarów zastosowań Big Data w organizacji, kreowanie wizji rozwiązań wybranych problemów biznesowych z wykorzystaniem nowych, specyficznych rodzajów danych oraz wykorzystujących je systemów analitycznych, a także rzetelne konstruowanie business case’ów z oszacowaniem stopy zwrotu z inwestycji w rozwiązania Big Data. Należy zaznaczyć, że działania te wykraczają poza dziedzinę IT, wymagając znajomości kluczowych obszarów zarządzania przedsiębiorstwem oraz zdolności do świadczenia zaawansowanych usług doradztwa biznesowego.

[źródło: FreeDigitalPhotos]

Rolą dostawcy jest również wsparcie zespołu IT klienta w tworzeniu propozycji rozwiązania trzech podstawowych problemów technicznych, związanych ze składowaniem, przetwarzaniem i analizą szybko przyrastających danych o wielkiej objętości:

  1. Parametry systemu dla Big Data przekraczają wydajność tradycyjnych systemów bazodanowych (dane o połączeniach w firmach telekomunikacyjnych, dane o transakcjach w instytucjach finansowych, dane pomiarowe w przemyśle i energetyce, dane o wykorzystaniu rozbudowanych portali aukcyjnych i informacyjnych);
  2. Gromadzone dane posiadają uporządkowaną lecz zmienną w czasie strukturę, trudną do odwzorowania w tradycyjnym modelu relacyjnym, a więc trudną do obsługi przez tradycyjne systemy bazodanowe (np. dane o historii ocen klientów przechowywane z modelami analitycznymi i ich parametrami z systemów zarządzania ryzykiem lub analitycznego CRM w bankowości i telekomunikacji);
  3. Dane nie posiadają jednoznacznie zdefiniowanej struktury (dane ze źródeł otwartych wykorzystywane przez instytucje odpowiedzialne za obronę i bezpieczeństwo publiczne, czy dane z portali internetowych i sieci społecznościowych wykorzystywane do analiz rynku i profilowania klientów w różnych branżach).

Budowa zaawansowanych rozwiązań analitycznych jest długotrwałym, specyficznym procesem wymagającym dobrego rozpoznania i zrozumienia potrzeb biznesowych organizacji oraz zdolności do modelowania długoterminowej synergii pomiędzy możliwościami technologii IT oraz doświadczeniem odbiorców. Dla wielu dostawców zajmujących się technologią IT zdolność adresowania analitycznych potrzeb odbiorcy biznesowego może być barierą trudną do pokonania. Specyfika projektów z obszaru Big Data wymaga bowiem inwestycji w rozwój nowych obszarów kompetencji technologicznych oraz pozyskania know-how specyficznego dla biznesu klienta.

Komentarze

0
Zaloguj się, aby skomentować
avatar
Komentowanie dostępne jest tylko dla zarejestrowanych użytkowników serwisu.

    Nie dodano jeszcze komentarzy. Bądź pierwszy!