Komputery ze współczesnym światem

Przetwarzanie danych analitycznych. Sposoby przetwarzania danych analitycznych Przetwarzanie danych analitycznych

Istnieją dwie klasy systemów, które zapewniają analityczne przetwarzanie danych. Historycznie rzecz biorąc, jako pierwsze pojawiły się systemy realizujące analizę statystyczną. Wynikiem działania tych systemów są konstruowane wykresy, wykresy, regulowane raporty, które mają stałą formę i brak jest elastyczności. W takich raportach nie można zmieniać sposobu prezentacji danych: zamieniać kolumny z wierszami, powiększać, drążyć w dół itp. Jak pokazuje doświadczenie, przeglądając takie raporty, menedżerowie nie mają decyzji, ale pytania, które pociągają za sobą konstruowanie dodatkowych raportów, co wymaga czasu i zasobów oraz zmniejsza efektywność podejmowanej decyzji. Potrzeba dość szybkiego reagowania na doraźne żądania pojawiające się w trakcie analizy danych doprowadziła do powstania systemów do analitycznego przetwarzania danych online.

OLAP to klasa oprogramowanie, która zapewnia użytkownikowi możliwość otrzymywania w czasie rzeczywistym odpowiedzi na dowolne zapytania analityczne.

OLAP zapewnia analitykowi elastyczne mechanizmy manipulowania danymi i ich wizualizacji, za pomocą których ma on możliwość porównania ze sobą różnych wskaźników biznesowych, ujawnienia ukrytych zależności. W rzeczywistości z punktu widzenia LIR OLAP jest wygodną graficzną powłoką do nawigacji, wizualizacji i analizy w różnych sekcjach ogromnej ilości powiązanych ze sobą informacji o działaniach organizacji pochodzących z SI organizacji.

OLAP opiera się na koncepcji wielowymiarowej kostki danych, w której komórkach przechowywane są analizowane (liczbowe) dane, np. wielkości sprzedaży w sztukach lub w ujęciu pieniężnym, stany magazynowe, koszty itp. Te numery nazywają się środki Lub fakty(środki, fakty). Osie wielowymiarowego układu współrzędnych to główne atrybuty analizowanego procesu biznesowego, które są tzw pomiary(wymiary). Przykładami pomiarów mogą być produkt, region, typ klienta, czas.

W najprostszym przypadku kostka zawiera dwa wymiary i może być reprezentowana jako dwuwymiarowa tabela, na przykład zawiera dane dotyczące sprzedaży różnych produktów w różnych okresach. W przypadku trójwymiarowości sześcian można przedstawić graficznie, jak pokazano na rys. 3.4. Ściśle mówiąc, z punktu widzenia matematyki taka tablica nie zawsze będzie sześcianem, ponieważ liczba elementów w różne wymiary, które są „bokami” kostki, mogą nie być takie same – kostka OLAP nie ma takich ograniczeń.

Ryż. 3.4.

Oprócz tego, że kostka może zawierać nieograniczoną liczbę wymiarów, zawartość komórki może stać się bardziej skomplikowana - kostka może mieć kilka faktów, na przykład nie tylko liczbę sprzedanych towarów, ale ich koszt, saldo w magazynie. W takim przypadku komórka wyświetli wiele wartości.

Jeśli trójwymiarowy sześcian można przedstawić graficznie, to sześcianu o więcej niż trzech wymiarach nie można już zwizualizować. Dlatego w rzeczywistości do analizy wykorzystywane są wycinki kostki. jest wynikiem pobierania danych kostki przez wybrane przez użytkownika wartości wymiarów, które są nazywane etykietami (elementami). Na przykład analityk chce porównać sprzedaż trzech grup produktów w Moskwie i Petersburgu w styczniu i lutym. W tym przypadku musi uporządkować wartości wymiaru „Produkt” wierszami, wartości wymiaru „Miasto” i „Czas” – kolumnami oraz wybrać interesujące go pozycje w wymiarach. Wycinek sześcianu będzie miał postać pokazaną na ryc. 3.5.


Ryż. 3.5.

Możliwe, że analityk potrzebuje uzyskać dane odpowiadające jednej wartości wymiaru lub ogólnie wszystkim wartościom wymiaru. W tym przypadku pomiar ten nazywa się naprawił, nie jest ułożony w wiersze ani kolumny, ale pełni funkcję parametru raportu (rys. 3.6).


Ryż. 3.6.

Niektóre pomiary mogą mieć wiele poziomów. Na przykład rok dzieli się na kwartały, kwartały na miesiące, miesiące na tygodnie, tygodnie na dni; Kraj składa się z regionów, z których składają się regiony osady, w miastach można wyróżnić dzielnice i konkretne punkty sprzedaży detalicznej; towary można pogrupować w grupy produktów. W terminologii OLAP takie połączenia wielopoziomowe są nazywane hierarchie. Wymiary hierarchiczne umożliwiają analizowanie informacji na różnych poziomach agregacji. Na przykład analityk może porównać całkowitą roczną sprzedaż, a następnie „zejść” do poziomu kwartalnego, aby zobaczyć, jak zmieniała się sprzedaż w poszczególnych kwartałach.

OLAP zapewnia wygodną i piękną powłokę do poruszania się po wielowymiarowych danych. Proponowany interfejs wprowadza następujące podstawowe operacje:

  • zakręt- transpozycja, w wyniku której następuje odwrócenie wierszy i kolumn tabeli;
  • projekcja - agregacja wartości w komórkach leżących na osi projekcji według określonego prawa (sumowanie, znajdowanie średniej, określanie liczby niepustych komórek itp.);
  • ujawnienie lub szczegóły(drill-down), - zastąpienie jednej z wartości pomiaru zestawem wartości z kolejnego poziomu hierarchii pomiarów;
  • splot lub konsolidacja(roll-up/drill-up), - odwrotna operacja otwierania;
  • Sekcja(slice-and-dice) – uzyskanie „wycinka” danych poprzez ustawienie parametrów ich selekcji z kostki.

Ogólnie algorytm OLAP obejmuje następujące kroki:

  • uzyskanie danych w postaci płaskiej tabeli lub wyniku zapytania SQL;
  • zapisywanie danych w pamięci RAM i przekształcanie ich w wielowymiarową kostkę;
  • wyświetlanie skonstruowanej kostki za pomocą tabeli przestawnej lub wykresu. Ogólnie rzecz biorąc, do jednej kostki można podłączyć dowolną liczbę odwzorowań.

Po raz pierwszy definicję technologii OLAP podał E. Codd w 1993 roku. Codd opisał możliwości analizy wielowymiarowej i sformułował 12 reguł OLAP, do których nieco później (w 1995 r.) dodano kilka kolejnych. Rozważmy je bardziej szczegółowo.

  • 1. Wielowymiarowa koncepcyjna reprezentacja danych(Wielowymiarowy widok koncepcyjny). Produkt OLAP wykorzystuje wielowymiarowy model reprezentacji danych, w którym kategoryczne atrybuty danych są traktowane jako wymiary, a ilościowe atrybuty danych są traktowane jako fakty.
  • 2. Przezroczystość(Przezroczystość). Należy ukryć przed użytkownikiem, w jaki sposób realizowany jest model wielowymiarowy, jakie konkretnie środki są wykorzystywane do przechowywania i przetwarzania danych, jak dane są zorganizowane i skąd pochodzą.
  • 3. Dostępność(Dostępność). Zestaw narzędzi OLAP musi zapewniać użytkownikowi dostęp do danych niezależnie od ich lokalizacji i sposobu przechowywania. Jednocześnie należy zachować jeden, spójny i spójny model danych.
  • 4. Zrównoważona wydajność(spójna wydajność raportowania). Wysoka wydajność OLAP musi być zapewniona niezależnie od liczby wymiarów modelu wielowymiarowego i wielkości bazy danych.
  • 5. Architektura klient-serwer(Architektura klient-serwer). Aby zapewnić operacyjne przetwarzanie analityczne rozproszonych danych, produkt OLAP musi działać w oparciu o architekturę klient-serwer. Aby uogólniać i konsolidować dane z różnych fizycznie odseparowanych korporacyjnych baz danych, narzędzie musi wspierać budowę wspólnego koncepcyjnego schematu danych.
  • 6. Równość pomiarów(ogólna wymiarowość). Wszystkie wymiary w kostce wielowymiarowej muszą mieć ten sam zestaw dostępnych funkcji. W razie potrzeby można dodać dowolny wymiar dodatkowe cechy. Podstawowa struktura danych, formuły obliczeniowe i formaty raportowania nie powinny być powiązane z żadnym jednym wymiarem.
  • 7. Dynamiczna obsługa rzadkich macierzy(Obsługa dynamicznej rzadkiej macierzy). Ponieważ tabele przestawne generowane przez narzędzie OLAP są często rzadkie, muszą być optymalnie przetwarzane. Narzędzie musi zapewniać wysoką szybkość przetwarzania niezależnie od lokalizacji komórek danych, liczby wymiarów w kostce oraz rzadkości danych.
  • 8. Wsparcie dla wielu graczy(Obsługa wielu użytkowników). Narzędzie OLAP powinno umożliwiać kilku użytkownikom jednoczesną pracę z tymi samymi danymi oraz zapewniać integralność i ochronę danych.
  • 9. Nieograniczone wsparcie dla operacji międzywymiarowych(Nieograniczone operacje międzywymiarowe). Podczas wykonywania operacji na danych (krojenie, obracanie, konsolidacja, uszczegóławianie) muszą być zachowane relacje funkcjonalne między komórkami wielowymiarowej kostki, opisane za pomocą formuł. Transformacje ustalonych relacji muszą być wykonywane przez system samodzielnie, bez konieczności ich ponownego definiowania przez użytkownika.
  • 10. Intuicyjna manipulacja danymi(Intuicyjna manipulacja danymi). Interfejs użytkownika dokonywanie manipulacji danymi powinno być jak najbardziej wygodne, naturalne i komfortowe.

I. Elastyczny mechanizm raportowania(Elastyczne raportowanie). Narzędzie OLAP musi obsługiwać różne sposoby wizualizacji danych (tabele, wykresy, mapy) w dowolnej możliwej orientacji.

12. Nieograniczone wymiary i poziomy agregacji(Nieograniczone wymiary i poziomy agregacji). Narzędzie OLAP musi obsługiwać analityczny model danych, który może zawierać do 20 wymiarów. Jednocześnie narzędzie powinno umożliwiać użytkownikowi zdefiniowanie dla każdego wymiaru nieograniczonej liczby poziomów agregacji w dowolnym kierunku konsolidacji.

Aby zdefiniować OLAP jako narzędzie analityczne, jako uniwersalne kryterium stosuje się test FASMI (Fast Analysis of Shared Multidimensional Information). Rozważmy szczegółowo każdy ze składników tego skrótu.

Szybko(szybko). Zapytania użytkowników powinny być przetwarzane przez system OLAP z dużą szybkością, przy czym średni czas przetwarzania zapytania nie powinien przekraczać 5 s, większość zapytań powinna być przetwarzana w ciągu 1 s, najbardziej złożone zapytania wymagające dużych obliczeń powinny być przetwarzane nie dłużej niż 20 S.

Analiza(analiza). Narzędzie OLAP musi zapewniać użytkownikowi narzędzia do analizy statystycznej oraz zapewniać przechowywanie wyników w formie dostępnej dla użytkownika końcowego. Narzędzia analityczne mogą obejmować procedury analizy szeregów czasowych, analizy wariancji, obliczania wzrostu i stóp wzrostu, obliczania wskaźników strukturalnych, przeliczania na różne jednostki miary itp.

wspólny(dostęp współdzielony). Narzędzie OLAP musi mieć możliwość pracy w trybie wielu użytkowników.

Wielowymiarowy(wielowymiarowy). Aplikacja OLAP musi zapewniać wielowymiarowy widok danych obsługujący wymiary hierarchiczne.

Informacja(Informacja). Narzędzie OLAP musi zapewniać użytkownikowi dostęp do informacji, niezależnie od elektronicznej hurtowni danych, w której się znajduje.

W zależności od odpowiedzi na pytanie, czy wielowymiarowa kostka istnieje jako odrębna struktura fizyczna, czy tylko jako wirtualny model danych, wyróżnia się systemy MOLAP (Multidimensional OLAP) i ROLAP (Relational OLAP). MOLAP implementuje wielowymiarową reprezentację danych na poziomie fizycznym w postaci wielowymiarowych kostek. Systemy ROLAP wykorzystują klasyczny model relacyjny, który jest wspólny dla systemów OLTP. W tym przypadku dane są przechowywane w tabelach relacyjnych, ale specjalne struktury emulują ich wielowymiarową reprezentację. Istnieją również hybrydowe OLAPy (HOLAP - Hybrid OLAP), w których szczegółowe dane są przechowywane w tabelach relacyjnych, a dane zagregowane są przechowywane w wielowymiarowych kostkach. Takie połączenie modeli relacyjnych i wielowymiarowych pozwala na połączenie wysokiej wydajności charakterystycznej dla modelu wielowymiarowego oraz możliwości przechowywania dowolnie dużych tablic danych właściwych modelowi relacyjnemu.

  • Codd E. Udostępnianie OLAP analitykom użytkowników: mandat IT // Computerworld. 1993. T. 27. Nr 30.

Temat 6

KORPORACYJNE SYSTEMY INFORMATYCZNE DO PRZETWARZANIA INFORMACJI GOSPODARCZEJ

Koncepcja korporacyjnej technologii informacyjnej

Istota i znaczenie korporacyjnych technologii informacyjnych

Wśród różnorodnych programów dla biznesu pod hasłem „ technologia informacyjna w ładzie korporacyjnym” tradycyjnie rozumiane są jako „złożone systemy automatyzacji zarządzania”. Znane są również inne ich nazwy – systemy ogólnokorporacyjne, systemy informacji korporacyjnej (CIS), korporacyjne (lub złożone) systemy zarządzania (CMS), zautomatyzowane systemy sterowanie (ACS).

Z reguły złożone systemy automatyki sterowania są „podstawowymi” uniwersalnymi rozwiązaniami odpowiednimi różne rodzaje przedsiębiorstwa. Przede wszystkim dotyczy to zarządzania finansami, zarządzania zapasami, zarządzania zakupami i sprzedażą. Ale te same systemy często mają rozwiązania branżowe, które odzwierciedlają tę lub inną specyfikę i zawierają odpowiednią bazę regulacyjną i referencyjną.

Na przykład rozwiązanie systemowe SAP R/3 dla przemysłu lotniczego wspiera ewidencję i kontrolę numerów seryjnych wszystkich części samolotów, ich żywotności, planowanych wymian lub napraw, co zapewnia nie tylko niezawodność produkcji, ale także bezpieczeństwo pasażerów.

Ponieważ zintegrowane systemy sterowania zorientowane są przede wszystkim na duże przedsiębiorstwa o wieloprofilowych strukturach, oferują nie tylko rozbudowany zestaw funkcji, ale także zapewniają niezawodne przechowywanie i przetwarzanie dużej ilości informacji, przy wykorzystaniu potężnych platform i narzędzi systemowych do praca wielu użytkowników. .

Nowoczesne technologie informacyjne, komunikacja i Internet pozwalają nam rozwiązywać problemy dostęp zdalny do jednej bazy danych, co ma również znaczenie dla ładu korporacyjnego.

Koncepcja budynku

Chociaż większość programistów nazywa swoje oprogramowanie zarządzaniem (firma, magazyn, finanse itp.), w istocie prawie wszystkie programy stosowane w ładzie korporacyjnym to ewidencja faktów i dokumentów działalności finansowej i gospodarczej, systemy księgowe z możliwością konstruowania sprawozdania i piśmiennictwo w działach, dopuszczalne znakami analitycznymi. Oznacza to, że do bazy danych wprowadzane są ustrukturyzowane informacje. Struktura ta jest do pewnego stopnia określona przez połączone ze sobą podręczniki, klasyfikatory, parametry i formularze. standardowe dokumenty. Według informacji dostępnych w bazie danych tzw. „wycięty” jest „budowany”, „rysowany”, „montowany” za pomocą narzędzi. Po otrzymaniu raportów i certyfikatów opartych na takich danych, często nazywanych analitycznymi, kierownictwo może podejmować decyzje. Jest to typowa koncepcja i typowa technologia pracy z systemami rozważanej klasy.



To nie przypadek, że tak odmienna treść funkcjonalna, rozwiązania systemowe, przeznaczenie i wykorzystanie oprogramowania „zarządzającego”, takiego jak „Galaktika”, „BEST” i „1C: Enterprise”, jest podobne pod względem zasad organizowania informacji, technologii ich tworzenia i przetwarzania, a także metod interakcji z systemami.

Niemniej jednak przedsiębiorstwa, na przykład OAO Uralelektromed, stawiają tak rygorystyczne i zróżnicowane wymagania wobec narzędzi ładu korporacyjnego, że konieczne staje się ich wielopoziomowe budowanie. Zwykle rdzeń jest rdzeniem systemu, zawierającym tylko kody programów. Kolejnym istotnym koncepcyjnie elementem jest wbudowany zestaw narzędzi systemu, który bez zmiany kodów programu pozwala przynajmniej konfigurować go na stanowisku pracy, wykonywać określone operacje, wprowadzać nowe i zmieniać istniejące formularze dokumentów podstawowych i sprawozdawczych oraz użyj innych ustawień parametrycznych. Bardziej rozbudowane systemy mają wbudowane narzędzia do tworzenia różnych modeli przedsiębiorstwa: informacyjnych, organizacyjnych, funkcjonalnych itp. I wreszcie sama baza danych.

Analityczne przetwarzanie informacji

Planowanie działań przedsiębiorstwa, uzyskiwanie informacji operacyjnych i podejmowanie właściwych decyzji na podstawie ich analizy wiąże się z przetwarzaniem dużej ilości danych. Raporty generowane w systemach zarządzania księgowością przedsiębiorstwa zazwyczaj nie są elastyczne. Nie można ich „skręcić”, „rozwinąć” ani „zwinąć”, aby uzyskać pożądaną reprezentację danych, w tym reprezentację graficzną. Im więcej „cięć” i „cięć” możesz wykonać, tym bardziej realistyczny możesz sobie wyobrazić obraz działalności przedsiębiorstwa i podjąć najlepszą decyzję dotyczącą zarządzania procesami biznesowymi. Takie zadania wymagają modelowania matematycznego i ekonomicznego, a także dużej szybkości. Moduł analityczny jest dostępny w systemie „RepCo”, bardziej znany jest system „Triumph-Analytics” (Korporacja „PARUS” - „Tora Center”). Mogłoby się wydawać, że systemy księgowe budują certyfikaty w różnych „sekcjach” zgodnie z informacjami przechowywanymi w bazie danych, po prostu reprezentują to, co jest. Budowane są systemy analityczne Nowa informacja według zadanych parametrów lub kryteriów, optymalizując go do określonych celów. Dlatego często potrzebne jest specjalne narzędzie do przeglądania i wizualizacji informacji, jakim jest „analiza danych online” (OLAP - online analysis processing). Dostarcza zestaw wygodnych i szybkich narzędzi umożliwiających dostęp, przeglądanie i wielowymiarową analizę informacji zgromadzonych w repozytorium.

Technologie OLAP są wykorzystywane do modelowania sytuacji zgodnie ze schematem „co się stanie, jeśli…”, do kompilowania różnych raportów analitycznych. Istnieją wyspecjalizowane produkty oprogramowania zachodniego.

Zwykle informacje są przekazywane z systemów zarządzania przedsiębiorstwem do wyspecjalizowanych programów do analitycznego przetwarzania danych. Wielu krajowych programistów próbuje samodzielnie rozwiązać te problemy, na przykład firmy Nikos-Soft (system NS-2000), Cepheus (system zarządzania przedsiębiorstwem Etalon), COMSOFT (kompleks programowo-metodologiczny i narzędziowy COMSOFT-STANDARD „2.0) i inni.

6.4. Perspektywy rozwoju i wykorzystania korporacyjnych technologii informatycznych

Oprócz rozwoju i wykorzystania nowoczesnych narzędzi i platform, a także narzędzi systemowych, rozwój rodzimych systemów korporacyjnych wiąże się z ich nasyceniem funkcjonalnym, zwłaszcza pod względem produkcyjnym.

Mimo powszechnego entuzjazmu dla wdrażania standardów zarządzania, czołowi gracze na rodzimym rynku oprogramowania opracowują rozwiązania branżowe dla różnych typów branż.

Zmniejszają się obawy firm przed ujawnieniem „poufności” ich rozwoju, co przyczynia się do konsolidacji ich wysiłków na rzecz integracji swoich produktów, zamiast opracowywania wszystkiego od „a” do „z” na własną rękę. Dziś nikt nie ma wystarczających zasobów. Zrozumienie nowej koncepcji, opracowanie projektu i systemu, czyli systemu, który zmienia swoją jakość w zależności od tego, co zawiera, zajmuje lata. Ponadto wymóg integracji oprogramowania stawiają również przedsiębiorstwa, które chcą „pracować” z reguły wyspecjalizowane systemy i łączyć je informacyjnie z nowo pozyskanymi.

Integracji wymagają również produkty różnych producentów – w imię łączenia rozwiązań kompleksowych ze specjalistycznymi:

– budżetowanie, analizy finansowe i ekonomiczne, obsługa klienta, przetwarzanie danych analitycznych itp.

Należy zauważyć, że to nie same systemy sterowania są bardziej obiecujące, ale proste i uniwersalne narzędzie do ich tworzenia, przeznaczone dla wykwalifikowanych pośredników między deweloperem a użytkownikiem końcowym. Teraz te funkcje próbują wykonać administratorzy systemu i analityki.

Jeśli takie narzędzie będzie dostępne, poszukiwane będą „gotowe” standardowe rozwiązania dla wszystkich przedsiębiorstw ze wszystkich branż.

Internet jako dodatkowe narzędzie rozwoju biznesu może być efektywnie wykorzystany tylko wtedy, gdy istnieje zintegrowany system zarządzania.

Chociaż nowoczesne informacje i technologie komunikacyjne, w tym Internet, oraz umożliwiają organizowanie wypożyczania oprogramowania, jest zbyt wcześnie, aby mówić o krótkoterminowym wykorzystaniu takich możliwości, zwłaszcza w naszym kraju. I to nie tyle ze względu na poufność, co z powodu braku porządku i niezawodnych środków komunikacji.

Próby wprowadzenia i wykorzystania, nawet niepełnego, doświadczenia technologii informatycznych w krajowych przedsiębiorstwach dowiodły w praktyce, że „chaosu nie da się zautomatyzować”. Konieczna jest wstępna reorganizacja przedsiębiorstwa i samego przedsiębiorstwa oraz zbudowanie regulaminu zarządzania (instrukcji). Pracownikom przedsiębiorstwa trudno jest samodzielnie poradzić sobie z taką pracą. Zwłaszcza biorąc pod uwagę czynnik czasu w warunkach rynkowych. Dlatego wszędzie rozwija się praktyka interakcji z firmami konsultingowymi, które pomagają przedsiębiorstwom i uczą ich pracowników „rozszerzać wąskie gardła”, ustalać główny proces biznesowy, rozwijać technologię, budować przepływy informacji itp. Automatyzacja ustalonego procesu jest łatwiejsza, prostsza, tańsza, szybsza.

Każdy musi wykonywać swoją pracę. Księgowy, magazynier, kierownik sprzedaży i inni specjaliści „przedmiotowi” nie powinni poprawiać formy formularzy dokumentów, rozsuwać kolumn ani zmieniać ich miejsca ze względu na zmiany legislacyjne lub modele biznesowe. Dlatego rynek oprogramowania stopniowo zmienia się z „spożywczego” w „serwisowy”. Zaczyna się rozwijać outsourcing – przekazanie niektórych funkcji przedsiębiorstwa specjalistom zaangażowanych firm. Zajmują się konserwacją sprzętu, oprogramowania systemowego, modyfikacją części użytkowej (funkcjonalnej) systemów itp.

Najważniejszym i najbardziej istotnym w stosowaniu systemów zarządzania przedsiębiorstwem jest informatyczna i metodyczna obsługa ich użytkowników i konsumentów.

3.4 Metody przetwarzania danych analitycznych

Aby istniejące hurtownie danych przyczyniały się do podejmowania decyzji zarządczych, informacja musi być prezentowana analitykowi w odpowiedniej formie, tj. musi mieć opracowane narzędzia dostępu i przetwarzania danych z hurtowni.

Bardzo często systemy informacyjne i analityczne tworzone z myślą o bezpośrednim wykorzystaniu przez decydentów okazują się niezwykle proste w obsłudze, ale mocno ograniczone pod względem funkcjonalności. Takie statyczne systemy nazywane są Executive Information Systems (ISS) lub Executive Information Systems (EIS). Zawierają wiele próśb i chociaż są wystarczające do codziennej weryfikacji, nie są w stanie odpowiedzieć na wszystkie pytania, które mogą pojawić się podczas podejmowania decyzji. Wynikiem działania takiego systemu są z reguły wielostronicowe raporty, po dokładnym przestudiowaniu, które analityk Nowy odcinek pytania. Jednak każde nowe żądanie, nieprzewidziane podczas projektowania takiego systemu, musi najpierw zostać formalnie opisane, zakodowane przez programistę, a dopiero potem wykonane. Czas oczekiwania w tym przypadku może wynosić godziny i dni, co nie zawsze jest do zaakceptowania.

Przetwarzanie analityczne online. Lub przetwarzanie analityczne on-line, OLAP jest kluczowym elementem organizacji hurtowni danych. Koncepcja OLAP została opisana w 1993 roku przez Edgara Codda i ma następujące wymagania dla aplikacji do analizy wielowymiarowej:

– wielowymiarowa koncepcyjna reprezentacja danych, w tym pełne wsparcie dla hierarchii i wielu hierarchii (kluczowy wymóg OLAP);

– dostarczenie użytkownikowi wyników analizy w akceptowalnym czasie (zwykle nie więcej niż 5 s), nawet kosztem mniej szczegółowej analizy;

– możliwość przeprowadzenia dowolnej analizy logicznej i statystycznej charakterystycznej dla ta aplikacja i ich zachowanie w postaci dostępnej dla użytkownika końcowego;

– dostęp wielu użytkowników do danych z obsługą odpowiednich mechanizmów blokujących i narzędzi autoryzowanego dostępu;

- możliwość dostępu do wszelkich niezbędnych informacji, niezależnie od ich objętości i miejsca przechowywania.

System OLAP składa się z wielu komponentów. Na najwyższym poziomie prezentacji system zawiera źródło danych, wielowymiarową bazę danych (MDB) dającą możliwość zaimplementowania silnika raportowania OLAP, serwer OLAP oraz klienta. System zbudowany jest na zasadzie klient-serwer i zapewnia zdalny i wieloużytkownikowy dostęp do serwera MDB.

Rozważ komponenty systemu OLAP.

Źródła.Źródłem w systemach OLAP jest serwer dostarczający dane do analizy. W zależności od obszaru zastosowania produktu OLAP źródłem może być hurtownia danych, odziedziczona baza danych zawierająca dane ogólne, zbiór

tabele, które łączą dane finansowe lub dowolną kombinację powyższych.

Magazyn danych. Początkowe dane są gromadzone i umieszczane w hurtowni zaprojektowanej zgodnie z zasadami budowania hurtowni danych. CD to relacyjna baza danych (RDB). Główna tabela danych (tabela faktów) zawiera wartości liczbowe wskaźników, dla których zbierane są informacje statystyczne.

Wielowymiarowa baza danych Magazyn danych służy jako dostawca informacji dla wielowymiarowej bazy danych, która jest zbiorem obiektów. Główne klasy tych obiektów to wymiary i miary. Wymiary obejmują zestawy wartości (parametrów), według których dane są indeksowane, np. czas, regiony, typ instytucji itp. Każdy wymiar jest wypełniony wartościami z odpowiednich tabel wymiarów hurtowni danych. Zbiór pomiarów określa przestrzeń badanego procesu. Metryki to wielowymiarowe kostki danych (hipersześciany). Hipersześcian zawiera same dane, a także zagregowane sumy dla wymiarów składających się na wskaźnik. Wskaźniki stanowią główną treść MDB i są wypełniane zgodnie z tabelą faktów. Wzdłuż każdej osi hipersześcianu dane mogą być zorganizowane w hierarchię reprezentującą różne poziomy szczegółowości. Pozwala to na tworzenie hierarchicznych wymiarów, według których podczas późniejszej analizy danych będzie dokonywana agregacja lub uszczegółowienie prezentacji danych. Typowym przykładem wymiaru hierarchicznego jest lista obiektów terytorialnych pogrupowanych według powiatów, regionów, powiatów.

Serwer. Częścią aplikacyjną systemu OLAP jest serwer OLAP. Ten komponent wykonuje całą pracę (w zależności od modelu systemu) i przechowuje wszystkie informacje, do których aktywnie uzyskuje się dostęp. Architektura serwera podlega różnym koncepcjom. W szczególności główną cechą funkcjonalną produktów OLAP jest wykorzystanie MDB lub RDB do przechowywania danych.

Aplikacja kliencka.Dane odpowiednio ustrukturyzowane i przechowywane w MDB są dostępne do analizy za pomocą aplikacji klienckiej. Użytkownik otrzymuje możliwość zdalnego dostępu do danych, formułowania skomplikowanych zapytań, generowania raportów oraz pozyskiwania dowolnych podzbiorów danych. Uzyskanie raportu sprowadza się do wybrania konkretnych wartości pomiarowych i zbudowania przekroju hipersześcianu. Przekrój jest określony przez wybrane wartości pomiarowe. Dane dla pozostałych pomiarów są podsumowane.

OLAPna kliencie i na serwerze. Wielowymiarową analizę danych można przeprowadzić za pomocą różnych narzędzi, które warunkowo można podzielić na narzędzia klienckie i serwerowe OLAP.

Narzędzia OLAP po stronie klienta (takie jak tabele przestawne firmy Microsoft w programie Excel 2000 lub ProClarity firmy Knosys) to aplikacje, które obliczają zagregowane dane i wyświetlają je. Jednocześnie same dane zagregowane są zawarte w pamięci podręcznej wewnątrz przestrzeni adresowej takiego narzędzia OLAP.

Jeśli dane źródłowe są zawarte w stacjonarnym systemie DBMS, obliczenie danych zagregowanych jest wykonywane przez samo narzędzie OLAP. Jeśli źródłem danych początkowych jest system DBMS serwera, wiele klienckich narzędzi OLAP wysyła zapytania SQL do serwera iw rezultacie otrzymuje zagregowane dane wyliczone na serwerze.

Z reguły funkcjonalność OLAP jest implementowana w narzędziach do statystycznego przetwarzania danych oraz w niektórych arkuszach kalkulacyjnych.

Wiele narzędzi programistycznych zawiera biblioteki klas lub komponentów, które umożliwiają tworzenie aplikacji implementujących najprostsze funkcje OLAP (takie jak komponenty kostki decyzyjnej w Borland Delphi i Borland C++ Builder). Ponadto wiele firm oferuje formanty ActiveX i inne biblioteki, które zapewniają podobną funkcjonalność.

Narzędzia klienckie OLAP są z reguły używane z niewielką liczbą wymiarów (zwykle nie więcej niż sześć) i niewielką różnorodnością wartości tych parametrów - ponieważ wynikowe dane zagregowane muszą mieścić się w przestrzeni adresowej takich narzędzia, a ich liczba rośnie wykładniczo wraz ze wzrostem liczby wymiarów.

Wiele narzędzi klienckich OLAP umożliwia zapisanie zawartości pamięci podręcznej danych zbiorczych w postaci pliku, dzięki czemu nie trzeba ich ponownie obliczać. Jednak ta możliwość jest często wykorzystywana do alienacji danych zagregowanych w celu przeniesienia ich do innych organizacji lub do publikacji.

Idea przechowywania pamięci podręcznej z zagregowanymi danymi w pliku została rozwinięta w serwerowych narzędziach OLAP (np. przechowywania, które je zawierają, jest realizowane przez oddzielną aplikację lub proces zwany serwerem OLAP. Aplikacje klienckie mogą zażądać takiego wielowymiarowego przechowywania i otrzymać w odpowiedzi pewne dane. Niektóre aplikacje klienckie mogą również tworzyć takie sklepy lub aktualizować je zgodnie ze zmienionymi danymi źródłowymi.

Zalety stosowania serwerowych narzędzi OLAP w porównaniu z klienckimi narzędziami OLAP są podobne do zalet stosowania serwerowych DBMS w porównaniu do desktopowych: w przypadku korzystania z narzędzi serwerowych obliczanie i przechowywanie danych agregatowych odbywa się na serwerze, a aplikacja kliencka otrzymuje do nich tylko wyniki zapytań, co pozwala ogólnie ograniczyć ruch w sieci, czas realizacji żądań oraz zapotrzebowanie na zasoby zużywane przez aplikację kliencką.

3.5 Techniczne aspekty przechowywania danych wielowymiarowych

Wielowymiarowość w aplikacjach OLAP można podzielić na trzy poziomy:

1. Widok danych wielowymiarowych– narzędzia dla użytkowników końcowych, które zapewniają wielowymiarową wizualizację i manipulację danymi; wielowymiarowa warstwa reprezentacji abstrahuje od fizycznej struktury danych i traktuje dane jako wielowymiarowe.

    Przetwarzanie wielowymiarowe- narzędzie (język) do formułowania wielowymiarowych zapytań (tradycyjny relacyjny język SQL się tu nie nadaje) oraz procesor mogący przetworzyć i wykonać takie zapytanie.

    Wielowymiarowe przechowywanie– środki fizycznej organizacji danych, które zapewniają sprawne wykonywanie wielowymiarowych zapytań.

Pierwsze dwa poziomy są obowiązkowe we wszystkich narzędziach OLAP. Trzeci poziom, choć szeroko stosowany, nie jest wymagany, ponieważ dane do reprezentacji wielowymiarowej można również uzyskać ze zwykłych struktur relacyjnych. W tym przypadku wielowymiarowy procesor zapytań tłumaczy wielowymiarowe zapytania na zapytania SQL, które są wykonywane przez relacyjny DBMS.

W dowolnej hurtowni danych, zarówno konwencjonalnej, jak i wielowymiarowej, oprócz szczegółowych danych pobieranych z systemów operacyjnych, przechowywane są również wskaźniki zagregowane (total wyłącznie w celu przyspieszenia wykonywania zapytań. W końcu z jednej strony z reguły w pamięci gromadzi się bardzo duża ilość danych, az drugiej strony analitycy w większości przypadków nie są zainteresowani szczegółowymi, ale uogólnionymi wskaźnikami. A gdyby za każdym razem trzeba było sumować miliony pojedynczych sprzedaży, aby obliczyć wielkość sprzedaży w ciągu roku, prędkość najprawdopodobniej byłaby nie do zaakceptowania. Dlatego podczas ładowania danych do wielowymiarowej bazy danych wszystkie wskaźniki całkowite lub ich część są obliczane i zapisywane.

Korzystanie z danych zagregowanych jest jednak obarczone pewnymi wadami. Głównymi wadami są wzrost ilości przechowywanych informacji (po dodaniu nowych wymiarów ilość danych składających się na kostkę rośnie wykładniczo) oraz czas potrzebny na ich załadowanie. Co więcej, ilość informacji może wzrosnąć dziesiątki, a nawet setki razy. Na przykład w jednym z opublikowanych standardowych testów pełna agregacja dla 10 MB surowych danych wymagała 2,4 GB, czyli dane wzrosły 240-krotnie!

Stopień przyrostu ilości danych przy obliczaniu agregatów zależy od liczby wymiarów kostki i struktury tych wymiarów, czyli stosunku liczby „rodziców” do „dzieci” na różnych poziomach wymiaru. Aby rozwiązać problem przechowywania agregatów, stosuje się złożone schematy, które pozwalają przy obliczaniu daleko od wszystkich możliwych agregatów osiągnąć znaczny wzrost wydajności wykonywania zapytań.

Zarówno surowe, jak i zagregowane dane mogą być przechowywane w

relacyjnych lub w strukturach wielowymiarowych. W tym zakresie stosowane są obecnie trzy metody przechowywania danych wielowymiarowych:

MOLAP (Multidimensional OLAP) - dane źródłowe i zagregowane są przechowywane w wielowymiarowej bazie danych. Przechowywanie danych w strukturach wielowymiarowych umożliwia manipulowanie danymi jako wielowymiarową tablicą, dzięki czemu szybkość obliczania wartości agregatów jest taka sama dla każdego z wymiarów. Jednak w tym przypadku wielowymiarowa baza danych jest zbędna, ponieważ dane wielowymiarowe w całości zawierają oryginalne dane relacyjne.

Systemy te zapewniają pełny cykl przetwarzania OLAP. Zawierają, oprócz komponentu serwera, własny zintegrowany interfejs klienta lub używają zewnętrznych arkuszy kalkulacyjnych do komunikacji z użytkownikiem.

ROLAP (Relacyjny OLAP) — oryginalne dane pozostają takie same relacyjna baza danych dane tam, gdzie pierwotnie się znajdowały. Dane zagregowane umieszczane są w tabelach usług stworzonych specjalnie do ich przechowywania w tej samej bazie danych.

HOLAP (Hybrydowy OLAP) — Oryginalne dane pozostają w tej samej relacyjnej bazie danych, w której pierwotnie się znajdowały, podczas gdy dane zagregowane są przechowywane w wielowymiarowej bazie danych.

Niektóre narzędzia OLAP obsługują przechowywanie danych tylko w strukturach relacyjnych, inne tylko w strukturach wielowymiarowych. Jednak większość nowoczesnych narzędzi serwera OLAP obsługuje wszystkie trzy metody przechowywania danych. Wybór metody przechowywania zależy od objętości i struktury danych źródłowych, wymagań dotyczących szybkości wykonywania zapytań oraz częstotliwości aktualizacji kostek OLAP.

3.6 Eksploracja danych (DaneGórnictwo)

Termin Data Mining oznacza proces poszukiwania korelacji, trendów i relacji za pomocą różnych algorytmów matematycznych i statystycznych: grupowania, analizy regresji i korelacji itp. dla systemów wspomagania decyzji. Jednocześnie zgromadzone informacje są automatycznie uogólniane na informacje, które można scharakteryzować jako wiedzę.

Podstawy nowoczesna technologia Data Mining opiera się na koncepcji wzorców, które odzwierciedlają wzorce tkwiące w podpróbkach danych i składają się na tzw. wiedzę ukrytą.

Wzorce są wyszukiwane metodami, które nie wykorzystują żadnych założeń a priori dotyczących tych podprób. Ważną cechą Data Mining jest niestandardowość i nieoczywistość poszukiwanych wzorców. Innymi słowy, narzędzia Data Mining różnią się od narzędzi do statystycznego przetwarzania danych i narzędzi OLAP tym, że zamiast sprawdzać relacje zakładane przez użytkowników

między danymi, na podstawie dostępnych danych, są w stanie samodzielnie znaleźć takie zależności, a także zbudować hipotezy dotyczące ich natury.

Ogólnie rzecz biorąc, proces eksploracji danych (Data Mining) składa się z trzech etapów

    identyfikacja wzorców (bezpłatne wyszukiwanie);

    wykorzystanie ujawnionych wzorców do przewidywania nieznanych wartości (modelowanie predykcyjne);

    analiza wyjątków, zaprojektowana w celu identyfikacji i interpretacji anomalii w znalezionych wzorcach.

Czasami wyraźnie wyróżnia się pośredni etap sprawdzania wiarygodności znalezionych wzorców między ich odkryciem a użyciem (etap walidacji).

Istnieje pięć standardowych typów wzorców identyfikowanych przez metody eksploracji danych:

1.Stowarzyszenie pozwala na wybranie stabilnych grup obiektów, pomiędzy którymi istnieją niejawnie zdefiniowane powiązania. Częstość występowania pojedynczej pozycji lub grupy pozycji, wyrażona w procentach, nazywana jest rozpowszechnieniem. Niski wskaźnik rozpowszechnienia (mniej niż jedna tysięczna procenta) sugeruje, że takie powiązanie nie jest znaczące. Skojarzenia są zapisywane jako reguły: A=> B, Gdzie A - pakiet, W - konsekwencja. Aby określić ważność każdej wynikowej reguły asocjacyjnej, konieczne jest obliczenie wartości zwanej ufnością A Do W(lub związek A i B). Zaufanie pokazuje, jak często kiedy A pojawia się W. Na przykład, jeśli zimnica)\u003d 20% oznacza to przy zakupie produktu A w co piątym przypadku dokonywany jest również zakup produktu W.

Typowym przykładem zastosowania asocjacji jest analiza struktury zakupów. Na przykład, przeprowadzając ankietę w supermarkecie, można stwierdzić, że 65% osób, które kupiły chipsy ziemniaczane, sięga również po Coca-Colę, a jeśli na taki zestaw jest zniżka, to w 85% przypadków kupuje colę. Takie wyniki są cenne w tworzeniu strategii marketingowych.

2. Spójność - jest to metoda identyfikowania powiązań w czasie. W tym przypadku definiowane są reguły opisujące sekwencyjne występowanie określonych grup zdarzeń. Takie zasady są niezbędne do budowania scenariuszy. Dodatkowo można je wykorzystać np. do uformowania typowego zestawu wcześniejszych sprzedaży, który może prowadzić do późniejszej sprzedaży danego produktu.

3. Klasyfikacja - narzędzie uogólniające. Pozwala przejść od rozpatrywania pojedynczych obiektów do uogólnionych pojęć, które charakteryzują niektóre zbiory obiektów i są wystarczające do rozpoznania obiektów należących do tych zbiorów (klas). Istotą procesu formowania pojęć jest odnajdywanie wzorców tkwiących w klasach. Do opisu obiektów używa się wielu różnych cech (atrybutów). Problem formowania się pojęć według opisów indykatywnych sformułował M.M. Bongart. Jej rozwiązanie opiera się na zastosowaniu dwóch głównych procedur: szkolenia i weryfikacji. W procedurach uczących budowana jest reguła klasyfikacyjna oparta na przetwarzaniu uczącego zbioru obiektów. Procedura weryfikacji (badanie) polega na wykorzystaniu otrzymanej reguły klasyfikacyjnej do rozpoznania obiektów z nowej (badanej) próbki. Jeśli wyniki testu okażą się zadowalające, wówczas proces uczenia się kończy się, w W przeciwnym razie reguła klasyfikacji jest udoskonalana w procesie powtarzanego szkolenia.

4. Grupowanie - jest to podział informacji (rekordów) z bazy danych na grupy (klastry) lub segmenty z jednoczesnym zdefiniowaniem tych grup. W przeciwieństwie do klasyfikacji, analiza tutaj nie wymaga wstępnego określenia klas.

5. Prognozowanie szeregów czasowych jest narzędziem do określania trendów w atrybutach rozpatrywanych obiektów w czasie. Analiza zachowania szeregów czasowych pozwala na przewidywanie wartości badanych cech.

Do rozwiązywania takich problemów stosuje się różne metody i algorytmy Data Mining. W związku z faktem, że Data Mining rozwinęła się i rozwija na styku takich dyscyplin jak statystyka, teoria informacji, nauczanie maszynowe, teoria baz danych, jest całkiem naturalne, że większość algorytmów i metod eksploracji danych została opracowana w oparciu o różne metody z tych dyscyplin.

Z różnorodności istniejących metod eksploracji danych można wyróżnić:

    analiza regresji, dyspersji i korelacji(zaimplementowane w większości nowoczesnych pakietów statystycznych, w szczególności w produktach SAS Institute, StatSoft itp.);

    metody analizy w określonym obszarze tematycznym, w oparciu o modele empiryczne (często wykorzystywane np. w niedrogich narzędziach do analizy finansowej);

    algorytmy sieci neuronowych- metoda naśladowania procesów i zjawisk, która pozwala odtworzyć złożone zależności. Metoda opiera się na wykorzystaniu uproszczonego modelu biologicznego mózgu i polega na tym, że za parametry początkowe uważa się sygnały, które są przekształcane zgodnie z istniejącymi połączeniami między „neuronami”, a odpowiedzią całej sieci do danych wyjściowych uważa się za odpowiedź wynikającą z analizy. Powiązania w tym przypadku tworzone są z wykorzystaniem tzw. uczenia sieciowego poprzez dużą próbkę zawierającą zarówno oryginalne dane, jak i poprawne odpowiedzi. Sieci neuronowe są szeroko stosowane do rozwiązywania problemów klasyfikacyjnych;

    logika rozmyta służy do przetwarzania danych z rozmytymi wartościami prawdy, które mogą być reprezentowane przez różne zmienne lingwistyczne. Rozmyta reprezentacja wiedzy jest szeroko stosowana do rozwiązywania problemów klasyfikacji i predykcji, na przykład w systemie XpertRule Miner (Attar Software Ltd., Wielka Brytania), a także w AIS, NeuFuz itp.;

    wnioskowania indukcyjne pozwalają uzyskać uogólnienia faktów przechowywanych w bazie danych. W procesie uczenia indukcyjnego może uczestniczyć specjalista stawiający hipotezy. Ta metoda nazywa się uczeniem nadzorowanym. Poszukiwanie reguł uogólnienia może odbywać się bez udziału nauczyciela poprzez automatyczne generowanie hipotez. W nowoczesnym narzędzia oprogramowania, z reguły obie metody są łączone, a metody statystyczne służą do testowania hipotez. Przykładem systemu wykorzystującego przewody indukcyjne jest XpertRule Miner opracowany przez firmę Attar Software Ltd. (Wielka Brytania);

    rozumowanie oparte na podobne przypadki(metoda „najbliższego sąsiada”) (wnioskowanie oparte na przypadkach – CBR) opierają się na wyszukiwaniu w bazie danych sytuacji, których opisy są podobne pod wieloma cechami do danej sytuacji. Zasada analogii sugeruje, że wyniki podobnych sytuacji również będą do siebie zbliżone. Wadą tego podejścia jest to, że nie tworzy ono żadnych modeli ani reguł generalizujących wcześniejsze doświadczenia. Ponadto wiarygodność wnioskowanych wyników zależy od kompletności opisu sytuacji, podobnie jak w indukcyjnych procesach wnioskowania. Przykładami systemów wykorzystujących CBR są: KATE Tools (Acknosoft, Francja), Pattern Recognition Workbench (Unica, USA);

    drzewa decyzyjne- metoda ustrukturyzowania problemu w postaci grafu drzewiastego, którego wierzchołki odpowiadają regułom produkcji pozwalającym klasyfikować dane lub analizować konsekwencje decyzji. Ta metoda daje wizualną reprezentację systemu reguł klasyfikujących, jeśli nie ma ich zbyt wiele. Proste zadania rozwiązuje się tą metodą znacznie szybciej niż przy użyciu sieci neuronowych. W przypadku złożonych problemów i niektórych typów danych drzewa decyzyjne mogą nie być odpowiednie. Ponadto metoda ta charakteryzuje się problemem istotności. Jedną z konsekwencji hierarchicznego grupowania danych jest brak dużej liczby przykładów uczących dla wielu szczególnych przypadków, w związku z czym klasyfikacja nie może być uznana za wiarygodną. Metody drzew decyzyjnych są zaimplementowane w wielu narzędziach programowych, a mianowicie: C5.0 (RuleQuest, Australia), Clementine (Integral Solutions, Wielka Brytania), SIPINA (Uniwersytet w Lyonie, Francja), IDIS (Information Discovery, USA);

    programowanie ewolucyjne– wyszukiwanie i generowanie algorytmu wyrażającego współzależność danych na podstawie wstępnie określonego algorytmu, modyfikowanego w procesie wyszukiwania; czasami poszukiwanie współzależności odbywa się między pewnymi typami funkcji (na przykład wielomianami);

ograniczone algorytmy wyszukiwania, obliczanie kombinacji prostych zdarzeń logicznych w podgrupach danych.

3.7 IntegracjaOLAPIDaneGórnictwo

Przetwarzanie analityczne online (OLAP) i eksploracja danych (Eksploracja danych) to dwa elementy procesu wspomagania decyzji. Jednak obecnie większość systemów OLAP koncentruje się wyłącznie na zapewnianiu dostępu do danych wielowymiarowych, a większość narzędzi do eksploracji danych, które działają w dziedzinie wzorców, zajmuje się jednowymiarowymi perspektywami danych. Aby zwiększyć efektywność przetwarzania danych dla systemów wspomagania decyzji, należy połączyć te dwa rodzaje analiz.

Obecnie pojawia się złożony termin „OLAP Data Mining” (wielowymiarowa eksploracja danych) odnoszący się do takiej kombinacji.

Istnieją trzy główne sposoby tworzenia „OLAP Data Mining”:

    Kostkowanie, a następnie wydobywanie. Możliwość przeprowadzenia analizy intelektualnej powinna być zapewniona na każdym wyniku zapytania do wielowymiarowej reprezentacji pojęciowej, czyli na dowolnym fragmencie dowolnej projekcji hipersześcianu wskaźników.

    Wydobywanie, a następnie kostkowanie. Podobnie jak dane pobierane z hurtowni, wyniki eksploracji muszą być prezentowane w postaci hipersześciennej do późniejszej wielowymiarowej analizy.

    Kostkowanie podczas wydobywania. Ta elastyczna metoda integracji pozwala automatycznie aktywować ten sam typ mechanizmów przetwarzania intelektualnego na wyniku każdego kroku wielowymiarowej analizy (przejścia) między poziomami uogólnienia, ekstrakcji nowego fragmentu hipersześcianu itp.).

    Klasa 11 [Tekst... ich Jak Część Wszystko systemy ... adiunkt ... Czeboksary, 2009. nr 10. S. 44 -49 ... . Autorski- kompilatory: N. ... streszczeniaWykłady, ...

  • Pomoc nauczania

    ... Wykłady. Przygotowanie Wykłady matematyka. Pismo abstrakcyjnyWykłady Wykłady. Stosowanie Informacjatechnologie ...

  • I k Kondaurova s ​​​​v lebedev Działalność badawcza przyszłego nauczyciela matematyki Zadania twórcze w zakresie matematyki elementarnej i metody jej nauczania

    Pomoc nauczania

    ... Wykłady. Przygotowanie Wykłady matematyka. Pismo abstrakcyjnyWykłady. Przygotowanie pomocy wizualnych. Technika czytania Wykłady. Stosowanie Informacjatechnologie ...

  • M ONITORING MEDIA Modernizacja szkolnictwa zawodowego marzec – sierpień 2011 r

    Streszczenie

    ... 11 .08.2011 „Martwe dusze-2” W RNIMU ich ... 3,11 -3,44 . ... publiczne Wykłady przywódcy... Czeboksary... i pisanie streszczenia publiczność - ... informacyjnysystemy I technologie. ... system edukacji – mówi adiunkt ... kompilatory ... Części prawdziwy treść ...

Technologie analityczne procesów biznesowych

Systemy Business Intelligence - Business Intelligence (BI) łączą różne narzędzia i technologie do analizy i przetwarzania danych w całym przedsiębiorstwie. W oparciu o te narzędzia tworzone są systemy BI, których celem jest poprawa jakości informacji do podejmowania decyzji zarządczych.

BI obejmuje oprogramowanie następujących klas:

systemy operacyjnego przetwarzania analitycznego (OLAP);

· środki intelektualnej analizy danych (DM);

Produkty oprogramowania każdej klasy wykonują określony zestaw funkcji lub operacji przy użyciu specjalnych technologii.

OLAP (On-Line Analytical Processing) - przetwarzanie analityczne online - to nie nazwa konkretnego produktu, ale całej technologii. Koncepcja OLAP opiera się na wielowymiarowej reprezentacji danych.

W 1993 roku twórca podejścia do relacyjnych baz danych, Edgar Codd i jego partnerzy (Edgar Codd, matematyk i pracownik IBM), opublikował zainicjowany przez firmę dokument zatytułowany „Providing OLAP (Online Analytical Processing) for Analyst Users”, w którym 12 kryteriów technologii OLAP, która później stała się główną treścią nowej i bardzo obiecującej technologii.

Później zostały one przerobione na test FASMI, który określa wymagania dla produktów OLAP:

· Szybko szybko). Aplikacja OLAP powinna zapewniać minimalny czas dostępu do danych analitycznych – średnio około 5 sekund;

· ANALIZA (analiza). Aplikacja OLAP musi umożliwiać użytkownikowi przeprowadzanie analiz numerycznych i statystycznych;

· UDOSTĘPNIONY (dostęp współdzielony). Aplikacja OLAP musi zapewniać możliwość pracy z informacjami dla wielu użytkowników jednocześnie;

· WIELOWYMIAROWY (wielowymiarowość);

· INFORMACJA (informacja). Aplikacja OLAP powinna umożliwiać użytkownikowi uzyskanie niezbędnych informacji, bez względu na to, w jakim elektronicznym magazynie danych się znajduje.

Na podstawie FASMI można podać następującą definicję: aplikacje OLAP - są to systemy umożliwiające szybki wieloużytkownikowy dostęp do wielowymiarowych informacji analitycznych z możliwościami analizy numerycznej i statystycznej.

Główną ideą OLAP jest budowanie wielowymiarowych kostek, które będą dostępne dla zapytań użytkownika. Wielowymiarowe kostki (rysunek 5.3) budowane są na podstawie danych źródłowych i zagregowanych, które mogą być przechowywane zarówno w relacyjnych, jak i wielowymiarowych bazach danych. Dlatego obecnie istnieją trzy sposoby przechowywania danych: MOLAP (Wielowymiarowy OLAP), ROLAP (relacyjny OLAP) i HOLAP (hybrydowy OLAP).

W związku z tym produkty OLAP są podzielone na trzy podobne kategorie według sposobu przechowywania danych:

1. W przypadku MOLAP dane źródłowe i wielowymiarowe są przechowywane w wielowymiarowej bazie danych lub w wielowymiarowej kostce lokalnej. Ta metoda przechowywania zapewnia szybkie operacje OLAP. Ale wielowymiarowa baza w tym przypadku najczęściej będzie zbędna. Sześcian zbudowany na jego podstawie będzie silnie zależał od ilości wymiarów. Wraz ze wzrostem liczby wymiarów objętość sześcianu będzie rosła wykładniczo. Czasami może to prowadzić do „gwałtownego wzrostu” ilości danych.

2. W produktach ROLAP dane źródłowe są przechowywane w relacyjnych bazach danych lub w płaskich tablicach lokalnych na serwerze plików. Dane zagregowane można umieszczać w tabelach usług w tej samej bazie danych. Transformacja danych z relacyjnej bazy danych do wielowymiarowych kostek następuje na zlecenie narzędzia OLAP. W takim przypadku szybkość budowania kostki będzie w dużej mierze zależała od typu źródła danych.

3. W przypadku zastosowania architektury hybrydowej dane źródłowe pozostają w relacyjnej bazie danych, natomiast agregaty umieszczane są w wielowymiarowej. Kostka OLAP jest budowana na zlecenie narzędzia OLAP w oparciu o dane relacyjne i wielowymiarowe. Takie podejście pozwala uniknąć gwałtownego wzrostu ilości danych. W takim przypadku można osiągnąć optymalny czas realizacji żądań klientów.

Korzystając z technologii OLAP, użytkownik może elastycznie przeglądać informacje, uzyskiwać różne wycinki danych, wykonywać analityczne operacje uszczegóławiania, konwolucji, dystrybucji typu end-to-end, porównywania w czasie, tj. tworzyć i dynamicznie publikować raporty i dokumenty.

Struktura bazy danych hurtowni jest zwykle projektowana w taki sposób, aby maksymalnie ułatwić analizę informacji. Dane powinny być wygodnie „ułożone” w różnych kierunkach (zwanych wymiarami). Na przykład dzisiaj użytkownik chce zobaczyć podsumowanie wysyłek części według dostawcy, aby porównać ich wydajność. Jutro ten sam użytkownik będzie potrzebował obrazu zmian wolumenu dostaw części w poszczególnych miesiącach, aby śledzić dynamikę dostaw. Struktura bazy danych powinna wspierać tego typu analizy, umożliwiając wydobycie danych odpowiadających danemu zestawowi pomiarów.

Operacyjne przetwarzanie danych analitycznych opiera się na zasadzie organizowania informacji w model hipersześcienny. Najprostszą trójwymiarową kostkę danych do dostawy części do rozważanej wcześniej testowej bazy danych pokazano na ryc. 3.11. Każda z jej komórek odpowiada "faktowi" - na przykład zakresowi dostawy części. Wzdłuż jednego boku sześcianu (jeden wymiar) znajdują się miesiące, w których zrealizowano dostawy odzwierciedlone w sześcianie. Drugi wymiar to typy części, a trzeci wymiar dotyczy dostawców. Każda komórka zawiera ilość dostawy dla odpowiedniej kombinacji wartości we wszystkich trzech wymiarach. Należy zaznaczyć, że podczas wypełniania kostki dokonano agregacji wartości dla dostaw każdego miesiąca z testowej bazy danych.


3.11. Uproszczony wariant hipersześcianu do analizy dostaw części

Systemy klasy OLAP różnią się sposobem prezentacji danych.

Wielowymiarowy OLAP (MOLAP) – systemy te oparte są na wielowymiarowości, opartej na tablice dynamiczne strukturę danych z odpowiednimi metodami dostępu. MOLAP jest realizowany na opatentowanych technologiach organizowania wielowymiarowych DBMS. Zaletą tego podejścia jest wygoda wykonywania obliczeń na komórkach hipersześcianu, gdyż pod wszystkimi kombinacjami pomiarów wprowadzane są odpowiednie komórki (jak w arkuszu kalkulacyjnym). Do klasycznych przedstawicieli takich systemów należą Oracle Express, SAS Institute MDDB.

Relacyjny OLAP (ROLAP)– obsługuje wielowymiarowe modele analityczne w relacyjnych bazach danych. Do tej klasy systemów należą Meta Cube Informix, Microsoft OLAP Services, Hyperion Solutions, SAS Institute Relational OLAP.

Pulpit OLAP (Pulpit OLAP)– narzędzia do generowania wielowymiarowych zapytań i raportów dla lokalnych systemów informacyjnych (arkusze kalkulacyjne, pliki płaskie). Wyróżnić można systemy Business Objects, Cognos Power Play.

E.F. Codd zdefiniował dwanaście zasad, które musi spełniać produkt klasy OLAP, w tym wielowymiarową koncepcyjną reprezentację danych, przejrzystość, dostępność, solidną wydajność, architekturę klient-serwer, równość wymiarów, rzadkie przetwarzanie dynamiczne macierzy, obsługę wielu użytkowników, nieograniczoną obsługę wielowymiarowych operacje, intuicyjna manipulacja danymi, elastyczny mechanizm raportowania, nieograniczona ilość wymiarów i poziomów agregacji.



Najpopularniejsze systemy klasy ROLAP. Pozwalają one zorganizować model informacji na relatywnie kompletnym magazynie dowolnej struktury lub na specjalnej hurtowni danych.

Ryż. 3.12. Diagram gwiazdy analitycznej dostarczania części

W przypadku większości hurtowni danych najbardziej efektywny sposób modelowanie N-wymiarowej kostki to „gwiazda”. na ryc. Rysunek 3.11 przedstawia model hipersześcianu do analizy dostaw części, w którym informacje są konsolidowane w czterech wymiarach (dostawca, część, miesiąc, rok). Schemat gwiazdy jest oparty na tabeli faktów. Tabela faktów zawiera kolumnę określającą zakres dostawy oraz kolumny określające klucze obce dla wszystkich tabel wymiarów. Każdy wymiar kostki jest reprezentowany przez tabelę wartości, która jest odniesieniem do tabeli faktów. Aby uporządkować poziomy uogólnienia informacji powyżej referencyjnych ksiąg miar, uporządkowane są kategorie danych wejściowych (na przykład „materiał-szczegóły”, „miasto-dostawca”).

Powód, dla którego obwód na ryc. 3.12 nazywa się „gwiazdą”, jest to dość oczywiste. Końce „gwiazdy” tworzą tabele wymiarów, a ich powiązania z tabelą faktów znajdującą się w środku tworzą promienie. Dzięki takiemu projektowi bazy danych większość zapytań analizy biznesowej jest dołączana do centralnej tabeli faktów z jedną lub kilkoma tabelami wymiarów. Na przykład zapytanie o dostawy wszystkich części w 2004 r. według miesięcy, w podziale na dostawców, wyglądałoby tak:

WYBIERZ SUMA(WARTOŚĆ), DOSTAWCA.NAZWA_DOSTAWCY, FACT.ID_MIESIĄCA

Z FAKTU, DOSTAWCA

GDZIE FACT.YEAR_ID=2004

I FACT.DOSTAWCA_KOD=DOSTAWCA.DOSTAWCA_KOD

GROUP_BY SUPPLIER_CODE, MONTH_ID

ORDER_BY SUPPLIER_CODE, MONTH_ID.

na ryc. 3.13 pokazuje fragment raportu wygenerowanego w wyniku zadanego zapytania.

Termin operacyjne przetwarzanie analityczne(On-Line Analytical Processing-OLAP) została po raz pierwszy wspomniana w raporcie przygotowanym dla Arbor Software Corp. w 1993 r., choć definicja tego terminu, podobnie jak w przypadku hurtowni danych, została sformułowana znacznie później. Pojęcie oznaczane tym terminem można zdefiniować jako „interaktywny proces tworzenia, utrzymywania, analizowania danych i wydawania raportów”. Ponadto zwykle dodaje się, że dane, o których mowa, powinny być postrzegane i przetwarzane w taki sam sposób, jak gdyby były przechowywane tablica wielowymiarowa. Ale zanim przejdziemy do omówienia samej reprezentacji wielowymiarowej, przyjrzyjmy się odpowiednim pomysłom w kategoriach tradycyjnych tabel SQL.

Pierwszą cechą jest to, że przetwarzanie analityczne z konieczności wymaga pewnej agregacji dane, zwykle wykonywane od razu przy pomocy kilku różne drogi lub innymi słowy, według wielu różnych kryteriów grupowania. W rzeczywistości jednym z głównych problemów przetwarzania analitycznego jest liczba możliwych sposobów grupowania

szybko staje się zbyt duży. Jednak użytkownicy muszą rozważyć wszystkie lub prawie wszystkie takie metody. Oczywiście taka agregacja jest teraz obsługiwana w standardzie SQL, ale dowolna zapytanie SQL tworzy jako wynik tylko jedną tabelę, a wszystkie wiersze w tej wynikowej tabeli mają tę samą postać i tę samą interpretację10 (przynajmniej tak jest

9 Cytując z książki o hurtowniach danych: „[Przestań] normalizować… Próby normalizacji którejkolwiek z tabel w wielowymiarowej bazie danych tylko po to, by zaoszczędzić miejsce na dysku [tak jest!] to strata czasu… Tabele wymiarów powinny nie być znormalizowany... Znormalizowane tabele wymiarów uniemożliwiają przeglądanie."

10 Chyba że ta tabela wyników zawiera wartości null lub null (zobacz rozdział 19, sekcja 19.3, „Więcej o predykatach”). W rzeczywistości konstrukcje SQL:1999, które należy opisać w tej sekcji, można scharakteryzować jako „oparte na użyciu” tego wysoce przestarzałego narzędzia SQL (?); w rzeczywistości podkreślają fakt, że wartości zerowe mogą mieć różne znaczenia w różnych przejawach, a zatem pozwalają na reprezentację wielu różnych predykatów w tej samej tabeli (jak zostanie pokazane poniżej).

było przed pojawieniem się standardu SQL: 1999). Dlatego w celu realizacji P różne sposoby grupowania, które musisz wykonać P oddzielnych zapytań iw rezultacie utwórz osobne tabele. Rozważmy na przykład następującą sekwencję zapytań wykonywanych w bazie danych dostawców i części.

1. Określ łączną liczbę dostaw.

2. Określ łączną liczbę dostaw według dostawców.

3. Określ całkowitą liczbę dostaw według części.

4. Określ łączną liczbę dostaw według dostawców i części.

(Oczywiście „całkowita” ilość dla danego dostawcy i danej części to po prostu rzeczywista ilość dla danego dostawcy i danej części. Przykład byłby bardziej realistyczny, gdyby użyto bazy danych dostawców, części i projektów Ale aby zachować ten prosty przykład, nadal zdecydowaliśmy się na zwykłą bazę danych dostawców i części.)

Załóżmy teraz, że są tylko dwie części, ponumerowane P1 i P2, a tabela podaży wygląda tak.

Wielowymiarowe bazy danych

Do tej pory zakładano, że dane OLAP są przechowywane w zwykłej bazie danych z wykorzystaniem języka SQL (pomijając fakt, że czasami dotykaliśmy jeszcze terminologii i pojęcia wielowymiarowe bazy danych). W rzeczywistości my, bez wyraźnego wskazania, opisaliśmy tzw. system ROLAP(Relacyjny OLAP- relacyjny OLAP). Jednak wielu uważa, że ​​korzystanie z systemu MOLAP(Wielowymiarowy OLAP- wielowymiarowy OLAP) - bardziej obiecujący sposób. W tym podrozdziale zostaną omówione bardziej szczegółowo zasady budowy systemów MOLAP.

System MOLAP działa wielowymiarowe bazy danych, w którym dane są koncepcyjnie przechowywane w komórkach wielowymiarowej tablicy.

Notatka. Chociaż wyższy I mówiono o konceptualistyczny sposób organizacji przechowywania, w rzeczywistości fizyczną organizację danych MOLAP bardzo podobny do ich logicznej organizacji.

Wspierający DBMS nazywa się wielowymiarowy. Jak prosty przykład możesz rzutować trójwymiarową tablicę reprezentującą odpowiednio produkty, klientów i okresy czasu. Wartość każdej pojedynczej komórki może reprezentować całkowitą kwotę określonej pozycji sprzedanej klientowi w określonym przedziale czasu. Jak wspomniano powyżej, tablice krzyżowe z poprzedniego podrozdziału można również uznać za takie tablice.

Jeśli istnieje wystarczająco jasne zrozumienie struktury zbioru danych, można poznać wszystkie relacje między danymi. Ponadto, zmienne taki zbiór (nie w sensie konwencjonalnych języków programowania), z grubsza mówiąc, można podzielić na zależny I niezależny. W poprzedni przykład produkt, klient I okres czasu można uznać za zmienne niezależne, i ilość - jedyną zmienną zależną. Ogólnie zmienne niezależne to zmienne, których wartości razem określają wartości zmiennych zależnych (tak jak w terminologii relacyjnej klucz kandydujący to zbiór

kolumny, których wartości określają wartości innych kolumn). Dlatego zmienne niezależne określają wymiar tablicy, według której dane są zorganizowane, a także formę schemat adresowania11 Dla podana tablica. Wartości zmiennych zależnych, które reprezentują rzeczywiste dane, są przechowywane w komórkach tablicy.

Notatka. Różnica między wartościami niezależnymi lub wymiarowy, zmienne,

i wartości osób na utrzymaniu, lub oversize, zmienne są czasami charakteryzowane jako różnica między Lokalizacja I treść.

Dlatego komórki tablicowe są adresowane symbolicznie, a nie za pomocą indeksów numerycznych, które są zwykle używane do pracy z tablicami.

Niestety, powyższa charakterystyka wielowymiarowych baz danych jest zbyt uproszczona, ponieważ większość zbiorów danych początkowo pozostaje Nie w pełni przestudiowany. Z tego powodu zwykle staramy się najpierw przeanalizować dane, aby lepiej je zrozumieć. Często brak zrozumienia może być tak znaczący, że nie da się z góry określić, które zmienne są niezależne, a które zależne. Zmienne objaśniające są następnie wybierane zgodnie z aktualnym ich poglądem (tj. w oparciu o jakąś hipotezę), po czym wynikowa tablica jest sprawdzana w celu określenia, jak dobrze wybrano zmienne objaśniające (patrz rozdział 22.7). Takie podejście prowadzi do tego, że wiele iteracji wykonuje się na zasadzie prób i błędów. Dlatego system zwykle pozwala na zmianę zmiennych wymiarowych i bezwymiarowych, a operacja ta jest tzw zmiana osi współrzędnych(obracanie). Inne obsługiwane operacje obejmują transpozycja tablicy I zmiana kolejności wymiarów. Musi też istnieć sposób dodawania wymiarów.

Nawiasem mówiąc, z poprzedniego opisu powinno być jasne, że komórki macierzy często okazują się puste (a im więcej wymiarów, tym częściej obserwuje się to zjawisko). Innymi słowy, tablice są zwykle rzadki. Załóżmy na przykład, że produkt p nie został sprzedany klientowi c przez cały okres czasu T. Potem komórka [c, p, t] będzie pusty (lub w najlepszym przypadku zerowy). Wielowymiarowe systemy DBMS obsługują różne metody przechowywania rzadkich tablic w bardziej wydajny i zwięzły sposób12. Do tego należy dodać, że odpowiadają puste komórki brakująca informacja dlatego systemy muszą zapewniać pewne wsparcie obliczeniowe dla pustych komórek. Takie wsparcie jest co prawda zwykle dostępne, ale jego stylistyka jest niestety zbliżona do stylu przyjętego w język SQL. Zwróć uwagę na fakt, że jeśli dana komórka jest pusta, to informacja jest albo nieznana, albo nie została wprowadzona, albo nie ma zastosowania, albo jej brakuje z innych powodów

(patrz rozdział 19).

Zmienne niezależne są często powiązane w hierarchia, zdefiniowanie ścieżek, wzdłuż których może zachodzić agregacja danych zależnych. Na przykład jest tymczasowy

hierarchia łącząca sekundy z minutami, minuty z godzinami, godziny z dniami, dni z tygodniami, tygodnie z miesiącami, miesiące z latami. Albo inny przykład: hierarchia jest możliwa

kompozycje łączące części ze zbiorem części, zbiory części z węzłem, węzły z modułem, moduły z produktem. Często te same dane mogą być agregowane przez wiele osób różne sposoby, tj. ta sama zmienna niezależna może należeć do wielu różnych hierarchii. System zapewnia operatorom dla przechodzić(drążyć) i przechodząc w dół(drążyć w dół) wzdłuż takiej hierarchii. Przechodząc oznacza przejście z dolnego poziomu agregacji na wyższy, oraz przechodzenie w dół -

przejście w przeciwnym kierunku. Istnieją inne operacje do pracy z hierarchiami, takie jak operacja zmiany kolejności poziomów hierarchii.

Notatka. Między operacjami przechodzić(drążyć) i kumulacja wyników(rolka

up) istnieje jedna subtelna różnica: operacja kumulacja wyników - jest operacją implementacyjną

12 Zwróć uwagę na różnicę w stosunku do systemów relacyjnych. W rzeczywistym relacyjnym odpowiedniku tego przykładu jest to linia ic, p, t) nie byłoby pustej „komórki” ilości, ponieważ linia (s, p, t) po prostu byłoby nieobecne. Dlatego podczas korzystania z modelu relacyjnego, w przeciwieństwie do tablic wielowymiarowych, nie ma potrzeby obsługi „tablic rzadkich”, a raczej „tabel rzadkich”, a zatem do pracy z takimi tabelami nie są wymagane żadne wyrafinowane metody kompresji.

wymagane metody grupowania i agregacji oraz działanie przechodząc w górę- to operacja dostęp do wyników tych metod. I przykład operacji przechodząc w dół zapytanie takie jak: „Całkowita liczba przesyłek jest znana; uzyskaj łączne dane dla każdego indywidualnego dostawcy”. Oczywiście, aby odpowiedzieć na to zapytanie, muszą być dostępne (lub możliwe do obliczenia) bardziej szczegółowe poziomy danych.

Wielowymiarowe produkty bazodanowe dostarczają również szeregu danych statystycznych i innych funkcje matematyczne, które pomagają formułować i testować hipotezy (tj. hipotezy dotyczące domniemanych relacji). Ponadto dostępne są narzędzia do wizualizacji i raportowania, które pomagają w rozwiązywaniu takich problemów. Niestety, jak dotąd nie ma standardowego języka zapytań dla wielowymiarowych baz danych, chociaż trwają badania mające na celu opracowanie rachunku różniczkowego, na którym mógłby się opierać taki standard. Ale niestety nie ma czegoś takiego jak relacyjna teoria normalizacji, która mogłaby służyć jako naukowa podstawa do projektowania wielowymiarowych baz danych.

Kończąc tę ​​sekcję, zauważamy, że niektóre produkty łączą oba podejścia - ROLAP i MOLAP. Taki hybrydowy system OLAP zwany HOLAP. Istnieją obszerne dyskusje, aby dowiedzieć się, które z tych trzech podejść jest lepsze, więc powinniśmy również spróbować powiedzieć ten przypadek kilka słów 13. Generalnie systemy MOLAP zapewniają szybsze obliczenia, ale obsługują mniejsze ilości danych w porównaniu z systemami ROLAP, tj. stają się mniej wydajne wraz ze wzrostem ilości danych. A systemy ROLAP zapewniają większą skalowalność, równoległość i kontrolę niż systemy MOLAP. Ponadto standard SQL został niedawno zaktualizowany, aby zawierał wiele funkcji statystycznych i analitycznych (patrz rozdział 22.8). Wynika z tego, że produkty ROLAP są teraz w stanie zapewnić rozszerzoną funkcjonalność.

OLAP (Online Analytical Processing - przetwarzanie analityczne online) jest proces informacyjny, co pozwala użytkownikowi na wysyłanie zapytań do systemu, przeprowadzanie analiz itp. w Internecie (w Internecie). Wyniki są generowane w ciągu kilku sekund.

Systemy OLAP są przeznaczone dla użytkowników końcowych, podczas gdy systemy OLTP są przeznaczone dla profesjonalnych użytkowników IS. OLAP zapewnia działania, takie jak generowanie zapytań, wysyłanie zapytań do raportów ad hoc, przeprowadzanie analiz statystycznych i tworzenie aplikacji multimedialnych.

Aby zapewnić OLAP, musisz pracować z hurtownią danych (lub wielowymiarową pamięcią masową), a także z zestawem narzędzi, zwykle z możliwościami wielowymiarowymi. Narzędziami tymi mogą być narzędzia do tworzenia zapytań, arkusze kalkulacyjne, narzędzia do eksploracji danych, narzędzia do wizualizacji danych itp.

Koncepcja OLAP opiera się na zasadzie wielowymiarowej reprezentacji danych. E. Codd rozważył wady modelu relacyjnego, wskazując przede wszystkim na niemożność łączenia, przeglądania i analizowania danych z wielowymiarowego punktu widzenia, czyli w sposób najbardziej zrozumiały dla analityków korporacyjnych, oraz określił ogólne wymagania dla systemów OLAP, które rozszerzają funkcjonalność relacyjnego DBMS i zawierają wielowymiarową analizę jako jedną z jego cech charakterystycznych.

12 zasad, które musi spełniać oprogramowanie klasy OLAP. Te zasady:

1. Wielowymiarowa pojęciowa reprezentacja danych.

2. Przejrzystość.

3. Dostępność.

4. Stała wydajność.

5. Architektura klient - serwer.

6. Równość pomiarów.

7. Dynamiczne przetwarzanie macierzy rzadkich.

8. Wspieraj tryb wieloosobowy.

9. Nieograniczona obsługa operacji międzywymiarowych.

10. Intuicyjna manipulacja danymi.

11. Elastyczny mechanizm raportowania.

12. Nieograniczona liczba pomiarów i poziomów agregacji.

Zestaw tych wymagań, który posłużył za właściwą definicję OLAP, należy traktować jako zalecenie, a poszczególne produkty oceniać pod kątem stopnia zbliżenia do idealnie pełnej zgodności ze wszystkimi wymaganiami.


Eksploracja danych (Data Mining) i wiedzy (Knowledge Mining). Zarządzanie i analiza dużych ilości danych (Big data). Systemy Business Intelligence (Business Intelligence, BI).

Eksploracja danych (DMA) to ogólne określenie analizy danych z aktywnym wykorzystaniem metod i algorytmów matematycznych (metody optymalizacji, algorytmy genetyczne, rozpoznawanie wzorców, metody statystyczne, eksploracja danych itp.), które wykorzystują wyniki stosowania metod wizualizacji danych.

Zasadniczo proces IAD składa się z trzech etapów:

1) identyfikacja wzorców (swobodne wyszukiwanie);

2) wykorzystanie ujawnionych wzorców do przewidywania nieznanych wartości (prognozowanie);

3) analiza wyjątków w celu identyfikacji i interpretacji anomalii w znalezionych wzorcach.

Czasami pomiędzy znalezieniem a wykorzystaniem pojawia się etap pośredni sprawdzania wiarygodności znalezionych wzorców (etap walidacji).

Wszystkie metody IAD, zgodnie z zasadą pracy z danymi początkowymi, dzielą się na dwie grupy:

Metody wnioskowania przypadków użycia — surowe dane można przechowywać w jawnej, szczegółowej formie i bezpośrednio wykorzystywać do prognozowania i/lub analizy wyjątków. Wadą tej grupy metod jest trudność ich zastosowania duże ilości dane.

Metody identyfikowania i wykorzystywania sformalizowanych wzorców, które wymagają wydobycia informacji z danych pierwotnych i przekształcenia ich w pewne konstrukcje formalne, których postać zależy od konkretnej metody.

Data Mining (DM) to technologia odkrywania w surowych danych nieznanej wcześniej, nietrywialnej, praktycznie użytecznej i dostępnej wiedzy, która jest niezbędna do podejmowania decyzji w różnych obszarach działalności człowieka. Algorytmy stosowane w Data Mining wymagają dużej liczby obliczeń, co wcześniej było czynnikiem ograniczającym szerokie praktyczne zastosowanie tych metod, jednak wzrost wydajności współczesnych procesorów zniwelował dotkliwość tego problemu.

Rynek Business Intelligence składa się z 5 sektorów:

1. produkty OLAP;

2. Narzędzia eksploracji danych;

3. Narzędzia do budowy hurtowni danych i hurtowni danych (Data Warehousing);

4. Systemy i aplikacje informacji zarządczej;

5. Narzędzia użytkownika końcowego do wysyłania zapytań i raportowania.

Obecnie wśród liderów korporacyjnych platform BI są MicroStrategy, Business Objects, Cognos, Hyperion Solutions, Microsoft, Oracle, SAP, SAS Institute i inni (załącznik B pokazuje analiza porównawcza Niektóre funkcjonalność systemy BI).

8.3.1. Narzędzia do przetwarzania analitycznego on-line (OLAP).

On-Line Analytical Processing – środki operacyjnego (w czasie rzeczywistym) analitycznego przetwarzania informacji, którego celem jest wspomaganie decyzji i pomoc analitykom w odpowiedzi na pytanie „Dlaczego obiekty, środowiska i wyniki ich interakcji są takie, a nie inne?”. Jednocześnie analityk sam tworzy wersje relacji między zbiorem informacji i sprawdza je na podstawie dostępnych danych w odpowiednich ustrukturyzowanych bazach danych.

Systemy ERP charakteryzują się obecnością komponentów analitycznych w ramach podsystemów funkcjonalnych. Zapewniają tworzenie informacji analitycznych w czasie rzeczywistym. Informacje te są podstawą większości decyzji zarządczych.

Technologie OLAP wykorzystują hipersześciany – dane o specjalnej strukturze (inaczej zwane kostkami OLAP). W strukturze danych hipersześcianu znajdują się:

Miary - wskaźniki ilościowe (szczegóły-bazy) służące do tworzenia zbiorczych wyników statystycznych;

Wymiary - kategorie opisowe (szczegóły-cechy), w kontekście których analizowane są miary.

Wymiar hipersześcianu jest określony przez liczbę wymiarów dla jednej miary. Na przykład hipersześcian SALES zawiera dane:

Miary: konsumenci, daty operacji, grupy towarów, nazewnictwo, modyfikacje, opakowania, magazyny, rodzaje płatności, rodzaje przesyłek, taryfy, waluty, organizacje, działy, odpowiedzialni, kanały dystrybucji, regiony, miasta;

Miary: ilość planowana, ilość rzeczywista, kwota planowana, kwota rzeczywista, płatności planowane, płatności rzeczywiste, saldo planowane, saldo rzeczywiste, cena sprzedaży, czas realizacji zamówienia, kwota zwrotu.

Taki hipersześcian przeznaczony jest do raportów analitycznych:

Klasyfikacja konsumentów według wielkości zakupów;

Klasyfikacja towarów sprzedawanych według metody ABC;

Analiza warunków realizacji zamówień różnych konsumentów;

Analiza wolumenów sprzedaży w podziale na okresy, produkty i grupy produktowe, regiony i konsumentów, piony wewnętrzne, menedżerów i kanały dystrybucji;

Prognoza wzajemnych rozliczeń z konsumentami;

Analiza zwrotów towarów od konsumentów; itp.

Raporty analityczne mogą mieć dowolną kombinację wymiarów i miar; służą do analizy decyzji zarządczych. Przetwarzanie analityczne odbywa się za pomocą środków instrumentalnych i językowych. Informatyczne „tabele przestawne” prezentowane są w ogólnodostępnym arkuszu kalkulacyjnym MS Excel, dane wyjściowe do ich utworzenia to:

Lista (baza danych) MS Excel - tabela relacyjna;

Kolejna tabela przestawna MS Excel;

Skonsolidowany zakres komórek MS Excel umieszczonych w tych samych lub różnych skoroszytach;

Zewnętrzna relacyjna baza danych lub kostka OLAP, źródło danych (pliki w formacie .dsn, .ode).

Do budowy tabel przestawnych w oparciu o zewnętrzne bazy danych wykorzystywane są sterowniki ODBC oraz program MS Query. Tabela przestawna źródłowej bazy danych MS Excel ma następującą strukturę (rys. 8.3).

Układ Stół obrotowy ma następującą strukturę danych (ryc. 8.4): pomiary - kod podziału, pozycja; miary - staż pracy, wynagrodzenie i premia. Poniżej znajduje się tabela podsumowująca. 8.2, który pozwala na analizę zależności między średnim stażem pracy a wynagrodzeniem, średnim stażem pracy a premiami, wynagrodzeniem a premiami.

Tabela 8.2

Tabela przestawna do analizy linków

Koniec stołu. 8.2

Aby kontynuować analizę przy użyciu tabeli przestawnej, możesz:

Dodaj nowe sumy (na przykład średnią pensję, średnią kwotę premii itp.);

Zastosuj filtrowanie rekordów i sum tabeli przestawnej (np. na podstawie "Płeć", która jest umieszczona w układzie w obszarze * Strona ");

Oblicz wskaźniki strukturalne (np. podział funduszu płac i funduszu premiowego na działy - przy użyciu dodatkowych narzędzi przetwarzania tabel przestawnych, udziałów kwoty według kolumn); itp.

Pakiet programów MS Office umożliwia publikowanie danych z arkuszy kalkulacyjnych, w tym tabel przestawnych i wykresów, w formacie XTML.

Część Microsoft Office Web Components obsługuje pracę z opublikowanymi danymi w środowisku Internet Explorera, zapewniając kontynuację analizy (zmiany w strukturze danych tabeli przestawnej, obliczenie nowych sum podsumowujących).

8.3.2. Narzędzia eksploracji danych (DM).

Narzędzia DM polegają na ekstrakcji („excavation”, „mining”) danych i mają na celu identyfikację relacji między informacjami przechowywanymi w cyfrowych bazach danych przedsiębiorstwa, które analityk może wykorzystać do budowy modeli pozwalających na ilościowe określenie stopnia wpływu czynników interes dla niego. Ponadto takie narzędzia mogą być przydatne do budowania hipotez na temat możliwego charakteru relacji informacyjnych w cyfrowych bazach danych przedsiębiorstw.

Technologia Text Mining (TM) to zestaw narzędzi pozwalający analizować duże zbiory informacji w poszukiwaniu trendów, wzorców i relacji, które mogą pomóc w podejmowaniu strategicznych decyzji.

Technologia Image Mining (IM) zawiera narzędzia do rozpoznawania i klasyfikacji różnych obrazów wizualnych przechowywanych w bazach danych przedsiębiorstwa lub uzyskanych w wyniku wyszukiwania online z zewnętrznych źródeł informacji.

Aby rozwiązać problemy przetwarzania i przechowywania wszystkich danych, stosuje się następujące podejścia:

1) utworzenie kilku systemów backupu lub jednego rozproszonego systemu workflow, który umożliwia zapisywanie danych, ale ma powolny dostęp do przechowywanych informacji na żądanie użytkownika;

2) budowanie systemów internetowych o dużej elastyczności, ale nieprzystosowanych do realizacji wyszukiwania i przechowywania dokumenty tekstowe;

3) wprowadzenie portali internetowych, które są dobrze zorientowane na żądania użytkowników, ale nie mają opisowych informacji o ładowanych do nich danych tekstowych.

Systemy przetwarzania informacje tekstowe wolne od wyżej wymienionych problemów można podzielić na dwie kategorie: systemy analizy językowej i systemy analizy danych tekstowych.

Główne elementy technologii Text Mining to:

podsumowanie;

Wyszukiwanie tematyczne (ekstrakcja cech);

Grupowanie;

Klasyfikacja (klasyfikacja);

Odpowiadanie na prośby (odpowiadanie na pytania);

Indeksowanie tematyczne;

Szukaj według słowa kluczowe(wyszukiwanie słów kluczowych);

Tworzenie i utrzymywanie taksonomii (oftaksonomii) i tezaurusów (tezaurusów).

Produkty oprogramowania, które implementują technologię Text Mining, obejmują:

IBM Intelligent Miner for Text - zestaw poszczególnych narzędzi uruchamianych z wiersz poleceń lub pomijane; niezależne od siebie (główny nacisk kładziony jest na mechanizmy eksploracji danych – wyszukiwania informacji);

Oracle InterMedia Text – zestaw zintegrowany z DBMS, który pozwala najefektywniej pracować z żądaniami użytkowników (pozwala na pracę z nowoczesnym relacyjnym DBMS w kontekście złożonego, wielozadaniowego wyszukiwania i analizy danych tekstowych);

Megaputer Text Analyst to zestaw obiektów wbudowanych w program COM, zaprojektowanych do rozwiązywania problemów związanych z eksploracją tekstu.

8.3.3. Inteligentna technologia informacyjna

Dziś w dziedzinie automatyzacji zarządzania dominuje analiza informacji na wstępnym etapie przygotowywania decyzji – przetwarzanie informacji pierwotnych, dekompozycja sytuacji problemowej, co pozwala poznać tylko fragmenty i szczegóły procesów, a nie sytuację jako całość. Aby przezwyciężyć ten mankament, trzeba nauczyć się budować bazy wiedzy korzystając z doświadczenia najlepszych specjalistów, a także generować brakującą wiedzę.

Wykorzystanie technologii informacyjnych w różnych sferach działalności człowieka, wykładniczy wzrost ilości informacji oraz potrzeba szybkiego reagowania w każdej sytuacji wymagały poszukiwania adekwatnych sposobów rozwiązywania pojawiających się problemów. Najbardziej efektywnym z nich jest sposób intelektualizacji technologii informacyjnych.

Pod inteligentne technologie informacyjne(ITT) zazwyczaj rozumieją takie technologie informacyjne, które zapewniają następujące funkcje:

Obecność baz wiedzy odzwierciedlających doświadczenia konkretnych osób, grup, społeczeństw, ludzkości jako całości, przy rozwiązywaniu problemów twórczych w określonych obszarach działalności, tradycyjnie uznawanych za prerogatywy ludzkiego intelektu (np. tworzenie, projektowanie, wydobywanie znaczeń, wyjaśnianie, szkolenie itp.);

Obecność modeli myślenia opartych na bazach wiedzy: regułach i logicznych wnioskach, argumentowaniu i rozumowaniu, rozpoznawaniu i klasyfikowaniu sytuacji, uogólnianiu i rozumieniu itp.;

Umiejętność formułowania dość jasnych decyzji na podstawie rozmytych, nieścisłych, niepełnych, niedookreślonych danych;

Umiejętność wyjaśniania wniosków i decyzji, tj. obecność mechanizmu wyjaśniającego;

Możliwość uczenia się, przekwalifikowywania się, a co za tym idzie rozwoju.

Technologie nieformalnego poszukiwania ukrytych wzorców w danych i informacjach opierają się na Knowledge Discovery (KD). najnowsze technologie tworzenie i strukturyzacja obrazów informacyjnych obiektów, która jest najbliższa zasadom przetwarzania informacji przez systemy inteligentne.

Wspomaganie decyzji (DS) technologie informatyczne wspomagające podejmowanie decyzji to skorupy eksperta

systemy lub wyspecjalizowane systemy eksperckie, które umożliwiają analitykom określanie relacji i relacji między strukturami informacyjnymi w ustrukturyzowanych bazach informacyjnych przedsiębiorstwa, a także przewidywanie możliwych skutków podejmowania decyzji.

Trendy rozwoju IIT. Systemy łączności i łączności. Globalne sieci informacyjne i IIT mogą fundamentalnie zmienić sposób, w jaki myślimy o firmach i samej pracy opartej na wiedzy. Obecność pracowników w miejscu pracy stanie się niemal zbędna. Ludzie mogą pracować z domu i kontaktować się ze sobą w razie potrzeby za pośrednictwem sieci. Znane jest na przykład udane doświadczenie tworzenia nowej modyfikacji samolotu Boeing 747 przez rozproszony zespół specjalistów współpracujący za pośrednictwem Internetu. Lokalizacja uczestników w każdym rozwoju będzie odgrywać coraz mniejszą rolę, ale znaczenie poziomu umiejętności uczestników będzie rosło. Kolejny powód, który zadecydował o szybkim rozwoju IIT, związany jest ze skomplikowaniem systemów komunikacyjnych i rozwiązywanymi na ich podstawie zadaniami. Jakościowo nowy poziom „intelektualizacji” takich produktów programowych, jak systemy do analizy danych heterogenicznych i nierygorystycznych, zapewniające bezpieczeństwo informacji, podejmowania decyzji w systemach rozproszonych itp.

Edukacja. Już dziś kształcenie na odległość zaczyna odgrywać ważną rolę w edukacji, a wprowadzenie IIT znacznie zindywidualizuje ten proces zgodnie z potrzebami i możliwościami każdego ucznia.

Życie. Informatyzacja życia codziennego już się rozpoczęła, ale wraz z rozwojem IIT pojawią się zasadniczo nowe możliwości. Stopniowo do komputera będzie przenoszonych coraz więcej nowych funkcji: kontrola nad zdrowiem użytkownika, kontrola urządzeń gospodarstwa domowego takich jak nawilżacze, odświeżacze powietrza, grzejniki, jonizatory, stereo, diagnostyka medyczna itp. Innymi słowy, systemy staną się również diagnostami stanu człowieka i jego domu. Komfort zostanie zapewniony przestrzeń informacyjna w pomieszczeniach, w których środowisko informacyjne stanie się częścią środowiska człowieka.

Perspektywy rozwoju IIT. Wydaje się, że obecnie IIT wkroczyło w zasadniczo nowy etap swojego rozwoju. Tak więc w ciągu ostatnich 10 lat możliwości IIT znacznie się rozszerzyły dzięki opracowaniu nowych typów modeli logicznych, pojawieniu się nowych

vyh teorie i idee. Kluczowymi punktami rozwoju IIT są:

Przejście od wnioskowania logicznego do modeli argumentacji i rozumowania;

Wyszukiwanie odpowiedniej wiedzy i generowanie wyjaśnień;

Rozumienie i synteza tekstów;

Grafika kognitywna, tj. graficzne i figuratywne przedstawienie wiedzy;

Systemy wieloagentowe;

Inteligentne modele sieciowe;

Obliczenia oparte na logice rozmytej, sieci neuronowe, algorytmy genetyczne, obliczenia probabilistyczne (realizowane w różnych kombinacjach ze sobą oraz z systemami ekspertowymi);

Problem metawiedzy.

Systemy wieloagentowe stały się nowym paradygmatem tworzenia obiecujących IIT. Przyjmuje się tutaj, że agent jest niezależnym systemem intelektualnym, który ma własny system wyznaczania celów i motywacji, własny obszar działania i odpowiedzialności. Interakcję między agentami zapewnia system wyższego poziomu – meta-inteligencja. W systemach wieloagentowych modelowana jest wirtualna społeczność inteligentnych agentów – obiektów, które są autonomiczne, aktywne, wchodzą w różne relacje społeczne – kooperacja i kooperacja (przyjaźń), rywalizacja, współzawodnictwo, wrogość itp. Społeczny aspekt rozwiązywania współczesnych problemów jest podstawową cechą pojęciowej nowości zaawansowanych technologii intelektualnych - wirtualne organizacje, wirtualne społeczeństwo.

(?) Pytania i zadania kontrolne

1. Podaj opis przedsiębiorstwa jako przedmiotu informatyzacji. Jakie są główne wskaźniki charakteryzujące rozwój systemu zarządzania przedsiębiorstwem.

2. Wymień wiodące technologie informatyczne w zarządzaniu przedsiębiorstwem przemysłowym.

3. Wymień główne technologie informatyczne organizacyjnego i strategicznego rozwoju przedsiębiorstw (korporacji).

4. Jakie są fundamenty standardów zarządzania strategicznego mających na celu usprawnienie procesów biznesowych? Jaki jest stosunek technologii informacyjnej BPM i BPI?

5. Zdefiniować filozofię kompleksowego zarządzania jakością (TQM). W jaki sposób powiązane są fazy rozwoju jakości i technologii informacyjnej?

6. Wymień główne założenia rozwoju organizacyjnego przedsiębiorstwa, opisz etapy zarządzania strategicznego. Nazwij strategie grupowe.

7. Jak powstaje model biznesowy przedsiębiorstwa? Jakie są główne podejścia do oceny skuteczności modelu biznesowego.

8. Co to jest zrównoważona karta wyników? Wymień główne komponenty SSP. Jakie są relacje między grupami wskaźników BSC?

9. Wymień metodyczne podstawy tworzenia systemów informatycznych. Czym jest podejście systemowe?

10. Czym jest podejście informacyjne do tworzenia systemów i technologii informacyjnych?

11. Czym jest strategiczne podejście do tworzenia systemów i technologii informatycznych?

12. Jaka jest treść obiektowego podejścia do opisu zachowań agentów na rynku? Podaj definicję obiektu, wskaż analogi systemów agentowych.

13. Jakie są metodyczne zasady doskonalenia zarządzania przedsiębiorstwem w oparciu o technologie informacyjno-komunikacyjne? Jaki jest cel ICT?

14. Podaj definicje dokumentu, obieg dokumentów, obieg dokumentów, system zarządzania dokumentami.

15. Jak zaprojektowany jest układ formularza dokumentu? Nazwij strefy dokumentu, skład ich szczegółów.

16. Wymień podstawowe technologie informatyczne systemu zarządzania dokumentami.

17. Czym jest ujednolicony system dokumentacji? Czym są ogólne zasady zjednoczenie?

18. Omówić dokumentację organizacyjną i administracyjną, podać przykłady dokumentów.

19. Jakie wymagania powinien spełniać elektroniczny system zarządzania dokumentami?

20. Co to jest korporacyjny system informacyjny? Nazwij główne pętle sterowania, skład modułów funkcjonalnych.

21. Nazwij produkty oprogramowania dla CIS, które znasz. Podaj im opis porównawczy.

Literatura SH

1. Vernet J., Moriarty S. Komunikacja marketingowa. Zintegrowane podejście. Petersburg; Charków: Piotr, 2001.

2. Brooking E. Kapitał intelektualny. Klucz do sukcesu w nowym tysiącleciu. Petersburg: Piotr, 2001.

3. Godin V.V., Korpev I.K. Kontrola zasoby informacji. M.: INFRA-M, 1999.

4. Systemy informacyjne i technologia w ekonomii: Podręcznik. wyd. 2, dodaj. i przerobione. / MI Siemionow, I.T. Trubilin, VI. Loiko, TP Baranowska; wyd. W I. Loiko. M.: Finanse i statystyka, 2003.

5. Informatyka w biznesie / wyd. M. Żeleny. Petersburg: Piotr, 2002.

6. Kaplan Robert S., Norton David P. Zrównoważona karta wyników. Od strategii do działania / Per. z angielskiego. M.: CJSC „Olimp-Business”, 2003.

7. Karagodin VI, Karagodina BJI. Informacja jest podstawą życia. Dubna: Phoenix, 2000.

8. Karminsky AM., Niestierow PZ. Informatyzacja biznesu. M.: Finanse i statystyka, 1997.

9. Lichaczewa T.N. Informatyka w służbie społeczeństwo informacyjne// Nowe technologie informacyjne w systemy gospodarcze. M., 1999.

10. Ostreykovsky V.A. Teoria systemów. Moskwa: Szkoła wyższa, 1997.

11. Piterkin S.V., Oladov NA, Isaev D.V. W sam raz dla Rosji. Praktyka korzystania z systemów ERP. wyd. 2 Moskwa: Wydawnictwo Alpina, 2003.

12. Sokołow D.V. Wprowadzenie do teorii komunikacji społecznej: Proc. dodatek. Petersburg: Wydawnictwo SP6GUP, 1996.

13. Trofimow W.Z., Tomiłow W.Z. Technologie informacyjne i komunikacyjne w zarządzaniu: Proc. dodatek. Petersburg: SPbGUEF, 2002.

Podobne posty