Big data – Wikipedia, wolna encyklopedia

Big data – termin odnoszący się do dużych, zmiennych i różnorodnych zbiorów danych, których przetwarzanie i analiza jest trudna, ale jednocześnie wartościowa, ponieważ może prowadzić do zdobycia nowej wiedzy^[1].

Pojęcie dużego zbioru danych jest względne i oznacza sytuację, gdy zbioru nie da się przetwarzać przy użyciu trywialnych, powszechnie dostępnych metod^[2]. W zależności od branży i stopnia złożoności algorytmu może to oznaczać rozmiar terabajtów lub petabajtów (np. analiza zderzeń cząstek elementarnych w fizyce wysokich energii^[3]), jednak w innych zastosowaniach będą to już megabajty bądź gigabajty (np. porównywanie billingów telefonicznych w telekomunikacji^[4]). Big data ma zastosowanie wszędzie tam, gdzie dużej ilości danych cyfrowych towarzyszy potrzeba zdobywania nowych informacji lub wiedzy. Szczególne znaczenie odgrywa wzrost dostępności Internetu oraz usług świadczonych drogą elektroniczną, które w naturalny sposób są przystosowane do wykorzystywania baz danych. Wykorzystanie do analiz dużych zbiorów danych oznacza jednocześnie, że nie trzeba ograniczać się do mniejszych zbiorów określanych za pomocą różnych sposobów doboru próby, co eliminuje związane z tym błędy^[5].

Wizualizacja edycji Wikipedii jako klasyczny przykład big data

Charakterystyka

W 2001 roku META Group opublikowała raport^[6], który opisuje big data w modelu 3V:

duża ilość danych (ang. volume);
duża prędkość przetwarzania danych (ang. velocity);
duża różnorodność danych (ang. variety).

Model ten uzupełniony został o kolejne składowe – weryfikację posiadanych danych (ang. veracity) oraz wartość dla użytkownika (ang. value)^[5]^[7].

Zastosowanie modelu w polskiej wersji 4W przedstawia się następująco^[8]:

wykorzystanie – wykorzystaj najpierw wewnętrzne (własne) zasoby danych;
wnioskowanie – umiejętnie stosuj techniki analityczne, użyj ekspertów;
wzbogacanie – wzbogacaj własne dane o informacje z rynku, używaj słowników i baz referencyjnych;
weryfikacja – koniecznie weryfikuj hipotezy i wnioski.

W roku 2012 Gartner uzupełnił podaną wcześniej definicję, wskazując, iż big data to zbiory informacji o dużej objętości, dużej zmienności lub dużej różnorodności, które wymagają nowych form przetwarzania w celu wspomagania podejmowania decyzji, odkrywania nowych zjawisk oraz optymalizacji procesów”^[9].

Technologie

Raport McKinsey Global Institute^[10] z 2011 roku scharakteryzował główne komponenty i ekosystem big data w następujący sposób:

techniki analizy danych, takich jak testy A/B, uczenie maszynowe i przetwarzanie języka naturalnego,
technologie big data takie jak Business Intelligence, przetwarzanie danych w chmurze oraz bazy danych,
wizualizacje, takie jak wykresy, grafy i inne formy prezentowania danych.

Wielowymiarowe big data mogą być również reprezentowane jako tensory, które mogą być wydajnie obsługiwane przez obliczenia oparte na tensorach, takie jak wieloliniowe uczenie podprzestrzenne. Dodatkowe technologie, które znajdują zastosowanie w big data obejmują wielkoskalowe równoległe przetwarzanie baz danych, aplikacje oparte na szukaniu, eksploracja danych, rozproszone systemy plików, rozproszone bazy danych, infrastruktura chmurowa (aplikacje, zasoby przetwarzające, pamięć) oraz Internet.

Nie wszystkie bazy danych WRP mają zdolność do przechowywania i zarządzania petabajtami danych. Wnioskując jest możliwość doładowania, monitorowania, tworzenia kopii zapasowych oraz optymalizacji użycia ogromnymi tabelami danych w relacyjnych bazach danych^[11].

Topologiczna analiza danych poszukuje fundamentalnej struktury zbiorów olbrzymich danych. W 2008 roku technologia została upubliczniona wraz z założeniem firmy Ayasdi.

Praktycy procesów analizy big data są generalnie wrodzy dla wolniejszych współdzielonych pamięci^[12], preferując bezpośrednio dołączone pamięci (DAS) w przeróżnych formach, od dysków SSD do wielko pojemnościowych dysków SATA zakopanych wewnątrz węzłów przetwarzania równoległego. Postrzeganie architektur współdzielonych pamięci jest takie, ze są relatywnie wolne, złożone oraz drogie. Te wartości nie są zgodne z analitycznymi systemami big data, które czerpią z wydajności systemu, łatwo dostępnej infrastrukturze oraz niskich kosztów.

Rzeczywisty lub prawie rzeczywisty czas dostarczania informacji jest jedną z kluczowych charakterystyk analizy big data. Unika się opóźnień, chociaż są możliwe. Dane w pamięci są dobre – dane na dysku talerzowym na drugim końcu serwerowni.

Są zalety tak samo jak wady w rozwiązaniu współdzielonych pamięci, ale praktycy analizy big data do 2011 roku nie faworyzują tego^[13].

Big data w zarządzaniu strategicznym

Aktualnie Big Data oddziałuje praktycznie na każdy segment rynku, w którym zachodzi proces przetwarzania informacji. Należą do nich wszelkie instytucje, uczelnie, banki, przedsiębiorstwa produkcyjne, a nawet ośrodki zdrowia. Wszystkie te segmenty wykorzystują szybki dostęp do potrzebnej informacji, która z kolei ma zasadniczy wpływ na optymalizację działalności. Big data umożliwia ponadto szczegółowe rozpoznanie potrzeb i wymagań konsumentów – ich źródłem są zwłaszcza szeroko pojęte media społecznościowe. Jako że każda jednostka nastawiona na zysk chce w swoim funkcjonowaniu odnieść sukces, odpowiednie przetwarzanie danych w działaniach strategicznych możliwe jest tylko przy wykorzystaniu Big Data^[14].

Zobacz też

Przypisy

↑ How to construct a Big Data strategy.
↑ Paweł Płaszczak: Co to jest Big Data. [dostęp 2014-05-14]. [zarchiwizowane z tego adresu (2014-05-15)].
↑ Nick Heath: Cern: where the Big Bang meets Big Data.
↑ T-moile USA cuts customer churn rate by 50% with Big Data. [dostęp 2014-05-14]. [zarchiwizowane z tego adresu (2014-05-15)].
↑ ^a ^b Stępnik 2015 ↓, s. 151.
↑ Laney Douglas: 3D Data Management: Controlling Data Volume, Velocity and Variety. Gartner. [dostęp 2001-02-06]. (ang.).
↑ Dygaszewicz 2014 ↓, s. 51.
↑ Alternatywna teoria 4W – www.ekonomia.rp.pl (Dostęp: 2014-03-13). [dostęp 2014-03-14]. [zarchiwizowane z tego adresu (2014-03-14)].
↑ Laney Douglas: The Importance of ‘Big Data’: A Definition. Gartner. [dostęp 2012-06-21]. (ang.).
↑ JamesJ. Manyika JamesJ. i inni, Big data: The next frontier for innovation, competition, and productivity [online], McKinsey & Company [dostęp 2017-01-25] (ang.).
↑ eBay followup – Greenplum out, Teradata > 10 petabytes, Hadoop has some value, and more | DBMS 2 : DataBase Management System Services [online] [dostęp 2017-01-25] .
↑ Storage area networks need not apply, „CNET” [dostęp 2017-01-25] [zarchiwizowane z adresu 2011-11-16] (ang.).
↑ big data | Evaluator Group [online], 25 stycznia 2016 [zarchiwizowane z adresu 2012-03-01] .
↑ Big Data Kategoria [online], MIT Sloan Management Review Polska [dostęp 2019-09-25] [zarchiwizowane z adresu 2019-05-28] (pol.).

Bibliografia

Janusz Dygaszewicz: Big data w statystyce publicznej. W: Internet. Publiczne bazy danych i big data. Grażyna Szpor (red.). Warszawa: C.H.Beck, 2014. ISBN 978-83-255-6467-4.
Andrzej Stępnik. Big data w perspektywie memetycznej. „Teksty z Ulicy. Zeszyt memetyczny”. 16, 2015. ISSN 2081-397X.

[1] How to construct a Big Data strategy.

[2] Paweł Płaszczak: Co to jest Big Data. [dostęp 2014-05-14]. [zarchiwizowane z tego adresu (2014-05-15)].

[3] Nick Heath: Cern: where the Big Bang meets Big Data.

[4] T-moile USA cuts customer churn rate by 50% with Big Data. [dostęp 2014-05-14]. [zarchiwizowane z tego adresu (2014-05-15)].

[CITEREFStępnik2015151-5] Stępnik 2015 ↓, s. 151.

[3D_Data_Management_Controlling-6] Laney Douglas: 3D Data Management: Controlling Data Volume, Velocity and Variety. Gartner. [dostęp 2001-02-06]. (ang.).

[CITEREFDygaszewicz201451-7] Dygaszewicz 2014 ↓, s. 51.

[8] Alternatywna teoria 4W – www.ekonomia.rp.pl (Dostęp: 2014-03-13). [dostęp 2014-03-14]. [zarchiwizowane z tego adresu (2014-03-14)].

[The_Importance_of_Big_Data-9] Laney Douglas: The Importance of ‘Big Data’: A Definition. Gartner. [dostęp 2012-06-21]. (ang.).

[10] JamesJ. Manyika JamesJ. i inni, Big data: The next frontier for innovation, competition, and productivity [online], McKinsey & Company [dostęp 2017-01-25] (ang.).

[11] eBay followup – Greenplum out, Teradata > 10 petabytes, Hadoop has some value, and more | DBMS 2 : DataBase Management System Services [online] [dostęp 2017-01-25] .

[12] Storage area networks need not apply, „CNET” [dostęp 2017-01-25] [zarchiwizowane z adresu 2011-11-16] (ang.).

[13] big data | Evaluator Group [online], 25 stycznia 2016 [zarchiwizowane z adresu 2012-03-01] .

[14] Big Data Kategoria [online], MIT Sloan Management Review Polska [dostęp 2019-09-25] [zarchiwizowane z adresu 2019-05-28] (pol.).

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]