Velká data – analýza, nebo jen sběr dat?

-- 15.07.19

Datové architektury se přizpůsobují novým příležitostem v oblasti sběru dat a jejich analýzy.

Při diskusi o datech a pokročilé analytice je nutno začít Mooreovým zákonem. V roce 1965 si Gordon Moore, spoluzakladatel společnosti Intel, všiml, že počet tranzistorů na čipu se každý rok zdvojnásobil, zatímco cena klesla na polovinu. Předpověděl, že tento trend bude pokračovat. I když se růst počtu tranzistorů na čip v poslední době zpomalil, výzkumníci stále potvrzují platnost původní premisy.

Ceny ukládání dat se propadly a velikost počítačů je jen zlomkem jejich dřívějších rozměrů. Výpočetní schopnost čipu o stejné velikosti a ceně se mnohonásobně zvýšila.

Výsledkem této proměny trhu je exploze dat – všudypřítomné snímání a konektivita, internet věcí (IoT) s 50 miliardami koncových bodů a skutečnost, že dnešní smartphony mají větší schopnosti výpočtů, ukládání a práce se vstupy a výstupy (I/O) než rané mainframy, a dokonce i než počítač Deep Blue (1997/IBM). To platí i pro společnosti jako Exxon Mobil, která investovala 2 miliardy dolarů do společnosti Lockheed Martin pro urychlení vývoje otevřené systémové architektury k automatizaci procesů. Podle některých názorů se však cenová výhoda daná Mooreovým zákonem projevuje příliš pomalu na frontových liniích výroby.

Výsledkem této všudypřítomné a levné výpočetní kapacity je to, že výrobci v procesním průmyslu mají příležitost předefinovat své strategie analytiky dat implementací řešení, která byla dříve příliš drahá. Data bývala pro účely analytiky centralizována, protože bylo nákladné data shromažďovat, ukládat a analyzovat.

Všudypřítomná a méně nákladná výpočetní kapacita zde bude i do budoucna. Ať už se iniciativa nazývá jakkoli (Průmysl 4.0, chytrá výroba, digitální transformace), zůstává otázkou, co se shromažďovanými daty dělat.

Nová označení pro nové modely

Důsledkem nového pojetí ekonomiky a všudypřítomné výpočetní kapacity je nutnost přizpůsobit centralizovaný přístup modelu Purdue (obr. 1) novým příležitostem. Centralizovaný model je nejběžnější architekturou procesních závodů po celém světě a je uživatelům dobře známý.

Model Purdue je aktualizován, aby využíval výhod nových technologií, jako jsou:

Díky tomu mohou nastat dva hlavní scénáře:

Zaprvé přístup „přímo do cloudu“ pro sběr, ukládání a analýzu dat pro telemetrii senzorů. To je obvykle případ průmyslového internetu věcí (IIoT), kdy data jdou přímo z koncových bodů do cloudového úložiště. Zadruhé použití pro již shromážděná data, aby mohla být dále agregována pro srovnání mezi závody, a to s využitím podnikového datového skladu nebo v kombinaci s dalšími soubory výrobních a obchodních dat, aby byla možná širší analýza, což se často označuje jako datové jezero (data lake).

Tyto přístupy se vzájemně nevylučují a většina společností bude používat více než jeden, ne-li všechny. Závod může například získávat data z nově zavedených bezdrátových senzorů za účelem obohacení stávající analytiky závodu. To by mohlo být kombinováno s daty od dodavatelů, s daty z přepravy surovin, jako je teplota a vlhkost, a s daty z nástrojů pro řízení kvality, čímž by bylo možné získat širší záběr analytických dat a poznatků.

Nové produkty tyto možnosti rozšíří. Do jaké kategorie byste měli zařadit Amazon AWS a lokální produkty Microsoft Azure, Amazon Outposts (obr. 2) a Azure Stack, které umisťují své cloudové softwarové platformy na serverový hardware určený pro lokální hosting v IT oddělení koncového uživatele? Možná je to veřejný cloud, privátní cloud a lokální cloud?

Při scénáři IoT s lokálním cloudem mohou být data směrována z nových senzorů přímo do serverové místnosti firemního oddělení IT, aby byly splněny přísné požadavky na správu dat (data governance) a zabezpečení.

Některé možnosti budou odborníkům z praxe připadat povědomé. Dodavatelé zaměření na edge computing budou mít problém vysvětlit, jak se komponenty pro edge computing liší od jednotek reálného času (Real-Time Unit – RTU). Dodavatelé cloudových služeb, kteří propagují datová jezera, budou jen těžko vysvětlovat, v čem se jejich přístup podstatně liší od podnikového datového skladu shromažďujícího data závodu.

Může zde být těžké odlišit vlastní zájem prodejce. Není náhoda, že plně decentralizovanou a síťovou architekturu koncových bodů computingu prosazují dodavatelé, kteří prodávají potřebné síťové prvky, procesory a operační systémy.

Nabídka technologií se evidentně vyvíjí rychleji než jazyk, který je popisuje. Za nový „okraj“ jsou někdy považovány celé závody. Další otázkou je nesoulad mezi inovacemi a dobou potřebnou pro implementaci. Produkty a marketing lze vymyslet přes noc. To je mnohem kratší doba než použití testovacích míst a osvědčených postupů z úspěšných realizací.

Nižší náklady a lepší konektivita zvyšují flexibilitu, pokud jde o to, kam a jak implementovat senzory, sběr dat, jejich ukládání a analytiku. Komplexní pohled na možné architektury a kompromisy by byl daleko nad rámec popisu z důvodu rychlého vývoje nových inovací a módních termínů. Níže uvádíme čtyři aspekty dopadů všudypřítomné výpočetní kapacity na architektury závodu, pokud jde o vytváření, sběr, ukládání a analýzu dat.

1. Jaký je výchozí bod?

V případě nově implementovaných senzorů jsou shromážděná data ukládána do cloudu, i když cloudem je hardware v lokálním datovém centru. To je vhodnější pro monitorování/viditelnost, protože architektura bude muset kromě splnění řady požadavků na zabezpečení dat podporovat i řešení narušení komunikace. Microsoft, Amazon, Google a stovky start-upových společností poskytujících bezdrátová řešení určená speciálně pro průmysl nabízejí kompletní softwarové sady typu „od okraje k poznatkům“. Tento přístup nabízí rychlé nasazení a nové příjmy z cloudových služeb.

Alternativou jsou závody typu brownfield, kde těžiště je a nadále bude přímo v lokalitě. Nízká latence, zaručené síťové spojení a lokální přístup k datům jsou pro tento model klíčové a tato řešení jsou zavedená a fungují. Pravděpodobnějším scénářem pro závody typu brownfield je rozšíření jejich sběru dat, a to buď prostřednictvím lokálních bezdrátových řešení, nebo formou přilehlého cloudového systému, kde jsou data integrována s provozními systémy. U tohoto modelu mohou data flexibilně skončit buď v lokalitě, nebo v cloudu.

2. Má zařízení sousedy?

V modelu edge computingu je lokalitou jakékoli zařízení, které může být analyzováno individuálně a diagnostikováno pro predikci selhání, optimalizaci výkonu runtimu atd. Pokud zařízení pracuje nezávisle, dává to smysl. Tím se vytvoří inteligentnější model RTU pro zařízení s vysokou hodnotou. Pokud však má zařízení sousedy v rámci procesní jednotky nebo linky strojních zařízení, jak tomu často bývá, není tak jednoznačné, kde by mělo docházet ke sběru a analýze dat. Může se stát, že sousední zařízení budou soupeřit o optimalizační status.

Je však zapotřebí optimalizace celé procesní jednotky nebo výrobní linky. Řešením je agregovat data z více zařízení na lince, pokud není součástí větší jednotky. Bude zapotřebí pečlivě plánovat, kde budou data shromažďována, ukládána a analyzována za účelem optimalizace, kromě scénáře se samostatným zařízením. Ale i v takovém případě – vzhledem k cenám, energii a nedostupnosti dalších vstupů na provozní úrovni – může být dosahováno nejlepších výsledků s modelem centrálního sběru a analytiky dat.

3. Kdo data vlastní?

S novými výpočetními architekturami vyvstávají otázky, kam a kdo má data ukládat. Výrobci zařízení stále častěji nabízejí služby vzdáleného monitorování pro zařízení, která prodávají. S tím vyvstávají otázky týkající se správy dat, jako jsou např.:

4. Kdo má odborné znalosti?

Pro optimalizaci výkonu zařízení, linky nebo závodu jsou často zapotřebí i další datové vstupy, nejen ty, jež jsou nutné pro řízení v reálném čase a monitorování. Náklady na přesčasy zaměstnanců, výdaje za urgentní dodávky náhradních dílů a závazky vůči zákazníkům jsou součástí optimalizace výroby a důvodem, proč mají technici závodu a odborníci tak nadějné kariérní perspektivy. Tyto procesy budou vyžadovat pokročilou analytiku pro přístup k datům, jejich vizualizaci a kontextualizaci či získávání poznatků.

Michael Risse, ředitel marketingu (CMO) a viceprezident společnosti Seeq. Upravil Chris Vavra, redaktor časopisu Control Engineering, CFE Media, cvavra@cfemedia.com.