Jak uratować sondę przed eksplozją, czyli po co firmom data stewardzi?

Gdyby zamiast dysków twardych ludzkość używała ziaren piasku do zapisu danych, a na każdy bajt przypadałoby jedno ziarno, ziemskie zapasy skończyłyby się po trzech dniach. Aby się w tym nie pogubić, organizacje coraz częściej sięgają po wsparcie data stewardów.

Jak uratować sondę przed eksplozją, czyli po co firmom data stewardzi?

W grudniu 1998 roku z kosmodromu na przylądku Canaveral na Florydzie wystartowała misja Mars Climate Orbiter. W kierunku Czerwonej Planety wystrzelono wówczas wartą 125 mln dolarów sondę, której celem było zbadanie atmosfery oraz klimatu Marsa, a także poszukiwanie wody i monitorowanie ruchu pyłów na jego powierzchni. Misja, która miała znacząco pogłębić wiedzę ludzkości na temat Układu Słonecznego, ostatecznie zakończyła się spektakularnym fiaskiem. Sonda, po dotarciu do celu, zamiast zgodnie z planem minąć Marsa w odległości około 150 kilometrów, trafiła na wysokość około 56 kilometrów i spłonęła w atmosferze. 

Komisja badania wypadków NASA poinformowała, że przyczyną był błąd komputera wynikający z... rozbieżności jednostek miary. W toku śledztwa okazało się bowiem, że inżynierowie z Jet Propulsion Laboratory (JPL) w Kalifornii korzystali z systemu metrycznego, podczas gdy pracownicy Lockheed Martin Astronautics w Denver, firmy odpowiedzialnej za projekt i budowę sondy, stosowali amerykański system oparty na calach i funtach. Różnice w danych zmyliły komputer pokładowy sterujący misją i doprowadziły do katastrofy. 

– To było takie głupie – komentował później dla dziennika Los Angeles Times John Logsdon, dyrektor Instytutu Kosmicznego Uniwersytetu Washingtona. To, co współcześnie nazywane jest data stewardship, prawdopodobnie pozwoliłoby uniknąć tej katastrofy. 

Świat pełen danych, czyli kim jest data steward

Jak informuje portal ExplodingTopics, na świecie codziennie przyrasta 328,77 miliona terabajtów danych, co daje 120 zettabajtów rocznie. Przedrostek „zetta” oznacza tryliard bajtów. Jeden tryliard to w przybliżeniu liczba wszystkich ziaren piasku. 

Wszystkie te dane są przechowywane i przetwarzane przez firmy, organizacje oraz inne podmioty, które starają się wyciągnąć z nich możliwie jak najwięcej przydatnych informacji. Obecnie głównym wyzwaniem jest jednak uporządkowanie danych oraz zastosowanie odpowiednich reguł w zarządzaniu nimi. Tym zajmuje się data steward

– Data steward to osoba, która wspiera badaczy we wszelkich kwestiach związanych z zarządzaniem danymi i ich udostępnianiem – tłumaczy Magdalena Szuflita-Żurawska, Lider Centrum Kompetencji Otwartej Nauki Politechniki Gdańskiej. – Jest on również odpowiedzialny za realizację polityki wykorzystania danych i bezpieczeństwa w określonych ramach inicjatyw zarządzania nimi. Pozycja data stewarda pojawiła się wraz z rozwojem społeczeństwa informacyjnego oraz eksplozją danych do zarządzania. Zadaniem takiego specjalisty (lub zespołu) jest dbanie o dane korporacyjne w taki sposób, aby były możliwe do przetwarzania, spójne, dostępne oraz bezpieczne – dodaje Szuflita-Żurawska.

Data stewardzi są więc obecni (lub powinni być) we wszystkich organizacjach przetwarzających dane, wliczając w to firmy, instytucje publiczne i ośrodki badawcze. 

Jakie znaczenie ma praca data stewarda

Kluczowe w pracy data stewarda jest umożliwienie pełnego i pełnowartościowego dostępu do posiadanych danych. Samo ich udostępnienie czy opublikowanie jednak nie wystarczy.

– Udostępniane dane powinny cechować się szeregiem atrybutów, które można streścić angielskim akronimem FAIR utworzonym ze słów: Findable (do znalezienia), Accessible (dostępne), Interoperable (interoperacyjne), oraz Reusable (do ponownego użytku). Oznacza to, że dane powinny być gromadzone, katalogowane oraz udostępniane w sposób umożliwiający (zarówno pod względem technicznym, jak i prawnym) ponowne ich wykorzystanie – tłumaczy Magdalena Szuflita-Żurawska.

W przypadku organizacji biznesowych wymagania są podobne, z tym że same dane są często używane w czasie rzeczywistym i na ich podstawie podejmowane są decyzje. Czasami ich skutki mogą w skali konkretnej organizacji prowadzić do działań porównywalnych ze spaleniem sondy Mars Climate Orbiter w atmosferze czerwonej planety. 

Problem z procentami, problem z definicjami

Przykładem złego zarządzania danymi na poziomie data stewardshipu są niejasne lub nieostre pojęcia. Dział sprzedaży może definiować „konwersję” jako pozostawienie danych kontaktowych, podczas gdy w głowach specjalistów działu sprzedaży będzie to dokonanie zakupu. W ten sposób oba zespoły mogą współpracować ze sobą, opisując rozmaite zjawiska przy użyciu podobnych słów, co jednak po czasie może doprowadzić do poważnych nieporozumień – choćby przy wskazaniu „kanału, który generuje największe konwersje”. 

Podobne nieporozumienia mogą zajść w samym dziale marketingu. Wystarczy, że część zespołu swoje metryki oprze na odsłonach, a część – na użytkownikach. Jeśli oba zespoły będą posługiwały się wartościami procentowymi, w dostarczanych raportach znajdą się ukryte błędy przekłamujące wynik. 

Stworzenie zestawu jednolitych definicji, standardów czy jednostek, którymi opisywane są dane w organizacji, to jedno z podstawowych zadań data stewarda. Podobnie jak pilnowanie, aby użytkownicy danych trzymali się narzuconych reguł i nie zwiększali bałaganu w systemach informatycznych organizacji. 

Dobrze zacząć

Rola data stewardów w organizacjach nie ogranicza się jednak do wspierania i konserwacji istniejących danych. Ich pomoc może być także przydatna przy redukowaniu czegoś, co można nazwać „długiem technicznym” w przypadku zarządzania danymi w przyszłości. 

– Taki plan nie stanowi jedynie niezbędnej formalności, ale pomaga zawczasu dostrzec możliwe trudności w zarządzaniu danymi i się przed nimi ustrzec – komentuje Magdalena Szuflita-Żurawska.

Takimi trudnościami może być na przykład forma danych niekompatybilna z systemem, w którym większość informacji organizacji jest przechowywana. Innym ryzykiem jest możliwość łatwego zgubienia czy wycieku danych. Narzucenie konkretnej formy, ram i procesu zarządzania nimi pozwala uniknąć niebezpieczeństw odpowiednio wcześniej. 

– Weryfikując przysyłane do nas plany, niejednokrotnie zwracamy uwagę na kwestie, które naukowcom umknęły, jak to, czy mają prawo wykorzystać wcześniej opublikowane dane do własnych badań, na jakim etapie dane będą anonimizowane, kto będzie miał do nich dostęp i w jaki sposób będzie to egzekwowane – opowiada ekspertka.  

Niejednokrotnie identyfikacja problemu na zaawansowanym etapie projektu nie pozwala już na naprawę szkód związanych z nieodwracalną utratą informacji po konwersji do innych formatów czy też usunięciem danych pierwotnych.

Droga stewarda

W tej chwili brakuje zarówno precyzyjnej definicji data stewarda, jak i dokładnych wytycznych, jakie kryteria powinien spełniać. W zależności od organizacji, w której pracuje, zarówno jego wykształcenie, jak i dotychczasowe doświadczenie może się diametralnie różnić. 

W przypadku firm, rola data stewarda może być pokrewna do analityka czy specjalisty IT w zakresie przetwarzania baz danych i opiece nad nimi. Portal indeed.com przyznaje jednak, że ze względu na zróżnicowanie trudno jest zebrać konkretne dane, co w kontekście tej roli jest dość ironiczne.

– Nie ma jednej definicji data stewarda. Wszystko zależy od specyficznych uwarunkowań i procedur w konkretnej jednostce, a także od tego, na jakich etapach procesu badawczego i w jakim zakresie wsparcie data stewardów jest niezbędne. Mogą nimi zostać zarówno osoby pracujące w pionie administracyjnym, bibliotekarze, jak i naukowcy. W przypadku Politechniki Gdańskiej, Centrum Kompetencji powstało przy bibliotece, co było ściśle powiązane z rozwojem repozytorium instytucjonalnego i poszerzeniem go o moduł związany z danymi badawczymi, czyli MOST Danych – podkreśla Magdalena Szuflita-Żurawska.

Dodaje też, że niezależnie od profesji wyjściowej niezwykle wartościowa jest wiedza z zakresu IT związana ze schematami metadanych czy też protokołami wykorzystywanymi przy ich przesyłaniu. Znajomość kwestii prawnych dotycząca licencji nadawanych przy udostępnianiu danych w repozytorium również może okazać się istotna.

Według ekspertki w związku z rozwojem możliwości przetwarzania danych zwiększa się zapotrzebowanie na data stewardów zarówno w organizacjach naukowych, jak i biznesowych. W związku z tym powstaje coraz więcej inicjatyw, których celem jest szkolenie i propagowanie dobrych standardów. 

– Światowe organizacje związane z otwartymi danymi badawczymi regularnie prowadzą szkolenia dla przyszłych data stewardów. Jedną z najważniejszych organizacji, która propaguje idee data stewardship jest GO FAIR – mówi Magdalena Szuflita-Żurawska.

Dodaje, że w przypadku nauki wynika to również z faktu, że łatwiejsze przetwarzanie danych i możliwość ich ponownego wykorzystania zmienia obraz danych nie tylko biznesowych, ale również naukowych.

– W ocenie istotności wyników badań naukowych środek ciężkości przesuwa się od publikacji w renomowanych czasopismach naukowych do udostępniania danych badawczych stanowiących ich podstawę. Ma to swoje odzwierciedlenie w wymogach stawianych przez jednostki naukowe, wydawców, a przede wszystkim przez zagraniczne i krajowe instytucje fundingowe, m.in. Narodowe Centrum Nauki – podsumowuje.

Dane biznesowe stały się przedmiotem zainteresowania całych organizacji, a idea bycia data driven to w tej chwili podstawowy paradygmat biznesowy. Jednak bez ciężkiej pracy data stewarda nie będzie on osiągalny w żadnej organizacji. Na przeszkodzie stanąć może zwykłe pomylenie cala z centymetrem.

)

Świetnie! Twoja rejestracja się powiodła.

Witaj z powrotem!

Twoja rejestracja w Digitized - magazyn dla ludzi w cyfrowym świecie zakończyła się sukcesem.

Sukces! Sprawdź swoje konto e-mail w poszukiwaniu magicznego linku do logowania.

Sukces! Twoje informacje rozliczeniowe zostały zaktualizowane.

Twoje informacje rozliczeniowe nie zostały zaktualizowane.