Żebyśmy się dobrze zrozumieli – metadane (część 1)

Wykorzystane bazy danych: EMIS, OECD iLibrary, SWAID

Bazy dostępne w Bibliotece zawierają olbrzymie ilości  danych statystycznych. Sama liczba wskaźników przekracza kilka milionów, za każdym z nich idą krótsze lub dłuższe szeregi danych. Zanim zostaną użyte w pracach licencjackich, magisterskich, referatach, artykułach  czy raportach, warto upewnić się czy na pewno dobrze rozumiemy co znalezione liczby oznaczają. Temu właśnie służą tytułowe metadane.

Naturalnie nie każdy wskaźnik wymaga sprawdzenia w metadanych, czasami sprawa jest oczywista na pierwszy rzut oka. Kiedy na przykład widzimy dane dotyczące procentowego wzrostu lub spadku inflacji rok do roku,  sprawa jest jasna – inflacja wzrosła/spadła o dany procent w stosunku do ubiegłego roku. Wbrew pozorom jednak taka „czysta” sytuacja nie występuje zbyt często. Nawet intuicyjnie łatwe do wyobrażenia wielkości jak stopa bezrobocia mogą być prezentowane na różne sposoby. A co dopiero taki produkt krajowy brutto! Wystarczy wejść do dowolnej bazy statystycznej, żeby przekonać się jak wiele występuje wariantów tego niezwykle istotnego wskaźnika – wystarczyłoby materiału na cały wpis. Dla urozmaicenia przekazu wybrałem jednak bardziej zróżnicowane przykłady.

Na początek proponuję zajrzeć do bazy OECD iLibrary. Z sekcji Statistics wybrałem moduł Science, Technology and R&D Statistics. Już pierwsza domyślnie otwierająca się tabela (Main Science and Technology Indicators) pokazuje, że wydawca bazy podchodzi poważnie do nas, użytkowników i daje nam możliwość doprecyzowania, co konkretnie tu widzimy. Po pierwsze możemy kliknąć na literkę „i” przy tytule tabeli, aby dowiedzieć się jakiego rodzaju danych możemy się spodziewać.

Po drugie przy wartościach liczbowych znajdują się literki w nawiasach. Aby poznać ich znaczenie należy zjechać na sam dół tabeli i odczytać legendę. Dzięki temu będziemy mieć pewność kiedy dysponujemy danymi szacunkowymi albo kiedy prezentowana wartość została obliczona na podstawie innej definicji (przez co jej porównanie z innymi krajami powinno być ostrożniejsze).

Po trzecie metadane są dostępne także dla krajów. Pozornie może się to wydawać dziwne i niepotrzebne, bo przecież wiadomo co to jest Irlandia czy Izrael. Tyle że w tym wypadku chodzi o przybliżenie uwarunkowań specyficznych dla danego kraju w kontekście przedstawianych danych. A skoro mowa o wydatkach krajowych brutto na badania naukowe i rozwój, to warto wiedzieć jak ta sfera jest definiowana w danym kraju.

Weźmy teraz stopy i progi podatkowe. Zanim przejdziemy do analizy podanych liczb, dobrze zobaczyć jak twórcy bazy definiują dany wskaźnik. Dowiemy się tego klikając na „i” przy jego nazwie.

Jak widać na obrazku poniżej literkę „i” znajdziemy prawie wszędzie, co oznacza że możemy poznać szczegóły dotyczące podkategorii, uwarunkowań krajowych oraz samych danych.

Kolejny obrazek pokazuje co zobaczymy klikając na „i” przy danych liczbowych.

Dzięki tym informacjom ryzyko pomyłki przy interpretacji jest znacząco zredukowane.

Skoczmy teraz do bazy EMIS. Także tutaj metadane pomogą nam lepiej zrozumieć to, co widzimy na ekranie. Za przykład niech posłużą nam profile przedsiębiorstw, a w szczególności ich dane finansowe. O ile pozycje z kategorii sprawozdania finansowe (rachunek zysków i strat, bilans, rachunek przepływów pieniężnych) są w założeniu twórców bazy oczywiste i nie wymagają tłumaczenia, to już ze wskaźnikami sytuacja wygląda inaczej.

Kiedy najedziemy myszką na ikonkę po prawej stronie nazwy wybranego wskaźnika, otrzymamy informację objaśniającą oraz sposób w jaki wskaźnik jest liczony. Dzięki temu nie ma miejsca na domysły i spekulacje – sprawa jest jasna.

Metadane przydają się także w innych miejscach w EMISie. Wybierzmy na przykład Ryzyko krajowe (na stronie głównej bazy wybieramy Kraj –> Ocena ryzyka kraju). Widzimy mapę, na której kraje zaznaczone są trzema kolorami, intuicyjnie można się domyślić, że zielony to dobrze, żółty średnio, a czerwony źle. Tyle że to raczej nie jest pożądany przez nas poziom analizy. W tabeli po prawej stronie widać wartość oceny ryzyka dla każdego kraju wyrażoną określonym kodem. Nie ma wyjścia, po prostu musimy kliknąć w link Metodologia, bo inaczej te wartości pozostaną nic nie znaczącymi symbolami.

Otwiera się osobny plik pdf, w którym już na pierwszej stronie znajdziemy potwierdzenie co do znaczenia kolorów (tyle, że zamiast żółtego figuruje tam kolor bursztynowy ;-)). Znacznie ważniejsze są wyjaśnienia widoczne poniżej. Dopiero po ich przejrzeniu możemy mówić o czytaniu tabeli ryzyka poszczególnych krajów ze zrozumieniem. Przy okazji tylko dodam, że oprócz wskaźnika ogólnego możemy sprawdzić ryzyko krajowe także w innych aspektach, wystarczy rozwinąć menu nad tabelką gdzie domyślnie jest D&B Overall.

Na koniec tego odcinka chcę pokazać, że metadane są przydatne również w  przypadku statystyk, które zdają się nie wymagać dodatkowych objaśnień. Za przykład niech posłużą Tablice trwania życia zaczerpnięte z bazy SWAID (a konkretniej z działu Demografia w tej bazie).

Najciekawsze (przynajmniej moim zdaniem) wydają się wartości dotyczące prawdopodobieństwa zgonu oraz przeciętnego dalszego trwania życia. Oba te wskaźniki brzmią zrozumiale i patrząc na liczby można mieć wrażenie, albo nawet przekonanie, że wiemy o co chodzi. Mimo to warto zajrzeć do metadanych.

Jak widać nie spotkało nas jakieś wielkie zaskoczenie, właściwie dokładnie tego można się było spodziewać. Chodzi jednak o szczegóły.  Prawdopodobieństwo zgonu osoby w danym wieku w ciągu roku to informacja dużo dokładniejsza niż samo prawdopodobieństwo zgonu. Podobnie rzecz się ma z innymi wskaźnikami. Dzięki wejściu na stronę z metadanymi nasze rozumienie przedstawionych statystyk jest po prostu pełniejsze.

Dla porządku dodam jeszcze, że z prawej strony ekranu znajduje się tabelka z parametrami, które możemy dowolnie zmieniać (oczywiście w ramach dostępnych danych). W naszym przykładzie skorzystałem z ustawień domyślnych, takich jak na obrazku poniżej. W całej bazie SWAID działa to w ten sam sposób, niezależnie od tego czy przeglądamy dane dotyczące demografii czy innych zagadnień.

W następnym odcinku dowiemy się gdzie szukać metadanych w innych bazach.