Dane badawcze i otwarte dane badawcze

Dane badawcze

Dane badawcze to wszelkie informacje, które zostały zebrane lub wygenerowane w procesie badawczym. Ich udostępnianie pozwala weryfikować przedstawione wyniki badań oraz umożliwia ponowne wykorzystanie w kolejnych badaniach. Dane badawcze zazwyczaj mają formę cyfrową, ale obejmują także formaty niecyfrowe, takie jak zeszyty laboratoryjne i dzienniki, które mogą zostać zdigitalizowane. Danymi badawczymi są zarówno dane surowe (nieprzeanalizowane, zbierane w procesie badawczym), jak i dane poddane obróbce. Gromadząc dane niecyfrowe, należy ocenić ich długoterminową przydatność i zaplanować, w jaki sposób zagwarantować ich trwałość. W trosce o powszechną dostępność danych, powinno się korzystać z formatów niewymagających komercyjnego oprogramowania do ich odczytu.

Otwarte dane badawcze

Otwarte dane badawcze (Open Data) to dane badawcze udostępnione zgodnie z ideą Otwartego Dostępu – każdy użytkownik może je analizować, ponownie wykorzystywać, modyfikować i redystrybuować. Aby dane badawcze były otwarte, muszą być zdeponowane w otwartych repozytoriach krajowych lub międzynarodowych i upublicznione zgodnie z otwartymi licencjami np. Creative Commons.

Rodzaje danych badawczych

  • surowe – zebrane, ale nie przeanalizowane;
  • obserwacyjne – przechwytywane w czasie rzeczywistym (np. odczyty czujników, dane telemetryczne, wyniki anonimowych ankiet, badania fokusowe), często unikalne, ponieważ nie można ich „odzyskać”;
  • eksperymentalne – uzyskane ze sprzętu laboratoryjnego w kontrolowanych warunkach, powtarzalne, ale często bardzo kosztowne (np. sekwencje genów, spektroskopia, odczyty pola magnetycznego);
  • dane symulacji – zebrane podczas testów badających rzeczywiste lub teoretyczne systemy (np. modele klimatyczne, ekonomiczne, systemy inżynieryjne);
  • dane pochodne / skompilowane – wyniki analiz danych, albo dane agregowane z różnych źródeł. Powtarzalne, ale ich pozyskanie może być bardzo kosztowne (bazy danych, teksty, modele 3D, dane bibliometryczne);
  • dane referencyjne – poprawione lub organiczne zbiory danych, zwykle recenzowane, publikowane i selekcjonowane (dane GUS, struktury chemiczne, bazy danych z sekwencjami genów).

Formy danych badawczych

  • dzienniki, pamiętniki,
  • zeszyty laboratoryjne i terenowe, notatki z eksperymentów,
  • protokoły laboratoryjne, opisy metodologiczne,
  • dokumenty tekstowe i arkusze kalkulacyjne,
  • kwestionariusze ankiet i wywiadu,
  • odpowiedzi testowe,
  • fotografie i slajdy,
  • prezentacje,
  • nagrania audio i video,
  • artefakty, okazy, próbki.
  • pliki danych,
  • standardowe procedury i protokoły operacyjne,
  • modele matematyczne, algorytmy,
  • oprogramowanie,
  • wyniki symulacji komputerowych.

Formaty plików

Szczególną uwagę należy zwrócić na rodzaje formatów w jakich mają być gromadzone dane badawcze, tak aby umożliwić ich długoterminowe wykorzystanie. Dlatego też najlepiej zapisywać dane w standardowych i wymiennych formatach plików, łatwych do odczytania i interpretowania.

Format preferowany
Dane tekstoweZwykły tekst (.txt)
XML (.xml)
HTML (.html)
PDF/A (.pdf)
JavaScript Object Notation (.json)
Protein Data Bank (.pdb)
XYZ (.xyz)
(wszystkie formaty powinny być zakodowane w UTF-8)
Arkusze kalkulacyjneComma-separated values file (.csv)
OpenDocument Spreadsheet (.ods)
Dane obrazuJPEG Image Encoding family (.jpeg, .jpg)
TIFF (.tiff, .tif)
Portable Network Graphics (.png)
Scalable Vectors Graphics (.svg)
Dane geoprzestrzenneGeography Markup Language (.gml)
Keyhole Markup Language (.kml)
ESRI Shapefile (.shp, .shx, .dbf)
Geo-referenced TIFF (.tif, .tiff, .gtiff)
Dane numeryczneNetCD(.nc)
HDF5 (.hdf5)
CSV (.csv)
JSON (.json)
Pliki videoMaterial Exchange Format (.mxf)
Pliki audioMaterial Exchange Format (.mxf)
FLAC (.flac)
Bazy danychCSV (.csv)
ArchiwizacjaZIP (.zip)
7zip (.7z)

Przydatne opracowania dotyczące danych badawczych:

Zasady FAIR

Zasady FAIR to zbiór wytycznych określających najważniejsze zasady opisywania, publikowania i przechowywania danych badawczych tak aby umożliwić ponowne ich wykorzystanie. FAIR to akronim utworzony od pierwszych liter angielskich słów: Findable, Accessible, Interoperable oraz Reusable.

Findable – łatwe do znalezienia

Dane badawcze, w myśl zasad FAIR, powinny być opisane za pomocą bogatych metadanych i mieć unikalny i trwały identyfikator (np. DOI). Powinny również być przechowywane i indeksowane w przeszukiwalnym zasobie (np. repozytorium).

Accessible – szeroko dostępne

Zaleca się, aby uzyskanie dostępu i odczytanie danych, było możliwe za pośrednictwem otwartych, darmowych i uniwersalnych kanałów komunikacyjnych. Dane powinny być „tak otwarte, jak to możliwe – tak zamknięte, jak to niezbędne”. Jeśli dostęp do danych jest ograniczony (np. dane wrażliwe, postępowania patentowe, embargo czasowe), należy uzasadnić przyczynę lub określić warunki, w jakich mogą zostać udostępnione. W przypadku, gdy udostępnienie danych jest niemożliwe, należy upublicznić opis utworzonego zasobu, w formie metadanych.

Interoperable – interoperacyjne, łatwe do odczytu i przetwarzania zarówno przez ludzi, jak i komputery

Zasady FAIR zakładają, że przedstawiane dane wykorzystują formalny, dostępny i szeroko stosowany język do reprezentacji wiedzy oraz umożliwiają połączenie ich z innymi zbiorami danych.

Reusable – wielokrotnego użytku

W celu umożliwienia ponownego wykorzystania danych i ich właściwej interpretacji, dane powinny być właściwe udokumentowane, poprzez podanie informacji o celach projektu, jednostkach zaangażowanych w zbieranie danych oraz wyjaśnienie w jaki sposób dane zostały utworzone.

Ponadto dane badawcze powinny mieć wyraźnie określoną licencję, regulującą warunki ich ponownego wykorzystania, np. powszechnie używane licencje Creative Commons.

Zasady FAIR są nieustannie rozwijane, ponieważ coraz więcej organizacji i instytucji jest zainteresowanych wprowadzaniem dobrych praktyk w zakresie zarządzania danymi badawczymi.

Więcej o zasadach FAIR:

Licencje udostępniania dla danych badawczych

Licencje Creative Commons dla danych badawczych

Licencja CC BYCC0 – zrzeczenie się praw autorskich (preferowana przez NCN)przekazanie zbioru danych do domeny publicznej, pozwala użytkownikom na korzystanie ze zbioru danych w nieograniczonym zakresie i bez żadnych zobowiązań
Licencja CC BYCC BY – Uznanie autorstwa (akceptowana przez NCN do 31.12.2025)pozwala użytkownikom na kopiowanie, modyfikowanie, rozpowszechnianie i tworzenie nowych utworów bądź zbiorów w oparciu o licencjonowany zbiór danych, pod warunkiem oznaczenia autorstwa tego zbioru danych, zezwala na wykorzystanie zbioru danych w celach komercyjnych
Licencja CC BYCC BY-NC – Uznanie autorstwa – Użycie niekomercyjnepozwala użytkownikom na kopiowanie, modyfikowanie i rozpowszechnianie licencjonowanego zbioru danych, wyłącznie w celach niekomercyjnych pod warunkiem oznaczenia autorstwa tego zbioru danych
Licencja CC BYCC BY-SA – Uznanie autorstwa – Na tych samych warunkachpozwala użytkownikom na kopiowanie, modyfikowanie oraz rozpowszechnianie zbioru danych pod warunkiem oznaczenia autorstwa i udostępniania danych oryginalnych oraz zmodyfikowanych na tej samej licencji
Licencja CC BYCC BY-NC-SA – Uznanie autorstwa – Użycie niekomercyjne – Na tych samych warunkachpozwala użytkownikom kopiować, modyfikować i rozpowszechniać zbiory danych przy zastrzeżeniu, że zarówno oryginalne jak i zmodyfikowane dane będą udostępniane na takiej samej licencji i wyłącznie w celach niekomercyjnych
Licencja CC BYCC BY-ND – Uznanie autorstwa – Bez utworów zależnychumożliwia użytkownikom ponowne wykorzystanie zbioru danych pod warunkiem oznaczenia autorstwa. Licencja nie pozwala jednak na modyfikowanie zbioru. Nie jest wskazana do licencjonowania danych badawczych, gdyż praktycznie uniemożliwia dalsze prace na danych
Licencja CC BYCC BY-NC-ND – Uznanie autorstwa – Użycie niekomercyjne – Bez utworów zależnychpozwala użytkownikom na pobieranie zbioru danych i dzielenie się nim, pod warunkiem określenia autorstwa. Zbiór nie może być modyfikowany ani wykorzystywany komercyjnie. Jest to najbardziej restrykcyjna z licencji. Nie jest wskazana do licencjonowania danych badawczych, gdyż praktycznie uniemożliwia dalsze prace na danych

Licencje do baz danych

PDDL (Public Domain Dedication and License PDDL)domena publiczna dla baz danych, zakłada nieograniczoną możliwość pobierania, udostępniania i modyfikowania baz danych
ODC (Open Data Commons Attribution License ODC-BY)zezwala na kopiowanie, modyfikowanie bazy danych pod warunkiem oznaczenia autorstwa bazy
ODbL (Database License ODC – ODbL)zezwala na kopiowanie, przetwarzanie oraz rozpowszechnianie bazy danych pod warunkiem uznania jej autorstwa oraz upowszechniania zmodyfikowanej bazy na takich samych warunkach, na jakich została udostępniona baza oryginalna

Licencje do programów komputerowych

GNU GPL – General Public Licensezezwala na uruchomianie, analizowanie, rozpowszechnianie i udoskonalanie programu w dowolnym celu. Dzieła pochodne muszą być udostępnione na tej licencji, również zmodyfikowany kod źródłowy
GNU LGPL – Lesser General Public Licensezezwala na uruchomianie, analizowanie, rozpowszechnianie i udoskonalanie programu w dowolnym celu. Nakłada ograniczenia określane jako copyleft tylko na poszczególne pliki źródłowe. Licencja zobowiązuje do udostępnienia tylko kodu źródłowego (plików źródłowych) w wersji pierwotnej bez dzieł pochodnych.

Więcej:

Organizacja folderów

Odpowiednia organizacja danych badawczych jest niezwykle ważna, aby uniknąć pomyłek i bałaganu w plikach dotyczących projektu. Organizacja plików musi być zrozumiała dla autora, całego zespołu badawczego oraz każdej potencjalnej osoby, która będzie miała dostęp do danych.

Podczas pracy w grupie lub przygotowywaniu się do udostępnienia zbioru danych konieczne jest użycie jak najbardziej przejrzystej struktury folderów. 

Ponadto:

  • struktura powinna zostać uzgodniona i przyjęta przez wszystkich uczestników badania;
  • nazwy folderów powinny być zawsze krótkie i jednoznaczne tak, aby od razu było wiadomo jakie dane znajdują się w folderze;
  • jeśli struktura folderów jest złożona ze względu na zakres projektu to do każdego głównego zbioru powinien być dołączony plik README charakteryzujący zbiór;
  • hierarchia folderów powinna być spójna i logiczna (zaczynając od folderu ogólnego, przechodząc do folderów bardziej szczegółowych). Konstrukcja folderów nie powinna być zbyt głęboka, ani zbyt płytka. W zależności od wielkości projektu może oznaczać 3-4 poziomów;
  • w ramach strategii przechowywania przydatne może być dodatkowe zdefiniowanie „tymczasowych folderów”, z których można będzie bezpiecznie usunąć dane po użyciu.

Rzeczy których należy unikać:

  • nazywanie ogólnego folderu „bieżące rzeczy”;
  • nazywania folderów dla badacza (nazwy folderów powinny dotyczyć zawartości, a nie autorów);
  • tworzenia folderów o tych samych nazwach w różnych miejscach;
  • tworzenia kopii w różnych folderach, jeśli jest taka potrzeba można użyć skrótów aby zachować plik referencyjny.

Nazewnictwo plików

Nazwy plików mogą zawierać wiele informacji o ich zawartości. Powinny być spójne, logiczne, opisowe, krótkie i czytelne. Pracując zespołowo trzeba ustalić konwencję nazewnictwa w celu uniknięcia błędów.

Co może zawierać nazwa pliku:

  • akronim bieżącego projektu lub eksperymentu (2-5 liter), dzięki czemu wiadomo czego dotyczy plik;
  • krótki opis zawartości pliku (1-3 słowa);
  • informację o lokalizacji lub współrzędne jeśli byłyby przydatne;
  • datę;
  • inicjały osoby (badacza lub podmiotu) lub całe nazwisko i imię zaczynając zawsze od nazwiska np. KowalskiJ lub Kowalski-Jakub.

Wskazówki:

  • elementy opisu powinny być uporządkowane od ogółu do szczegółu;
  • należy unikać spacji; inne opcje mogą być używane i mieszane w celu zapewnienia czytelności:
    – korzystanie z CamelCase (system notacji ciągów tekstowych, w którym kolejne wyrazy pisane są łącznie, rozpoczynając każdy następny wielką literą (prócz pierwszego) np.: foreColorsetConnectionisPaymentPosted);
    – można używać łączników (-);
    – można używać podkreśleń (_).
  • numerując pliki, należy zawsze używać wielu cyfr (np. 001 zamiast 1), aby uniknąć problemów z sortowaniem;
  • używając dat, zawsze używaj standardu ISO (najpierw rok, potem miesiąc i dzień): RRRRMMDD np. 20240528 lub 2024-05-28. Można to skrócić do roku lub roku i miesiąca, w zależności od potrzeb i kontekstu;
  • używając godziny należy ją zapisać w schemacie (godzina, minuty, sekundy): GGMMSS
  • nigdy nie używa się znaków specjalnych, takich jak: ęć!?*&#.

Zarządzanie wersjami danych

Podczas pracy z danymi lub dokumentami konieczne jest przechowywanie różnych ich wersji. Pozwoli to zminimalizować ryzyko utraty danych lub wrócić do wcześniejszej wersji w razie wystąpienia błędu. W takim przypadku badacz musi wiedzieć, która wersja jest która.

Najprostszym sposobem jest użycie przedrostka nazwy pliku, numeru wersji, daty i/lub inicjału badacza np.:

  • nazwa_pliku_v02.pdf – to druga główna wersja pliku
  • nazwa_pliku_v02-01.pdf – to pierwsza wersja wersji 2
  • nazwa_pliku_20230915.pdf – to wersja z dnia 15 września 2023 r.
  • nazwa_pliku_AN.pdf – to wersja przygotowana/poprawiona przez Annę Nowak

Nazwy plików trzeba dostosować do charakteru przeprowadzanych badań ale trzeba pamiętać aby tak oznaczać wersje żeby były czytelne dla autora jak i całego zespołu badawczego.

Metadane

Metadane to ustrukturyzowane informacje opisujące, tłumaczące, lokalizujące i ułatwiające we wszelki inny sposób odnalezienie, wykorzystanie lub zarządzanie zasobem informacji. Metadane często określa się mianem ‚danych o danych’ albo ‚informacji o informacjach’.
National Information Standards Organization

Metadane danych badawczych są podstawowymi informacjami służącymi do opisu całego zbioru danych upublicznionego np. w repozytorium. Opis ten powinien być przygotowany według pewnych ustalonych zasad.

Występuje wiele standardów metadanych. Wyszczególnić można standardy ogólne, dziedzinowe i instytucjonalne. Ogólne standardy metadanych to Dublin Core, Data Cite oraz Data Documentation Initiative (DDI). Są one uniwersalne dziedzinowo i powszechnie stosowane.

RODBUK – Repozytorium Danych Badawczych Uczelni Krakowskich wykorzystuje do opisu deponowanych danych badawczych standard Dublin Core.

Podstawowe pola w standardzie Dublin Core:

data;
format;
identyfikator;
język;
opis;
powiązanie;
prawa;
rodzaj;
temat;
twórca;
tytuł;
współpraca;
wydawca;
zasięg;
źródło.

Plik README

Plik README to plik, który przygotowuje się dla każdego zbioru danych i dołącza w momencie deponowania danych w repozytorium. Powinien być przygotowany w formacie otwartym np. txt., najlepiej w języku angielskim nawet jeśli projekt jest w języku polskim lub może mieć dwie wersje językowe. Plik README ma za zadanie dostarczyć wszystkich niezbędnych informacji do właściwego zrozumienia, interpretacji i ponownego wykorzystania danych przez osoby, które chciałyby skorzystać z danych. Utworzenie pliku README na początku procesu badawczego i konsekwentne jego aktualizowanie w trakcie badań pomoże w przygotowaniu ostatecznego pliku README, gdy dane będą gotowe do zdeponowania.

Dlaczego warto taki plik przygotować i dołączyć do zbioru danych (datasetu)?

  • rzetelny opis projektu i danych pozwoli lepiej zrozumieć zawartość datasetu;
  • informacja z jakiego oprogramowania trzeba skorzystać przy formatach zamkniętych jeśli w takich będą zdeponowane dane przyspieszy wykorzystanie danych;
  • opis w jaki sposób są uporządkowane dane w datasecie pozwoli w pełni zweryfikować i wykorzystać dane;
  • obszerny i pełny opis może zwiększyć zainteresowanie badaniami co może przełożyć się na nowe możliwości współpracy. 

Plik README powinien zawierać:

  • tytuł zbioru danych, opis i cel badania;
  • imię i nazwisko (ORCID)/instytucja/dane kontaktowe;
  • informację o metodzie i procedurach zbierania danych;
  • zakres czasowy badań;
  • narzędzia badawcze;
  • strukturę uporządkowania danych:
    • strukturę folderów;
    • system nazewnictwa plików (z przykładami);
    • relacje i zależności między plikami;
    • inne interesujące pliki dokumentacji w zbiorze danych (notatki, pliki towarzyszące);
    • przy każdym większym pliku krótki opis jego zawartości i data utworzenia;
    • opis systemu wersjowania plików, jeśli ma to zastosowanie.
  • oprogramowanie wykorzystywane do gromadzenia i przetwarzania danych, w tym numery wersji;
  • formaty plików używane w zbiorze danych i zalecane oprogramowanie;
  • zastosowane procedury kontroli jakości;
  • dziennik zmian zestawu danych;
  • licencję na jakiej dane są udostępniane.

W przypadku obszernej dokumentacji dobrze jest na początku dokumentu przygotować tzw. spis treści linkujący do odpowiednich nagłówków.

Plik README powinien być przygotowany w języku angielskim.

Przykładowy formularz pliku README.