Dane badawcze i otwarte dane badawcze
Dane badawcze
Otwarte dane badawcze
Rodzaje danych badawczych
Formy danych badawczych
Formaty plików
Przydatne opracowania dotyczące danych badawczych:
Zasady FAIR
Więcej o zasadach FAIR:
Licencje udostępniania dla danych badawczych
Licencje Creative Commons dla danych badawczych
Licencje do baz danych
Licencje do programów komputerowych
Więcej:
Organizacja folderów
Odpowiednia organizacja danych badawczych jest niezwykle ważna, aby uniknąć pomyłek i bałaganu w plikach dotyczących projektu. Organizacja plików musi być zrozumiała dla autora, całego zespołu badawczego oraz każdej potencjalnej osoby, która będzie miała dostęp do danych.
Podczas pracy w grupie lub przygotowywaniu się do udostępnienia zbioru danych konieczne jest użycie jak najbardziej przejrzystej struktury folderów.
Ponadto:
- struktura powinna zostać uzgodniona i przyjęta przez wszystkich uczestników badania;
- nazwy folderów powinny być zawsze krótkie i jednoznaczne tak, aby od razu było wiadomo jakie dane znajdują się w folderze;
- jeśli struktura folderów jest złożona ze względu na zakres projektu to do każdego głównego zbioru powinien być dołączony plik README charakteryzujący zbiór;
- hierarchia folderów powinna być spójna i logiczna (zaczynając od folderu ogólnego, przechodząc do folderów bardziej szczegółowych). Konstrukcja folderów nie powinna być zbyt głęboka, ani zbyt płytka. W zależności od wielkości projektu może oznaczać 3-4 poziomów;
- w ramach strategii przechowywania przydatne może być dodatkowe zdefiniowanie „tymczasowych folderów”, z których można będzie bezpiecznie usunąć dane po użyciu.
Rzeczy których należy unikać:
- nazywanie ogólnego folderu „bieżące rzeczy”;
- nazywania folderów dla badacza (nazwy folderów powinny dotyczyć zawartości, a nie autorów);
- tworzenia folderów o tych samych nazwach w różnych miejscach;
- tworzenia kopii w różnych folderach, jeśli jest taka potrzeba można użyć skrótów aby zachować plik referencyjny.
Nazewnictwo plików
Nazwy plików mogą zawierać wiele informacji o ich zawartości. Powinny być spójne, logiczne, opisowe, krótkie i czytelne. Pracując zespołowo trzeba ustalić konwencję nazewnictwa w celu uniknięcia błędów.
Co może zawierać nazwa pliku:
- akronim bieżącego projektu lub eksperymentu (2-5 liter), dzięki czemu wiadomo czego dotyczy plik;
- krótki opis zawartości pliku (1-3 słowa);
- informację o lokalizacji lub współrzędne jeśli byłyby przydatne;
- datę;
- inicjały osoby (badacza lub podmiotu) lub całe nazwisko i imię zaczynając zawsze od nazwiska np. KowalskiJ lub Kowalski-Jakub.
Wskazówki:
- elementy opisu powinny być uporządkowane od ogółu do szczegółu;
- należy unikać spacji; inne opcje mogą być używane i mieszane w celu zapewnienia czytelności:
– korzystanie z CamelCase (system notacji ciągów tekstowych, w którym kolejne wyrazy pisane są łącznie, rozpoczynając każdy następny wielką literą (prócz pierwszego) np.: foreColor, setConnection, isPaymentPosted);
– można używać łączników (-);
– można używać podkreśleń (_). - numerując pliki, należy zawsze używać wielu cyfr (np. 001 zamiast 1), aby uniknąć problemów z sortowaniem;
- używając dat, zawsze używaj standardu ISO (najpierw rok, potem miesiąc i dzień): RRRRMMDD np. 20240528 lub 2024-05-28. Można to skrócić do roku lub roku i miesiąca, w zależności od potrzeb i kontekstu;
- używając godziny należy ją zapisać w schemacie (godzina, minuty, sekundy): GGMMSS
- nigdy nie używa się znaków specjalnych, takich jak: ęć!?*&#.
Zarządzanie wersjami danych
Podczas pracy z danymi lub dokumentami konieczne jest przechowywanie różnych ich wersji. Pozwoli to zminimalizować ryzyko utraty danych lub wrócić do wcześniejszej wersji w razie wystąpienia błędu. W takim przypadku badacz musi wiedzieć, która wersja jest która.
Najprostszym sposobem jest użycie przedrostka nazwy pliku, numeru wersji, daty i/lub inicjału badacza np.:
- nazwa_pliku_v02.pdf – to druga główna wersja pliku
- nazwa_pliku_v02-01.pdf – to pierwsza wersja wersji 2
- nazwa_pliku_20230915.pdf – to wersja z dnia 15 września 2023 r.
- nazwa_pliku_AN.pdf – to wersja przygotowana/poprawiona przez Annę Nowak
Nazwy plików trzeba dostosować do charakteru przeprowadzanych badań ale trzeba pamiętać aby tak oznaczać wersje żeby były czytelne dla autora jak i całego zespołu badawczego.
Metadane
Metadane danych badawczych są podstawowymi informacjami służącymi do opisu całego zbioru danych upublicznionego np. w repozytorium. Opis ten powinien być przygotowany według pewnych ustalonych zasad.
Występuje wiele standardów metadanych. Wyszczególnić można standardy ogólne, dziedzinowe i instytucjonalne. Ogólne standardy metadanych to Dublin Core, Data Cite oraz Data Documentation Initiative (DDI). Są one uniwersalne dziedzinowo i powszechnie stosowane.
RODBUK – Repozytorium Danych Badawczych Uczelni Krakowskich wykorzystuje do opisu deponowanych danych badawczych standard Dublin Core.
Podstawowe pola w standardzie Dublin Core:
Plik README
Dlaczego warto taki plik przygotować i dołączyć do zbioru danych (datasetu)?
- rzetelny opis projektu i danych pozwoli lepiej zrozumieć zawartość datasetu;
- informacja z jakiego oprogramowania trzeba skorzystać przy formatach zamkniętych jeśli w takich będą zdeponowane dane przyspieszy wykorzystanie danych;
- opis w jaki sposób są uporządkowane dane w datasecie pozwoli w pełni zweryfikować i wykorzystać dane;
- obszerny i pełny opis może zwiększyć zainteresowanie badaniami co może przełożyć się na nowe możliwości współpracy.
Plik README powinien zawierać:
- tytuł zbioru danych, opis i cel badania;
- imię i nazwisko (ORCID)/instytucja/dane kontaktowe;
- informację o metodzie i procedurach zbierania danych;
- zakres czasowy badań;
- narzędzia badawcze;
- strukturę uporządkowania danych:
- strukturę folderów;
- system nazewnictwa plików (z przykładami);
- relacje i zależności między plikami;
- inne interesujące pliki dokumentacji w zbiorze danych (notatki, pliki towarzyszące);
- przy każdym większym pliku krótki opis jego zawartości i data utworzenia;
- opis systemu wersjowania plików, jeśli ma to zastosowanie.
- oprogramowanie wykorzystywane do gromadzenia i przetwarzania danych, w tym numery wersji;
- formaty plików używane w zbiorze danych i zalecane oprogramowanie;
- zastosowane procedury kontroli jakości;
- dziennik zmian zestawu danych;
- licencję na jakiej dane są udostępniane.
W przypadku obszernej dokumentacji dobrze jest na początku dokumentu przygotować tzw. spis treści linkujący do odpowiednich nagłówków.
Plik README powinien być przygotowany w języku angielskim.
Przykładowy formularz pliku README.