Otwarta nauka

Dane badawcze i otwarte dane badawcze

Research Data

Dane badawcze to wszelkie informacje, które zostały zebrane lub wygenerowane w procesie badawczym. Ich udostępnianie pozwala weryfikować przedstawione wyniki badań oraz umożliwia ponowne wykorzystanie w kolejnych badaniach. Dane badawcze zazwyczaj mają formę cyfrową, ale obejmują także formaty niecyfrowe, takie jak zeszyty laboratoryjne i dzienniki, które mogą zostać zdigitalizowane. Danymi badawczymi są zarówno dane surowe (nieprzeanalizowane, zbierane w procesie badawczym), jak i dane poddane obróbce. Gromadząc dane niecyfrowe, należy ocenić ich długoterminową przydatność i zaplanować, w jaki sposób zagwarantować ich trwałość. W trosce o powszechną dostępność danych, powinno się korzystać z formatów niewymagających komercyjnego oprogramowania do ich odczytu.

Open Research Data

Otwarte dane badawcze (Open Data) to dane badawcze udostępnione zgodnie z ideą Otwartego Dostępu - każdy użytkownik może je analizować, ponownie wykorzystywać, modyfikować i redystrybuować. Aby dane badawcze były otwarte, muszą być zdeponowane w otwartych repozytoriach krajowych lub międzynarodowych i upublicznione zgodnie z otwartymi licencjami np. Creative Commons.

Zalety udostępniania danych badawczych:

  • wzrost widoczności prowadzonych badań oraz możliwość zwiększenia cytowalności publikacji i zbiorów danych badawczych;
  • ochrona danych badawczych przed bezprawnym wykorzystaniem dzięki zdeponowaniu w otwartym repozytorium na licencji CC;
  • możliwość ponownego wykorzystania zebranych danych, również po zakończeniu badań;
  • łatwość w zidentyfikowaniu zbioru danych badawczych dzięki standardom otwartego repozytorium oraz przypisanym do nich metadanym, co pozwala każdorazowo powiązać konkretny zbiór danych z twórcą/twórcami oraz konkretnym projektem/grantem, w ramach którego dane zostały wytworzone;
  • transparentność procesu badawczego prowadząca do zwiększenia rzetelności naukowej, wiarygodność i zaufania wobec nauki;
  • prezentacja informacji istotnych przy wyszukiwaniu członków krajowych i międzynarodowych zespołów badawczych, ekspertów, partnerów do projektów itp.;
  • unikanie powtórnego finansowania tych samych badań;
  • unikanie wcześniej popełnionych błędów badawczych ( przez pokazywanie błędów a nie tylko sukcesów).

Rodzaje danych badawczych:

  • surowe – zebrane, ale nie przeanalizowane;
  • obserwacyjne – przechwytywane w czasie rzeczywistym (np. odczyty czujników, dane telemetryczne, wyniki anonimowych ankiet, badania fokusowe), często unikalne, ponieważ nie można ich „odzyskać”;
  • eksperymentalne – uzyskane ze sprzętu laboratoryjnego w kontrolowanych warunkach, powtarzalne, ale często bardzo kosztowne (np. sekwencje genów, spektroskopia, odczyty pola magnetycznego);
  • dane symulacji – zebrane podczas testów badających rzeczywiste lub teoretyczne systemy (np. modele klimatyczne, ekonomiczne, systemy inżynieryjne);
  • dane pochodne / skompilowane – wyniki analiz danych, albo dane agregowane z różnych źródeł. Powtarzalne, ale ich pozyskanie może być bardzo kosztowne (bazy danych, teksty, modele 3D, dane bibliometryczne);
  • dane referencyjne – poprawione lub organiczne zbiory danych, zwykle recenzowane, publikowane i selekcjonowane (dane GUS, struktury chemiczne, bazy danych z sekwencjami genów).

Formy danych badawczych:

  • dzienniki, pamiętniki,
  • zeszyty laboratoryjne i terenowe, notatki z eksperymentów,
  • protokoły laboratoryjne, opisy metodologiczne,
  • dokumenty tekstowe i arkusze kalkulacyjne,
  • kwestionariusze ankiet i wywiadu,
  • odpowiedzi testowe,
  • fotografie i slajdy,
  • prezentacje,
  • nagrania audio i video,
  • artefakty, okazy, próbki.
  • pliki danych,
  • standardowe procedury i protokoły operacyjne,
  • modele matematyczne, algorytmy,
  • oprogramowanie,
  • wyniki symulacji komputerowych.

Formaty plików:

Szczególną uwagę należy zwrócić na rodzaje formatów w jakich mają być gromadzone dane badawcze, tak aby umożliwić ich długoterminowe wykorzystanie. Dlatego też najlepiej zapisywać dane w standardowych i wymiennych formatach plików, łatwych do odczytania i interpretowania.

Format preferowanyFormat akceptowalny
Dane liczbowe.csv, .tsv .spss, .por.xls, .sav, .dta, .mdb/.accdb
Dane tekstowe.odt, .ods,.doc, .docx, .pdf., .xml, .ht,, .html, .rtf, .xlsx,.epub
Dane geoprzestrzenne.shp, .shx, .dbf, .sbn, sbx., .prj, .xmlPostGIS, tif, .tfw, .fdg, .adf, .dat, .nit
Pliki audio.wav, .aif, .aiff, .flac.mp3, .mp4p, .mp4a, .mid, .midi, .ogg
Pliki Wideo.avi .mov, .wmv, .mpg
Dane obrazu.tiff, .jpeg2000, .png, svg.gif, .jpg, .ai, .cgm
Prezentacje.pdf, .odp.pptx
Bogajczyk, M. i Książczak-Gronowska, A., (2020). Dane badawcze [online]. [Dostęp 11.01.2023]. Dostępny w: https://www.buw.uw.edu.pl/wp-content/uploads/2020/05/DANE-BADAWCZE-1.pdf

Przydatne opracowania dotyczące danych badawczych:

Zasady FAIR

Zasady FAIR to zbiór wytycznych określających najważniejsze zasady opisywania, publikowania i przechowywania danych badawczych tak aby umożliwić ponowne ich wykorzystanie. FAIR to akronim utworzony od pierwszych liter angielskich słów: Findable, Accessible, Iteroperable oraz Reusable.

Findable - łatwe do znalezienia

Dane badawcze, w myśl zasad FAIR, powinny być opisane za pomocą bogatych metadanych i mieć unikalny i trwały identyfikator (np. DOI). Powinny również być przechowywane i indeksowane w przeszukiwalnym zasobie (np. repozytorium).

Accessible - szeroko dostępne

Zaleca się, aby uzyskanie dostępu i odczytanie danych, było możliwe za pośrednictwem otwartych, darmowych i uniwersalnych kanałów komunikacyjnych. Dane powinny być „tak otwarte, jak to możliwe – tak zamknięte, jak to niezbędne”. Jeśli dostęp do danych jest ograniczony (np. dane wrażliwe, postępowania patentowe, embargo czasowe), należy uzasadnić przyczynę lub określić warunki, w jakich mogą zostać udostępnione. W przypadku, gdy udostępnienie danych jest niemożliwe, należy upublicznić opis utworzonego zasobu, w formie metadanych.

Interoperable - interoperacyjne, łatwe do odczytu i przetwarzania zarówno przez ludzi, jak i komputery

Zasady FAIR zakładają, że przedstawiane dane wykorzystują formalny, dostępny i szeroko stosowany język do reprezentacji wiedzy oraz umożliwiają połączenie ich z innymi zbiorami danych.

Reusable - wielokrotnego użytku

W celu umożliwienia ponownego wykorzystania danych i ich właściwej interpretacji, dane powinny być właściwe udokumentowane, poprzez podanie informacji o celach projektu, jednostkach zaangażowanych w zbieranie danych oraz wyjaśnienie w jaki sposób dane zostały utworzone.

Ponadto dane badawcze powinny mieć wyraźnie określoną licencję, regulującą warunki ich ponownego wykorzystania, np. powszechnie używane licencje Creative Commons.

Zasady FAIR są nieustannie rozwijane, ponieważ coraz więcej organizacji i instytucji jest zainteresowanych wprowadzaniem dobrych praktyk w zakresie zarządzania danymi badawczymi.

Licencje udostępniania dla danych badawczych:

Licencje Creative Commons dla danych badawczych
Licencja CC BY CC0 – zrzeczenie się praw autorskich przekazanie zbioru danych do domeny publicznej, pozwala użytkownikom na korzystanie ze zbioru danych w nieograniczonym zakresie i bez żadnych zobowiązań
Licencja CC BY CC BY - Uznanie autorstwa pozwala użytkownikom na kopiowanie, modyfikowanie, rozpowszechnianie i tworzenie nowych utworów bądź zbiorów w oparciu o licencjonowany zbiór danych, pod warunkiem oznaczenia autorstwa tego zbioru danych, zezwala na wykorzystanie zbioru danych w celach komercyjnych
Licencja CC BY CC BY-NC - Uznanie autorstwa - Użycie niekomercyjne pozwala użytkownikom na kopiowanie, modyfikowanie i rozpowszechnianie licencjonowanego zbioru danych, wyłącznie w celach niekomercyjnych pod warunkiem oznaczenia autorstwa tego zbioru danych
Licencja CC BY CC BY-SA - Uznanie autorstwa - Na tych samych warunkach pozwala użytkownikom na kopiowanie, modyfikowanie oraz rozpowszechnianie zbioru danych pod warunkiem oznaczenia autorstwa i udostępniania danych oryginalnych oraz zmodyfikowanych na tej samej licencji
Licencja CC BY CC BY-NC-SA - Uznanie autorstwa - Użycie niekomercyjne - Na tych samych warunkach pozwala użytkownikom kopiować, modyfikować i rozpowszechniać zbiory danych przy zastrzeżeniu, że zarówno oryginalne jak i zmodyfikowane dane będą udostępniane na takiej samej licencji i wyłącznie w celach niekomercyjnych
Licencja CC BY CC BY-ND - Uznanie autorstwa - Bez utworów zależnych umożliwia użytkownikom ponowne wykorzystanie zbioru danych pod warunkiem oznaczenia autorstwa. Licencja nie pozwala jednak na modyfikowanie zbioru. Nie jest wskazana do licencjonowania danych badawczych, gdyż praktycznie uniemożliwia dalsze prace na danych
Licencja CC BY CC BY-NC-ND - Uznanie autorstwa - Użycie niekomercyjne - Bez utworów zależnych pozwala użytkownikom na pobieranie zbioru danych i dzielenie się nim, pod warunkiem określenia autorstwa. Zbiór nie może być modyfikowany ani wykorzystywany komercyjnie. Jest to najbardziej restrykcyjna z licencji. Nie jest wskazana do licencjonowania danych badawczych, gdyż praktycznie uniemożliwia dalsze prace na danych


Licencje do baz danych
PDDL (Public Domain Dedication and License PDDL) domena publiczna dla baz danych, zakłada nieograniczoną możliwość pobierania, udostępniania i modyfikowania baz danych
ODC (Open Data Commons Attribution License ODC-BY) zezwala na kopiowanie, modyfikowanie bazy danych pod warunkiem oznaczenia autorstwa bazy
ODbL (Database License ODC – ODbL) zezwala na kopiowanie, przetwarzanie oraz rozpowszechnianie bazy danych pod warunkiem uznania jej autorstwa oraz upowszechniania zmodyfikowanej bazy na takich samych warunkach, na jakich została udostępniona baza oryginalna


Licencje do programów komputerowych
GNU GPL - General Public License zezwala na uruchomianie, analizowanie, rozpowszechnianie i udoskonalanie programu w dowolnym celu. Dzieła pochodne muszą być udostępnione na tej licencji, również zmodyfikowany kod źródłowy
GNU LGPL – Lesser General Public License zezwala na uruchomianie, analizowanie, rozpowszechnianie i udoskonalanie programu w dowolnym celu. Nakłada ograniczenia określane jako copyleft tylko na poszczególne pliki źródłowe. Licencja zobowiązuje do udostępnienia tylko kodu źródłowego (plików źródłowych) w wersji pierwotnej bez dzieł pochodnych.

Więcej:


Plan Zarządzania Danymi (PZD) / Data Management Plan (DMP)

Plan Zarządzania Danymi (PZD) / Data Management Plan (DMP) to dokument określający, w jaki sposób dane badawcze będą zarządzane podczas projektu badawczego, jak również po jego zakończeniu. Sporządzania takiego planu wymagają między innymi Narodowe Centrum Nauki, Komisja Europejska (w programach Horyzont 2020 i Horyzont Europa), Europejska Rada ds. Badań Naukowych, National Science Foundation ze Stanów Zjednoczonych czy też brytyjskie Research Councils.

UWAGA!

Najważniejszym dokumentem określającym sposób i warunki udostępniania danych badawczych jest umowa z instytucją finansującą badanie. W umowie można znaleźć wszelkie zapisy dotyczące zasad publikacji, zarówno artykułów/monografii oraz danych badawczych powstałych w ramach realizacji projektu.

UWAGA!

Plany Zarzadzania Danymi zawarte we wnioskach do NCN i Programu Horizon składane w WEBCON (Portal Elektronicznego Obiegu Dokumentów UEK) przechodzą przez weryfikację pracowników Biblioteki Głównej UEK. W związku z tym, bardzo prosimy, aby przed złożeniem dokumentów do systemu przesłać PZD do konsultacji na adres otwartanauka@uek.krakow.pl. Tym sposobem unikną Państwo konieczności ewentualnej modyfikacji PZD w już złożonym wniosku w WEBCON.

NCN

Dokumentem pomocnym przy tworzeniu Planu Zarządzania Danymi dla grantów finansowanych przez NCN jest „Polityka NCN dotycząca otwartego dostępu do publikacji”, która określa wytyczne względem udostępniania danych badawczych:

„Dane powiązane (podstawowy zestaw danych) z opublikowanymi artykułami powinny być udostępniane w otwartym repozytorium, tam gdzie to możliwe, zgodnie z warunkami licencji Creative Commons Public Domain (licencja CC0), ze standardami cytowania danych zawartych w Declaration of Data Citation Principles by FORCE 11 oraz na zasadach zawartych w TOP Guidelines. Wszystkie publikowane metadane muszą spełniać wytyczne podane przez OpenAIRE7 i zawierać adnotację o finansowaniu ze środków projektu (Narodowe Centrum Nauki, numer projektu).”

Plan Zarządzania Danymi może się zmieniać wraz z postępem prac nad projektem. Poprawki w planie możliwe są przy składaniu raportów rocznych i raportu końcowego.

Narodowe Centrum Nauki wyznaczyło sześć obszarów tematycznych, które muszą zostać uwzględnione w planie zarządzania danymi:

  1. Opis danych oraz pozyskiwanie lub ponowne wykorzystanie dostępnych danych.
  2. Dokumentacja i jakość danych.
  3. Przechowywanie i tworzenie kopii zapasowych podczas badań.
  4. Wymogi prawne, kodeksy postępowania.
  5. Udostępnianie i długotrwałe przechowywanie danych.
  6. Zadania związane z zarządzaniem danymi oraz zasoby.

Jak przygotować plan zarzadzania danymi badawczymi?

NCN przygotował przewodnik wraz z pytaniami pomocniczymi w języku polskim i języku angielskim:

W powyższym dokumencie znajduje się następujący komunikat: „NCN dopuszcza, że w ramach niektórych projektów nie będą wytwarzane, na nowo wykorzystywane, ani poddawane analizie żadne dane badawcze ani inne podobne materiały. W takich wypadkach wymagane jest jednak krótkie uzasadnienie.”

Uwaga!

Projekty zakończone publikacją naukową obowiązkowo powinny udostępnić dane badawcze. Dodatkowo jeśli publikacja ukazała się w trakcie trwania projektu to dane badawcze do tego artykułu powinny być udostępnione w tym samym momencie. Będzie to weryfikowane podczas składania raportu rocznego.

NCN udostępnił także odpowiedzi na najczęściej zadawane pytania dotyczące planu zarządzania danymi.

Nie istnieje uniwersalny wzorzec Planu Zarządzania Danymi, jego zawartość jest uzależniona od wytycznych instytucji finansującej dany projekt badawczy oraz przeprowadzanych badań.

Przykładowe warianty odpowiedzi według wytycznych NCN, które należy zweryfikować pod kątem przeprowadzanego projektu:

1. Opis danych oraz pozyskiwanie lub ponowne wykorzystanie dostępnych danych

1.1 W jaki sposób będą pozyskiwane lub wytwarzane nowe dane lub ponownie wykorzystywane dane już istniejące?

Dane będą pozyskiwane podczas:

  • kwerend,
  • badań terenowych,
  • badań laboratoryjnych,
  • eksperymentów,
  • wywiadów pogłębionych, obserwacji itp.

Dane mogą być:

  • wtórne – pochodzące z wcześniejszych badań, analiz lub mogą pochodzić z dokumentów źródłowych (np. zbiory biblioteczne, archiwalne, akty prawne, dokumenty urzędowe, zestawienia, statystyki);
  • pierwotne – wytworzone w trakcie realizacji przeprowadzanych badań naukowych lub projektów np. ankiety, kwestionariusze, zdjęcia, notatki, oprogramowanie, próbki).

UWAGA:
W przypadku stwierdzenia niewytwarzania i/lub niewykorzystywania żadnych danych badawczych, należy obligatoryjnie zamieścić krótkie uzasadnienie tej sytuacji. Taka sytuacja może zaistnieć wtedy, gdy efektem końcowym nie będzie publikacja naukowa lub dane muszą być chronione np. ze względu na dane wrażliwe, dane osobowe lub umowy z podmiotami zewnętrznymi.

1.2 Jakie dane (tj. rodzaje, formaty, objętości) będą pozyskiwane lub wytwarzane w projekcie?

Należy szczegółowo opisać:

  • rodzaj (kwestionariusz, dane statystyczne itd.),
  • format (jpg, pdf, docx, odt itd.),
  • rozmiar danych (KB, MB, GB).

UWAGA:
Przy szacowaniu rozmiaru danych powinno się uwzględnić także kopie zapasowe.

2. Dokumentacja i jakość danych

2.1 Jakie metadane i dokumentacja (np. metodologia oraz sposoby pozyskiwania i organizacji danych) będą towarzyszyć danym w projekcie?

* Dokumenty będą klasyfikowane i opisywane w sposób ściśle powiązany z podjętą w projekcie metodą badawczą. Sposób klasyfikacji i porządkowania danych zależy od rodzaju badań i uzyskiwanych podczas badań wyników. Tytuły plików będą w sposób jasny opisywały zawartość.

* W momencie deponowania danych w wybranym repozytorium dane będą opatrzone metadanymi właściwymi dla tego repozytorium.

2.2 Jakie planują Państwo zastosować środki kontroli jakości?

* Podczas całego okresu realizacji projektu jakość pozyskiwanych danych będzie monitorowana oraz oceniana na bieżąco przez kierownika projektu. Na bieżąco będzie doskonalona metoda badawcza, aby osiągnąć jak najlepszej jakości rezultaty. Wyniki badań zostaną poddane krytycznej ocenie w celu określenia ich istotności oraz w celu odnotowania, w jakim stopniu udało się osiągnąć zakładane we wniosku rezultaty.

* Kontrola jakości danych będzie przeprowadzana niezależnie przez dwie osoby.

UWAGA:
W przypadku współpracy kilku instytucji, należy opisać jak będzie przebiegał proces kontroli jakości danych w każdej z tych instytucji.

3. Przechowywanie i tworzenie kopii zapasowych podczas badań

3.1 W jaki sposób w trakcie projektu będą przechowywane dane i metadane? W jaki sposób będą tworzone ich kopie zapasowe?

* Dane przechowywane będą w chmurze UEK zabezpieczone poprzez login i hasło. Połączenie szyfrowane za pomocą protokołu HTTPS. Kopie zapasowe tworzone będą automatycznie, raz dziennie i przechowywane na macierzach dyskowych.

* Dane będą przechowywane zgodne z zaleceniami Narodowego Centrum Nauki. Dane będą przechowywane w formie dokumentów tekstowych, zestawień tabelarycznych w formie elektronicznej i będą opatrzone podstawowymi metadanymi (autor, tytuł, data powstania, słowa kluczowe, etc.). Zbiory elektroniczne będą przechowywane na kilku nośnikach cyfrowych. Materiały elektroniczne będą archiwizowane co miesiąc na dyskach zewnętrznych.

UWAGA:
W przypadku współpracy kilku instytucji, należy opisać jak będzie przebiegał proces przechowywania danych w każdej z tych instytucji.

3.2 W jaki sposób zostanie zapewnione bezpieczeństwo i ochrona danych wrażliwych w okresie trwania projektu?

* Jeśli dane wrażliwe nie będą przetwarzane, należy napisać:
„Dane wrażliwe nie będą przetwarzane w tym projekcie.”

* W badaniu nie przewiduje się konieczności tworzenia oraz przechowywania wrażliwych danych.

* Jeżeli projekt badawczy przewiduje gromadzenie oraz przetwarzanie danych wrażliwych lub osobowych wówczas należy skonsultować Plan zarządzania danymi z Inspektorem Ochrony Danych UEK.

* Wszystkie dane przechowywane na urządzeniach oraz w chmurze będą chronione hasłem przed nieuprawnionym dostępem. Ponadto w ramach niniejszego projektu będą stosowane akty wewnętrzne Uniwersytetu Ekonomicznego w Krakowie w zakresie polityki ochrony danych takie jak polityka bezpieczeństwa w zakresie danych osobowych, instrukcja zarządzania systemem informatycznym, procedura zarządzania incydentami bezpieczeństwa informacji, wytyczne dla pracowników dot. wymogów RODO oraz polityka czystego biurka.

* W badaniu nie przewiduje się konieczności tworzenia oraz przechowywania wrażliwych danych.

* Dane wrażliwe umożliwiające identyfikację zostaną zanonimizowane.

UWAGA:
W każdym przypadku przetwarzania danych osobowych (nie tylko wrażliwych) należy rozważyć zastosowanie anonimizacji lub pseudonimizacji danych.

Anonimizacja danych jest to przetworzenie danych w taki sposób, że nie jest możliwe przypisanie informacji do określonej lub możliwej do określenia osoby fizycznej.


Pseudonimizacja oznacza przetworzenie danych osobowych w taki sposób, by nie można ich było już przypisać konkretnej osobie, której dane dotyczą, bez użycia dodatkowych informacji, pod warunkiem, że takie dodatkowe informacje są przechowywane osobno i są objęte środkami technicznymi i organizacyjnymi uniemożliwiającymi ich przypisanie zidentyfikowanej lub możliwej do zidentyfikowania osobie fizycznej (RODO, artykuł 4, punkt 5).

4. Wymogi prawne, kodeks postępowania

4.1 Jeżeli będzie miało miejsce przetwarzanie danych osobowych, w jaki sposób zostanie zapewniona zgodność z przepisami dotyczącymi danych osobowych oraz ich ochrony?

* Jeśli dane wrażliwe nie będą przetwarzane, należy napisać:
„Dane wrażliwe nie będą przetwarzane w tym projekcie.”

* Jeżeli projekt badawczy przewiduje gromadzenie oraz przetwarzanie danych wrażliwych lub osobowych wówczas należy skonsultować Plan zarządzania danymi z Inspektorem Ochrony Danych UEK.

* Kierownik projektu i zespół projektowy będą postępować zgodnie z przyjętą przez Uniwersytet Ekonomiczny w Krakowie polityką bezpieczeństwa w zakresie ochrony danych osobowych (Załącznik do Zarządzenia Rektora nr R 0201-5/2019 z dnia 28 marca 2019 roku).

* W Uniwersytecie Ekonomicznym w Krakowie dane osobowe są chronione na wszystkich poziomach. Dane osobowe są przetwarzane i chronione zgodnie z ustawą z dnia 10 maja 2018 r. o ochronie danych osobowych oraz zgodnie ze szczegółowymi przepisami obowiązującymi w jednostce, w tym również wytycznymi Inspektora Ochrony Danych UEK.

UWAGA:
Jeżeli dane będą pozyskiwane przez podmioty zewnętrzne należy zadbać o zawarcie odpowiednich umów prawnych, a także pozyskanie zgód od respondentów. Należy także poinformować instytucje zewnętrzne, którym zlecania się przeprowadzenie badania o wytycznych NCN oraz Planie Zarządzania Danymi.
Należy rozważyć zastosowanie anonimizacji/ pseudonimizacji.

4.2 W jaki sposób planują Państwo zapewnić zgodność z innymi przepisami, takimi jak prawa własności intelektualnej i prawa własności? Jakie przepisy znajdują w tym przypadku zastosowanie?

* Zarządzanie innymi kwestiami prawnymi odbywać się będzie zgodnie z Regulaminem Zarządzania Dobrami Własności Intelektualnej i Przemysłowej oraz Zasadami Komercjalizacji w UEK (Załącznik do Uchwały Senatu nr 11/2015 z dnia 9 marca 2015 roku).

UWAGA:
W przypadku współpracy kilku instytucji niezbędne może się okazać podpisanie wspólnej umowy dotyczącej praw własności intelektualnej.

* Jeśli będzie to możliwe, dane badawcze zostaną udostępnione za zgodą wszystkich autorów na licencjach:

  • Creative Commons (przykłady licencji: CC-0, CC BY, CC BY-SA, CC BY-NC, CC BY-NC-ND ),
  • licencjach dedykowanych dla baz danych (PDDL, ODC, ODbl);
  • licencjach dla programów komputerowych (GNU GPL, GNU LGPL).

UWAGA:
Zgodnie z wytycznymi NCN dane badawcze wykorzystane do publikacji powinny zostać udostępnione na licencji Creative Commons w domenie publicznej CC0.
Zgodnie z wytycznymi projektu Horizon dane badawcze wykorzystane do publikacji powinny zostać udostępnione na licencji Creative Commons CC BY.

5. Udostępnianie i długotrwałe przechowywanie danych
5.1 Kiedy i w jaki sposób będą udostępniane dane z projektu? Czy istnieją ewentualne ograniczenia i zakazy dotyczące ich udostępniania? * Dane z projektu będą opublikowane najpóźniej w dniu opublikowania pracy której te dane dotyczą. * Udostępnienie danych badawczych będzie polegać na ich zdeponowaniu w otwartym repozytorium danych badawczych. Ze względu na ewentualną przydatność i wartość danych badawczych przewiduje się ich przechowywanie przez okres 10 lat/bezterminowo.

UWAGA:
Jeżeli występują ograniczenia przy udostępnianiu danych trzeba uzasadnić powód nieudostępnienia.

Danych można nie udostępniać tylko w przypadku, kiedy:

  • w projekcie przetwarzane są dane osobowe lub dane wrażliwe, a niemożliwa jest ich anonimizacja;
  • przewidziana jest komercjalizacja wyników badań;
  • • zostały podpisane umowy (np. z firmami) zakazujące udostępniania danych.

5.2 Jak będzie wyglądać selekcja danych przeznaczonych do utrwalenia i gdzie będą one długoterminowo przechowywane (np. w repozytorium danych, archiwum)?

*Przestrzeganie Zasad FAIR będzie priorytetem przy gromadzeniu i selekcjonowaniu udostępnionych danych.

*Selekcja danych do przechowywania będzie polegać na wybraniu danych niezbędnych do walidacji wyników badań prezentowanych w publikacjach naukowych. Zbiór danych do przechowywania będą tworzyć zarówno dane surowe jak i dane przetworzone.

* Dane zostaną udostępnione w Repozytorium Otwartych Danych Badawczych Uczelni Krakowa (RODBUK) lub innym repozytorium danych badawczych.

5.3 Jakie metody lub oprogramowanie umożliwiają dostęp do danych i korzystanie z danych?

* Dostęp do danych opublikowanych w repozytorium będzie możliwy poprzez standardowy sprzęt komputerowy wyposażony w aplikacje służące do otwierania plików: .xls, .pdf, .tiff oraz .txt. Dostęp do udostępnionych danych nie będzie wymagał innych specjalistycznych urządzeń lub programów.

UWAGA:
Jeśli dane badawcze będą wymagały specjalistycznych programów do zapoznania się z danymi, należy wyjaśnić dlaczego takie dane będą deponowane oraz wskazać jakie oprogramowanie będzie niezbędne do ich otwarcia.

UWAGA:
Pierwszeństwo zawsze mają formaty otwarte i standardowe.

5.4 W jaki sposób zagwarantują Państwo stosowanie unikalnego i trwale przypisanego identyfikatora (takiego jak cyfrowy identyfikator dokumentu elektronicznego (DOI) dla każdego zbioru danych?

* Wszystkie dane badawcze do projektu będą opatrzone numerem DOI w celu szybkiej i prostej identyfikacji położenia danych.

6. Zadania związane z zarządzaniem danymi oraz zasoby

6.1 Kto będzie odpowiadał za zarządzanie danymi (tj. kto będzie ich opiekunem)?

* Osobą odpowiedzialną za zarządzanie i ochronę danych będzie kierownik projektu. Odpowiedzialni za gromadzenie danych, tworzenie metadanych, jakość danych, przechowywanie i tworzenie kopii zapasowych, archiwizację danych i ich udostępnianie będą wyznaczeni przez kierownika projektu członkowie zespołu badawczego. Zespół projektowy wykorzysta istniejącą w Uniwersytecie Ekonomicznym w Krakowie infrastrukturę informatyczną oraz wdrożone zabezpieczenia.

6.2 Jakie zasoby zostaną przeznaczone na cele zarządzania danymi i zagwarantowanie przestrzegania zasad FAIR? (Jakie koszty związane będą z zapewnieniem standardów FAIR w projekcie? W jaki sposób zostaną opłacone?)

* Przy zarządzaniu danymi badawczymi i zapewnieniu standardów FAIR Data nie będą generowane dodatkowe koszty.

* Zespół projektowy wykorzysta istniejącą w Uniwersytecie Ekonomicznym w Krakowie infrastrukturę informatyczną i wdrożone zabezpieczenia. Koszty zarządzania danymi będą obejmować zakup dysków przenośnych.

UWAGA:
Zakup dysków zewnętrznych do kopii zapasowych można zaplanować w ramach kosztów bezpośrednich zarówno w projektach NCN jak i badaniach finansowanych z subwencji MNiSW.
W razie potrzeby zakupu takiego sprzętu należy ująć taki zapis w kosztorysie.


UWAGA:
Należy pamiętać o tym, aby publikacje naukowe deponowane w repozytoriach powiązać z opublikowanymi danymi badawczymi.

Zgłoszenie do konsultacji planu zarządzania danymi


Więcej o danych badawczych:

Strony do tworzenia Data Management Plan:

  • DMP Tool - narzędzie przygotowujące szablony DMP dostosowane do wymagań amerykańskich grantodawców
  • DMP online - narzędzie bardzo podobne do DMPtool zawierające bazę instytucji finansującej naukę z Wielkiej Brytanii
  • The Digital Curation Centre (DDC) – brytyjski serwis specjalizujący się w zarządzaniu danymi badawczymi

RODBUK - Repozytorium Otwartych Danych Badawczych Uczelni Krakowskich




Pierwszym miejscem publikowania danych badawczych przez pracowników naukowych i doktorantów UEK powinno być Repozytorium RODBUKRepozytorium Otwartych Danych Badawczych Uczelni Krakowskich.

RODBUK powstało z inicjatywy Rady Dyrektorów Krakowskiego Zespołu Bibliotecznego. RODBUK współtworzony jest przez sześć krakowskich uczelni:

  • Akademię Górniczo-Hutniczą,
  • Akademię Wychowania Fizycznego,
  • Politechnikę Krakowską,
  • Uniwersytet Ekonomiczny,
  • Uniwersytet Jagielloński,
  • Uniwersytet Pedagogiczny.

Zadaniem RODBUK jest gromadzenie, opracowanie, archiwizacja i udostępnianie w otwartym dostępie wszelkiego typu danych tworzonych przez pracowników naukowych i doktorantów w trakcie działalności naukowej.

RODBUK realizuje politykę otwartej nauki (Open science) poprzez udostępnienie publicznie dostępnej platformy deponowania zbiorów danych badawczych umożliwiającej:

  • zapoznanie się z badaniami prowadzonymi w krakowskich ośrodkach naukowych:
  • przechowywanie różnego rodzaju zbiorów danych badawczych;
  • szybkie dotarcie do informacji poprzez przyjazny interfejs wyszukiwawczy;
  • najwyższy standard zapisu metadanych;
  • uzyskanie stałego identyfikatora DOI dla każdego zbioru;
  • znormalizowane cytowanie posiadanych danych;
  • wybranie dla swojego zbioru danych jednej z licencji Creative Commons lub nadania innej;
  • określenie embarga i udostępnienie ograniczonych plików w momencie wyznaczonym przez deponującego.

Repozytorium funkcjonuje na platformie Dataverse opartej na oprogramowaniu typu open source. RODBUK pozwala na gromadzenie i udostępnianie danych badawczych z różnych dyscyplin i w różnych formatach (link do formatów). Dane udostępnione są w formie zbiorów danych (tzw. datasetów). Dzięki temu dane są indeksowane i mogą być cytowane, co wpływa pozytywnie na upowszechnienie i promocję uczelni krakowskich.

Wszystkie publikowane metadane spełniają wytyczne podane przez Open AIRE. W Repozytorium stasowane są zasady FAIR.

Zdeponowane w RODBUK dane badawcze będą przechowywane długoterminowo na specjalnie do tego przygotowanych serwerach Akademickiego Centrum Komputerowego Cyfronet AGH z zachowaniem najwyższych standardów zabezpieczenia przed ich utratą.

Dla pracowników naukowych jak i doktorantów UEK korzystanie z Repozytorium jest bezpłatne. Warunkiem zdeponowania danych jest zarejestrowanie się za pomocą uczelnianego konta e-mail.

W razie problemów można skorzystać z „Przewodnika użytkownika” lub napisać na adres rodbukuek@uek.krakow.pl

Inne repozytoria

Inne repozytoria danych badawczych:

Serwisy indeksujące repozytoria:

  • OpenDOAR (Directory of Open Access Repositories) to katalog otwartych repozytoriów instytucji naukowych. Portal indeksuje zasoby kilku tysięcy repozytoriów oraz pozwala na ich przeszukiwanie (wyszukiwarka),
  • re3data.org - międzynarodowy rejestr repozytoriów danych badawczych ze wszystkich dyscyplin, umożliwia przeglądanie listy repozytoriów danych z podziałem na typ, dziedzinę i kraj,
  • ROAR (Registry of Open Access Repositories) - rejestr repozytoriów otwartego dostępu tworzony w University of Southampton,
  • Agregator CEON - narzędzie dostępu do zasobów polskich otwartych repozytoriów,
  • Open Archives - spis repozytoriów oraz bibliotek cyfrowych z całego świata wraz z opisami i odnośnikami,
  • arXiv.org - repozytorium o otwartym dostępie amerykańskiej uczelni Cornell University z zakresu fizyki, matematyki, informatyki, elektrotechniki, statystyki, finansów oraz ekonomii.

Repozytoria wielodziedzinowe:

  • Zenodo - repozytorium opracowane dzięki inicjatywie OpenAIRE i CERN międzynarodowe repozytorium danych badawczych. Przeznaczone dla tzw. małych danych.
  • Portal Otwartych Danych Unii Europejskiej – uniwersalny punkt dostępu do danych publikowanych przez instytucje, agencje i inne organy Unii Europejskiej. Portal jest głównym elementem unijnej strategii otwartych danych.
  • OpenAIRE Explore – multiwyszukiwarka publikacji dostępnych w Open Access z krajów Unii Europejskiej w tym danych badawczych.
  • Harvard Dataverse - to bezpłatne repozytorium danych otwartych dla wszystkich badaczy z dowolnej dyscypliny, zarówno w społeczności Harvardu, jak i poza nią.
  • RepOD - repozytorium Otwartych Danych opracowane przez ICM UW. Przeznaczone dla tzw. małych danych.
  • Figshare - multidyscyplinarny projekt tworzony przez naukowych pasjonatów Europy i USA, w którym naukowcy mogą zarchiwizować i dzielić się wynikami badań, w tym danymi, zestawami danych, obrazami i filmami.
  • Mendeley - ogólnodostępny, bezpłatny program do zarządzania literaturą (menedżer bibliografii) oraz portal społecznościowy i repozytorium danych badawczych. Repozytorium przeznaczone jest dla tzw. małych danych.
  • Repozytoria danych badawczych NIH - baza specjalistycznych repozytoriów danych badawczych, spośród których wiele udostępnia tzw. duże dane zebrane w ramach konkretnych projektów.

Wyszukiwarki danych badawczych:

  • Date Cite Search – możliwość przeszukania w jednym miejscu ponad 2 600 repozytoriów z całego świata.
  • Google Dataset Search – uruchomiona w roku 2018 wyszukiwarka umożliwiająca wyszukanie danych naukowych.

Data Journals

Data Journals to recenzowane czasopisma z artykułami (data descriptors) na temat zbiorów danych badawczych mających na celu opisanie samych danych jak i sposobu ich pozyskania. Celem tych publikacji jest poinformowanie społeczności badawczej o istnieniu takich badań i możliwości ich ponownego wykorzystania. Najważniejszą kwestią jest kompletny opis danych badawczych i kolekcji a nie interpretacja danych. Publikowane w nich artykuły mogą zawierać załączniki z omawianymi danymi lub wskazywać miejsca przechowywania tych danych – najczęściej repozytoria. Data Journals mogą być multidyscyplinarne lub dotyczyć tylko jednej dziedziny wiedzy

Przykłady Data Journals:

Jak cytować dane badawcze

W przypadku danych badawczych tak jak przy publikacjach naukowych obowiązuje zasada cytowania źródeł z których skorzystało się przy napisaniu pracy. Forma opisu bibliograficznego jest zależna od wybranego stylu cytowania (np. APA, Chicago, Harvard, MLA) jest on najczęściej narzucony przez wydawcę.

Opis bibliograficzny powinien składać się z następujących elementów:

  • autor/autorzy,
  • rok,
  • tytuł,
  • miejsce udostępniania (np. nazwa repozytorium),
  • wersja (np. Version v1.1),
  • trwały identyfikator (np. DOI).

Jeśli wykorzystywane dane badawcze mają nadany numer DOI to można skorzystać z DOI Citation Formatter aby stworzyć poprawny opis bibliograficzny według obowiązującego w publikacji stylu cytowania.

Inne przydatne źródła: