Zjawiskiem towarzyszącym cyfryzacji zasobów wiedzy naukowej jest marginalizowanie w mniejszym lub w większym stopniu meta-opisu danych strukturalnych. W wyniku tego mamy albo zaśmiecone metadane albo ich brak dla serii rekordów. Jest to główny problem, z którym zetknęli się autorzy przy realizacji projektu dotyczącego analizy dynamiki cyfrowej wiedzy w Polsce. Czyszczenie i grupowanie danych zostało wykonane na pierwszym etapie w środowiskach Python i R. Do wstępnych analiz i wypracowania dalszej strategii posługiwano się wizualizacją danych tekstowych za pomocą chmury słów.
W charakterystykach dynamicznych wykorzystano konwersję danych tekstowych na format daty oraz metody statystyczne. Autorzy wprowadzają w problematykę przetwarzania metadanych pochodzących z bibliotek cyfrowych i nakreślają odpowiednie strategie postępowania.
Parallel to the growth of digital knowledge we can observe low importance of data structure. As a result, the metadata are cluttered or have empty values in a pieces of records. This is the main problem experienced by the authors in the project focused on analysing the dynamics of digital knowledge in Poland. Cleaning and grouping of data by use Python and R has been done in the first stage. The authors use cloud tag technique for preliminary analysis and to develop further strategies. Text data conversion into date format as well as the statistical methods were used to describe dynamic characteristics of published documents. The authors introduce the issues of metadata processing in digital libraries and outline an appropriate strategies to do it.