The undeniable fact of the past few years is the rapid increase in
published documents in electronic form and the development of the Internet.
Because of its easy access to the established information in this way he gains
a larger group of users. Available in this mode documents from the technological
point of view are extremely diverse. Starting from a simple web page, through
the popular PDF files, and audio and video ending. A precise characterization
information as diff erent types of documents is time consuming and problematic
activity. The current increase in quantity of published content also excludes
issues more often manual description and processing of such data. Among such
a dynamically changing structures are just some of the problems encountered in
the charge of this branch of knowledge – information science. Solutions to assist
with these issues often come in the other fields of science, in this case science. In
most of the analysis and processing of documents is enough software written by
the public, but sometimes used this program you need to create yourself. Possibly
the most in the latter case then it seems to use the scripting programming
language, which is treated in this article.
Niezaprzeczalnym faktem ostatnich kilku lat jest gwałtowny
przyrost publikowanych dokumentów w formie elektronicznej oraz rozwój
Internetu. Ze względu na łatwy wgląd do utrwalonej w ten sposób informacji
zwłaszcza ten ostatni zyskuje coraz liczniejsze grono zwolenników. Udostępniane
w sieci dokumenty z technologicznego punktu widzenia są jednak niezwykle
różnorodne: począwszy od prostej strony WWW, przez popularne pliki PDF,
a na nagraniach audio i wideo skończywszy. Opracowanie precyzyjnej informacji
charakteryzującej tak różne typy dokumentów jest zajęciem czasochłonnym
i problematycznym. Obecny przyrost ilościowy publikowanych treści wyklucza
także coraz częściej ręczny opis i przetwarzanie tego typu danych. Wśród dynamicznie
zmieniających się struktur są to tylko niektóre problemy zajmującej się
tym dziedziny wiedzy – informacji naukowej. Rozwiązania pomocnicze w tych
kwestiach zazwyczaj są dostarczane przez inne dziedziny nauki, w tym przypadku
informatykę. W większości do analizy i przetwarzania dokumentów wystarcza
ogólnodostępne oprogramowanie, niekiedy jednak program temu służący
trzeba stworzyć samodzielnie. Najprzystępniejsze w tym ostatnim przypadku
wydaje się skorzystanie ze skryptowego języka programowania, o czym traktuje
niniejszy artykuł.