We present the genesis and evolution of methods and measures of IR systems evaluation. The design of the Cranfield experiment, a long-term model for evaluation methodology, is described. Evolution of current methodology of IR systems evaluation, developed at the annual TREC (Text REtrieval Conference) is provided, and the most popular and current measures described. The article presents also design of the CLEF (Conference and Labs of the Evaluation Forum) evaluation labs with special attention paid to CHiC (Cultural Heritage in CLEF). We describe the design of Polish Task in CHiClab and discuss conclusions from lab realisation.
W niniejszym artykule prezentujemy rozwój metod i miar służących do oceny efektywności systemów informacyjno-wyszukiwawczych. Zostały w nim opisane założenia eksperymentu Cranfield, jako długoletniego wyznacznika metodologii ewaluacyjnej, oraz zarzuty stawiane organizacji samego eksperymentu. Ważną częścią artykułu jest także opis ewolucji powszechnie dziś stosowanej metodologii ewaluacji systemów informacyjno-wyszukiwawczych, wypracowanej podczas dorocznych konferencji TREC (Text REtrieval Conference), a także omówienie najpowszechniej obecnie stosowanych miar ewaluacyjnych w tym zakresie. Artykuł przedstawia również organizację laboratoriów ewaluacyjnych CLEF (Conference and Labs of the Evaluation Forum) ze szczególnym uwzględnieniem panelu CHiC (Cultural Heritage in CLEF), a na gruncie języka polskiego – Polish Task in CHiC.