Formaty danych strukturalnych w zasobach World Wide Web
Marcin Roszkowski
Afiliacja: Katedra Informatologii Wydział Dziennikarstwa, Informacji i Bibliologii, Uniwersytet Warszawski, Polska
Abstrakt
CEL/TEZA: Celem artykułu jest charakterystyka i porównanie formatów danych wykorzystywanych do strukturyzacji metadanych dotyczących treści zasobów World Wide Web w ramach systemu języka znacznikowego HTML. Przedmiotem badań są wybrane formaty danych strukturalnych (mikroformaty, RDFa, mikrodane i JSON-LD) oraz zakres ich wykorzystania na potrzeby reprezentacji informacji w środowisku WWW. Punktem wyjścia do rozważań są tezy, że rozdzielenie warstwy treści zasobów sieciowych od sposobu ich prezentacji jest jedną z fundamentalnych cech środowiska World Wide Web oraz że poziom strukturyzacji treści zasobów sieciowych jest czynnikiem determinującym zakres ich wyszukiwalności.
KONCEPCJA/METODY BADAŃ: Scharakteryzowano koncepcję formatów danych strukturalnych (FDS), która zakłada formalną reprezentację informacji o treści zasobów sieciowych bezpośrednio wewnątrz dokumentów HTML. Analizie poddano formaty danych najszerszej wykorzystane w środowisku WWW. Przyjęto również założenie, że FDS może być interpretowany jako środek ekspresji metadanych dokumentu oraz że reprezentacja informacji ma miejsce nie na poziomie samego dokumentu, ale na poziomie faktów go konstytuujących. Analiza FDS została przeprowadzona z punktu widzenia sposobów formalnej ekspresji metadanych (poziom syntaktyczny) oraz zastosowanych do opisu struktur pojęciowych wraz z ich językowymi wykładnikami (poziom semantyczny).
WYNIKI I WNIOSKI: FDS przeznaczone do reprezentacji treści stron internetowych zapewniają nowe możliwości strukturyzacji treści w ramach systemu znaczników języka HTML i tym samym rozszerzają zakres możliwych funkcjonalności mechanizmów wyszukiwawczych. Wyniki badań nad implementacją FDS w latach 2012–2016 pokazują wzrost zainteresowania tą formą strukturyzacji treści w zasobach WWW. Największą szczegółowość w reprezentacji wiedzy zapewnia RDFa, jednak to mikrodane wydają się być kompromisem między pożądaną siłą ekspresji a prostotą implementacji, na co wskazują wyniki badań szczegółowych uzyskanych w projekcie Web Data Commons.
ORYGINALNOŚĆ/WARTOŚĆ POZNAWCZA: Przedstawione porównanie wybranych elementów FDS daje obraz ich możliwości w głębokiej strukturyzacji treści zasobów WWW, ze szczególnym uwzględnieniem wykorzystania istniejących schematów metadanych i ontologii. Analiza dokumentacji projektu Web Data Commons z lat 2014–2016 pozwala sądzić, że to mikrodane będą FDS, który będzie miał istotne znaczenie w kontekście zastosowania technologii semantycznych na potrzeby strukturyzacji treści zasobów WWW.
Słowa kluczowe
JSON-LD; Linked Data; Metadane; Mikrodane; Mikroformaty; RDFa; Schema.org; Sieć Semantyczna
Deskryptory Biblioteki Narodowej
2001-; HTML; Metadane; Semantyczny Web; Strony WWW;Bibliografia
Bergman, M. (2011). Structured Web Gets Massive Boost [online]. AI3[20.08. 2017], http://www.mkbergman.com/962/structured-web-gets-massive-boost/
Berners-Lee, T. (1994). The World-Wide Web. Communications of the ACM1, 37(8), 792–799.
Berners-Lee, T., Hendler, J., Lassila, O. (2001). The Semantic Web [online]. Scientific American (May 17), [20.08.2017], http://www.scientificamerican.com/article.cfm?id=the-semantic-web
Bizer, C., Heath, T., Berners-Lee, T. (2009). Linked Data – The Story So Far. International Journal on Semantic Web and Information Systems [online], 5(3), [20.08.2017], http://tomheath.com/papers/bizer-heath-berners-lee-ijswis-linked-data.pdf
Bizer, C., Mendes, P. N., Jentzsch, A. (2012). Topology of the Web of Data. In: R. De Virgilio, F. Guerra & Y. Velegrakis (eds.), Semantic Search over the Web (3–29). Berlin, Heidelberg: Springer , http://doi.org/10.1007/978–3-642–25008
Guha, R. V., Brickley, D., Macbeth, S. (2015). Schema.org: Evolution of Structured Data on the Web. ACMQUEUE {online], 9(13). [20.08.2017], http://queue.acm.org/detail.cfm?id=2857276
Herman, I., Adida, B., Sporny, M. (2015). RDFa 1.1 Primer – Third Edition. Rich Structured Data Markup for Web Documents [online]. W3C [20.08.2017], https://www.w3.org/TR/rdfa-primer/
Hitzler, P., Janowicz, K., Berg-Cross, G., Sheth, A., Finin, T., Cru, I. (2012). Semantic Aspects of EarthCube [online]. EarthCube [20.08.2017], https://www.earthcube.org/document/2012/semantic-aspects-earthcube
McCathie Nevile, C., Brickley, D. (2017). HTML Microdata [online]. W3C Working Draft 26 June 2017 , [20.08.2017] https://www.w3.org/TR/microdata/
Oren, E., Möller, K. H., Scerri, S., Handschuh, S., Sintek, M. (2006). What Are Semantic Annotations? [online]. Prof. Siegfried Handschuh [20.08.2017] http://www.siegfried-handschuh.net/pub/2006/whatissemannot2006.pdf
Ronallo, J. (2012). HTML5 Microdata and Schema.org. The Code4Lib Journal [online], (16), [20.08.2017], http://journal.code4lib.org/articles/6400
Sikos, L. F. (2015). Mastering Structured Data on the Semantic Web: From HTML5 Microdata to Linked Open Data. Berkeley, CA: Apress.
Sporny, M. (2015). An Uber-Comparison of RDFa, Microdata and Microformats [online]. Internet Archive Wayback Machine [20.08.2017], https://web.archive.org/web/20160329022408/http://manu.sporny.org/2011/uber-comparison-rdfa-md-uf/
Sporny, M., Kellogg, G., Lanthaler, M. (2014). JSON-LD 1.0. A JSON-based Serialization for Linked Data [online]. W3C [20.08.2017], https://www.w3.org/TR/json-ld/
Tomberg, V., Laanpere, M. (2009). RDFa versus Microformats: Exploring the Potential for Semantic Interoperability of Mash-up Personal Learning Environments [online]. In: F. Wild, M. Kalz, M. Palmer & D. Muller (eds.), Mash-Up Personal Learning Environments. Proc. of the 2nd Workshop MUPPLE’09, Nice, France, September 29, 2009, CEUR (102–109). CEUR. [20.08.2017], http://ceur-ws.org/Vol-506
Wetherill, B. (2014). RDFa and Microdata. Library Philosophy and Practice (E-Journal) [online], 1151, 19. [20.08.2017], http://digitalcommons.unl.edu/libphilprac/1151/
Afiliacja: Katedra Informatologii Wydział Dziennikarstwa, Informacji i Bibliologii, Uniwersytet Warszawski, Polska
Biogram:
Dr Marcin Roszkowski jest adiunktem w Katedrze Informatologii na Wydziale Dziennikarstwa,
Informacji i Bibliologii Uniwersytetu Warszawskiego. Jest członkiem International Society for Knowledge
Organization oraz Komitetu ds. ontologii w projekcie DBpedia. Jego zainteresowania naukowe obejmują
problematykę organizacji wiedzy i reprezentacji informacji w środowisku sieciowym, ze szczególnym uwzględnieniem modelowania konceptualnego systemów informacyjnych oraz metadanych i ontologii sieciowych. Najważniejsze publikacje: B. Sosińska-Kalata, M. Roszkowski (2016). Organizacja informacji i wiedzy. W: W. Babik (red.), Nauka o informacji (305–358). Warszawa: Wydaw. SBP; M. Roszkowski, W. Mustafa El Hadi (2016). The Role of Digital Libraries as Virtual Research Environments for the Digital Humanities. In:
J. A. C. Guimarães, S. Oliveira Milani, & V. Dodebei (eds.), Advances in Knowledge Organization (Vol. 15).
Ergon Verlag, 392–402; M. Roszkowski (2016). Kartoteka haseł wzorcowych jako usługa sieciowa – automatyczna identyfikacja nazw osobowych z wykorzystaniem kartoteki VIAF. W: J. Woźniak-Kasperek & J. Franke (red.), Bibliografia – teoria, praktyka, dydaktyka (203–222). Warszawa: Wydaw. SBP.
Kontakt z autorem
m.roszkowski@uw.edu.pl
Katedra Informatologii
Wydział Dziennikarstwa, Informacji i Bibliologii
Uniwersytet Warszawski
ul. Nowy Świat 69
00–046 Warszawa
CC BY-NC-ND 4.0 Uznanie autorstwa - Użycie niekomercyjne - Bez utworów zależnych 4.0 Międzynarodowe