BIBLIOGRAPHIC DATA SCIENCE – KONCEPTUALIZACJA OBSZARU BADAWCZEGO
MARCIN ROSZKOWSKI
https://orcid.org/0000-0001-7396-4685
Afiliacja: Wydział Dziennikarstwa, Informacji i BibliologiiUniwersytet Warszawski, Polska
Abstrakt
Teza/cel artykułu – Przedmiotem artykułu jest nowy obszar badaw- czy o nazwie bibliographic data science, który charakteryzuje się zastosowaniem metod i technologii data science w badaniach nad zasobami katalogów bibliotecz- nych i bibliografii. Celem artykułu jest próba konceptualizacji bibliographic data science. Metody – W warstwie metodologicznej przeprowadzone badania opierają się na analizie i krytyce piśmiennictwa dokumentującego badania prowadzone pod szyldem bibliographic data science oraz koncepcji analizy domen. Wyniki – U podstaw bibliographic data science leży pragmatyczna postawa wobec badań zasobów bibliograficznych z wykorzystaniem metod data science realizowanych w humanistyce cyfrowej. W ramach tego obszaru badawczego stawia się pro- blemy właściwe dla dyscyplin tworzących cyfrową humanistykę oraz podejmuje zagadnienia metodologiczne związane z optymalizacją jakości danych bibliogra- ficznych oraz ich harmonizacją. Silne związki bibliographic data science z cyfrową humanistyką widoczne są również w społeczności skupionej wokół tego obszaru badawczego.
Słowa kluczowe
Bibliographic data science; Cyfrowa humanistyka; Katalogi biblioteczne; Bibliograficzne bazy danych; Harmonizacja danych
Bibliografia
Abu-Jbara, Amjad; Ezra, Jefferson; Radev, Dragomir. (2013). Purpose and Pola- rity of Citation: Towards NLP-based Bibliometrics [online]. In: Proceedings of NAACL-HLT, pp. 596-606. [dostęp: 17.01.2022]. Dostępny w WWW: https:// aclanthology.org/N13-1067.pdf
Bawden, David; Robinson, Lyn. (2015). Introduction to Information Science. Facet Publishing. https://doi.org/10.29085/9781783300761.
Bojar, Bożenna (Ed.). (2002). Słownik encyklopedyczny informacji, języków i systemów informacyjno-wyszukiwawczych. Warszawa: Wydaw. SBP.
Bryer, Evan; Rhujittawiwat, Theppatorn; Comandur, Samyu; Madrid, Vasco; Riley, Stephanie; Rose, John; Wilder, Colin. (2021). Analysis of Clustering Algorithms to Clean and Normalize Early Modern European Book Titles. ACM
International Conference Proceeding Series, pp. 106-112. https://doi.org/10.1145/3451471.3451489.
Capurro, Rafael. (2010). Digital hermeneutics: An outline. AI and Society, 25(1), pp. 35-42. https://doi.org/10.1007/s00146-009-0255-9.
Ceusters, Werner. (2012). An Information Artifact Ontology Perspective on Data
Collections and Associated Representational Artifacts. Studies in Health Tech- nology and Informatics, 180, pp. 68-72. https://doi.org/10.3233/978-1-61499-101-4-68.
Chakravartty, Anjan. (2004). Stance relativism: empiricism versus metaphysics. Studies in History and Philosophy of Science Part A, 35(1), pp. 173-184. https://doi.org/10.1016/j.shpsa.2003.12.002.
Czapnik, Grzegorz. (2016). Bibliomining w badaniach bibliotek cyfrowych. W: Metody i narzędzia badań piśmiennictwa cyfrowego i jego użytkowników pod red. Małgorzaty Góralskiej, Agnieszki Wandel. Wrocław: Wydaw. Uniwersytetu Wrocławskiego, s. 77-94.
Dalbello, Marija. (2011). A genealogy of digital humanities. Journal of Documentation, 67(3), pp. 480-506. https://doi.org/10.1108/00220411111124550.
Dempsey, Lorcan. (2012). Pretty interesting bibliographic data science role at Mendeley [online]. Twitter; [dostęp: 17.01.2022]. Dostępny w WWW: https://twitter.com/lorcanD/status/190112947706662914.
Deng, Sai. (2010). Optimizing Workflow through Metadata Repurposing and Batch Processing. Journal of Library Metadata, 10(4), pp. 219-237. https://doi.org/10.1080/19386389.2010.524862.
Eder, Maciej. (2014). Metody ścisłe w literaturoznawstwie i pułapki pozornego obiektywizmu – przykład stylometrii. Teksty Drugie, 2, s. 90-105.
Foulonneau, Muriel; Cole, Timothy. (2005). Strategies for Reprocessing Aggregated Metadata. In: Lecture Notes in Computer Science (including subseries Lecture
Notes in Artificial Intelligence and Lecture Notes in Bioinformatics). Ed. by Andreas
Rauber, Stavros Christodoulakis, A Min Tjoa. Amsterdam: Springer, pp. 290-301. https://doi.org/10.1007/11551362_26.
Foulonneau, Muriel; Riley, Jenn. (2008). Metadata for Digital Resources: Implementation, Systems Design and Interoperability. Oxford: Chandos Publishing.
Gibert, Karina; Horsburgh, Jeffery; Athanasiadis, Ioannis; Holmes, Geoff. (2018). Environmental Data Science. Environmental Modelling & Software, 106, pp. 4-12.https://doi.org/10.1016/j.envsoft.2018.04.005.
Giudici, Paolo. (2018). Financial data science. Statistics & Probability Letters, 136, pp. 160-164. https://doi.org/10.1016/j.spl.2018.02.024.
Gkeredakis, Emmanouil; Fayard, Anne-Laure Fayard; Levina, Natalia. (2016).
Data science as epistemic stance: advantages, risks and opportunities for the pursuit of knowledge. Academy of Management Proceedings, 1. https://doi.org/10.5465/ambpp.2016.16538abstract.
Hjørland, Birger. (2002). Epistemology and the socio-cognitive perspective in information science. Journal of the American Society for Information Science and Technology, 53(4), pp. 257-270. https://doi.org/10.1002/asi.10042.
Hjørland, Birger. (2017). Domain Analysis. Knowledge Organization, 44(6), pp. 436-464. https://doi.org/10.5771/0943-7444-2017-6-436.
Hjørland, Birger; Albrechtsen, Hanne. (1995). Toward a new horizon in information science: Domain-analysis. Journal of the American Society for Information Science, 46(6), pp. 400-425. https://doi.org/10.1002/(SICI)1097-4571(199507)46:6<400::AID-ASI2>3.0.CO;2-Y
Hjørland, Birger; Hartel, Jenna. (2003). Afterword: Ontological, epistemological and sociological dimensions of domains. Knowledge Organization, 30(3-4), pp.239-245.
Hripcsak, George; Duke, Jon; Shah, Nigam; Reich, Christian; Huser, Vojtech; Schuemie, Martijn; Suchard, Marc; Park, Rae Woong; Wong, Ian Chi Kei; Rijn- beek, Peter; van der Lei, Johan; Pratt, Nicole; Norén, Niklas; Li, Yu-Chuan; Stang, Paul; Madigan, David; Ryan, Patrick. (2015). Observational Health Data Sciences and Informatics (OHDSI): Opportunities for Observational Resear- chers. Studies in Health Technology and Informatics, 216, pp. 574-578.
Klein, Jennifer; Baker, Nancy; Foil, Nancy; Zorn, Kimberley; Urbina, Fabio; Puhl, Ana; Ekins, Sean. (2021). Using Bibliometric Analysis and Machine Learning to Identify Compounds Binding to Sialidase-1. ACS Omega, 6(4), 3186-3193. https:// doi.org/10.1021/acsomega.0c05591
Lahti, Leo; Ilomäki, Niko; Tolonen, Mikko. (2015). A quantitative study of history in the english short-title catalogue (ESTC), 1470-1800. LIBER Quarterly, 25(2), pp. 87-116. https://doi.org/10.18352/lq.10112.
Lahti, L., Mäkelä, Eetu; Tolonen, Mikko. (2020). Quantifying bias and uncer- tainty in historical data collections with probabilistic programming [online]. CEUR Workshop Proceedings, 2723, pp. 280-289. [dostęp: 17.01.2022]. Dostępny w WWW: http://ceur-ws.org/Vol-2723/short46.pdf.
Lahti, Leo; Marjanen, Jani; Roivainen, Hege; Tolonen, Mikko. (2019). Bibliographic data science and the history of the book (C. 1500-1800). Cataloging and Classifi- cation Quarterly, 57(1), pp. 5-23. https://doi.org/10.1080/01639374.2018.1543747.
Lahti, Leo; Vaara, Ville; Marjanen, Jani; Tolonen, Mikko. (2019). Best Practices in Bibliographic Data Science [online]. In: Proceedings of the Research Data And Humanities (RDHUM) 2019 Conference: Data, Methods And Tools. Studia hu- maniora Ouluensia, vol. 17. Ed. by Jarmo Harri Jantunen, Sisko Brunni, Niina Kunnas, Santeri Palviainen, Katja Västi. University of Oulu, pp. 57-65. [dostęp: 17.06.2022]. Dostępny w WWW: https://helda.helsinki.fi/handle/10138/310192.
üLschow, Andreas; Tello, Jose Calvo. (2021). Towards genre classification in the library catalog [online]. CEUR Workshop Proceedings, 2836. [dostęp: 17.01.2022]. Dostępny w WWW: http://ceur-ws.org/Vol-2836/qurator2021_paper_9.pdf. Marjanen, Jani; Vaara, Ville; Kanner, Antti; Roivainen, Hege; Mäkelä, Eetu; Lahti,
Leo; Tolonen, Mikko. (2019). A National Public Sphere? Analyzing the Lan- guage, Location, and Form of Newspapers in Finland, 1771-1917. Journal of European Periodical Studies, 4(1), pp. 54-77. https://doi.org/10.21825/jeps.v4i1.10483.
Mayernik, Matthew. (2019). Metadata accounts: Achieving data and evidence in scientific research. Social Studies of Science, 49(5), pp. 732-757. https://doi.org/10.1177/0306312719863494.
Moretti, Franco. (2013). Distant Reading. London: Verso.
Nicholson, Scott. (2011). Bibliomining for Library Decision-Making. Encyclopedia of Data Warehousing and Mining, Second Edition. https://doi.org/10.4018/9781605660103.ch025.
Nicholson, Scott; Hwang, San-Yih; Keezer, Paula; O’Neill, Edward. (2003). The bibliomining process: Data warehousing and data mining for libraries. Proceedings of the ASIST Annual Meeting, 40, pp. 478-479. https://doi.org/10.1002/meet.1450400184.
Nowak, Adam. (2016). Bibliografia a katalog – dyskusja o pojęciach i terminach. Historyczny zarys problematyki. Przegląd Biblioteczny, 84(1), pp. 5-26. https://doi.org/https://doi.org/10.36702/pb.472.
Olson, Hope. (1996). Dewey Thinks Therefore He Is: The Epistemic Stance of De- wey and DDC. Knowledge Organization and Change. Proceedings of the Fourth International ISKO Conference 15-18 July 1996, Washington, D.C, 5(1995), pp. 302-312.
Osika, Grażyna. (2020). Datafikacja – implikacje epistemologiczne. Przegląd Filozoficzny, 3(115), s. 71-85. https://doi.org/10.24425/pfns.2020.133975.
Pawłowski, Adam; Herden, Elżbieta; Walkowiak, Tomasz. (2021). Book Genre and Author s Gender Recognition Based on Titles : the Example of the Bibliographic Corpus of Microtexts. In: Language and Text: Data, Models, Information, Applications. Ed. by Adam Pawłowski, Jan Mačutek, Shella Embleton, George Mikros. Amsterdam: John Benjamins Publishing Company, pp. 226-237.
Pawłowski, Adam; Topolski, Krzysztof; Herden, Elżbieta. (2021). Quantitative Analysis of Bibliographic Corpora : Statistical Features , Semantic Profiles,
Word Spectra. In: Language and Text: Data, Models, Information, Applications. Ed. by Adam Pawłowski, Jan Mačutek, Shella Embleton, George Mikros. Amsterdam: John Benjamins Publishing Company, pp. 240-256.
Péter, Róbert; Szántó, Zsolt; Seres, József; Bilicki, Vilmos; Berend, Gábor. (2020). AVOBMAT: a digital toolkit for analysing and visualizing bibliographic metadata and texts [online]. SZTE Repository of Papers and Books [dostęp: 17.01.2022]. Dostępny w WWW: http://acta.bibl.u-szeged.hu/67682/
Sadowska, Jadwiga. (2018). Z problemów urzędowej rejestracji druków w II Rzeczypospolitej: egzemplarz obowiązkowy, bibliografia narodowa, statystyka wydawnicza. Roczniki Biblioteczne, 61, s. 191-206. https://doi.org/10.19195/0080-3626.61.9.
Skalska-Zlat, Marta. (2017). Bibliometria. W: Marta Skalska-Zlat & Anna Żbikowska-Migoń (Eds.), Encyklopedia Książki (Vol. 1, s. 258-260). Wrocław: Wydaw. Uniwersytetu Wrocławskiego.
Semeler, Alexandre Ribas; Pinto, Adilson Luiz; Rozados, Helen Beatriz Frota. (2019). Data science in data librarianship: Core competencies of a data librarian. Journal of Librarianship and Information Science, 51(3), pp. 771-780. https://doi.org/10.1177/0961000617742465.
Sosińska-Kalata, Barbara. (2018). Big data (dane masowe) w nauce o informacji. Zagadnienia Informacji Naukowej – Studia Informacyjne, 112(2), s. 7-35. https://doi.org/10.36702/zin.390
Sosińska-Kalata, Barbara; Roszkowski, Marcin. (2016). Organizacja informacji i wiedzy. W: Nauka o informacji pod red. Wiesława Babika. Warszawa: Wydaw. SBP., s. 305-358.
Tolonen, Mikko; Marjanen, Jani; Roivainen, Hege; Lahti, Leo. (2019). Scaling up bibliographic data science [online]. CEUR Workshop Proceedings, 2364, pp. 450-456. [dostęp: 17.01.2022]. Dostępny w WWW: http://ceur-ws.org/Vol-2364/41_paper.pdf.
Underwood, Ted. (2020). Machine Learning and Human Perspective. PMLA/Publications of the Modern Language Association of America, 135(1), pp. 92-109. https://doi.org/10.1632/pmla.2020.135.1.92
Woźniak-Kasperek, Jadwiga. (2015). Bibliografia a katalog biblioteczny – dyskusja o pojęciach i terminach. Przegląd Biblioteczny, 83(4), s. 517-532. https://doi.org/10.36702/pb.513.
https://orcid.org/0000-0001-7396-4685
Afiliacja: Wydział Dziennikarstwa, Informacji i BibliologiiUniwersytet Warszawski, Polska
Biogram:
Marcin Roszkowski, dr, adiunkt w Katedrze Informatologii Wydziału Dziennikarstwa, Informacji i Bibliologii Uniwersytetu Warszawskiego. Jego zainteresowania badawcze obejmują problematykę organizacji wiedzy w środowisku sieciowym, w tym metadane oraz ontologie bibliograficzne. Jest autorem kilkudziesięciu publikacji naukowych, w tym m.in. COVID-19 and the social organization of knowledge in Wikipedia: a study of social representations „Journal of Documentation”, 2021, The Sociological and Ontological Dimensions of the Knowledge Organization Domain on Google Scholar Citations „Knowledge Organization”, 2020, Dekonstrukcja artykułu naukowego. Ontologie w publikowaniu semantycznym „Zagadnienia Informacji Naukowej. Studia Informacyjne”, 2019.
Autor składa oświadczenie o oryginalności przesłanego tekstu, a w umowie wydawniczej przenosi na rzecz Wydawcy nieodpłatnie majątkowe prawa autorskie w zakresie jednorazowego opublikowania dzieła.
CC BY-NC-ND 4.0 Uznanie autorstwa - Użycie niekomercyjne - Bez utworów zależnych 4.0 Międzynarodowe