Miary podobieństw łańcuchów znakowych a deduplikacja rekordów w bibliograficznych bazach danych
Anna Małgorzata Kamińska
Afiliacja: Uniwersytet Śląski w Katowicach, Instytut Bibliotekoznawstwa i Informacji Naukowej , Polska
Abstrakt
Teza/cel artykułu – Celem artykułu jest przedstawienie metody deduplikacji/ łączenia (ang. deduplication/linkage) rekordów opisujących jednostki bibliograficzne w bazach danych opartej na miarach podobieństw łańcuchów znakowych. Algorytm opracowano na podstawie własnych doświadczeń nabytych podczas tworzenia bibliograficznej bazy danych oraz podczas realizacji badań bibliometrycznych, na podstawie publicznie dostępnych bibliograficznych baz danych. Formalny opis metody zilustrowano przykładami zaczerpniętymi z krajowej bibliograficznej bazy CYTBIN. Metody badawcze – Opracowanie metody wymagało przeglądu architektur informacyjnych wybranych krajowych bibliograficznych baz danych, określenia typologii problemów ich dotykających, wynikających nie tylko z przyjętych modeli składowania danych, ale i budowy graficznych interfejsów użytkownika, którymi są zasilane, analizy i wyboru miar podobieństw łańcuchów znakowych oraz ostatecznie zaproponowania miary złożonej umożliwiającej ewaluację podobieństwa rekordów bibliograficznych w oparciu o wartości ich atrybutów składowych. Wyniki – Przedstawione na przykładzie danych pochodzących z wybranej bazy bibliograficznej wyniki pozwoliły empirycznie zweryfikować użyteczność zaproponowanej metody. Dodatkowo dokonano analizy rozkładu podobieństwa rekordów bibliograficznych bazy CYTBIN określanego na podstawie zaproponowanej metody złożonej i metody opartej na mierze Jaro-Winkler wyliczanej dla tytułów jednostek bibliograficznych. Wnioski – Zaproponowana metoda, po dostrojeniu jej parametrów do specyfiki (występujących anomalii) konkretnych baz bibliograficznych, może być wprost zastosowana do poprawy jakości opisów bibliograficznych w nich gromadzonych, zarówno w proaktywnym modelu pracy (przed zatwierdzeniem opisu przez operatora), jak i modelu reaktywnym (weryfikacja wszystkich lub nowo zgromadzonych rekordów wykonywana np. w czasie mniejszego obciążenia systemu w dobowych odstępach czasu).
Słowa kluczowe
Bibliograficzne bazy danych; Deduplikacja rekordów; Podobieństwo łańcuchów znakowych; Scalanie rekordów
Bibliografia
Cohen, William W.; Ravikumar, Pradeep; Fienberg, Stephen E. (2003). A comparison of string distance metrics for name-matching tasks. Proceedings of International Joint Conferenceon Artificial Intelligence (IJCAI) 18, Workshop on Information Integration on the Web [online], [dostęp: 04.06.2017]. Dostępny w WWW: <http://www.cs.utexas.edu/users/ai-lab/pubs/ravikumarIJCAI03.pdf>.
Drabik, Adrian (2016). Wyszukiwanie powielonych opisów bibliograficznych w bazie danych: przykład Repozytorium Uniwersytetu Jagiellońskiego. Przegląd Biblioteczny, z. 1, s. 65-79.
Dressler, Kevin; Ngonga Ngomo, Axel-Cyrille (2017). On the efficient execution of bounded Jaro-Winker Distances. Semantic Web, vol. 8, no. 2, pp. 185-196.
Freire, Nuno; Borbinha, José; Calado, Pável (2007). Identification of FRBR Works Within Bibliographic Databases: An Experiment with UNIMARC and Duplicate Detection Techniques. International Conference on Asian Digital Libraries (ICADL 2007) [online], [dostęp: 20.09.2017]. Dostępny w WWW: <https://ai2-s2-pdfs.s3.amazonaws.com/3d87/d4b223c86b21a709705142fd11275e7f04a4.pdf>.
Gu, Lifang; Baxter, Rohan; Vickers, Deanne; Rainsford, Chris (2003). Record Linkage: Current Practice and Future Directions [online]. CSIRO Mathematical and Information Sciences; [dostęp: 04.06.2017]. Dostępny w WWW: <http://dc-pubs.dbs.uni-leipzig.de/files/Gu-2003RecordlinkageCurrentpracticeandfuturedirections.pdf>.
Hamming, Richard W. (1950). Error detecting and error correcting codes. The Bell System Technical Journal, vol. 29, no. 2, pp. 147-160.
Jaro, Matthew A. (1989). Advances in record-linkage methodology as applied to the 1985 census of Tampa Florida. Journal of the American Statistical Association, vol. 84, no. 406, pp. 414-420.
Jiang, Yu; Lin, Can; Meng, Weiyi; Yu, Clement; Cohen, Aaron M.; Smalheiser, Neil R. (2014). Rule-based deduplication of article records from bibliographic databases. Database: The Journal of Biological Databases and Curation [online], Jan 16 [dostęp: 04.06.20 17]. Dostępny w WWW: <https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3893659/>.
Kamińska, Anna Małgorzata (2017a). O rozwoju graficznych języków komunikacji. Zagadnienia Informacji Naukowej, nr 2 (110).
Kamińska, Anna Małgorzata (2017b). Od druków źródłowych po mapy nauki. Bibliograficzna baza danych GRUBA. W: Wizualizacja informacji w humanistyce. Pod red. Małgorzaty Kowalskiej i Veslavy Osińskiej. Toruń: Wydaw. Naukowe Uniwersytetu Mikołaja Kopernika w Toruniu.
Kamińska, Anna Małgorzata (2017c). Potencjał bibliometryczny bibliograficznej bazy danych CYTBIN w świetle prostych i złożonych wskaźników analitycznych. Bibliotheca Nostra (w druku).
Kamińska, Anna Małgorzata (2017d). ProBIT – prospektywna metoda tworzenia trawersowalnych indeksów cytowań a współczesne problemy organizacji przestrzeni informacji w tradycyjnych bibliograficznych bazach danych. Zagadnienia Informacji Naukowej, nr 1 (109), s. 66-82.
Kamińska, Anna Małgorzata (2017e). Wizualizacje wybranych wskaźników bibliometrycznych na przykładzie bibliograficznej bazy danych CYTBIN. Toruńskie Studia Bibliologiczne, nr 2 (19).
Kessler, M. M. (1963). Bibliographic coupling between scientific papers. American Documentation, vol. 14, iss. 1, pp. 10-25.
Левенштейн, В. И. (1965). Двоичные коды с исправлением выпадений, вставок и замещений символов. Доклады Академии Наукк СССР, Т. 163, нo. 4, с. 845-848.
Marszakowa-Szajkiewicz, Irena (2009). Badania ilościowe nauki. Podejście bibliometryczne i webometryczne. Poznań: Uniwersytet im. Adama Mickiewicza.
Wit, Ernst-Jan C.; Gillette, Marie (1999). What is Linguistic Redundancy? Technical Report [online]. The University of Chicago; [dostęp: 04.06.2017]. Dostępny w WWW: <http://www.math.rug.nl/~ernst/linguistics/redundancy3.pdf>.
Afiliacja: Uniwersytet Śląski w Katowicach, Instytut Bibliotekoznawstwa i Informacji Naukowej , Polska
Biogram:
Anna Małgorzata Kamińska, dr, adiunkt w Instytucie Bibliotekoznawstwa i Informacji Naukowej Uniwersytetu Śląskiego w Katowicach, pracownik Biblioteki Głównej Politechniki Śląskiej w Gliwicach. W 2016 r. obroniła rozprawę doktorską „Informacja naukowa o górnictwie w świetle wydawnictw ciągłych uczelni technicznych w Polsce (1945-1989)” na Wydziale Filologicznym Uniwersytetu Śląskiego w Katowicach. Jej zainteresowania naukowe skupiają się wokół trzech uzupełniających się obszarów: informatologia, graficzne języki komunikacji oraz wizualizacja informacji.
Autor składa oświadczenie o oryginalności przesłanego tekstu, a w umowie wydawniczej przenosi na rzecz Wydawcy nieodpłatnie majątkowe prawa autorskie w zakresie jednorazowego opublikowania dzieła.
CC BY-NC-ND 4.0 Uznanie autorstwa - Użycie niekomercyjne - Bez utworów zależnych 4.0 Międzynarodowe