Skip to main content
15 April, 2025
# Topics
Share this post:

AbeeDI – Kolejne usprawnienie wyszukiwania rozmytego na listach sankcyjnych

15 April, 2025

W ramach dalszej optymalizacji naszego systemu Abee DI w zakresie real-time compliance screening wdrożyliśmy nowe podejście do wyszukiwania rozmytego (fuzzy search), które jeszcze bardziej zwiększa precyzję i szybkość identyfikacji osób oraz firm znajdujących się na listach sankcyjnych. Dzięki temu system skutecznie wykrywa pasujące wpisy, nawet jeśli występują różnice w zapisie nazw.

 

Jak to działa? 

 

Inteligentna normalizacja nazw 

Zanim rozpoczniemy wyszukiwanie, każdą nazwę ujednolicamy niezależnie od alfabetu i pisowni, korzystając z połączenia bibliotek limax i transliteration. To pozwala wyeliminować różnice wynikające z różnych wersji zapisu tej samej nazwy, np. w cyrylicy, alfabecie łacińskim czy arabskim. 

 

Fonetyczne grupowanie nazw 

Po normalizacji każda nazwa przechodzi transformację fonetyczną przy użyciu Double Metaphone, co pozwala wyłapywać podobnie brzmiące warianty zapisów – niezależnie od tego, czy różnice wynikają z błędów, transliteracji, czy regionalnych konwencji. 

 

Błyskawiczne wyszukiwanie w zoptymalizowanej przestrzeni 

Zamiast przeszukiwać całą bazę, system inteligentnie ogranicza przestrzeń porównań, przechowując nazwy w strukturze pamięci operacyjnej zoptymalizowanej pod kątem fonetyki. Mechanizm ten pozwala natychmiast znaleźć potencjalne dopasowania na podstawie kluczy fonetycznych i ich najbliższych wariantów (wyliczonych wcześniej dla maksymalnej wydajności). 

 

Precyzyjne dopasowanie końcowe 

Gdy system znajdzie zestaw potencjalnych dopasowań, stosujemy Jaro-Winkler, aby wyłonić najbardziej trafny wynik. Ten algorytm pozwala na procentową ocenę zgodności nazw, faworyzując te, które są najbardziej podobne już na pierwszych znakach. Użytkownik może także dostosować czułość wyszukiwania poprzez ustalenie minimalnego progu zgodności. 

 

Efekt? 

 

Dzięki temu rozwiązaniu nasz system jest jeszcze szybszy i dokładniejszy, pozwalając na niemal natychmiastowe wykrywanie osób i firm z list sankcyjnych, niezależnie od błędów w zapisie, transliteracji czy różnic językowych. Połączenie sprawdzonych technik w unikalnej konfiguracji pozwala na uzyskanie wysokiej jakości rezultatów przy wysokiej wydajności – idealnie dla systemów wymagających błyskawicznej analizy. 

 

Wysoka wydajność 

 

Szybkość wyszukiwania została przetestowana na realistycznym scenariuszu polegającym na sprawdzeniu występowania osoby na 11 listach sankcyjnych oraz PEP (Politically Exposed Persons), zawierających łącznie około 700 tysięcy wpisów.  

Zależnie od trybu (wąskie wyszukiwanie rozmyte – narrow fuzzy, szerokie wyszukiwanie rozmyte – broad fuzzy) przeciętny czas wyszukiwania oscyluje w graniach od 6 do 20ms.  

 

Szczegółowo obrazują to poniższe wykresy, pokazujące odsetek zapytań wykonanych w danym czasie: 

 

 

Architect