Oczekiwania spełniły systemy wykorzystujące odmienną metodę.

Podejście statystyczne i gotowe narzędzia

Rosnąca pojemność pamięci systemów komputerowych i wzrost ich mocy obliczeniowej doprowadził do tego, że zamiast tworzyć słowniki i algorytmy wykorzystujące prawa gramatyki, postanowiono oprzeć się na zestawianiu ze sobą całych tekstów wyrażających podobne myśli w dwóch językach. Podstawą do takiego działania są tzw. korpusy. Zawierają całe zdania czy nawet akapity w dwóch zestawianych ze sobą językach, a metody uczenia maszynowego pomagają odnajdywać zdania w języku docelowym pasujące do tłumaczonego zdania w języku źródłowym. W dopasowywaniu odpowiednich zdań czy pojedynczych fraz pomaga to, że korpusy są często anotowane – do fraz czy zdań dodawana jest informacja, w jakich okolicznościach takie czy inne sformułowania powinny być stosowane. Statystyczne metody analizy języka naturalnego miały istotną zaletę względem podejścia regułowego, były znacznie bardziej odporne na niedoskonałe dane wejściowe. Język używany na co dzień jest dużo bardziej zanieczyszczony niż perfekcyjnie przygotowane zdania w lingwistyce regułowej. Pojawiają się powtórzenia, błędy gramatyczne wprowadzone przez człowieka, cofnięcia, przerwy w trakcie formułowania tekstu itp.

Sukces metod analizy języka naturalnego opartych na podejściu statystycznym spowodował, że powstały szeroko dostępne systemy dokonujące przekładów tekstów w różnych językach. Warto wymienić kilka z nich: Google Translate (dawniej część Google Language Tools) – darmowy serwis umożliwiający tłumaczenie wybranych par języków; AltaVista Babel Fish – konkurencyjny serwis do tłumaczenia maszynowego, obecnie udostępniany pod nazwą Microsoft Translator; Siri – wirtualny osobisty asystent stworzony przez firmę Apple, wbudowany w systemy operacyjne MacOS, iOS, iPadOS; Cortana – wirtualny asystent firmy Microsoft; Alexa – wirtualny asystent firmy Amazon; Google Assistant – wirtualny asystent firmy Google.

Inne cele analizy języka naturalnego

Rozważając wyżej różne metody analizy języka naturalnego, skupialiśmy uwagę na tych systemach, które pozwalają na tłumaczenie tekstów z jednego języka na inny. Z takimi systemami czytelnik tego felietonu będzie miał styczność z największym prawdopodobieństwem, warto więc było na tym się skupić. Są jednak także inne cele, które są stawiane przed takimi systemami.

Buduje się np. programy komputerowe, które służą do tzw. rozpoznawania jednostek referencyjnych (Named Entity Recognition, w skrócie NER). W analizowanych tekstach nie dąży się wtedy do analizy budowy i znaczenia wszystkich zdań, tylko wyławia się te teksty, w których występują wybrane jednostki referencyjne. Tymi jednostkami mogą być np.: nazwy miejsc, nazwiska osób, nazwy organizacji, kody medyczne, nazwy operacji finansowych i dowolne inne wynikające z potrzeb. To podejście umożliwia m.in. przetwarzanie dużych ilości tekstów w celu identyfikacji i wyodrębnienia z nich kluczowych informacji.