Historia analizy języka naturalnego, część I

W 1966 r. członkowie Automatic Language Processing Advisory Committee w raporcie przygotowanym na zlecenie rządu USA sceptycznie ocenili dokonania naukowców pracujących w obszarze analizy języka naturalnego, w szczególności zmierzających do budowy programów automatycznego tłumaczenia, co spowodowało, że finansowanie tych badań zostało bardzo ograniczone.

Publikacja: 19.09.2024 21:00

Noam Chomsky (ur. 7 grudnia 1928 r. w Filadelfii) – amerykański językoznawca, filozof, działacz poli

Noam Chomsky (ur. 7 grudnia 1928 r. w Filadelfii) – amerykański językoznawca, filozof, działacz polityczny. Profesor językoznawstwa w Massachusetts Institute of Technology, współtwórca gramatyki transformacyjno-generatywnej, wniósł wkład w rozwój psycholingwistyki i informatyki

Foto: afp/Creator: HEULER ANDREY

Jednym z obszarów obecnie silnie eksploatowanych w informatyce jest analiza języka naturalnego. Dziedzina ta rozwijana pod nazwą NLP (Natural Language Processing) umożliwia uzyskiwanie natychmiastowych tłumaczeń tekstów napisanych (lub mówionych) w jednym języku na teksty udostępniane w innym języku. Dzięki rozwojowi tych technik uzyskaliśmy narzędzia do sprawnego wyszukiwania potrzebnych informacji, możliwości automatycznego tworzenia streszczeń i systemy komputerowe przeznaczone do swobodnej komunikacji z człowiekiem (na przykład Chat GPT). Poznajmy jednak drogę, która nas do tego zaprowadziła.

Arabski filozof z IX wieku

Pierwszeństwo w badaniach języka naturalnego przyznać trzeba arabskiemu filozofowi, którego pełne nazwisko brzmiało Jusuf Jakub ibn Ishak al-Kindi. Dla uproszczenia we współczesnych pracach historyków używa się skróconego miana owego uczonego, nazywanego po prostu Al-Kindi. Był on jednym z pierwszych uczonych arabskich, którzy podjęli trud przejęcia spuścizny starożytnych myślicieli greckich (zwłaszcza Arystotelesa) i rozwinięcia ich w oparciu o nowe badania naukowe. Jego twórczość była bardzo urozmaicona. Podobno napisał łącznie ponad 200 dzieł naukowych, z których zachowało się do dziś 23. Z omówień innych autorów wynika, że Al-Kindi napisał: 32 prace o geometrii, 8 poświęconych astronomii, 10 – muzyce, 10 – optyce, 23 – medycynie, 5 – psychologii, 14 – meteorologii i – także 14 – polityce. Z punktu widzenia tego felietonu interesujące jest, że Al-Kindi w swoich opracowaniach odwoływał się do analizy statystycznej tekstów w języku naturalnym (w oryginale – greckim), m.in. napisał dzieło „O odczytywaniu zaszyfrowanych listów”, które było potem źródłem inspiracji dla wielu specjalistów od kryptografii, kryptoanalizy, a także – w bliższych nam czasach – od tłumaczenia maszynowego.

Czytaj więcej

Jak nauczyliśmy maszyny liczyć i myśleć za nas? Część 45: Test Turinga

Tłumaczenie wspomagane metodologią naukową

Tłumaczeniem dzieł literackich i naukowych z jednych języków na inne zajmowało się wielu ludzi, ale warunkiem sukcesu tłumacza była jego dobra znajomość zarówno języka źródłowego, jak i języka docelowego. Takie tłumaczenie było (i jest!) sztuką. Konieczność roboczego porozumiewania się ludzi korzystających z różnych języków była jednak wyzwaniem dla myślicieli. Dlatego w 1629 r. René Descartes (po polsku zwany Kartezjuszem) zaproponował stworzenie uniwersalnego języka, który będzie składał się z jednakowych symboli przedstawiających te same idee w różnych językach. Myśl tę kontynuowało wielu znanych uczonych, m.in. Newton czy Leibniz. Jednym z podstawowych celów stworzenia takiego języka było zastąpienie łaciny i umożliwienie sprawniejszego komunikowania się oraz tłumaczenia tekstów. Koncepcje Kartezjusza i innych myślicieli pozostawały jednak wyłącznie na papierze.

Utrwalanie tekstu w postaci elektrycznej

Warunkiem koniecznym do zbudowania maszyny automatycznie tłumaczącej teksty z jednego języka na inny było wytworzenie reprezentacji tekstu w postaci czytelnej dla maszyny. Ten problem został rozwiązany wraz z wynalezieniem dalekopisu.

Tradycyjny telegraf wysyłał wiadomości w postaci serii kropek i kresek (tzw. alfabet Morse’a), które jednak zarówno wysyłać, jak i odczytywać potrafili tylko wykwalifikowani telegrafiści. Sytuację zmienił tzw. dalekopis. Było to urządzenie przypominające maszynę do pisania, na klawiaturze którego można było – litera po literze – pisać teksty. Naciśnięcie klawisza z określoną literą powodowało wygenerowanie pięciu impulsów elektrycznych (dodatnich albo ujemnych), które były przesyłane linią telegraficzną. W odbiorniku, którym był dalekopis na drugim końcu linii, te pięć impulsów zamieniało się w sygnał sterujący odbiciem odpowiedniej czcionki (litery) na drukarce – także przypominającej sposobem działania maszynę do pisania. Pierwszy dalekopis zainstalowano w USA w 1910 r. Jego twórcami byli Charles Krum i Howard Krum.

Czytaj więcej

Jak nauczyliśmy maszyny liczyć i myśleć za nas? Część 12: urządzenia peryferyjne komputera – drukarki

Dalekopis zamieniał litery tekstu na impulsy elektryczne – a to był niezbędny warunek budowy maszyny tłumaczącej. Bardzo szybko nauczono się zamieniać impulsy elektryczne na dziurki w taśmie papierowej. Każdy rządek dziurek (w poprzek taśmy) oznaczał jakąś literę. Tekst to była rolka taśmy z dziurkami. I tego było trzeba!

Pierwsze maszyny tłumaczące

Skoro tekst był już dostępny w formie elektrycznej (ale jeszcze nie elektronicznej), to pojawiła się pokusa zbudowania maszyny, do której można będzie wpuścić rolkę taśmy perforowanej z tekstem w jednym języku – i otrzymać rolkę taśmy z wydziurkowanym tekstem w drugim języku. Taką ambitną próbę podjął jako pierwszy Gruzin, Georges Artsrouni, który studiował w Petersburgu, ale potem mieszkał i działał we Francji. Jego urządzenie, które nazwał nieco przesadnie mechanicznym mózgiem, uzyskało patent we Francji w 1932 r. i główną nagrodę na wystawie w Paryżu w 1937 r. W tym samym czasie inny absolwent Uniwersytetu w Petersburgu, Piotr Trojanski, budował także elektromechaniczne urządzenie do tłumaczenia z jednego języka na drugi. Pary języków mogły być dobierane, ale trzeba było zaopatrzyć maszynę w odpowiedni słownik i schemat kodowania odpowiedzialny za gramatykę. Maszyna Trojanskiego otrzymała w 1935 r. patent ZSRR, ale nie była produkowana w większej liczbie egzemplarzy.

Maszyny opisane wyżej były trudne w budowie i równie trudne w obsłudze. Przełom w tej dziedzinie nastąpił w czasie II wojny światowej. Początkowo nie chodziło o tłumaczenie z jednego języka na inny, tylko o deszyfrowanie przechwyconych komunikatów radiowych wroga. Komputerów jeszcze nie było, ale genialny matematyk brytyjski, Alan Turing, opracował elektromechaniczną maszynę nazwaną bombą kryptologiczną, służącą do łamania szyfrów. Wyniki prac Turinga i innych kryptologów przyczyniły się do powstania pierwszych programów komputerowych służących do tłumaczeń tekstów z jednego języka na drugi. Prób tego rodzaju podejmowano wiele na całym świecie, ale historia nie odnotowała tych najwcześniejszych prób ani nazwisk twórców pierwszych działających programów. Niemniej uważa się, że w latach 50. XX w. powstała i rozwinęła się lingwistyka komputerowa.

Sukces propagandowy: eksperyment Georgetown–IBM

Możliwości komputerowego tłumaczenia tekstów z jednego języka na inny angażowała nie tylko profesjonalistów, ale budziła także zainteresowanie zwykłych ludzi. Aby takie właśnie zainteresowania jeszcze bardziej rozbudzić, firma IBM wspólnie z naukowcami z Uniwersytetu Georgetown 7 stycznia 1954 r. przeprowadziła pokazowe publiczne tłumaczenie 60 zdań z języka rosyjskiego na angielski. Pokaz się udał, użyty komputer IBM 704 przetłumaczył poprawnie wszystkie przedłożone mu zdania, chociaż – jaki dziś wiadomo – zastosowany program był wysoce niedoskonały: zawierał słownik zaledwie 250 słów (na kartach perforowanych) i używał zaledwie sześciu reguł gramatycznych. Sukces wynikał z faktu, że zdania podlegające automatycznemu tłumaczeniu (dotyczące polityki, prawa, matematyki, chemii, metalurgii, komunikacji i spraw wojskowych) zostały tak dobrane, żeby komputer sobie z nimi poradził.

Czytaj więcej

Jak nauczyliśmy maszyny liczyć i myśleć za nas? Era gigantów zakończona przez mikrusy

Mimo tych ograniczeń entuzjazm był powszechny. Duncan Harkin z Departamentu Obrony USA zasugerował, że jego departament sfinansuje nowy projekt tłumaczenia maszynowego. Jerome Wiesner z Laboratorium Badawczego Elektroniki na MIT (najlepszej uczelni technicznej na świecie) zadeklarował współpracę. Zdawało się, że wizja komputera tłumaczącego różne teksty napisane w różnych językach jest na wyciągnięcie ręki.

Jednak problemy z komputerowym tłumaczeniem tekstów okazały się większe, niż się spodziewano. Pieniądze na badania wydawano duże, ale postępy były marne. Rząd Stanów Zjednoczonych postanowił się temu przyjrzeć i w 1964 r. powołał komitet siedmiu naukowców (kierowany przez Johna R. Pierce’a), któremu nadano nazwę ALPAC (Automatic Language Processing Advisory Committee). Raport tego gremium wydany w 1966 r. był niekorzystny. Członkowie ALPAC sceptycznie ocenili dokonania naukowców pracujących w obszarze analizy języka naturalnego, w szczególności te zmierzające do budowy programów automatycznego tłumaczenia, co spowodowało, że finansowanie tych badań zostało bardzo ograniczone.

Problemy z gramatyką

Przy operowaniu językiem naturalnym trzeba brać pod uwagę słownik i gramatykę. Sprawę słownika stosunkowo łatwo opanować w komputerze – po prostu jest to lista słów i ewentualne rozwinięcie ich znaczeń. Większość prac początkowo koncentrowała się na języku angielskim, gdzie nie występuje zjawisko fleksji, sprawa jest więc łatwiejsza. Ale dla języków fleksyjnych (na przykład dla języka polskiego), w których rzeczowniki, czasowniki i przymiotniki mają różne formy w zależności od przypadku, liczby i rodzaju, też da się to w miarę prosto zapisać w komputerowych bazach i bankach danych.

Czytaj więcej

Jak nauczyliśmy maszyny liczyć i myśleć za nas? Część 46: Jak 20 uczonych w osiem tygodni zrewolucjonizowało relacje ludzi i maszyn

Gorzej z gramatyką. Zbiór reguł językowych umożliwiających tworzenie złożonych jednostek językowych (zdań) poprzez ich składanie z jednostek elementarnych na początku stwarzał trudności wszystkim badaczom zajmującym się komputerowym przetwarzaniem języków naturalnych, m.in. tym, którzy usiłowali budować systemy informatyczne dokonujące automatycznego tłumaczenia z jednego języka na inny. Zestawienie dwóch słowników nie stanowiło nigdy dużego problemu, podczas gdy przekształcenie jednych reguł gramatycznych w inne (dla drugiego języka) było bardzo trudne.

Sprawę zbliżenia komputerów do używania gramatyk podjął Noam Chomsky, pracownik MIT. W publikacji wydanej w 1975 r. opisał tzw. struktury semantyczne, które miały na celu dowodzenie formalne, że pewne konstrukcje składniowe są gramatycznie poprawne, a inne nie. Udało się to zrobić dla wielu sztucznych języków, jednak podejścia tego nie udało się zastosować do języków rzeczywistych i pozostało ono wyłącznie ciekawą propozycją teoretyczną. Chomsky rozwijał także tzw. psycholingwistykę, wiążąc naturę rozwijania kompetencji językowych u dzieci z ich rozwojem umysłowym. Ważnym osiągnięciem Chomsky’ego było wprowadzenie rozróżnienia syntaktyki (budowy gramatycznej zdań) od semantyki (zawartości w owych zdaniach konkretnych informacji). Znane są jego przykłady zdań poprawnych gramatycznie, a całkowicie pozbawionych sensu.

O dalszych pracach związanych z analizą języka naturalnego napiszę w kolejnym felietonie.

Autor jest profesorem Akademii Górniczo-Hutniczej w Krakowie

Jednym z obszarów obecnie silnie eksploatowanych w informatyce jest analiza języka naturalnego. Dziedzina ta rozwijana pod nazwą NLP (Natural Language Processing) umożliwia uzyskiwanie natychmiastowych tłumaczeń tekstów napisanych (lub mówionych) w jednym języku na teksty udostępniane w innym języku. Dzięki rozwojowi tych technik uzyskaliśmy narzędzia do sprawnego wyszukiwania potrzebnych informacji, możliwości automatycznego tworzenia streszczeń i systemy komputerowe przeznaczone do swobodnej komunikacji z człowiekiem (na przykład Chat GPT). Poznajmy jednak drogę, która nas do tego zaprowadziła.

Pozostało 95% artykułu
2 / 3
artykułów
Czytaj dalej. Subskrybuj
Historia świata
Lee Miller: od modelki do fotoreporterki wojennej
Historia świata
Niezbyt diabelski Trójkąt Bermudzki. Mroczna tajemnica, spleciona z faktów i wyobrażeń
Historia świata
Samarkanda. Klejnot Jedwabnego Szlaku
Historia świata
Hitlera można było zatrzymać. Czy gdyby Stalin dał się namówić, historia potoczyłaby się inaczej?
Materiał Promocyjny
Wpływ amerykańskich firm na rozwój polskiej gospodarki
Historia świata
Islam i chrześcijaństwo w średniowiecznej Hiszpanii. Kim był Cyd?