Historia analizy języka naturalnego, część I

W 1966 r. członkowie Automatic Language Processing Advisory Committee w raporcie przygotowanym na zlecenie rządu USA sceptycznie ocenili dokonania naukowców pracujących w obszarze analizy języka naturalnego, w szczególności zmierzających do budowy programów automatycznego tłumaczenia, co spowodowało, że finansowanie tych badań zostało bardzo ograniczone.

Publikacja: 19.09.2024 21:00

Noam Chomsky (ur. 7 grudnia 1928 r. w Filadelfii) – amerykański językoznawca, filozof, działacz poli

Noam Chomsky (ur. 7 grudnia 1928 r. w Filadelfii) – amerykański językoznawca, filozof, działacz polityczny. Profesor językoznawstwa w Massachusetts Institute of Technology, współtwórca gramatyki transformacyjno-generatywnej, wniósł wkład w rozwój psycholingwistyki i informatyki

Foto: afp/Creator: HEULER ANDREY

Jednym z obszarów obecnie silnie eksploatowanych w informatyce jest analiza języka naturalnego. Dziedzina ta rozwijana pod nazwą NLP (Natural Language Processing) umożliwia uzyskiwanie natychmiastowych tłumaczeń tekstów napisanych (lub mówionych) w jednym języku na teksty udostępniane w innym języku. Dzięki rozwojowi tych technik uzyskaliśmy narzędzia do sprawnego wyszukiwania potrzebnych informacji, możliwości automatycznego tworzenia streszczeń i systemy komputerowe przeznaczone do swobodnej komunikacji z człowiekiem (na przykład Chat GPT). Poznajmy jednak drogę, która nas do tego zaprowadziła.

Arabski filozof z IX wieku

Pierwszeństwo w badaniach języka naturalnego przyznać trzeba arabskiemu filozofowi, którego pełne nazwisko brzmiało Jusuf Jakub ibn Ishak al-Kindi. Dla uproszczenia we współczesnych pracach historyków używa się skróconego miana owego uczonego, nazywanego po prostu Al-Kindi. Był on jednym z pierwszych uczonych arabskich, którzy podjęli trud przejęcia spuścizny starożytnych myślicieli greckich (zwłaszcza Arystotelesa) i rozwinięcia ich w oparciu o nowe badania naukowe. Jego twórczość była bardzo urozmaicona. Podobno napisał łącznie ponad 200 dzieł naukowych, z których zachowało się do dziś 23. Z omówień innych autorów wynika, że Al-Kindi napisał: 32 prace o geometrii, 8 poświęconych astronomii, 10 – muzyce, 10 – optyce, 23 – medycynie, 5 – psychologii, 14 – meteorologii i – także 14 – polityce. Z punktu widzenia tego felietonu interesujące jest, że Al-Kindi w swoich opracowaniach odwoływał się do analizy statystycznej tekstów w języku naturalnym (w oryginale – greckim), m.in. napisał dzieło „O odczytywaniu zaszyfrowanych listów”, które było potem źródłem inspiracji dla wielu specjalistów od kryptografii, kryptoanalizy, a także – w bliższych nam czasach – od tłumaczenia maszynowego.

Czytaj więcej

Jak nauczyliśmy maszyny liczyć i myśleć za nas? Część 45: Test Turinga

Tłumaczenie wspomagane metodologią naukową

Tłumaczeniem dzieł literackich i naukowych z jednych języków na inne zajmowało się wielu ludzi, ale warunkiem sukcesu tłumacza była jego dobra znajomość zarówno języka źródłowego, jak i języka docelowego. Takie tłumaczenie było (i jest!) sztuką. Konieczność roboczego porozumiewania się ludzi korzystających z różnych języków była jednak wyzwaniem dla myślicieli. Dlatego w 1629 r. René Descartes (po polsku zwany Kartezjuszem) zaproponował stworzenie uniwersalnego języka, który będzie składał się z jednakowych symboli przedstawiających te same idee w różnych językach. Myśl tę kontynuowało wielu znanych uczonych, m.in. Newton czy Leibniz. Jednym z podstawowych celów stworzenia takiego języka było zastąpienie łaciny i umożliwienie sprawniejszego komunikowania się oraz tłumaczenia tekstów. Koncepcje Kartezjusza i innych myślicieli pozostawały jednak wyłącznie na papierze.

Utrwalanie tekstu w postaci elektrycznej

Warunkiem koniecznym do zbudowania maszyny automatycznie tłumaczącej teksty z jednego języka na inny było wytworzenie reprezentacji tekstu w postaci czytelnej dla maszyny. Ten problem został rozwiązany wraz z wynalezieniem dalekopisu.

Tradycyjny telegraf wysyłał wiadomości w postaci serii kropek i kresek (tzw. alfabet Morse’a), które jednak zarówno wysyłać, jak i odczytywać potrafili tylko wykwalifikowani telegrafiści. Sytuację zmienił tzw. dalekopis. Było to urządzenie przypominające maszynę do pisania, na klawiaturze którego można było – litera po literze – pisać teksty. Naciśnięcie klawisza z określoną literą powodowało wygenerowanie pięciu impulsów elektrycznych (dodatnich albo ujemnych), które były przesyłane linią telegraficzną. W odbiorniku, którym był dalekopis na drugim końcu linii, te pięć impulsów zamieniało się w sygnał sterujący odbiciem odpowiedniej czcionki (litery) na drukarce – także przypominającej sposobem działania maszynę do pisania. Pierwszy dalekopis zainstalowano w USA w 1910 r. Jego twórcami byli Charles Krum i Howard Krum.

Czytaj więcej

Jak nauczyliśmy maszyny liczyć i myśleć za nas? Część 12: urządzenia peryferyjne komputera – drukarki

Dalekopis zamieniał litery tekstu na impulsy elektryczne – a to był niezbędny warunek budowy maszyny tłumaczącej. Bardzo szybko nauczono się zamieniać impulsy elektryczne na dziurki w taśmie papierowej. Każdy rządek dziurek (w poprzek taśmy) oznaczał jakąś literę. Tekst to była rolka taśmy z dziurkami. I tego było trzeba!

Pierwsze maszyny tłumaczące

Skoro tekst był już dostępny w formie elektrycznej (ale jeszcze nie elektronicznej), to pojawiła się pokusa zbudowania maszyny, do której można będzie wpuścić rolkę taśmy perforowanej z tekstem w jednym języku – i otrzymać rolkę taśmy z wydziurkowanym tekstem w drugim języku. Taką ambitną próbę podjął jako pierwszy Gruzin, Georges Artsrouni, który studiował w Petersburgu, ale potem mieszkał i działał we Francji. Jego urządzenie, które nazwał nieco przesadnie mechanicznym mózgiem, uzyskało patent we Francji w 1932 r. i główną nagrodę na wystawie w Paryżu w 1937 r. W tym samym czasie inny absolwent Uniwersytetu w Petersburgu, Piotr Trojanski, budował także elektromechaniczne urządzenie do tłumaczenia z jednego języka na drugi. Pary języków mogły być dobierane, ale trzeba było zaopatrzyć maszynę w odpowiedni słownik i schemat kodowania odpowiedzialny za gramatykę. Maszyna Trojanskiego otrzymała w 1935 r. patent ZSRR, ale nie była produkowana w większej liczbie egzemplarzy.

Maszyny opisane wyżej były trudne w budowie i równie trudne w obsłudze. Przełom w tej dziedzinie nastąpił w czasie II wojny światowej. Początkowo nie chodziło o tłumaczenie z jednego języka na inny, tylko o deszyfrowanie przechwyconych komunikatów radiowych wroga. Komputerów jeszcze nie było, ale genialny matematyk brytyjski, Alan Turing, opracował elektromechaniczną maszynę nazwaną bombą kryptologiczną, służącą do łamania szyfrów. Wyniki prac Turinga i innych kryptologów przyczyniły się do powstania pierwszych programów komputerowych służących do tłumaczeń tekstów z jednego języka na drugi. Prób tego rodzaju podejmowano wiele na całym świecie, ale historia nie odnotowała tych najwcześniejszych prób ani nazwisk twórców pierwszych działających programów. Niemniej uważa się, że w latach 50. XX w. powstała i rozwinęła się lingwistyka komputerowa.

Sukces propagandowy: eksperyment Georgetown–IBM

Możliwości komputerowego tłumaczenia tekstów z jednego języka na inny angażowała nie tylko profesjonalistów, ale budziła także zainteresowanie zwykłych ludzi. Aby takie właśnie zainteresowania jeszcze bardziej rozbudzić, firma IBM wspólnie z naukowcami z Uniwersytetu Georgetown 7 stycznia 1954 r. przeprowadziła pokazowe publiczne tłumaczenie 60 zdań z języka rosyjskiego na angielski. Pokaz się udał, użyty komputer IBM 704 przetłumaczył poprawnie wszystkie przedłożone mu zdania, chociaż – jaki dziś wiadomo – zastosowany program był wysoce niedoskonały: zawierał słownik zaledwie 250 słów (na kartach perforowanych) i używał zaledwie sześciu reguł gramatycznych. Sukces wynikał z faktu, że zdania podlegające automatycznemu tłumaczeniu (dotyczące polityki, prawa, matematyki, chemii, metalurgii, komunikacji i spraw wojskowych) zostały tak dobrane, żeby komputer sobie z nimi poradził.

Czytaj więcej

Jak nauczyliśmy maszyny liczyć i myśleć za nas? Era gigantów zakończona przez mikrusy

Mimo tych ograniczeń entuzjazm był powszechny. Duncan Harkin z Departamentu Obrony USA zasugerował, że jego departament sfinansuje nowy projekt tłumaczenia maszynowego. Jerome Wiesner z Laboratorium Badawczego Elektroniki na MIT (najlepszej uczelni technicznej na świecie) zadeklarował współpracę. Zdawało się, że wizja komputera tłumaczącego różne teksty napisane w różnych językach jest na wyciągnięcie ręki.

Jednak problemy z komputerowym tłumaczeniem tekstów okazały się większe, niż się spodziewano. Pieniądze na badania wydawano duże, ale postępy były marne. Rząd Stanów Zjednoczonych postanowił się temu przyjrzeć i w 1964 r. powołał komitet siedmiu naukowców (kierowany przez Johna R. Pierce’a), któremu nadano nazwę ALPAC (Automatic Language Processing Advisory Committee). Raport tego gremium wydany w 1966 r. był niekorzystny. Członkowie ALPAC sceptycznie ocenili dokonania naukowców pracujących w obszarze analizy języka naturalnego, w szczególności te zmierzające do budowy programów automatycznego tłumaczenia, co spowodowało, że finansowanie tych badań zostało bardzo ograniczone.

Problemy z gramatyką

Przy operowaniu językiem naturalnym trzeba brać pod uwagę słownik i gramatykę. Sprawę słownika stosunkowo łatwo opanować w komputerze – po prostu jest to lista słów i ewentualne rozwinięcie ich znaczeń. Większość prac początkowo koncentrowała się na języku angielskim, gdzie nie występuje zjawisko fleksji, sprawa jest więc łatwiejsza. Ale dla języków fleksyjnych (na przykład dla języka polskiego), w których rzeczowniki, czasowniki i przymiotniki mają różne formy w zależności od przypadku, liczby i rodzaju, też da się to w miarę prosto zapisać w komputerowych bazach i bankach danych.

Czytaj więcej

Jak nauczyliśmy maszyny liczyć i myśleć za nas? Część 46: Jak 20 uczonych w osiem tygodni zrewolucjonizowało relacje ludzi i maszyn

Gorzej z gramatyką. Zbiór reguł językowych umożliwiających tworzenie złożonych jednostek językowych (zdań) poprzez ich składanie z jednostek elementarnych na początku stwarzał trudności wszystkim badaczom zajmującym się komputerowym przetwarzaniem języków naturalnych, m.in. tym, którzy usiłowali budować systemy informatyczne dokonujące automatycznego tłumaczenia z jednego języka na inny. Zestawienie dwóch słowników nie stanowiło nigdy dużego problemu, podczas gdy przekształcenie jednych reguł gramatycznych w inne (dla drugiego języka) było bardzo trudne.

Sprawę zbliżenia komputerów do używania gramatyk podjął Noam Chomsky, pracownik MIT. W publikacji wydanej w 1975 r. opisał tzw. struktury semantyczne, które miały na celu dowodzenie formalne, że pewne konstrukcje składniowe są gramatycznie poprawne, a inne nie. Udało się to zrobić dla wielu sztucznych języków, jednak podejścia tego nie udało się zastosować do języków rzeczywistych i pozostało ono wyłącznie ciekawą propozycją teoretyczną. Chomsky rozwijał także tzw. psycholingwistykę, wiążąc naturę rozwijania kompetencji językowych u dzieci z ich rozwojem umysłowym. Ważnym osiągnięciem Chomsky’ego było wprowadzenie rozróżnienia syntaktyki (budowy gramatycznej zdań) od semantyki (zawartości w owych zdaniach konkretnych informacji). Znane są jego przykłady zdań poprawnych gramatycznie, a całkowicie pozbawionych sensu.

O dalszych pracach związanych z analizą języka naturalnego napiszę w kolejnym felietonie.

Autor jest profesorem Akademii Górniczo-Hutniczej w Krakowie

Jednym z obszarów obecnie silnie eksploatowanych w informatyce jest analiza języka naturalnego. Dziedzina ta rozwijana pod nazwą NLP (Natural Language Processing) umożliwia uzyskiwanie natychmiastowych tłumaczeń tekstów napisanych (lub mówionych) w jednym języku na teksty udostępniane w innym języku. Dzięki rozwojowi tych technik uzyskaliśmy narzędzia do sprawnego wyszukiwania potrzebnych informacji, możliwości automatycznego tworzenia streszczeń i systemy komputerowe przeznaczone do swobodnej komunikacji z człowiekiem (na przykład Chat GPT). Poznajmy jednak drogę, która nas do tego zaprowadziła.

Pozostało 95% artykułu
2 / 3
artykułów
Czytaj dalej. Subskrybuj
Historia świata
Geneza systemu dwupartyjnego w USA
Historia świata
Nie tylko Putin. Ukraina spaloną ziemią Stalina
Historia świata
Masakra w My Lai
Historia świata
Samolot z gumy i lotnik na sznurku. Odkrywcze projekty
Historia świata
Krzysztof Kowalski: Szukać trzeba do skutku