Jak nauczyliśmy maszyny mówić?

Tworzenie narzędzi do syntezy mowy opartych na mechanice było trudne i mało skuteczne. Przekonało się o tym wielu badaczy, m.in. Alexander Graham Bell, wynalazca telefonu. W dodatku stosowane urządzenia mechaniczne wytwarzały mowę kiepskiej jakości i trudno było nimi sterować. Przełom w tej dziedzinie przyniosła elektronika.

Publikacja: 11.01.2024 21:00

Fidelity Voice Chess Challenger z 1979 r. – szachownica dla osób niewidomych opisująca głosowo ruchy

Fidelity Voice Chess Challenger z 1979 r. – szachownica dla osób niewidomych opisująca głosowo ruchy wykonywane przez szachistów

Foto: Tiia Monto/wikipedia

Przywykliśmy już do tego, że różne urządzenia techniczne przekazują nam informacje głosem. Po prostu mówią do nas! Obecnie nikogo to ani nie dziwi, ani nie zastanawia – przecież systemy elektroniczne ustawicznie karmią nas jakimiś dźwiękami: korzystamy z elektronicznie serwowanej muzyki, słyszymy w telefonie głos rozmówcy, nawet jeśli jest on oddalony o setki kilometrów, GPS głosowo uprzedza o skrzyżowaniach – po prostu rutyna.

Czym innym jest jednak odtworzenie wcześniej zarejestrowanego nagrania, a czym innym jest wygenerowanie głosowego komunikatu na całkowicie nieoczekiwany temat. Jednym z obszarów, w których to bywa niezbędne, jest tzw. tyfloinformatyka – czyli udostępnianie osobom niewidomym (lub słabo widzącym) informacji, które człowiek widzący czyta na ekranie. Tu nie pomoże nagrany głos lektora – tę wypowiedź trzeba wytworzyć. Do tego celu służą specjalne systemy, tzw. syntezatory mowy, o których historii chcę dziś opowiedzieć.

Czytaj więcej

Jak powstawał kalendarz?

Pierwsze urządzenia mechaniczno-pneumatyczne

Pierwsze urządzenie wytwarzające sygnały na podobnej zasadzie jak w systemie głosowym człowieka zostało zbudowane w 1779 r. przez Christiana Gottlieba Kratzensteina. Było to pięć rezonatorów akustycznych tak skonstruowanych, że kiedy przedmuchiwano przez nie powietrze (z miecha), to wytwarzała się fala dźwiękowa odbierana przez słuchaczy jako samogłoska – odpowiednio (zależnie od tego, który rezonator był przedmuchiwany) słyszane były głoski: a, e, i, o albo u.

Wytwarzanie samogłosek było (i jest do dzisiaj) najłatwiejsze, bo struktura widma sygnału dźwiękowego jest w nich bardzo prosta, a ponadto przez cały czas wygłaszania głoski się nie zmienia. Samogłoska może więc być dowolnie wydłużana lub skracana, z czego korzystają śpiewacy. Natomiast spółgłoski mają bardziej złożone widmo – i co więcej, dźwięk w trakcie wygłaszania jednej spółgłoski może się zasadniczo zmieniać. Rozważmy na przykład głoskę „p”. Jej artykulacji nie da się wydłużyć, a struktura dźwięku jest radykalnie inna na początku wygłaszania głoski i na jej końcu. Stwarzało to budowniczym sztucznych syntezatorów mowy ogromne trudności, lecz kolejny badacz Wolfgang von Kempelen przezwyciężył te ograniczenia. Nie przyszło mu to łatwo, ale przez wiele lat prowadził intensywne badania nad mechanizmem wytwarzania mowy w takcie głosowym człowieka, czyli w obszarze od strun głosowych, poprzez język i podniebienie, aż do warg. W wyniku tych badań w 1791 r. wydał książkę „Mechanizm ludzkiej mowy”, a potem na wystawie w Wiedniu zaprezentował urządzenie, które mogło wytwarzać wszystkie samogłoski i niektóre spółgłoski. Niestety, von Kempelen okrył się złą sławą, gdy usiłował twierdzić, że zdołał zbudować mechanizm zdolny do gry w szachy. Ten jego Mechaniczny Turek zachwycał ludzi od 1769 r. Grał z nim w szachy m.in. Napoleon Bonaparte i współtwórca Stanów Zjednoczonych Benjamin Franklin. Wszyscy chwalili sprawność maszyny i geniusz twórcy.

Niestety, gdy Kempelen zmarł w 1804 r., spadkobiercy zbadali Mechanicznego Turka i odkryli oszustwo. W rzeczywistości ruchami androida kierował ukryty w zakamarkach maszyny człowiek (szachista) i to on rozgrywał owe partie. Demaskatorski artykuł na temat tego oszustwa opublikowano w 1834 r. najpierw w czasopismach francuskich, a potem amerykańskich. Wolfgang von Kempelen został tak skompromitowany, że nie wierzono już w nic jego autorstwa – w tym także w pionierską i naukowo rzetelną książkę „Mechanizm ludzkiej mowy”, która na skutek tego popadła w zapomnienie. A szkoda, bo to była naprawdę rzetelna nauka!

Wkracza elektronika

Tworzenie narzędzi do syntezy mowy opartych na mechanice było trudne i mało skuteczne. Przekonało się o tym wielu badaczy, m.in. Alexander Graham Bell, wynalazca telefonu. W dodatku stosowane urządzenia mechaniczne wytwarzały mowę kiepskiej jakości i trudno było nimi sterować. Przełom w tej dziedzinie przyniosła elektronika.

Czytaj więcej

Zapomniani pionierzy sztucznej inteligencji

Możliwość zbudowania z elementów elektronicznych generatora fali akustycznej o dowolnej częstotliwości, potwierdzona m.in. budową przeróżnych elektronicznych instrumentów muzycznych, dawała gwarancję, że techniczny odpowiednik krtani człowieka będzie działał poprawnie zarówno dla wytwarzania głosów kobiecych, jak i męskich. Wnęki rezonansowe – formujące brzmienie głosek dźwięcznych, których wykonanie w formie mechanicznej było trudne i kosztowne – można było zastąpić prostymi układami składającymi się z cewek i kondensatorów. Aż dziwne, że tak słabo korzystano z tych możliwości i pierwszy elektroniczny syntezator mowy, który powstał w 1922 r., miał bardzo ograniczone możliwości i spotkał się z krytyką fonetyków.

Nieco lepiej oceniony był Voder (ang. Voice Operating Demonstrator) skonstruowany w 1939 r. w Bell Telephone Laboratory. Produkował on mowę zadowalającej jakości, ale wymagał skomplikowanego sterowania za pomocą klawiszy i pedałów, dlatego operator kontrolujący jego pracę musiał najpierw przejść dość skomplikowane szkolenie.

Voder jednak „przetarł szlak” i wkrótce zaczęły się pojawiać kolejne elektroniczne syntezatory mowy. Jednym z częściej przywoływanych osiągnięć z tego okresu był tzw. PAT (ang. Parametric Artificial Talker) zaprezentowany przez Waltera Lawrence’a w 1953 r.

Szeroką popularność zyskały syntezatory mowy jako narzędzia wykorzystywane do komunikacji z użytkownikami gier komputerowych. W syntezator mowy o nazwie SP0256 Narrator wyposażona została w 1982 r. konsola do gier Mattel Intellivision. W 1983 r. Dennis Klatt z MIT stworzył bardzo poręczny system DECtalk wykorzystywany jako syntezator mowy w różnych zastosowaniach.

Również gra w szachy, prowadzona „w realu” na specjalnej szachownicy, została udostępniona osobom niewidomym za pomocą narzędzia Fidelity Voice Chess Challenger z 1979 r., opisującego głosowo stan na szachownicy i wykonywane posunięcia realizowane przez widzącego partnera.

Komputer jako syntezator mowy

Rozwiązanie techniczne zakładające, że syntezator mowy będzie oddzielnym urządzeniem elektronicznym, przegrało z podejściem polegającym na tym, że syntezator jest programem wykonywanym przez komputer. W 1961 r. pierwszą próbę programowej syntezy mowy za pomocą komputera wykonano w Bell Labs. Twórcami programu byli John Larry Kelly Jr i Louis Gerstman, a komputerem, który syntetyzował mowę, był IBM 704. Rozwiązanie to przez wielu użytkowników zostało uznane za zadowalające.

W 1966 r. sukces w tworzeniu programów pozwalających komputerom wytwarzać mowę syntetyczną odnieśli Japończycy: Fumitada Itakura z Uniwersytetu Nagoya i Shuzo Saito z Nippon Telegraph and Telephone (NTT). Ich rozwiązania kopiowało wiele firm na całym świecie. Postęp w tej dziedzinie był jednak coraz szybszy. W 1982 r. najlepsze wyniki zapewniał program komputerowy opracowany przez Marka Bartona o nazwie SAM (Software Automatic Mouth) wykorzystywany głównie w komputerach firmy Apple.

Opisane wyżej programowe syntezatory mowy były modułami, które należało dodać do oprogramowania używanego komputera jako dodatkowy składnik. Natomiast firma Atari w 1983 r. poszła dalej i wypuściła serię komputerów 1400XL/1450XL, w których syntezator mowy – nazwany World English Spelling – był wbudowany jak część systemu operacyjnego. Tę samą zasadę (ale mocno udoskonaloną) zastosowała firma Apple, dodając w 1984 r. do systemu operacyjnego komputera Macintosh program syntezy mowy o nazwie MacInTalk. Początkowo program ten był traktowany raczej jako ciekawostka, ale w 2005 r. w systemie Mac OS X Tiger zastosowano program syntezy mowy, który czytał teksty z ekranu w sposób bardzo realistyczny (uwzględniono nawet przerwy na oddech między poszczególnymi zdaniami!). Dodatkowo udostępniono wiele głosów do wyboru. To było narzędzie, które zdecydowanie podobało się na rynku.

Były i inne rozwiązania. System programowej syntezy mowy wprowadziła w 1985 r. do swych wyrobów firma Commodore. Dobry syntezator mowy miały komputery Amiga, których w związku z tym chętnie używały osoby niewidome i które znajdowały zastosowanie w edukacji.

Windows, Linux, Android...

Wymieniane wyżej komputery, które były wyposażane w syntezator mowy, stanowią obecnie zdecydowanie niewielką część narzędzi informatycznych, którymi ludzie się posługują. Na rynku dominują bowiem komputery osobiste klasy PC oraz smartfony jako urządzenia mobilne.

Do systemów Windows, sterujących większością komputerów PC na świecie, moduły SAPI (Speech Application Programming Interface) w kolejnych numerowanych wersjach (obecnie jest wersja 5.4) były dodawane od 1995 r. Moduły SAPI pozwalają na syntezę mowy, ale także na jej automatyczne rozpoznawanie, są więc też podstawą wszelkich programów działających na zasadzie wprowadzania przez użytkownika dowolnych informacji głosem – ale historią metod automatycznego rozpoznawania mowy zajmę się w oddzielnym artykule.

W smartfonach instalowane są szybko zmieniające się kolejne wersje systemu operacyjnego Android, które – poczynając od wersji 1.6 – mają możliwość wykorzystywania narzędzi do syntezy mowy. Narzędzia takie zostały przygotowane w formie aplikacji przez firmę Google, a ich pobranie i zainstalowanie w posiadanym telefonie nie nastręcza większych trudności. Niemniej nie są to narzędzia wbudowane w system, dlatego ich używanie wymaga pewnego treningu wspomaganego obszernymi materiałami szkoleniowymi dostępnymi na stronach Google’a. Najbardziej znaną aplikacją umożliwiającą uzyskanie efektu syntezy mowy w smartfonach wyposażonych w system Android jest TalkBack.

Oczywiście, syntezą mowy zainteresowali się także twórcy oprogramowania o otwartym kodzie źródłowym. W 1995 r. Jonathan Duddington wypuścił syntezator mowy Speak, który mógł działać pod Linuxem (darmowym systemem operacyjnym rozpowszechnianym zgodnie z metodologią otwartego oprogramowania). Syntezator Speak – jak każde otwarte oprogramowanie – był doskonalony przez użytkowników i na tyle się zmienił, że poczynając od wersji 1.14, nadano mu nową nazwę: eSpeak. Ten nowy syntezator został dostosowany do działania pod systemem Linux, ale także pod systemem Windows, co zwiększyło jego atrakcyjność. Od wersji 1.49.0 udostępnionej 10 września 2016 r. eSpeak zaczęto nazywać syntezatorem nowej generacji i nadano mu nazwę e-speak NG.

Na koniec mała ciekawostka. Syntezatory mowy miały bardzo wiele zastosowań. Poza wspomnianym na początku artykułu czytaniem na głos zawartości ekranu, na którym wyświetlana jest nieprzewidywalna z góry treść pobrana z internetu i aktualnie potrzebna osobie niewidomej, znaleziono także wiele innych zastosowań – i wciąż znajdowane są kolejne. Warto wspomnieć, że sławny angielski fizyk i kosmolog Stephen Hawking, który był prawie całkowicie sparaliżowany, od 2005 r. komunikował się z ludźmi, używając syntezatora mowy, którego działaniem sterował za pomocą mięśnia policzkowego!

Autor jest profesorem Akademii Górniczo-Hutniczej w Krakowie

Przywykliśmy już do tego, że różne urządzenia techniczne przekazują nam informacje głosem. Po prostu mówią do nas! Obecnie nikogo to ani nie dziwi, ani nie zastanawia – przecież systemy elektroniczne ustawicznie karmią nas jakimiś dźwiękami: korzystamy z elektronicznie serwowanej muzyki, słyszymy w telefonie głos rozmówcy, nawet jeśli jest on oddalony o setki kilometrów, GPS głosowo uprzedza o skrzyżowaniach – po prostu rutyna.

Pozostało 96% artykułu
2 / 3
artykułów
Czytaj dalej. Subskrybuj
Historia
Prezydentura – zawód najwyższego ryzyka
Historia
Czesław Lasik: zapomniany agent wywiadu
Historia
Indyjscy „wyklęci” wracają do łask
Historia
IPN poszukuje na Litwie szczątków poległych żołnierzy AK
Materiał Promocyjny
Mazda CX-5 – wszystko, co dobre, ma swój koniec
Historia
Pałac Saski na razie na etapie odkrywanych piwnic. Co z planowaną datą oddania do użytku?
Materiał Promocyjny
Branża bankowa gorszy okres ma za sobą