Alexa, Siri i Google Nie rozumiem słowa, które mówisz

Amazonka

Asystenci głosowi, tacy jak Alexa, Asystent Google i Siri, przeszli długą drogę w ciągu ostatnich kilku lat. Ale przy wszystkich ich ulepszeniach jedna rzecz je powstrzymuje: Oni cię nie rozumieją. Opierają się zbytnio na konkretnych poleceniach głosowych.

Rozpoznawanie mowy to tylko magiczna sztuczka

Amazonka

Asystenci głosu cię nie rozumieją. Właściwie to nie tak naprawdę. Kiedy rozmawiasz z Google Home lub Amazon Echo, zasadniczo konwertuje twoje słowa do ciągu tekstowego, a następnie porównuje je do oczekiwanych poleceń. Jeśli znajdzie dopasowanie ścisłe, to następuje zestaw instrukcji. Jeśli tak się nie stanie, szuka alternatywy tego, co należy zrobić na podstawie posiadanych informacji, a jeśli to nie zadziała, pojawi się komunikat o błędzie, na przykład "Przepraszam, ale nie wiem, "To tylko magiczna sztuczka, która może cię nakłonić do myślenia.

Nie może korzystać z wskazówek kontekstowych, aby najlepiej odgadnąć, a nawet używać zrozumienia podobnych tematów w celu informowania o swoich decyzjach. Nie jest trudno wyłapać asystentów głosowych. Chociaż możesz poprosić Alexę "Czy pracujesz dla NSA?" I uzyskać odpowiedź, jeśli zapytasz "Czy jesteś potajemnie częścią NSA?", Otrzymujesz odpowiedź "Nie wiem tego" (przynajmniej w czas tego pisania).

Ludzie, którzy naprawdę rozumieją mowę, nie działają tak. Przypuśćmy, że pytasz człowieka: "Co to za klarvain na niebie? Ten, który jest wysklepiony i pełen paskowych kolorów, takich jak czerwony, pomarańczowy, żółty i niebieski. "Mimo, że klarvain jest wymyślonym słowem, osoba, o którą prosiłeś, mogłaby wyjść z kontekstu, w którym opisujesz tęczę..

Chociaż można twierdzić, że człowiek przekształca przemowę w idee, człowiek może następnie zastosować wiedzę i zrozumienie, aby uzyskać odpowiedź. Jeśli zapytasz człowieka, czy potajemnie pracuje dla NSA, odpowiedzą ci tak lub nie, nawet jeśli ta odpowiedź jest kłamstwem. Człowiek nie powiedziałby "nie znam tego" na takie pytanie. To, że ludzie mogą kłamać, jest czymś, co przychodzi z prawdziwym zrozumieniem.

Asystenci głosowi nie mogą wykraczać poza swoje programowanie

Asystenci głosowi są ostatecznie ograniczeni do zaprogramowanych parametrów oczekiwanych, a błądzenie poza nimi przerwie ten proces. Ten fakt pokazuje, kiedy urządzenia innych producentów wchodzą do gry. Zwykle polecenie interakcji z nimi jest bardzo nieporęczne, co oznacza "powiedz producentowi urządzenia, aby wydał opcjonalny argument". Dokładny przykład brzmi: "Powiedz Whirlpool, aby wstrzymał suszarkę." Dla jeszcze trudniejszego przykładu, Genewa Alexa umiejętność kontrolowania niektórych piekarników GE. Użytkownik umiejętności musi pamiętać, aby "powiedzieć Genewie", a nie "powiedzieć GE", a następnie resztę polecenia. I podczas gdy można poprosić o podgrzanie piekarnika do 350 stopni, nie można wykonać żądania zwiększenia temperatury o kolejne 50 stopni. Człowiek może jednak podążać za tymi żądaniami.

Amazon i Google ciężko pracowały, aby pokonać te przeszkody i to pokazuje. Tam, gdzie kiedyś trzeba było wykonać powyższą sekwencję, aby kontrolować inteligentny zamek, teraz można powiedzieć "zablokuj drzwi wejściowe". Alexa była zdezorientowana przez "powiedz mi psiego żartu", ale poproś o nią dzisiaj i to zadziała. Dodali wariacje do poleceń, których używasz, ale ostatecznie musisz znać właściwe polecenie do powiedzenia. Musisz użyć poprawnej składni we właściwej kolejności.

A jeśli uważasz, że brzmi to jak linia poleceń, nie mylisz się.

Voice Assistants to fantazyjna linia poleceń

Linia poleceń jest ściśle zdefiniowana do wykonywania prostych zadań, ale tylko wtedy, gdy znasz właściwą składnię. Jeśli wymkniesz się z poprawnej składni i wpisz dyr zamiast dir, to w wierszu poleceń wyświetli się komunikat o błędzie. Możesz używać aliasów do łatwiejszych do zapamiętania poleceń, ale musisz wiedzieć, jakie były oryginalne polecenia, jak działają i jak efektywnie używać aliasów. Jeśli nie poświęcisz czasu na naukę numerów wejściowych i wyjściowych, nigdy nie wyjdziesz z tego zbyt wiele.

Asystenci głosowi nie różnią się. Musisz znać prawidłowy sposób wypowiadania polecenia lub zadawania pytania. Musisz wiedzieć, jak skonfigurować grupy dla Google i Alexy, dlaczego grupowanie urządzeń jest niezbędne i jak nazwać inteligentne urządzenia. Jeśli nie wykonasz tych niezbędnych czynności, poczujesz frustrację, prosząc swojego asystenta głosowego o wyłączenie badania tylko po to, aby zostać zapytanym, "które badanie" powinno być wyłączone.

Nawet jeśli użyjesz poprawnej składni we właściwej kolejności, proces może się nie udać. Albo z niepoprawną odpowiedzią, albo z zaskakującym wynikiem. Dwa domy Google w tym samym domu mogą dawać pogodę w nieco innych lokalizacjach, nawet jeśli mają dostęp do tego samego konta użytkownika i połączenia internetowego.

W powyższym przykładzie podano polecenie "Ustaw timer na pół godziny". Hub Google Home utworzył licznik czasu o nazwie "Godzina", a następnie zapytał o czas działania zegara. A jednak powtarzając to samo polecenie jeszcze trzy razy działały poprawnie i stworzył 30-minutowy zegar. Użycie polecenia "Ustaw czasomierz na 30 minut" działa poprawnie w bardziej spójny sposób.

Podczas gdy przemawianie do Google Home lub Echo może być bardziej płynne, pod maską asystenci głosu i linie poleceń działają w ten sam sposób. Być może nie musisz uczyć się nowego języka, ale musisz nauczyć się nowego dialektu.

Wąskie Zrozumienie Asystentów Głosowych ograniczy wzrost

Nic z tego nie uniemożliwia pracy asystentów głosowych, takich jak Google Assistant i Alexa (choć Cortana to inna historia). Asystent Google i Alexa i przyzwoicie przeszukują online pytania, choć nie jest zaskakujące, że Google jest lepszy w wyszukiwaniu i może odpowiadać na podstawowe pytania, takie jak konwersje pomiarów i prosta matematyka. Przy poprawnie skonfigurowanym inteligentnym domu i dobrze wyszkolonym użytkowniku większość inteligentnych poleceń domowych będzie działać zgodnie z przeznaczeniem. Ale stało się to dzięki pracy i wysiłkowi, a nie intelektualnemu zrozumieniu.

Zegary i alarmy były uproszczone. Dodano nazewnictwo w czasie, a następnie możliwość dodania czasu do licznika czasu. Przenieśli się od uproszczonego do bardziej skomplikowanego. Asystenci głosu mogą odpowiadać na więcej pytań, a każdy dzień przynosi nowe umiejętności i funkcje. Ale to nie jest efekt samorozwoju wynikający z nauki i zrozumienia.

I nic z tego nie zapewnia naturalnej możliwości wykorzystania tego, co znane jest z docierania do nieznanych. Dla każdego polecenia i pytania, które działają, zawsze będą trzy takie, które nie działają. Bez przełomu w A.I. to daje człowiekowi zdolność rozumienia, asystenci głosowi wcale nie są asystentami. To po prostu linie poleceń głosowych - przydatne w odpowiednim scenariuszu, ale ograniczone do tych scenariuszy, które zaprogramowali, aby je zrozumieć.

Innymi słowy: maszyny uczą się rzeczy, ale nie mogą ich zrozumieć.