Asystenty głosowe słyszą coś, czego nie słyszą ludzie

Asystenty głosowe mogą wykonywać polecenia głosowe potajemnie umieszczone w nagraniach. Jak można się bronić przed takimi atakami, skoro nie słyszymy ultradźwięków?

Wkrótce nasza interakcja z technologią będzie w dużej mierze oparta na głosie. Zadanie pytania na głos i uzyskanie na nie odpowiedzi jest banalne: wystarczy spojrzeć, jak korzystają z tego dzieci.

Jednak nowa technologia zawsze wiąże się z pojawieniem się nowych zagrożeń, a sterowanie głosowe nie jest tu wyjątkiem. Badacze zajmujący się bezpieczeństwem cybernetycznym nieustannie testują urządzenia, dzięki czemu producenci mogą unikać sytuacji, w których potencjalne zagrożenia stają się rzeczywistością. Dziś omówię kilka przypadków, które chociaż nieczęsto można jeszcze spotkać, powinny być brane pod uwagę.

Inteligentne urządzenia słuchają i są posłuszne

Według raportu opublikowanego na stronie voicebot.ai obecnie na całym świecie używanych jest ponad miliard urządzeń aktywowanych głosowo. Większość z nich stanowią smartfony, jednak na popularności zyskują też inne urządzenia potrafiące rozpoznawać mowę. Na przykład w co piątym gospodarstwie domowym w Ameryce znajduje się inteligentny głośnik reagujący na polecenia głosowe.

Polecenia głosowe mogą służyć do sterowania odtwarzaną muzyką, zamawiania rzeczy przez internet, kontrolowania współrzędnych GPS pojazdu, sprawdzania informacji i pogody czy ustawiania alarmów. Producenci korzystają z tego trendu i dodają możliwość sterowania głosem do coraz większej liczby urządzeń. Na przykład serwis Amazon niedawno udostępnił kuchenkę mikrofalową, która łączy się z inteligentnym głośnikiem Echo. Gdy ktoś wypowie słowa „Podgrzej kawę”, kuchenka oblicza potrzebny czas i włącza się. Oczywiście nadal trzeba osobiście wybrać się do kuchni, aby włożyć do niej kubek, więc z bez problemu można by wcisnąć przy okazji przycisk, ale po co rezygnować z postępu technologicznego?

Inteligentne systemy domowe oferują również sterowanie głosowe oświetleniem i klimatyzacją, jak również automatyczne blokowanie drzwi wejściowych. Jak widać, asystenty głosowe mają już całkiem niezłe możliwości, ale nikt raczej nie chciałby, aby mogła z nich korzystać osoba obca, zwłaszcza do realizacji szkodliwych celów.

W 2017 roku bohaterowie animowanego sitcomu South Park przeprowadzili dosyć oryginalny atak masowy we własnym, niepowtarzalnym stylu. Ofiarą była Alexa, asystent głosowy dostępny w ramach inteligentnych głośników Amazon Echo. Alexa otrzymała polecenie dodania do koszyka zakupowego kilku nietypowych przedmiotów i ustawienia alarmu na 7 rano. Mimo charakterystycznej wymowy postaci z bajki głośniki Echo należące do właścicieli, którzy w tym momencie oglądali ten odcinek serii South Park, posłusznie wykonały polecenie usłyszane z ekranu telewizora.

Ultradźwięk: urządzenia słyszą coś, czego nie słyszymy my

Kiedyś pisaliśmy już o zagrożeniach związanych z gadżetami, które można aktywować głosowo. Dziś skupię się na „cichych” atakach, które zmuszają takie urządzenia do słuchania głosów, których my nie możemy usłyszeć.

Jednym ze sposobów przeprowadzenia takiego ataku jest wykorzystanie ultradźwięku — dźwięku o tak wysokiej częstotliwości, że ludzkie ucho go nie słyszy. W opublikowanym w 2017 roku artykule badacze z Uniwersytetu Zhejiang zaprezentowali technikę potajemnego przejęcia kontroli nad asystentami głosowymi, o nazwie DolphinAttack (nazwa nawiązuje do faktu, że delfiny emitują ultradźwięki). Grupa badaczy przekonwertowała polecenia głosowe na fale ultradźwiękowe, których częstotliwości były zbyt duże, aby mogli je usłyszeć ludzie, ale na tyle niskie, aby rozpoznawały je mikrofony w nowoczesnych urządzeniach.

Metoda ta zadziałała, ponieważ gdy ultradźwięk jest konwertowany na impuls elektryczny w urządzeniu odbiorczym (na przykład smartfonie), oryginalny sygnał zawierający polecenie głosowe jest przywracany. Mechanizm można porównać do efektu, gdy głos zostaje zniekształcony podczas nagrywania — w urządzeniu nie istnieje specjalna funkcja; to cecha procesu konwersji.

W efekcie atakowany gadżet słyszy i wykonuje polecenie głosowe, otwierając atakującym wiele możliwości. Badacze zdołali z powodzeniem odtworzyć atak na najpopularniejszych asystentach głosowych, w tym Amazon Alexa, Apple Siri, Google Now, Samsung S Voice i Microsoft Cortana.

Chór głośników

Jedną ze słabości DolphinAttack (z perspektywy atakującego) jest niewielki zasięg jego działania — wynosi on około 1 metra. Jednak badacze z Uniwersytetu Illinois w Urbanie i Champaign z powodzeniem zwiększyli tę odległość. W swoim eksperymencie podzielili przekonwertowane polecenie ultradźwiękowe na kilka pasm częstotliwości, które następnie zostały odtworzone przez różne głośniki (ponad 60). Ukryte polecenie głosowe wydawane przez ten „chór” były słyszane w odległości 7 metrów, a sytuacji nie zmieniał otaczający hałas. W takich warunkach szanse powodzenia ataku DolphinAttack znacznie wzrastają.

Głos z głębi

Eksperci z Uniwersytetu Kalifornijskiego w Berkeley użyli innej metody. Potajemnie umieścili polecenia głosowe w innych fragmentach nagrania dźwiękowego w celu oszukania Deep Speech, systemu rozpoznawania mowy należącego do firmy Mozilla. Dla ludzkiego ucha zmodyfikowane nagranie raczej nie różni się od oryginalnego, ale oprogramowanie wykrywa w nim ukryte polecenie.

Wystarczy posłuchać należących do badaczy nagrań umieszczonych na ich stronie. W pierwszym przykładzie zdanie „Without the data set the article is useless” (pol. „Artykuł nie uwzględniający danych jest nieprzydatny”) zawiera ukryte polecenie otwarcia strony: „Okay Google, browse to evil.com” (pol. „Okay Google, otwórz stronę evil.com”). W drugim przypadku badacze dodali zdanie „Speech can be embedded in music” (po. „W muzyce można umieścić słowa”) we fragmencie suity na wiolonczelę J.S. Bacha.

Jak zapewnić sobie ochronę przed atakami, których nie słychać

Producenci już poszukują sposobów ochrony urządzeń aktywowanych głosowo. Na przykład ataki ultradźwiękowe można powstrzymać poprzez wykrycie zmian częstotliwości w otrzymywanych sygnałach. Dobrym pomysłem jest takie wytrenowanie wszystkich urządzeń, aby rozpoznawały głos właściciela, chociaż po przetestowaniu tego na własnym systemie firma Google ostrzegła, że taką ochronę można obejść poprzez nagranie głosowe lub podszywanie się.

Badacze i producenci mają jeszcze czas na to, aby rozwiązać ten problem. Jak wspomniałem, obecnie ukradkowe kontrolowanie asystentów głosowych jest możliwe tylko w warunkach laboratoryjnych: ustawienie jednego głośnika ultradźwiękowego (nie wspominając o 60) w zasięgu czyjegoś inteligentnego głośnika stanowi spore wyzwanie, a umieszczanie poleceń w nagraniach dźwiękowych nie jest raczej warte poświęcania czasu i energii.

Porady