Lamphone: nowy rodzaj „wizualnego podsłuchu”

Żarówka to jedyny specjalistyczny sprzęt, jakiego potrzebował Lamphone do podsłuchania rozmów w pokoju dźwiękoszczelnym.

Nie tak dawno temu opisaliśmy metody, których użył Mordechai Guri wraz ze swoimi kolegami z uczelni Ben-Gurion University do zdobycia informacji z urządzenia, które jest odizolowane nie tylko od internetu, ale również fizycznie odizolowane od sieci. Podczas konferencji Black Hat USA 2020 inny badacz ze wspomnianego uniwersytetu zaprezentował raport na ten temat. Ben Nassi opowiedział o metodzie podsłuchu wizualnego, którą nazwał wraz z kolegami Lamphone.

Poniżej opisaliśmy sposób działania zagrożenia Lamphone, jednak zaczniemy od krótkiego opisu historii tej kwestii.

Czy można zobaczyć dźwięk?

Jedną z dobrze znanych technologii zdalnego nagrywania dźwięku przy użyciu tzw. metod wizualnych jest laser mikrofonowy. Technika ta jest dość prosta.

Osoby podsłuchujące rozmowę kierują wiązkę lasera działającego w zakresie podczerwieni (czyli niewidoczną dla oka człowieka) na odpowiednią powierzchnię (zwykle szybę okna) znajdującego się w pomieszczeniu, w którym odbywa się rozmowa. Wiązka odbija się od powierzchni i dociera do odbiornika. Fale dźwiękowe wywołują wibracje na powierzchni obiektu, co z kolei zmienia zachowanie odbitej wiązki laserowej. Odbiornik rejestruje zmiany, które ostatecznie są konwertowane w nagranie dźwiękowe rozmowy.

Technologia ta jest używana od ery Zimnej wojny, a motyw ten pojawił się w wielu filmach szpiegowskich. Istnieje kilka firm produkujących gotowe urządzenia do podsłuchu za pomocą lasera. Deklarują one, że zakres działania takich urządzeń sięga nawet 500 czy 1000 metrów. Jeśli ktoś martwi się, że może zostać podsłuchany przy użyciu tej metody, mamy dobre wieści: mikrofony laserowe są bardzo drogie, a ponadto producenci sprzedają je tylko agencjom rządowym (a przynajmniej tak twierdzą).

Jednak według Nassiego aktywna natura mikrofonów laserowych to poważna wada. Aby ta metoda podsłuchu działała, należy „oświetlić” powierzchnię wiązką lasera, a w efekcie detektor podczerwieni może ją wykryć.

Kilka lat temu grupa badaczy z uczelni Massachusetts Institute of Technology zaproponowała alternatywną metodę „wizualnego nagrywania” — całkowicie pasywną. Co do zasady, idea była taka sama: fale dźwiękowe tworzą na powierzchni obiektu wibracje, które można rejestrować.

Aby zarejestrować wibracje, badacze użyli kamery działającej z prędkością kilku tysięcy klatek na sekundę. Porównując klatki z kamery (z pomocą komputera), byli oni w stanie odtworzyć dźwięk z sekwencji klatek wideo.

Jednak ta metoda również ma wady, i to dość poważne. Przekonwertowanie tak dużej ilości informacji wizualnych w dźwięk z tak wysokiej klasy kamery wymagało ogromnej ilości zasobów obliczeniowych. Mimo że badacze z organizacji MIT dysponowali niezwykle silną stacją roboczą, do przeanalizowania 5-sekundowego nagrania wideo potrzebowali oni 2–3 godzin. W związku z tym podejście to nie jest dobre do podsłuchiwania rozmów na żywo.

W jaki sposób działa Lamphone

Nassi i jego współpracownicy wymyślili nową technologię „wizualnego podsłuchu”, którą nazwali Lamphone. Żarówka pełni w niej rolę obiektu, z którego można przechwycić wibracje powodowane przez dźwięk.

Żarówka nie tylko jest zwykłym obiektem, ale także świeci. Dlatego osoba używająca wibracji żarówki nie marnuje zasobów obliczeniowych na analizowanie tych subtelnych zmian w obrazie. Wystarczy skierować potężny teleskop w żarówkę, aby skierował on strumień światła z żarówki do czujnika elektrooptycznego.

Żarówka nie emituje światła w różnych kierunkach idealnie równomiernie (co ciekawe, te różnice zależą od rodzaju żarówek, przy czym są dość duże w żarówkach żarowych i ledowych, ale znacznie mniejsze w przypadku fluorescencyjnych). Ta zmienność wywołuje wibracje żarówki (przez fale dźwiękowe), delikatnie zmieniając intensywność strumienia światła, które rejestruje czujnik elektrooptyczny. Zmiany te są zauważalne na nagraniu; po zarejestrowaniu ich i dokonaniu szeregu prostych przekształceń badacze mogli przywrócić dźwięk z powstałego „nagrania światła”.

Aby sprawdzić swoją metodę, badacze zainstalowali urządzenie podsłuchujące na moście dla pieszych 25 metrów od okna pokoju testowego, w którym dźwięk był odtwarzany przez głośnik. Kierując teleskop na żarówkę w pokoju, badaczom udało się zanotować zmiany światła i przekształcić je w nagranie dźwiękowe.

Powstałe nagranie okazało się być dość zrozumiałe; na przykład Shazam z powodzeniem rozpoznał utwór testowy „Let It Be” grupy The Beatles i „Clocks” w wykonaniu zespołu Coldplay, a usługa rozpoznawania mowy od Google’a poprawnie przepisała słowa Donalda Trumpa z jednego z jego przemówień kampanijnych.

Czy Lamphone stwarza prawdziwe zagrożenie?

Nassi i jego zespół utworzyli działającą metodę „wizualnego podsłuchu”. Co ważniejsze, jest ona całkowicie pasywna, przez co nie wykryje jej żaden detektor.

Warto zauważyć, że w przeciwieństwie do metody zapoczątkowanej przez naukowców z MIT, obliczenia potrzebne do zdekodowania nagrań z Lamphone są bardzo proste. Ponieważ przetwarzanie nie wymaga wielu zasobów obliczeniowych, Lamphone można używać w czasie rzeczywistym.

Jednak Nassi przyznaje, że podczas eksperymentu dźwięk w pokoju testowym był odtwarzany głośno. Z tego względu efekty tego eksperymentu mogą mieć głównie znaczenie teoretyczne. Z drugiej strony nie wolno bagatelizować prostoty metod użytych do konwersji „nagrania świetlnego” w dźwięk. Technika ta może zostać później zdefiniowana na nowo, np. za pomocą algorytmów uczenia maszynowego, które wyróżniają się w tego typu zadaniach.

Według oceny badaczy zastosowanie tej techniki w praktyce nie jest ani wyjątkowo trudne, ani łatwe. Jednak według nich metoda ta może stać się praktyczniejsza — jeśli ktoś potrafi zastosować wyrafinowane algorytmy konwertowania odczytów czujnika elektrooptycznego w nagraniach dźwiękowych.

Porady