Jaki jest najprostszy sposób, aby zidentyfikować w skrzynce poczty e-mail zagrożenie (phishing lub spam)? Przydatne mogą okazać się nagłówki techniczne i inne pośrednie oznaki niechcianej wiadomości, ale najbardziej oczywista jest treść wiadomości. Dla wielu osób to właśnie ją należy przeanalizować w pierwszej kolejności; w końcu to właśnie poprzez treść cyberprzestępcy i pozbawieni skrupułów reklamodawcy próbują oszukać odbiorców. Jednak zadanie to nie jest takie proste — dawniej z zadaniem tym radziła sobie analiza sygnatur, lecz teraz konieczne jest analizowanie treści za pomocą algorytmów uczenia maszynowego. A jeśli model takiego uczenia ma być wytrenowany tak, aby klasyfikował wiadomości poprawnie, musi on przejść wiele przykładów — co nie zawsze jest praktyczne ze względów związanych z prywatnością. Znaleźliśmy na to sposób.
Dlaczego analiza sygnatur nie jest już skuteczna?
Dziesięć lat temu wyłapanie sporej ilości niechcianych e-maili wyłącznie na podstawie treści wiadomości było stosunkowo łatwe, ponieważ cyberprzestępcy korzystali z tych samych szablonów — treść wiadomości spamowych (i phishingowych) niewiele się zmieniała. Dziś cyberprzestępcy nieustannie zwiększają skuteczność swoich wiadomości, a także nawiązują do wielu gorących tematów: nowych gier wideo, seriali telewizyjnych czy modeli smartfonów; przedstawiają informacje związane z polityką; a nawet sytuacjami awaryjnymi (na przykład obecnie phishing i spam nawiązują najczęściej do choroby COVID-19). Tak duża różnorodność tematów komplikuje proces wykrywania. Co więcej, atakujący mogą nawet umieszczać różną treść w obrębie jednej fali wiadomości w celu uniknięcia filtrów poczty e-mail.
Oczywiście podejście oparte na sygnaturach nadal jest wykorzystywane, chociaż jego skuteczność zasadniczo polega na wykrywaniu treści, którą ktoś już zaklasyfikował jako niechcianą lub szkodliwą. Nie może ono działać proaktywnie, ponieważ spamerzy mogą wprowadzać zmiany w treści takich wiadomości. Jedynym sposobem na poradzenie sobie z tym problemem jest zastosowanie uczenia maszynowego.
Jaki jest problem z uczeniem?
W ostatnich latach metody uczenia maszynowego dobrze radziły sobie z rozwiązywaniem wielu problemów. Analizując duże ilości danych, modele uczą się podejmować decyzje i znajdować w strumieniu informacji nietypowe cechy wspólne. My wykrywamy zagrożenia dla poczty e-mail poprzez sieci neuronowe wytrenowane na podstawie nagłówków technicznych wiadomości e-mail, a także w oparciu o protokół DMARC. Dlaczego więc nie możemy tak samo postępować z wiadomościami tekstowymi?
Jak już wspomnieliśmy, modele potrzebują ogromnych ilości danych. W tym przypadku dane składają się z e-maili, ale nie tylko tych szkodliwych — potrzebne są również wiadomości oryginalne. Bez nich nie można byłoby wytrenować modelu w rozróżnianiu ataku od korespondencji legalnej. Stosujemy wiele pułapek e-mail, które identyfikują wszelkiego rodzaju niechciane wiadomości (używamy ich do tworzenia sygnatur), jednak uzyskanie legalnych wiadomości w celu uczenia to znacznie bardziej skomplikowane zadanie.
Zwykle dane są gromadzone na serwerach do uczenia scentralizowanego. Jeśli jednak chodzi o sam tekst, pojawiają się dodatkowe trudności: wiadomości mogą zawierać dane prywatne, więc przechowywanie i przetwarzanie ich w oryginalnej postaci byłoby niemożliwe do zaakceptowania. Jak więc uzyskać wystarczająco duży zbiór legalnych e-maili?
Uczenie federacyjne
Rozwiązaliśmy ten problem za pomocą metody uczenia federacyjnego. W ten sposób niemal całkowicie wyeliminowaliśmy potrzebę gromadzenia legalnych e-maili i zamiast tego trenować modele w sposób zdecentralizowany. Szkolenie modeli odbywa się bezpośrednio na serwerze poczty klienta, a serwer centralny otrzymuje jedynie wytrenowane próbki modeli uczenia maszynowego, a nie treść wiadomości. Na serwerze centralnym algorytmy łączą te dane z wersją wynikową modelu, które następnie wysyłamy z powrotem do rozwiązań klienckich, gdzie model ponownie analizuje strumień e-maili.
W uproszczeniu można to opisać tak: zanim nowo wytrenowany model będzie miał do czynienia z prawdziwymi wiadomościami, musi przejść kilka dodatkowych szkoleń. Innymi słowy, na serwerze poczty e-mail działają równolegle dwa modele: jeden w trybie szkolenia, drugi w trybie aktywnym. Po kilku podróżach do serwera centralnego przekwalifikowany model zastępuje ten aktywny.
Przywrócenie treści konkretnych e-maili z wag modeli jest niemożliwe; w ten sposób zapewniana jest prywatność podczas ich przetwarzania. Niemniej jednak uczenie na prawdziwych e-mailach znacząco poprawia jakość modelu wykrywania.
Na tę chwilę używamy już tego podejścia do klasyfikacji spamu, w trybie testowym, w rozwiązaniu Kaspersky Security for Microsoft Office 365, i wykazuje się on niebywałą skutecznością. Wkrótce zostanie on zastosowany na szerszą skalę i będzie pomagać w identyfikowaniu innych zagrożeń, takich jak phishing czy ataki BEC.