Chris Halaschek z Pindrop: Wraz ze wzrostem popularności inteligentnych głośników, syntetyczna synteza mowy i głosu jest czymś, na co musimy być gotowi

Opublikowany: 2019-01-12

Ogromne coroczne targi Consumer Electronics Show (CES) dobiegają końca i wydaje się, że drugi rok z rzędu inteligentne urządzenia z asystentami głosowymi, takimi jak Amazon Alexa i Google Assistant, były tematem programu… gra słów zamierzona. Gdy Amazon ogłosił niedawno, że sprzedał ponad 100 milionów urządzeń Echo, a szacunków analityków mówiących, że Google sprzedał około połowy tej liczby urządzeń Google Home, łatwo zauważyć, że przyzwyczailiśmy się już do interakcji z inteligentnymi urządzeniami. Aby jednak ludzie czuli się na tyle komfortowo, aby używać tych urządzeń do obsługi pewnych rodzajów bardziej wrażliwych interakcji i usług — zarówno osobistych, jak i zawodowych — będą potrzebować jeszcze lepszych zabezpieczeń, aby chronić swoje dane przed złymi podmiotami.

Chris Halaschek, wiceprezes IoT w Pindrop , pionierskiej firmie zajmującej się zapobieganiem oszustwom głosowym i uwierzytelnianiem, zaprosił mnie do centrali firmy z siedzibą w Atlancie, aby porozmawiać o tym, gdzie jesteśmy dzisiaj z zabezpieczeniami tego rodzaju urządzeń i co można zrobić aby korzystanie z popularnych urządzeń było bezpieczniejsze.

Poniżej znajduje się zredagowany zapis naszej rozmowy. Aby zobaczyć cały wywiad — i zobaczyć demonstrację, w jaki sposób identyfikacja głosowa może uniemożliwić innym osobom proszenie Alexy o podanie informacji bankowych, obejrzyj poniższy film lub kliknij wbudowany odtwarzacz SoundCloud.

Wraz ze wzrostem użycia inteligentnych głośników pojawiają się również obawy dotyczące bezpieczeństwa asystenta głosowego

Trendy dla małych firm : OK, to jest Trendy dla małych firm, a ja siedzę w siedzibie firmy Pindrop, a to naprawdę fajna firma w Atlancie. Często chciałbym zrobić więcej w Atlancie. Ta firma robi kilka naprawdę interesujących rzeczy związanych z głosem i biometrią. Siedzę tu z Chrisem Halaschekiem. Chris, dziękuję za przybycie do mnie dzisiaj.

Chris Halaschek : Tak, doceniam to Brent. Dzięki za przybycie.

Trendy w małych firmach : Opowiedz mi trochę o sobie, a także o Pindrop, co tu robicie.

Chris Halaschek : Pochodzę z Atlanty. Dorastałem w Atlancie, a potem przeniosłem się na północ, na University of Maryland, gdzie zrobiłem doktorat z informatyki. Spędziłem trochę czasu w rejonie DC. Następnie udałem się na Zachodnie Wybrzeże i zagłębiłem się w technologię. Byłem CTO w kilku firmach technologicznych na wczesnym etapie rozwoju. Cały czas spędzałem na tworzeniu produktów, wprowadzaniu ich na rynek, a następnie rozwijaniu i skalowaniu tych firm.

Pracuję w Pindrop od około trzech i pół roku. Naszym celem zawsze było zapewnienie tożsamości, bezpieczeństwa i zaufania w czasie rzeczywistym we wszystkich interakcjach głosowych. Zazwyczaj koncentrujemy się na centrum obsługi telefonicznej dla przedsiębiorstw, które jest głównie tam, gdzie znajdował się głos, ale myślę, że docenisz teraz, że głos wykracza daleko poza kanał telefoniczny do interesujących urządzeń, takich jak inteligentne głośniki, motoryzacja i tak dalej.

Trendy dla małych firm : jeśli chodzi o te nowe urządzenia, te inteligentne głośniki, które mają w sobie asystentów głosowych, jaki jest obecny stan bezpieczeństwa i dokąd trzeba go skierować, aby został przyjęty na jeszcze wyższym poziomie niż my”. widząc dzisiaj?

Chris Halaschek : Tak. To dobre pytanie. Musimy o to zapytać, Brent. To jeden z powodów, dla których tak bardzo zainteresowałam się naszą rozmową, ponieważ bezpieczeństwo jest zwykle refleksją. Jesteśmy w punkcie, w którym rodzaje interakcji, które będą możliwe do osiągnięcia za pomocą tego typu urządzeń, będą znacznie bogatsze i zaczną ujawniać znacznie bardziej wrażliwe dane. Nie chodzi tylko o słuchanie muzyki czy włączanie świateł.

Tak więc obecny stan wiedzy jest prawdopodobnie najlepszym przypadkiem, jeśli mówimy tylko o inteligentnych głośnikach, używa mówionego czterocyfrowego pinu. Myślę, że każdy z nas prawdopodobnie doceni, że wypowiadanie hasła na głos nie jest wskazane. Myślę więc, że istnieje wiele okazji, aby wprowadzić silniejsze formy tożsamości i uwierzytelniania do różnych rodzajów środowisk głosowych, na przykład inteligentnego głośnika w pojeździe, jeśli rozmawiasz w samochodzie, a nawet w takim otoczeniu biurowym jak to. Istnieje możliwość uzyskania dostępu do informacji biznesowych, zakładając, że możesz zapewnić sobie odpowiednie zabezpieczenia, tożsamość i zaufanie.

Trendy w małych firmach : jedną z rzeczy, o których myślę i o której myśli wielu z nas, z Twojej perspektywy jest to, jak sprawić, by ludzie tacy jak sprzedawcy częściej korzystali z CRM? Głos wydaje się dla niego rzeczą oczywistą. Ale z punktu widzenia prywatności i bezpieczeństwa, co musi się wydarzyć, aby sprzedawcy i osoby, które korzystają z aplikacji biznesowych dla przedsiębiorstw, miały pewność, że korzysta z nich właściwa osoba, wprowadza dane i uzyskuje do nich dostęp. Co musi się stać z perspektywy biometrii głosu, aby firmy czuły się komfortowo?

Chris Halaschek : Patrzę na to tak, jak powiedzmy, nawet dla siebie, jeśli mam wejść do jednej z naszych sal konferencyjnych, gdzie mamy urządzenie obsługujące głos, i powiedzmy, że chcę uzyskać dostęp do być może niektórych naszych CRM związanych dane związane z niektórymi z naszych kont, muszę się upewnić, że ponieważ jest to urządzenie współdzielone, mam odpowiednie uprawnienia, aby faktycznie uzyskać dostęp do tych informacji. Możliwości, jakie widzimy, i ponownie, w przeszłości skupialiśmy się na call center, oferując zarówno rozwiązania do wykrywania oszustw, jak i uwierzytelniania. Myślę, że sposób, w jaki podeszliśmy do tego, jest podobny do tego, w jaki można podejść do tego w innych kanałach głosowych.

Chris Halaschek : Jeśli spojrzysz na to, co robimy dzisiaj w call center, i znowu myślę, że będzie to równoległe z innymi kanałami, Brent, to to, że próbujemy zastąpić tradycyjne formy uwierzytelniania kogoś, kto przemawia w tym kanał głosowy. Zwykle robi się to za pomocą czegoś, co nazywa się pytaniami uwierzytelniającymi opartymi na wiedzy. Zwykle jest to w żargonie uwierzytelniania lub bezpieczeństwa coś, co znasz. Więc to nazwisko panieńskie mojej matki, ostatnie cztery cyfry numeru SSN, może kod PIN lub hasło.

Ponownie wspomnieliśmy wcześniej w rozmowie o tym, że używamy czterocyfrowych pinów w inteligentnych głośnikach. Podobne rodzaje podejść zastosowano w call center. Niefortunna rzeczywistość jest taka, że ​​jest to strasznie niepewne. Tego typu dane są dostępne na rynkach wtórnych lub na czarnym rynku. To właśnie doprowadziło do dużej liczby naruszeń. W kanale głosowym w korporacyjnych centrach telefonicznych prowadzi to do tego, co obecnie jest problemem o wartości 14 miliardów dolarów, jeśli chodzi o utratę oszustw głosowych w tym kanale.

Widzimy szansę. Pindrop zastępuje te szpilki i hasła Twoim głosem, korzystając z naszej technologii biometrii głosu, o której możemy omówić bardziej szczegółowo. Dysponujemy technologią, która bardzo jednoznacznie i dokładnie identyfikuje urządzenie, które jest rzeczywiście aktywne w tego rodzaju interakcji głosowej. Mamy więc technologie, które pozwalają nam bezproblemowo weryfikować właściwy głos, właściwe urządzenie, właściwe zachowanie.

Jeśli spojrzysz na takie rzeczy, jak inteligentne głośniki i ja, który wchodzimy do jednej z naszych sal konferencyjnych i wchodzimy w interakcję z jednym z urządzeń obsługujących głos, widzimy ogromną szansę na skorzystanie z tej samej technologii biometrii głosu, aby upewnić się, że jestem właściwym mówcą w tej konkretnej transakcji. Powiedzmy, że korzystamy z Salesforce i mówimy „Hej, Salesforce lub Hej Einstein, daj mi znać najnowszy stan szansy X, Y, Z”, da mi to tylko dlatego, że byłem zidentyfikowanym mówcą i ja mieć dostęp do tych informacji.

Trendy dla małych firm : teraz robisz również rzeczy, aby ostrzec użytkownika, że ​​głos jest autentyczny lub nieautentyczny, organiczny lub nie. Porozmawiaj trochę o tym.

Chris Halaschek : Jeśli przyglądasz się technologii tożsamości głosowej i biometrii głosu, wiesz, że musisz być odporny na różne wektory zagrożeń, które istnieją i używają tego typu danych uwierzytelniających. Rzeczywistość jest taka, że ​​źli aktorzy są bardzo sprytni i dokładają wszelkich starań, aby ominąć tego typu mechanizmy obronne. Więc jeśli patrzysz na biometrię głosu, masz wiele różnych wektorów ataku fałszowania głosu, których spróbują źli aktorzy. Są to takie rzeczy, jak ataki typu „replay”, w których faktycznie uzyskują nagranie, w którym wykonujesz jakąś interakcję, a następnie wracają i próbują wykorzystać to nagranie, aby uzyskać dostęp do tego typu systemu lub danych.


Inne bardziej scalające wektory ataku to coś, co nazywa się syntetycznym generowaniem mowy lub syntezą głosu. Nie wiem, czy widzieliście może demo Google Duplex na ostatniej konferencji Google I/O.

Trendy dla małych firm : Tak. Widziałem to i znalazłem się wśród ludzi, którzy mówili: „W porządku. To jest interesujące."

Chris Halaschek : Naprawdę fajne i jednocześnie trochę przerażające, prawda?

Trendy dla małych firm : Tak.

Chris Halaschek : Myślę, że z punktu widzenia użytkownika końcowego może to zwiększyć wydajność, ale w pewnym sensie pokazuje, gdzie można przejść z generowaniem mowy syntetycznej, ponieważ bot na drugim końcu był wykonywany w czasie rzeczywistym za pomocą mowy syntetycznej . Mamy kilka dem i z przyjemnością pokażę wam dzisiaj kilka z nich, które pokazują, jak wiele można zrobić za pomocą zaledwie kilku minut dźwięku, który czerpiemy z, powiedzmy, czegoś takiego jak YouTube. Nasz zespół badawczy wewnętrznie zbudował własny silnik syntezy głosu, głównie po to, aby pokazać realia tego typu zagrożeń i dlaczego należy się przed nimi chronić.

Widzimy takie rzeczy jak zniekształcenie głosu. Widzimy różne rzeczy, zmienia się głos. Będziesz miał złego aktora, który będzie próbował włamać się na czyjeś konto bankowe, a on wie, że może to konto kobiece lub męskie, więc dostosuje tonację swojego głosu, aby brzmiał jak mężczyzna lub kobieta.

Trendy dla małych firm : Tak.

Chris Halaschek : Tak więc syntetyczna synteza mowy i głosu to coś, co nadchodzi, na co musimy być gotowi.

Trendy w małych firmach : Kiedy myślisz o aplikacjach dla przedsiębiorstw, aplikacjach programowych, rzeczach, z których korzystają nawet agenci call center, staje się to naprawdę kluczowe dla pokonania tego garbu bezpieczeństwa, o który ludzie słusznie się martwią.

Chris Halaschek : Dokładnie tak. Jeśli spojrzysz na słyszenie głosu wychodzącego z kanału telefonicznego – bardziej w kierunku tych inteligentnych głośników dających dostęp do takich rzeczy, jak otwieranie drzwi w twoim domu, które teraz są dostępne – musisz o tym pomyśleć rodzaje zagrożeń i ochrona przed nimi.

Trendy w małych firmach : gdzie jesteśmy obecnie w stanie dojrzałości tej całej sytuacji z tymi inteligentnymi urządzeniami i potrzebą bezpieczeństwa?

Chris Halaschek: Myślę, że jesteśmy jeszcze za wcześnie, co jest dobre, i w tym sensie, że myślę, że tylko zarysowujemy powierzchnię na temat rodzajów interakcji, jakie mamy z tymi urządzeniami. Innym powodem, dla którego uważam, że jest to dobre, jest to, że ludzie zaczynają myśleć z wyprzedzeniem. Rozmawialiśmy z niektórymi naszymi klientami korporacyjnymi, którzy chcą wprowadzić umiejętności głosowe na różnych platformach w 2019 roku. Chcą zapewnić bogatsze doświadczenia w tych konkretnych kanałach i środowiskach, ale muszą to zrobić w bezpieczny sposób sposób.

Teraz, z punktu widzenia technologii, myślę, że technologia tam jest. Po prostu musimy to wypuścić i zastanowić się, jak to zastosować. To znaczy, patrząc na przyszły rok, myślę, że zobaczysz, że coraz więcej przedsiębiorstw wprowadza tego typu doświadczenia do tych kanałów. Myślę, że nadal będziemy robić całkiem podstawowe rzeczy. Ponieważ niektóre rozwiązania związane z bezpieczeństwem i tożsamością pojawiają się na rynku w tych kanałach, zaczniemy ujawniać o wiele ciekawsze przypadki użycia w danych, jeśli ma to sens.

Trendy dla małych firm : Jak przyjęcie przez konsumentów inteligentnych urządzeń wpływa na to, co dzieje się w przedsiębiorstwie? Wszyscy wiemy, że wszyscy jesteśmy konsumentami. Wnosimy rzeczy do naszego domu. Zaczynamy z nich korzystać. Stają się naprawdę wygodne. Potem zaczynamy myśleć: „O rany, dlaczego nie możemy używać przedsiębiorczości… Dlaczego nie może to być tak wygodne, jak to, co robimy w domu?”

Chris Halaschek : Myślę, że widzimy rozmycie konsumenta i przedsiębiorczości. Myślę, że w rzeczywistości wszyscy oczekujemy atrakcyjnych doświadczeń klientów zarówno z punktu widzenia przedsiębiorstwa, jak i konsumenta, ponieważ pod koniec dnia masz rację, wszyscy jesteśmy konsumentami. Myślę, że jeśli jesteś firmą zajmującą się oprogramowaniem dla przedsiębiorstw, musisz nadal zapewniać wspaniałe wrażenia użytkownika nawet swoim klientom biznesowym. To tylko moja filozofia. Myślę, że jakiś czas temu trochę się zmienił. To naprawdę kwestia patrzenia na te aplikacje biznesowe, a dane, które w wielu przypadkach są ujawniane dla tego typu aplikacji, mogą być postrzegane jako znacznie bardziej wrażliwe.

Wiele zastosowań domowych tych asystentów głosowych jest nadal dość podstawowych, ale zaczyna dążyć do takich rzeczy, jak płatności i zarządzanie, rzeczy związane z płatnościami lub zakupami. Zaczniesz więc przechodzić do bardziej wrażliwych przypadków użycia. Przewidywaliśmy również, gdzie takie rzeczy, jak handel finansowy… Uważamy, że jako konsument detaliczny, który może chcieć robić takie rzeczy, jak handel akcjami za pomocą asystenta głosowego, zaczną one pojawiać się na rynku.

Tak naprawdę chodzi o wrażliwość danych. Myślę, że zazwyczaj po stronie biznesowej masz zespoły ds. Bezpieczeństwa, które oceniają, w jaki sposób zamierzasz ujawnić i zablokować te informacje, podczas gdy po stronie konsumenckiej myślę, że przynajmniej zaczęliśmy od inteligentnego głośnika lub niektórych z tych asystentów głosowych . To w granicach twojego własnego domu, trochę bardziej zaufanego scenariusza. Ale kiedy wprowadzasz tam bogatsze transakcje, oczywiście będziesz musiał dysponować silnymi formami uwierzytelniania i tożsamości.

Jest to część serii wywiadów jeden na jeden z liderami myśli. Transkrypcja została zredagowana do publikacji. Jeśli jest to wywiad audio lub wideo, kliknij osadzony odtwarzacz powyżej lub zasubskrybuj przez iTunes lub Stitcher.