Chris Halaschek von Pindrop: Da intelligente Lautsprecher immer beliebter werden, müssen wir auf die synthetische Sprach- und Sprachsynthese vorbereitet sein

Veröffentlicht: 2019-01-12

Die riesige jährliche Consumer Electronics Show (CES) geht heute zu Ende, und es scheint, dass im zweiten Jahr in Folge intelligente Geräte mit Sprachassistenten wie Amazons Alexa und Googles Assistant das Gesprächsthema der Show waren ... Wortspiel beabsichtigt. Da Amazon kürzlich bekannt gab, dass sie über 100 Millionen Echo-Geräte verkauft haben, und Analystenschätzungen zufolge Google etwa die Hälfte dieser Menge an Google Home-Geräten verkauft hat, ist es leicht zu erkennen, dass wir uns an die Interaktion mit intelligenten Geräten gewöhnt haben. Damit sich die Leute jedoch wohl genug fühlen, diese Geräte für bestimmte sensiblere Interaktionen und Dienste zu verwenden – sowohl privat als auch beruflich –, benötigen sie noch bessere Sicherheit, um ihre Daten vor bösartigen Akteuren zu schützen.

Chris Halaschek, Vice President of IoT bei Pindrop , einem bahnbrechenden Unternehmen im Bereich Sprachbetrugsprävention und -authentifizierung , lud mich in den Hauptsitz des Unternehmens in Atlanta ein, um darüber zu sprechen, wo wir heute bei der Sicherheit dieser Art von Geräten stehen und was getan werden kann um es sicherer zu machen, die beliebten Geräte zu verwenden, um mehr Dinge zu tun.

Unten ist eine bearbeitete Abschrift unseres Gesprächs. Um das ganze Interview zu sehen – und eine Demo zu sehen, wie die Spracherkennung Personen, die nicht Sie sind, daran hindern kann, Alexa nach Ihren Bankdaten zu fragen, sehen Sie sich das Video unten an oder klicken Sie auf den eingebetteten SoundCloud-Player.

Da die Nutzung von Smart Speakern zunimmt, tun sich auch Sicherheitsbedenken bei Sprachassistenten auf

Small Business Trends : Okay, hey, das ist Small Business Trends, und ich sitze am Hauptsitz von Pindrop, und das ist eine wirklich coole Firma hier in Atlanta. Oft wünschte ich, ich könnte in Atlanta mehr tun. Dieses Unternehmen macht einige wirklich interessante Dinge rund um Sprache und Biometrie. Ich sitze hier mit Chris Halaschek. Chris, danke, dass du heute zu mir gekommen bist.

Chris Halaschek : Ja, ich schätze es Brent. Danke, dass du reingekommen bist.

Small Business Trends : Also erzähl mir ein bisschen über dich und auch ein bisschen über Pindrop, was ihr hier macht.

Chris Halaschek : Ich komme aus Atlanta. Ich wuchs in Atlanta auf und zog dann in den Norden an die University of Maryland, wo ich in Informatik promovierte. Ich habe einige Zeit im DC-Bereich verbracht. Dann machte ich mich auf den Weg an die Westküste und grub mich in die Technologie ein. Ich war CTO für eine Handvoll Technologieunternehmen in der Anfangsphase. Ich verbrachte meine ganze Zeit damit, Produkte zu entwickeln, diese Produkte auf den Markt zu bringen und dann diese Geschäfte zu vergrößern und zu skalieren.

Ich bin jetzt seit ungefähr dreieinhalb Jahren bei Pindrop. Unser Fokus lag schon immer darauf, Identität, Sicherheit und Vertrauen in Echtzeit in alle Sprachinteraktionen zu bringen. Wir haben uns normalerweise auf das Callcenter von Unternehmen konzentriert, das hauptsächlich dort war, wo Sprache war, aber ich denke, Sie werden verstehen, dass die Sprache jetzt weit über den Telefonkanal hinaus auf interessante Geräte wie intelligente Lautsprecher, Automobile usw.

Trends in kleinen Unternehmen : Wenn es um diese neuen Geräte geht, diese intelligenten Lautsprecher mit Sprachassistenten, wie ist der aktuelle Sicherheitszustand und wo muss er hingehen, damit er auf einem noch höheren Niveau als wir angenommen wird. heute wiedersehen?

Chris Halaschek : Ja. Es ist eine gute Frage. Das müssen wir fragen, Brent. Das ist einer der Gründe, warum ich so interessiert war, dass wir dieses Gespräch führen, denn Sicherheit ist normalerweise ein Nebengedanke. Wir sind an einem Punkt angelangt, an dem die Arten von Interaktionen, die mit dieser Art von Geräten möglich sind, viel umfangreicher werden und viel sensiblere Daten preisgeben werden. Es wird nicht nur Musik hören oder das Licht einschalten.

Der gegenwärtige Stand der Technik ist also wahrscheinlich der beste Fall, wenn wir nur über intelligente Lautsprecher sprechen, die Verwendung einer gesprochenen vierstelligen PIN. Ich denke, jeder von uns wird es wahrscheinlich zu schätzen wissen, dass es nicht wirklich ratsam ist, Ihr Passwort laut auszusprechen. Ich denke, es gibt viele Möglichkeiten, stärkere Formen der Identität und Authentifizierung in diese verschiedenen Sprachumgebungen zu bringen, sei es ein intelligenter Lautsprecher in einem Fahrzeug, wenn Sie in Ihrem Auto sprechen, oder sogar in der Büroumgebung, wie z als diese. Es besteht die Möglichkeit, auf Geschäftsinformationen zuzugreifen, vorausgesetzt, Sie bringen angemessene Sicherheit, Identität und Vertrauen mit.

Trends in kleinen Unternehmen : Eines der Dinge, über die ich und viele von uns nachdenken, ist aus Ihrer eigenen Perspektive, wie Sie Leute wie Verkäufer dazu bringen, CRM mehr zu verwenden? Stimme scheint eine offensichtliche Sache dafür zu sein. Aber aus Sicht des Datenschutzes und der Sicherheit, was muss passieren, damit Vertriebsmitarbeiter und einfache Leute, die Unternehmensanwendungen verwenden, sicherstellen, dass die richtige Person sie verwendet und die Daten eingibt und auf die Daten zugreift. Was muss aus Sicht der Stimmbiometrie passieren, damit sich Unternehmen wohl fühlen?

Chris Halaschek : Ich betrachte es als, sagen wir, sogar für mich, wenn ich einen unserer Konferenzräume betrete, in dem wir ein sprachfähiges Gerät haben, und sagen wir, dass ich Zugriff auf vielleicht einige unserer CRM-bezogenen Inhalte erhalten möchte Da es sich um ein gemeinsam genutztes Gerät handelt, muss ich sicherstellen, dass ich die Berechtigung habe, tatsächlich auf diese Informationen zuzugreifen, da es sich um ein gemeinsam genutztes Gerät handelt. Die Chance, wie wir sie sehen, und auch hier haben wir uns in der Vergangenheit sowohl mit Betrugserkennungs- als auch mit Authentifizierungslösungen auf das Callcenter konzentriert. Die Art und Weise, wie wir es dort angegangen sind, ist meiner Meinung nach eine ähnliche Art und Weise, wie Sie es in diesen anderen Sprachkanälen angehen können.

Chris Halaschek : Wenn Sie sich ansehen, was wir heute im Callcenter tun, und ich denke, dies wird sich auch in diesen anderen Kanälen widerspiegeln , Brent, ist, dass wir versuchen, die traditionellen Formen der Authentifizierung von jemandem zu ersetzen, der in diesem spricht Sprachkanal. Dies geschieht in der Regel mithilfe von sogenannten wissensbasierten Authentifizierungsfragen. In der Authentifizierungs- oder Sicherheitssprache ist es normalerweise etwas, das Sie kennen. Es ist also der Mädchenname meiner Mutter, meine letzten vier Ziffern meiner SSN, vielleicht eine PIN oder ein Passwort.

Auch hier haben wir zuvor im Gespräch erwähnt, dass wir vierstellige Pins in intelligenten Lautsprechern verwenden. Ähnliche Ansätze wurden im Callcenter verwendet. Die bedauerliche Realität ist, dass das schrecklich unsicher ist. Diese Art von Daten sind auf Sekundärmärkten oder Schwarzmärkten verfügbar. Das hat zu vielen Verstößen geführt. Im Sprachkanal in den Unternehmens-Callcentern führt dies zu einem heute effektiv 14-Milliarden-Dollar-Problem in Bezug auf Sprachbetrugsverluste auf diesem Kanal.

Wir sehen eine Chance. Und was Pindrop tut, ist, diese Pins und Passwörter durch Ihre Stimme zu ersetzen, indem es unsere Voice-Biometrie-Technologie verwendet, über die wir ausführlicher sprechen können. Wir verfügen über eine Technologie, um das Gerät, das bei dieser Art von Sprachinteraktion tatsächlich aktiv ist, eindeutig und genau zu identifizieren. Wir verfügen also über Technologien, die es uns ermöglichen, die richtige Stimme, das richtige Gerät und das richtige Verhalten reibungslos zu überprüfen.

Wenn Sie sich Dinge wie intelligente Lautsprecher und mich ansehen, wie ich vielleicht einen unserer Konferenzräume betrete und dort mit einem der sprachfähigen Geräte interagiere, sehen wir eine große Chance darin, dieselbe Sprachbiometrie-Technologie einzusetzen, um sicherzustellen, dass ich der richtige Sprecher bin in dieser bestimmten Transaktion. Angenommen, wir verwenden Salesforce und sagen „Hey, Salesforce oder Hey Einstein, lass mich den neuesten Status der X-, Y-, Z-Opportunity wissen“, es wird mir nur angezeigt, weil ich der identifizierte Sprecher war und ich Zugang zu diesen Informationen haben.

Trends in kleinen Unternehmen : Jetzt tun Sie auch Dinge, um den Benutzer darauf hinzuweisen, dass die Stimme entweder authentisch oder nicht authentisch oder organisch oder nicht organisch ist. Sprechen Sie ein bisschen darüber.

Chris Halaschek : Wenn Sie sich mit Voice-Identity- und Voice-Biometrie-Technologie befassen , wissen Sie, dass Sie gegen die verschiedenen vorhandenen Bedrohungsvektoren widerstandsfähig sein müssen und diese Art von Authentifizierungsdaten verwenden. Die Realität ist, dass schlechte Schauspieler sehr schlau sind und große Anstrengungen unternehmen, um diese Art von Abwehr zu überwinden. Wenn Sie sich also mit der Stimmbiometrie beschäftigen, haben Sie eine Vielzahl verschiedener Angriffsvektoren für Stimmfälschung, die böswillige Akteure ausprobieren werden. Es sind Dinge wie Replay-Angriffe, bei denen Sie tatsächlich eine Aufzeichnung Ihrer Art von Interaktion erhalten, und sie gehen zurück und versuchen, diese Aufzeichnung zu nutzen, um Zugriff auf diese Art von System oder Daten zu erhalten.


Andere stärker verschmelzende Angriffsvektoren sind etwas, das als synthetische Spracherzeugung oder Sprachsynthese bezeichnet wird. Ich weiß nicht, ob Sie vielleicht die Google Duplex-Demo auf der letzten Google I/O-Konferenz gesehen haben.

Trends für kleine Unternehmen : Ja. Ich habe es gesehen und war unter den Leuten, die sagten: „Whoa, okay. Das ist interessant."

Chris Halaschek : Wirklich cool und gleichzeitig ein bisschen gruselig, oder?

Trends für kleine Unternehmen : Ja.

Chris Halaschek : Ich denke, vom Standpunkt des Endbenutzers aus kann es eine Menge Effizienz steigern, aber es zeigt, wo man mit synthetischer Sprachgenerierung gehen kann, weil der Bot am anderen Ende alles in Echtzeit mit synthetischer Sprache gemacht hat . Wir haben einige Demos, und ich freue mich, Ihnen heute einige davon zu zeigen, die zeigen, wie viel Sie mit nur ein paar Minuten Audio erreichen können, die wir beispielsweise aus YouTube beziehen. Unser Forschungsteam hat intern unsere eigene Sprachsynthese-Engine entwickelt, hauptsächlich um die Realität dieser Art von Bedrohung aufzuzeigen und warum Sie sich davor schützen müssen.

Wir sehen Dinge wie Sprachverzerrung. Wir sehen Dinge, die Stimme verändert sich. Sie werden einen schlechten Schauspieler haben, der versucht, das Bankkonto von jemandem zu kompromittieren, und er weiß, dass es sich möglicherweise um ein weibliches oder männliches Konto handelt, also passt er die Tonhöhe seiner Stimme an, damit er wie ein Mann oder eine Frau klingt.

Trends für kleine Unternehmen : Ja.

Chris Halaschek : Synthetische Sprach- und Stimmsynthese ist also etwas, auf das wir vorbereitet sein müssen.

Trends in kleinen Unternehmen : Wenn Sie an Unternehmensanwendungen, Softwareanwendungen und Dinge denken, die sogar die Callcenter-Agenten verwenden – dies wird wirklich entscheidend, um diesen Sicherheitsbuckel zu überwinden, über den sich die Leute zu Recht Sorgen machen.

Chris Halaschek : Genau richtig. Wenn Sie eine Stimme aus dem Telefonkanal hören – mehr in Richtung dieser intelligenten Lautsprecher, die Ihnen Zugang zu Dingen wie dem Aufschließen von Türen in Ihrem Haus ermöglichen, die jetzt sozusagen da draußen sind – müssen Sie darüber nachdenken Arten von Bedrohungen und Schutz vor ihnen.

Small Business Trends : Wo sind wir derzeit in der Art der Reife dieser ganzen Situation mit diesen intelligenten Geräten und benötigen Sicherheit?

Chris Halaschek: Ich denke, wir sind noch früh dran , was gut ist, und in dem Sinne, dass wir meiner Meinung nach nur an der Oberfläche kratzen, was die Interaktionen mit diesen Geräten angeht. Ein weiterer Grund, warum ich es gut finde, ist, dass die Leute anfangen, vorauszudenken. Wir haben mit einigen unserer Unternehmenskunden gesprochen, die 2019 ihre Sprachkenntnisse auf die verschiedenen Plattformen bringen möchten Weg.

Aus technologischer Sicht denke ich, dass die Technologie da ist. Wir müssen es nur herausbringen und überlegen, wie Sie es anwenden. Ich meine, wenn ich auf das nächste Jahr blicke, denke ich, dass immer mehr Unternehmen diese Art von Erfahrungen in diese Kanäle einbringen werden. Ich denke, wir werden immer noch ziemlich grundlegende Dinge tun. Wenn einige der sicherheits- und identitätsbezogenen Lösungen in diesen Kanälen auf den Markt kommen, werden wir beginnen, viel interessantere Anwendungsfälle in Daten aufzudecken, wenn dies sinnvoll ist.

Trends in kleinen Unternehmen : Wie wirkt sich die Akzeptanz intelligenter Geräte bei Verbrauchern auf das Unternehmen aus? Wir alle wissen, dass wir alle Verbraucher sind. Wir bringen Dinge in unser Haus. Wir fangen an, sie zu benutzen. Sie werden richtig bequem. Dann denken wir: „Oh Gott, warum kann die Art und Weise, wie wir Enterprise nutzen, nicht funktionieren … Warum kann das nicht so bequem sein wie das, was wir zu Hause tun?“

Chris Halaschek : Ich denke, wir sehen eine Verschmelzung von Verbraucher und Unternehmen. Ich denke, die Realität ist, dass wir alle sowohl aus Unternehmens- als auch aus Verbrauchersicht überzeugende Kundenerlebnisse erwarten, denn letztendlich haben Sie Recht, wir alle sind Verbraucher. Ich denke, wenn Sie ein Unternehmen für Unternehmenssoftware sind, müssen Sie auch Ihren Geschäftskunden angenehme Benutzererfahrungen bieten. Das ist nur meine Philosophie. Ich denke, dass sich das Blatt vor einiger Zeit verschoben hat. Es ist wirklich eine Frage der Betrachtung dieser Geschäftsanwendungen, und die Daten, die für diese Arten von Anwendungen in vielen Fällen offengelegt werden, können als viel sensibler angesehen werden.

Ein Großteil der Heimnutzung dieser Sprachassistenten ist immer noch recht einfach, aber es beginnt ein Trend zu Dingen wie Zahlungen und Verwaltung, Dingen im Zusammenhang mit Zahlungen oder Einkäufen. Sie werden also anfangen, zu sensibleren Anwendungsfällen zu gelangen. Wir haben uns auch vorgestellt, wo Dinge wie der Finanzhandel … Für mich als Privatkunden, der Dinge wie den Aktienhandel mit einem Sprachassistenten erledigen möchte, glauben wir, dass diese auf den Markt kommen werden.

Es geht wirklich um die Sensibilität der Daten. Ich denke, auf der Geschäftsseite gibt es normalerweise Sicherheitsteams, die beurteilen, wie Sie diese Informationen offenlegen und sperren werden, während ich auf der Verbraucherseite denke, dass wir zumindest im Bereich der intelligenten Lautsprecher oder einiger dieser Sprachassistenten begonnen haben . Es ist in den Grenzen Ihres eigenen Hauses, ein bisschen mehr ein vertrauenswürdiges Szenario. Aber wenn Sie umfangreichere Transaktionen dorthin bringen, werden Sie natürlich starke Formen der Authentifizierung und Identität benötigen.

Dies ist Teil der One-on-One-Interview-Reihe mit Vordenkern. Das Transkript wurde zur Veröffentlichung bearbeitet. Wenn es sich um ein Audio- oder Videointerview handelt, klicken Sie oben auf den eingebetteten Player oder abonnieren Sie über iTunes oder Stitcher.