Stemherkenning

Stemherkenning of sprekerherkenning is een techniek waarbij de stem van een specifieke persoon wordt herkend, bijvoorbeeld ten behoeve van identificatie. Stemherkenning moet niet worden verward met spraakherkenning, dat bedoeld is om gesproken tekst automatisch om te zetten naar geschreven tekst of computeropdrachten.

Vóór het digitale tijdperk werd stemherkenning toegepast als een vorm van forensisch onderzoek. Analisten vergeleken dan spectrogrammen, de visuele afdruk van stemfrequenties. Tijdens de Tweede Wereldoorlog werd de techniek bijvoorbeeld gebruikt om geruchten te ontzenuwen als zou Adolf Hitler zijn vermoord, en vervangen door een dubbelganger.[1]

Stemherkenning kent twee toepassingsgebieden:

  • het herkennen van een persoon zonder dat deze tevoren bekend is
  • het bevestigen van een identiteit

In het eerste geval zal het stempatroon moeten worden vergeleken met een serie stemmen in een database, in het tweede geval met een enkel stempatroon waarvan vaststaat dat het bij de persoon hoort.

Er zijn diverse problemen die men tegenkomt bij een implementatie van stemherkenning. Een ervan is, dat de menselijke stem onder bepaalde omstandigheden vervormd kan worden, zoals bij een verkoudheid. Ook zal van veel personen de stem bij het ouder worden enigszins veranderen. Een ander probleem is achtergrondruis die de stemherkenning kan bemoeilijken: het spraaksignaal dient adequaat te worden onderscheiden van de ruis. Verder dient men mogelijk misbruik tegen te gaan, in de vorm van imitatie of het afspelen van geluidsopnames.

Vanwege het feit dat de identificatie van een persoon op grond van stemherkenning vaak niet volledig sluitend is, wordt deze techniek wel in aanvulling op andere technieken gebruikt, zoals het nemen van een vingerafdruk of irisscan.

ToepassingenBewerken

IdentificatieBewerken

In de banksector wordt stemherkenning gebruikt als verificatiemiddel bij telefonisch bankieren. Zo moeten klanten van ABN AMRO het rekeningnummer inspreken.[2] Dit is dus een combinatie van stem- en spraakherkenning.

Callcenters die vertrouwelijke gegevens verwerken voor verzekeringen en financiën, of in de gezondheidszorg, passen stemherkenning toe om personen foutloos te identificeren, en zo fraude onmogelijk te maken.[3]

Virtuele assistentenBewerken

Ook voor het aanspreken van virtuele assistenten zoals Siri (Apple) of Amazon Alexa wordt stemherkenning gebruikt, al gaat het daar vaak eerder om spraakherkenning, wanneer elke gebruiker, zonder identificatie, de assistent kan activeren.

InlichtingendienstenBewerken

Stemherkenning speelt een steeds grotere rol in het werk van politie- en inlichtingendiensten. Reeds in 2006 werkte de Amerikaanse NSA met deze technologie om, naar analogie met de vingerafdruk, een unieke “stemafdruk” van een persoon op te slaan. Onder meer terroristenleiders en drugsbaronnen kwamen daarbij in het vizier.[1]

Privacy-advocaten van de Electronic Frontier Foundation en anderen vrezen echter voor een sluipende toepassing van deze technologie op grotere schaal, in de eerste plaats naar journalisten en klokkenluiders toe. De technologie werkt volgens het naald-in-de-hooiberg concept. Dergelijke stemafdrukken kunnen immers legaal (dat wil zeggen zonder gerechtelijk bevel) en veel gemakkelijker verzameld worden dan bijvoorbeeld een DNA-staal, zonder dat de betrokken persoon hier zelfs maar kennis van heeft. En onder meer uit de onthullingen van Edward Snowden is gebleken dat de techniek steeds grootschaliger wordt toegepast, bijvoorbeeld in Turkije, met software van Agnitio,[1] en in China met iFlytek.[4] Ook de Europese politiediensten hebben met SiiP[5] een gelijkaardig project uitgewerkt.

SoftwareBewerken

Partijen die stemidentificatie engines leveren zijn:

Partijen die stemidentificatie software integreren in applicaties zijn:

Zie ookBewerken