Gebruiker:Groen Stefan/Kladblok

Whisper (spraakherkenning)

bewerken

Whisper is een automatisch Open source spraakherkenningssysteem gemaakt voor spraakherkenning en transcriptie door OpenAI. De software werd voor het eerste openbaar gemaakt in september 2022.[1]

Werking

bewerken
 
De werking van Whisper

De Whisper-architectuur volgt een end-to-end benadering en wordt geïmplementeerd als een encoder-decoder Transformer. De invoeraudio wordt in stukken van 30 seconden opgedeeld, omgezet in een log-Mel-spectrogram en vervolgens naar een encoder gestuurd. Een decoder is samen met speciale tokens getraind om de transcriptie van de invoeraudio te voorspellen en verschillende taken uit te voeren, zoals taalidentificatie, tijdsaanduidingen op zinsniveau, meertalige transcriptie en de vertaling van spraak naar het Engels.

Training

bewerken

Het model achter Whisper is getraind op 680.000 uur[2] aan meertalige spraakgegevens die zijn verzameld via het internet. Door het gebruik van dergelijke grote en diverse datasets is Whisper getraind om verschillen te herkennen tussen achtergrondgeluid en spraak. Door de grote van de dataset herkent Whisper ook accenten en technische taal. Het maakt bovendien mogelijk om transcripties uit te voeren in meerdere talen, evenals vertaling van deze talen naar het Engels


Whisper presteert niet beter dan modellen die gespecialiseerd zijn in het LibriSpeech dataset, hoewel, wanneer getest op verschillende datasets is Whisper robuuster en maakt het 50% dan vergelijkbare modellen[3]

Zie ook

bewerken

Referenties

bewerken
  1. (en) Introducing Whisper. openai.com. Geraadpleegd op 13 oktober 2023.
  2. (en) Introducing Whisper. openai.com. Geraadpleegd op 13 oktober 2023.
  3. (en) Introducing Whisper. openai.com. Geraadpleegd op 13 oktober 2023.