Google voegt Cloud Text-to-Speech toe aan GCP

Google voegt tekst-naar-spraak technologie toe aan Google Cloud Platform. Met behulp van Cloud Text-to-Speech kunnen ontwikkelaars deze technologie integreren in hun eigen applicaties.

Cloud Text-to-Speech kan worden ingezet voor uiteenlopende toepassingen. Zo kunnen ontwikkelaars met behulp van de technologie:

  • Internet of Things (IoT) apparaten in staat stellen gesproken vragen van gebruikers te beantwoorden;
  • tekst zoals nieuwsartikelen of boeken omzetten in audio zoals podcasts of audioboeken;
  • conversationele IVR (Interactive Voice Response) voor call centers en real-time gesprekken in natuurlijke taal mogelijk maken.

32 stemmen en 12 talen

De tekst-naar-spraak technologie biedt ontwikkelaars toegang tot 32 verschillende stemmen die 12 verschillende talen en taalvarianten kunnen spreken. Deze stemmen kunnen naar wens worden aangepast door de spreeksnelheid en de toon van de stem te wijzigen. Google meldt dat de technologie in staat is complexe woorden zoals namen, tijden en adressen correct uit te spreken. Verschillende bestandsformaten worden ondersteund, waaronder MP3 en WAV.

Met behulp van generatief model voor rauwe audio WaveNet zijn verschillende authentiek klinkende stemmen ontwikkeld. WaveNet synthetiseert natuurlijk klinkendere stemmen, waar gebruikers volgens Google over het algemeen de voorkeur aan geven. WaveNet werd in 2016 ontwikkeld door DeepMind, onderdeel van Google's moederbedrijf Alphabet.

Wat is WaveNet?

WaveNet is een neuraal netwerk dat getraind is met behulp van grote hoeveelheden audiobestanden van gesproken tekst. Het netwerk extraheert tijdens de training de onderliggende structuur van gesproken woorden, bijvoorbeeld de wijze waarop tonen elkaar opvolgen. Indien tekstuele input wordt gegeven aan WaveNet, genereert het model op basis van deze structuur realistische (geluids)golfvormen. Dit stelt het neurale netwerk in staat woorden en zinnen realistischer uit te spreken dan alternatieve werkwijzen.

De versie van WaveNet die Google heeft geïmplementeerd is een doorontwikkeling van het initiële model dat in 2016 door DeepMind is gebouwd. Het nieuwe model is in staat golfvormen 1.000 maal sneller te produceren dan het oorspronkelijke model; in slechts 50 milliseconden kan het netwerk een seconde aan gesproken tekst creëren. In totaal kunnen 24.000 golfvormen per seconde worden gecreëerd.

Meer informatie over Cloud Text-to-Speech is te vinden in een blogpost die Google over de technologie heeft gepubliceerd.