Digitalisering

Spraakherkenning 5.0: 'Straks bepaalt de toon van je stem hoe software reageert'

Spraakherkenning in de praktijk. Foto: Shutterstock Foto: Shutterstock
Foto: Shutterstock
Leestijd 5 minuten

In de jaren 90 gebruikten we nog computers met een koptelefoon, een microfoon en software zoals DragonDictate. Vandaag de dag ziet spraakherkenningstechnologie er heel anders uit. Computers, tablets, smartphones, auto's en zelfs slimme luidsprekers luisteren regelmatig naar onze stemopdrachten en reageren op wat we zeggen of vragen.

Voor bedrijven biedt spraakherkenning nu nieuwe kansen. De technologie wordt ingezet voor het verbeteren van apps en productieprocessen, het optimaliseren van klantenservice en het verbeteren van de werkomgeving voor werknemers. Camelia Suciu, directeur Solutions Engineering EMEA bij Twilio, ziet een duidelijke comeback van spraakherkenning, vooral door de frustratie van consumenten over langdurige en omslachtige keuzemenu's bij het bellen.

Veel merken wenden zich tot AI-spraakoplossingen om tot natuurlijkere en flexibelere gesprekken te komen

Camelia Suciu Directeur Solutions Engineering EMEA bij Twilio

,,Historisch gezien waren spraaksystemen weinig populair vanwege vertraging en de uitdaging die het systeem had in het herkennen en begrijpen van verzoeken," zegt ze. ,,Stiltes tijdens een telefoongesprek zijn vervelend, en accenten, termen en talen voegen complexiteit toe aan het systeem. Daardoor konden spraaksystemen lang niet voldoen aan klantverwachtingen."

,,Maar in de strijd om op grote schaal persoonlijke, effectieve klantenservice te bieden, wenden veel merken zich nu tot AI-spraakoplossingen om tot natuurlijkere en flexibelere gesprekken te komen."

Spraakherkenning: nieuwe mogelijkheden dankzij NLP

Volgens Suciu komt dat door Natural Language Processing (NLP), waarmee chatbots nu beter kunnen begrijpen wat een klant bedoelt en tijdens gesprekken zelfs van taal kunnen switchen.

Met spraak-naar-tekst (STT) en tekst-naar-spraak (TTS)-modellen zijn grote taalmodellen geïntegreerd in workflows. Ze genereren automatische reacties die realistischer klinken dan ooit. Bovendien kunnen nieuwe multimodale AI-modellen audiocommando's verwerken zonder dat eerst spraak naar tekst moet worden omgezet, wat de snelheid verhoogt en hun vermogen vergroot om gesproken input in context te verwerken.

Suciu: ,,AI-oplossingen bieden steeds menselijker dialogen en kunnen antwoorden geven die veel verder gaan dan simpele FAQ's. Als AI-oplossingen de klanten ook nog eens via hun voorkeurskanalen bereiken én contextuele data benutten, ontstaat er een dynamische klantenervaring waar bedrijven eerder niet van durfden te dromen."

We gaan naar een toekomst waarin de toon van onze stem bepaalt hoe software op ons reageert

Vitor Monteiro Co-founder software- en AI-innovatiestudio Unflow

Van spraakherkenning naar toonherkenning

Volgens Vitor Monteiro, co-founder van software- en AI-innovatiestudio Unflow, ligt de toekomst van spraakherkenning in het begrijpen van de intonatie van een gebruiker. Volgens hem is toon een gamechanger. „We gaan naar een toekomst waarin de toon van onze stem bepaalt hoe software op ons reageert," legt hij uit. „Dankzij geavanceerde spraakherkenning in combinatie met grote taalmodellen kunnen systemen straks detecteren of een gebruiker dringend, gefrustreerd of resoluut is - en reageren ze daarop."

Monteiro geeft een voorbeeld uit de logistieke sector: een operator meldt tijdens zijn dienst een probleem. Door de toon van zijn stem in dit scenario te veranderen, kan het systeem niet alleen de spraakinvoer transcriberen, maar ook de urgentie detecteren en dit markeren voor onmiddellijke aandacht.

„We transcriberen niet langer alleen; we interpreteren, prioriteren en reageren in realtime. Je moet dan wel gaan nadenken over de toon die je opzet tegen je apparatuur."

'Werkplek wordt fundamenteel menselijker'

Monteiro noemt ook een belangrijk maatschappelijk voordeel van deze vooruitgang: inclusie. Hij gelooft dat spraakherkenning iedereen die niet gebaat is bij 'rigide, tekstzware workflows' zal ondersteunen. Een productmanager kan bijvoorbeeld graag hardop brainstormen tijdens de wandeling: die spraaknotities worden dan voortaan automatisch getranscribeerd, samengevat en geüpload.

„We kijken naar een werkplek die niet alleen efficiënter is, maar fundamenteel menselijker," voorspelt Monteiro. „Bedrijven die automatische spraakherkenning (ASR) combineren met grote taalmodellen (LLM's) kunnen productiviteit en toegankelijkheid ontgrendelen op manieren die eerder onvoorstelbaar waren. De slimste bedrijven ontwerpen nu al voor stemgestuurde workflows, terwijl hun concurrenten nog achterblijven."

Volgens onderzoek van Jabra staan werknemers ook echt open voor dit soort technologie, waarbij meer dan een derde (36 procent) het liefst met spraak met AI communiceert en slechts 15 procent met tekst. Jabra suggereert dat dit mogelijk komt doordat spreken altijd sneller is dan typen: de gemiddelde persoon spreekt 125 tot 150 woorden per minuut, terwijl de gemiddelde typesnelheid 40 tot 50 woorden per minuut is.

Technologie als impuls voor inclusie

Toch zijn er uitdagingen, zegt Martin Harper, innovatieleider UKI bij Avanade. Harper maakt deel uit van het door Innovate UK gefinancierde DeepMyna-project, geleid door Habitat Learn en de Universiteit van Southampton, dat tot doel heeft meer betrouwbare AI te ontwikkelen. „Door transcriptiefouten te minimaliseren en vooringenomenheid in trainingsdata te verminderen, zal dit onderzoek gebruikers van spraak-naar-tekst-technologieën helpen om zowel de nauwkeurigheid als betrouwbaarheid van hun tools te verbeteren," zegt Harper.

Net zoals Monteiro ziet Harper ook een impuls voor inclusie, waarbij realtime transcriptie en ondertiteling ondersteuning bieden aan mensen met gehoorproblemen en mensen met een beperking helpen om deel te nemen aan de werkplek, zelfs als typen voor hen onmogelijk is. „We kunnen ervoor zorgen dat iedereen gelijke kansen krijgt," voegt hij eraan toe.

Juridische haken en ogen bij spraakherkenning

Peter van der Putten, directeur van het AI Lab bij Pegasystems en universitair docent AI aan de Universiteit van Leiden, legt uit dat de eerdere beperkingen van spraakherkenning te maken hadden met het feit dat het alleen gebruikt kon worden voor kanalen waar spraak het belangrijkste communicatiekanaal was. Nu zullen medische professionals het gebruiken om notities te transcriberen, zorgmedewerkers om gevallen samen te vatten, of zal voice-AI een klantenservicegesprek analyseren om de volgende acties voor te stellen.

Toepassing van spraak-AI eisen in plaats van er huiverig voor te zijn

Peter van der Putten Directeur AI Lab/Pegasystems, docent AI Universiteit Leiden

Er zijn echter belangrijke juridische en veiligheidsuitdagingen bij het vastleggen en opslaan van audiogegevens. Van der Putten waarschuwt: „Dat vereist natuurlijk toestemming van klanten en burgers, en het moet mogelijk zijn om toch goede service te bieden als dit wordt geweigerd. Er moeten manieren zijn om klanten te ondersteunen in het uitoefenen van hun recht op informatie of recht om vergeten te worden."

„Het belangrijkste is dat klanten ook de voordelen gaan zien, zodat zij de toepassing van spraak-AI kunnen eisen in plaats van er huiverig voor te zijn."

Wees voorzichtig wiens stem je nabootst

James Tumbridge, partner bij Keystone Law en specialist in intellectueel eigendom en gegevensbescherming, sluit zich daarbij aan: ,,Het verzamelen, verwerken en opslaan van een stem, en het gebruik ervan, moet op een wettige manier gebeuren. Daarnaast moet je het recht van individuen op privacy respecteren, aangezien het verlies van controle over hun stem een risico voor privacy vormt. Tot slot, als AI een stem kan namaken, loop je het risico op een cyberveiligheidsincident of fraude. Wees voorzichtig wiens stem je nabootst - het kan in de papieren lopen.''

Bron: ITProPortal

Meer BusinessWise? Abonneer je op onze nieuwsbrief!

Ontvang elke week het beste van BusinessWise in je mailbox. Schrijf je hier nu gratis in: