• Artiklens indhold er godkendt af redaktionen

taleteknologi

Oprindelig forfatter PaDa Seneste forfatter Redaktionen

Taleteknologi. Delelementer i et system til talegenkendelse.

Taleteknologi. Delelementer i et system til talegenkendelse.

taleteknologi, teknikker, der anvendes ved en computers bearbejdning af talesignaler og tekst med det formål automatisk dels at genkende og forstå tale, talegenkendelse, dels at danne computerskabt tale, talesyntese. Endvidere omfatter taleteknologi talekodning, hvorved bitraten af et digitaliseret signal reduceres. Udvikling og anvendelse af taleteknologi i Danmark går væsentlig hurtigere for talesyntese end for talegenkendelse. Det tilskrives høje udviklingsomkostninger for programmel specielt til talegenkendelse. Investeringerne skal hovedsagelig genindtjenes ved salg på det danske sprogmarked, som er volumenmæssigt begrænset.

Talegenkendelse

Der har været arbejdet med talegenkendelse siden 1950'erne, men de væsentligste fremskridt er sket efter 1980, hvor man begyndte at anvende statistiske metoder til modellering af det talte sprogs basale elementer, fonemerne. Senere i 1980'erne inddrog man desuden lingvistiske metoder, som udnytter sprogets grammatiske, semantiske og pragmatiske forhold.

For at computeren kan genkende naturlig tale, må den have adgang til store databaser med akustiske og tekstuelle data. Taledatabaser indeholder talesignaler, der er repræsentative for den måde, et sprog bruges og tales på tværs af aldersklasser, dialektale forskelle og køn. Tekstuelle databaser indeholder store mængder af tekst, der repræsenterer forskellige kategorier af det skrevne sprog, som det fx forekommer i aviser og korrespondance. Disse sproglige resurser er i stort omfang indsamlet siden begyndelsen af 1990'erne.

Annonce

Ved talegenkendelse indledes den computerbaserede bearbejdning af det digitaliserede talesignal, fx en talt sætning, med, at computeren på grundlag af en fast opdeling af signalet i tidsintervaller, fx af 20 ms varighed, analyserer signalets frekvensindhold. Derefter sammenlignes resultaterne fra hvert tidsinterval med et stort antal lydmodeller, ordmodeller og en sprogmodel. Hver lydmodel er karakteristisk for et bestemt fonem fra det talte sprog, og hvert ord foreligger i form af én eller flere modeller for mulige udtalevarianter. Sprogmodellen beskriver ords potentielle føjninger til korrekte sætninger. Med dagens teknik består talegenkendelsessystemer af analyse- og sammenligningsmoduler samt hertil knyttede modeldatabaser.

Efter denne indledende bearbejdning finder computeren vha. et sandsynlighedsmål mindst ét skøn på en mulig opdeling af talesignalet. Først findes en kæde af fonemer svarende til det talte signal, som herefter sammenlignes med mulige ordudtaler, der findes i databasen med ordmodeller. Det fører til en kæde af ord, som igen sammenlignes med sprogmodellen, der indeholder mulige sætninger.

En lydmodel kan beskrives ved en såkaldt Markovmodel, der er en statistisk repræsentation af, i hvilke akustiske sammenhænge et fonem kan manifesteres i naturlig tale. Ved talegenkendelse modelleres en fonembaseret Markovmodel ofte ved en såkaldt trifon, der matematisk beskrives vha. tre sandsynlighedsfunktioner. For de to yderste lyddele afhænger sandsynlighedsfunktionen dels af en del af fonemet selv, dels af dets påvirkning fra nabofonemet. Sandsynlighedsfunktionen for den midterste lyddel afhænger af lyden i den centrale del af fonemet. Sandsynlighedsfunktionerne "trænes" og fastlægges på grundlag af frekvensanalyserede talesignaler for alle sprogets fonemer. I praksis omfatter træningen flere tusinde trifonmodeller.

Koartikulation, det forhold, at artikulationen af en sproglyd overlapper med artikulationen af den foregående og/eller den efterfølgende, fører ofte til flere, lige sandsynlige ordkæder. Hvert ord er sammenføjet af flere trifoner, fx vil ordet for tallet "seks" være sammenføjet af de fire trifoner [sɛgs]. Ordet "otte" kan både være sammenføjet af tre trifoner [ɔ:də] og af to trifoner [ɔ:d].

For at genkendelsen kan afgøre, hvilket ord der bedst svarer til et givet talesignal, er det nødvendigt at bibringe computeren viden om mulige ordføjninger (syntaks/grammatik). Computeren programmeres med denne viden i form af en sprogmodel. Den består af mulige føjninger af ord til sætninger, og sprogmodellen benyttes af genkenderen til at undersøge sandsynligheden for, at sætninger i sprogmodellen svarer til talesignalet. På grundlag heraf beslutter computeren, hvilken sætning der med størst sandsynlighed repræsenterer talesignalet. Et fragment af en sprogmodel kan fx bestå af de mulige ordføjninger, der skal til for at genkende et vilkårligt af tallene fra "nul" til "nioghalvfems". Træning af en sprogmodel sker vha. de tekstuelle databaser og fører til mulige sætninger som grundlag for genkendelse af naturlig tale.

Det er i praksis ikke muligt at få sprogmodellen til at arbejde med en grammatik, der beskriver hele sproget. I anvendelser med talegenkendelse arbejdes der derfor ofte med en stærkt begrænset sprogmodel (et såkaldt delsprog), som kan beskrives vha. langt mere simple og mindre omfattende ordføjninger. Ordgenkendelsesraten er procentdelen af ord, der i middel genkendes korrekt ud af et givet antal testord. Tilsvarende er sætningsgenkendelsesraten procentdelen af sætninger, der genkendes korrekt. Genkendelsesraten for sætninger er lavere end for ord, idet den teoretisk er lig med ordgenkendelsesraten opløftet i en potens, der er givet ved antallet af ord i sætningen. Udnyttelse af sprogmodellen i forbindelse med genkendelsen medfører imidlertid, at sætningsgenkendelsesraten øges i forhold til den teoretiske bundgrænse.

Der er mange faktorer, der afgør et systems genkendelsesrate. Ud over systemets indbyggede fejlmuligheder påvirkes raten af en række "ydre" forhold som støj fra omgivelserne samt størrelse og sværhedsgrad af både ordforråd og delsprog. Et talegenkendelsessystems anvendelighed kan dog forbedres med muligheden for online-fejlretning.

Anvendelsesmulighederne inden for talegenkendelse er fx nummeroplysning, hvor man indtaler navn og adresse på en person og får oplyst telefonnummer (vha. talesyntese), Call Center Automation til fx forenkling og billiggørelse af telefonbaserede spørgeskemaundersøgelser, diktering ved brevskrivning og journalisering og billetbestilling til bl.a. transportsystemer, teatre og biografer. Yderligere kan man forestille sig, at oplæsning i fx radio eller tv ved talegenkendelse simultant kan undertekstes for hørehæmmede.

Efterhånden som producenter og udbydere får erfaring med og indtjening fra taleteknologiske systemer, forventes der også at blive udviklet kompenserende hjælpemidler for handicappede, fx personer, der er ramt af afasi, har nedsat syn eller er blinde.

Taleteknologi. Delelementer i et system til talesyntese.

Taleteknologi. Delelementer i et system til talesyntese.

Talesyntese

Der blev i 1998 iværksat et forsknings- og udviklingsprojekt med det formål at etablere og produktmodne grundlæggende programmel til dansk syntetisk tale. For talegenkendelse er man indtil videre henvist til at videreudvikle udenlandsk produceret programmel, der først skal "lokaliseres" (trænes) til danske trifoner, dansk sprog og specifikke anvendelser. Bearbejdningen er imidlertid så bekostelig, at der er tvivl om, hvorvidt markedets størrelse er tilstrækkelig stort for privatfinansieret udvikling.

Man har arbejdet med mekaniske og akustiske modeller for talesyntese helt tilbage til 1700-t. (se syntetisk tale og talemaskine), men udviklingen tog først for alvor fart med computerens indførelse. I begyndelsen blev talesyntesens lydgenerering baseret på modellering af de akustiske forhold ved tale, den såkaldte formantbaserede talesyntese. Senere har sammenføjning af indspillede lydsegmenter været meget anvendt. Hvert lydsegment, en såkaldt difon, består af et udsnit fra et talesignal med en udstrækning, der begynder omkring midten af et fonem og slutter omkring midten af det efterfølgende fonem. Akustisk set indeholder en difon information om overgangen mellem de enkelte fonemer, hvilket er vigtigt for den syntetiske tales naturlighed. Det lydmæssige basismateriale for difonteknikken består af en database med store mængder akustisk tale, hvorfra difoner — i alt flere tusinde — kan hentes.

Grundlaget for computerens syntetiske talesignal er en skreven tekst, som transformeres via flere forskrifter til en sammenføjet kæde af difoner. Først ekspanderer en algoritme alle forkortelser, specialtegn og lignende til tilsvarende fuldtekst, evt. ved samtidig at udnytte information fra den omgivende tekst. Derefter omsættes de enkelte ord til en kæde af fonemer, fx ved opslag i en database over udtaler for ord og egennavne samt ved at udføre en syntaktisk analyse af teksten mhp. bestemmelse af ordkategorier. Videre forsynes fonemkæden med en række markeringer, der bl.a. fastlægger, på hvilken måde det syntetiske talesignal skal udtales med hensyn til sætningsrytme og toneleje, karakteriseret ved hhv. fonemernes varighed og talesignalets grundtone (pitch).

Til slut ombrydes fonemkæden til en tilsvarende difonkæde, og de enkelte lydsegmenters styrke, tidsmæssige varighed og overgange modificeres, for at den computerdannede tale skal lyde så naturlig og forståelig som mulig. Det syntetiske talesignal genereres herefter på computeren, hvorfra det på digital form sendes til fx et lydkort i en pc.

Inden for talesyntese arbejdes der på at etablere længere enheder, flere variationer og herunder at inkludere enheder fra andre sprog, specielt engelsk. Det vil give større naturlighed og mulighed for oplæsning af tekster med indhold af fremmedord. Talesyntese har og forventes at få en række anvendelser, fx adresseoplysning, hvor man taster et telefonnummer og får oplæst navn, stilling og adresse på personen med dette nummer, navigationssystem, hvor et køretøjs fører løbende orienteres om vejen mod destinationen, og oplæseservice af tekst fra computer.

Talekoding

Ved digital transmission og lagring af tale skal signalet omdannes til digital form. Det foregår ved, at signalets værdier måles (samples, se digitalteknologi) med bestemte tidsintervaller af en analog/digital konverter. Et vigtigt mål er signalets bitrate, der er et udtryk for, hvor meget et sekunds tale fylder i computerens lager. Samples tale fx 8000 gange pr. sekund, og repræsenteres hver måling ved 16 bit, fylder talen 128 kilobit pr. sekunds tale. Ved transmission af signalet fra en sender til en modtager er bitraten bestemmende for krav til transmissionskanalens båndbredde. Omkostningerne ved at opbygge et transmissionssystem er derfor bl.a. bestemt af signalets bitrate.

Det kan derfor være af interesse at reducere bitraten. Det kan gøres med en talekoder, som dels repræsenterer måleværdier i det samplede signal i større intervaller end de oprindelige ved deres middelværdi, dels fjerner redundans fra talesignalet, dvs. værdier, der ikke betyder noget for talens forståelighed.

En talekoders kvalitet måles ved den subjektive forståelighed af det gendannede signal og bestemmes ved lyttetest, der udføres efter en række forskrifter. Talekodere benyttes i satellit-, mobil- og telefontransmission og kan fås med bitrater mellem ca. 4 og 64 kilobit pr. sekund.

Referér til denne tekst ved at skrive:
Paul Dalsgaard: taleteknologi i Den Store Danske, Gyldendal. Hentet 24. november 2017 fra http://denstoredanske.dk/index.php?sideId=169526