Computerstemmer lyder som rigtig tale. Kan du høre forskel?

Nye computerskabt tale viser hvad vi kan forvente i fremtiden. På godt og ondt.

Avanceret software kan nu efterligne menneskestemmer i hidtil uhørt grad. (© ColourBox)

Kunstige stemmer forbinder de fleste nok med en noget besynderlig røst, som den fysikeren Stephen Hawking er udstyret med. Men den tid er forbi.

I december måned udgav forskere fra Google en artikel, der beskriver hvordan den nye udgave af firmaets teknologi til talesyntese - computerskabt tale - fungerer.

Tacotron 2, som teknologien kaldes, er efterfølgeren til Tacotron, der bruges i Googles digitale assistent, som er indbygget i firmaets smartphones.

Og der er sket ting og sager på den front, kan vi godt afsløre. Tacotron 2 er nemlig decideret umulig at skelne fra menneskelig tale.

Uden kunstig intelligens ingen stemme

Tale-teknologien hænger sammen med en af sidste års helt store buzz-teknologier - kunstig intelligens - fordi Tacotron 2 benytter to forskellige neurale netværk, til at skabe det overbevisende retultat.

Det første neurale netværk genererer et spektrogram (et billede, der viser lydens frekvens, og som så efterfølgende kan læses af et andet program, red.) ud fra ord skrevet på et tastatur. Det andet, kaldet WaveNet, omsætter så spektrogrammet til lyd, skriver onlinemediet Quartz.

Den avancerede teknologi giver Google mulighed for at komme foran på flere områder, men præsenterer os også for nye problemstillinger, der skal tages stilling til.

For når Tacotron 2 er testet færdig, ender den i Googles digitale assistenter.

Kunstig eller ej?

Og de computerskabte stemmer er virkelig overbevisende. Det ene af de to indlejrede lydklip herunder er indtalt af et menneske, mens det andet er computerskabt. Kan du høre hvilket der er ægte?

Klippene er taget fra projektets hjemmeside, hvor du kan prøve andre eksempler, og se hvordan det også er muligt for teknologien at lægge tryk på enkelte ord i en sætning, så det vigtigste fremhæves.

Ny tilgang giver mange forbedringer

At kombinationen af neurale netværk og talesyntese har stort potentiale bekræftes af studienævnsformand for elektronik og it, Aalborg Universitet, Ove Kjeld Andersen.

- Tidligere har man bedt flere personer om udtale alle de lydkombinationer der findes på et givent sprog. Det siger sig selv, at det er utroligt tidskrævende. Den nye teknologi bygger på at man har mindre databaser med tale fra en enkelt person, og et selvlærende system, der udvælger den information der skal til for at lave talesyntesen. Sådan et selvlærende system er langt fra lige så tidskrævende.

Derfor mener Ove Kjeld Andersen at netop denne form for computerskabt tale vil udvikle sig meget i de kommende år.

De selvlærende systemer vil gøre talesyntesen langt bedre for de, der er afhængige af den. Og teknologien bruges til andet end stemmer i bilens GPS eller telefonens digitale assistent.

Ove Kjeld Andersen fremhæver ordblinde og de, der er i gang med at lære et nyt sprog som to grupper, der kan drage fordel af forbedringerne inden for talesyntese.

Computerskabte virkeligheder skaber nye udfordringer

Troværdige computerskabte virkeligheder betyder dog også, at vi skal være endnu mere kritiske i forhold til den information, der rammer vores ører. I fremtiden vil den nemlig være lige så nem at forfalske, som tekst på en hjemmeside er i dag.

Et eksempel på hvor effektivt der kan manipuleres med lyd ses hos Princeton-universitetet, der sammen med teknologifirmaet Adobe sidste år demonstrerede en ny teknik.

Teknologien gør det muligt at flette nye ord ind i allerede optagede sætninger, så deres mening ændres totalt. Det demonstreres i videoklippet herunder.

Endnu mere skræmmende bliver det, når den manipulerede lyd kombineres med levende billeder, hvor udviklingen inden for computerskabte “virkeligheder” også går stærkt.

Firmaet Pinscreen er grundlagt af ansatte på University of Southern California og arbejder med digitale udgaver af menneskelige ansigter. Det kan du selv prøve ved at hente deres app, men endnu mere overbevisende er teknologien, når den bruger eksisterende videooptagelser til at skabe nye videoer med.

Det er tydeligt at se, hvordan der er manipuleret med billederne på videoen ovenfor, men med tiden vil manipuleret video blive lige så overbevisende som manipuleret lyd. Ove Kjeld Andersen minder os om, at vi i høj grad skal huske at være kritiske over for både det vi ser og det vi hører.

- Det bliver muligt at få computeren til at sige noget som personen ikke har sagt i virkeligheden. Så man skal være kritisk over for de ting man møder i medierne, det er der ingen tvivl om. Der kan manipuleres med det og det kan gøres meget overbevisende.

Fejlene gør det troværdigt

Når nu teknologien er i stand til at være så overbevisende, så kunne man foranlediges til at tro, at arbejdet med de kunstigt skabte ord og stemmer er gjort. Det er dog ikke tilfældet, mener Ove Kjeld Andersen.

- Hvis man har syntetisk tale uden fejl, vil man på et tidspunkt begynde at tænke over, at det lyder for perfekt. Der er lavet eksperimenter med at lægge stop, gentagelser, host fejludtalelser ind, og det øger faktisk folks opfattelse af, at det her er naturligt. Så hvis formålet er at give et indtryk af at det er en rigtig person der sidder i den anden ende, så vil man nok have en fordel af at lægge fejl ind i den syntetiske tale.

Vi har tidligere dækket den første udgave af Tacotron, som er den du måske møder i din smartphone i dag, og som også er imponerende. Den kan du teste her.

Og hvis du stadig undrer dig over, hvad der var den ægte lydoptagelse og hvad der var den falske, kan du læse svaret herunder.

˙ᴉƃolouʞǝʇ sǝlƃooפ ɟɐ ʇqɐʞs ɹɐʌ ɹǝp 'ǝuɹǝldɯǝsʞǝpʎl ɟɐ ǝʇsɹǝpǝu uǝp ɹɐʌ ʇǝp

Facebook
Twitter