Hvem taler: Kan du høre forskel på menneske og maskine?

Computerstemmer nærmer sig menneskeligt niveau ved hjælp af kunstig intelligens.

20 timers indtaling fra et menneske er alt hvad en computer har brug for, for at kunne efterligne menneskelig tale. (Foto: Matt Botsford - Unsplash)

Du kender måske Google eller Apples digitale assistenter, der kan svare, når du taler til dem.

Som vi alle ved, så sidder der ikke et menneske i den anden ende, men en computer.

Det plejede at være meget tydeligt at høre, men teknologien bevæger sig så hurtigt, at man nu kan komme helt alvorligt i tvivl om, hvorvidt det er et menneske eller en maskine, der taler.

Kan du eksempelvis høre, om det er en ægte optagelse eller om det er en computer, der taler i videoen nedenfor?

Nikolaj Sonne afspiller to forskellige stemmer. Men er det mennesker eller maskiner?

Siri har også forbedret sig markant

Apple har også gjort klare fremskridt med deres digitale assistent Siri.

På dansk er det stadig tydeligt en computerstemme, men på engelsk begynder det at være mere end svært, at høre det ikke er et menneske

I videoen nedenfor kan du lytte til, hvordan Siri har forbedret sig fra mobilstyresystemet iOS 9 fra 2015 til iOS 11 i 2017.

Siri voice improvements (iOS 9 vs. iOS 10 vs. iOS 11)

Computeren afkoder hvordan sætninger sammensættes

Både Google og Apple gør brug af såkaldte neurale netværk – en afart af kunstig intelligens – til at forbedre naturligheden i deres digitale assistenters stemmer.

Det sker ved, at man foretager en lang række stemmeoptagelser fra en stemmeskuespiller, som computeren efterfølgende kan gøre brug af til at lære strukturerne i den menneskelige tale at kende.

Nu er computeren blevet så god til at forstå, måden mennesker taler, at den kan danne sætninger, hvor den betoner de ‘rigtige’ ord og taler med en naturlig melodi.

Google beskriver, hvordan deres projekt Wavenet sågar bruger lyde fra “når læberne rammer hinanden”, som gør det endnu mere naturligt at lytte til Googles assistent.

Apple bruger også neurale netværk

Apple gør brug af en lignende teknologi.

For at udvikle firmaets nye Siri-stemme forklarer Apple, at de har brugt over 20 timers taleoptagelser fra den samme person. Herefter brydes ordene ned i små samples, som den kunstigt intelligente computer bruger som basis for at lære at forstå, hvordan man taler mere naturligt.

Apple beskriver Siris udvikling i dette meget tekniske dokument.