Sådan fungerer en digital assistent

Sådan fungerer en digital assistent

  • Af Nicolai Franck
Scroll for at læse

Med lanceringen af Google Assistent er der nu sammen med Apples Siri to muligheder for at stemmestyre sine telefoner, tablets og andre computere på dansk.

Det betyder kort sagt, at dine dimser nu lystrer, når du taler til dem. Du kan fx bede din telefon om at finde billeder, sportsresultater, opdatere indkøbslisten, sende beskeder, spille musik, podcast og meget meget mere.

Men hvordan kan det overhovedet lade sig gøre, at styre en computer med stemmen? Hvordan forstår den, hvad du siger? Og langt mere væsentligt… hvordan forstår den, hvad du mener?

Digitale assistenter er sammensmeltningen af en række computerdiscipliner, der i medierne ofte omtales under paraplybetegnelsen ‘kunstig intelligens’.

Men er der overhovedet tale om intelligens? Følg med, når vi gennemgår, hvordan en digital assistent virker.


Den såkaldte kunstige intelligens - altså computernes evne til at lære - er allerede i fuld sving, før du aktiverer assistenten.

Din telefon, tablet eller smart-højtaler kan nemlig indstilles til at lytte efter et såkaldt ’hotword’ som fx ‘Hej Siri’ eller ‘OK Google’.

Har du aktiveret denne funktion, betyder det, at din enhed konstant er med på en lytter. Så er den klar til at reagere, så snart du kalder på den.



Den er også klog nok til kun at genkende din stemme, så hverken kæresten, venner eller børn kan stemmestyre din digitale assistent.

Nogle assistenter kan endda kende forskel på familiens forskellige stemmer. Så spørger du “Hvad er der i min kalender i dag”, så er det dine kalenderaftaler, der bliver læst op. Stiller din datter det samme spørgsmål, er det hendes kalenderaftaler, assistenten henter.

Hvis man ikke bryder sig om, at ens computer konstant står og lytter med, kan man slå lyttefunktionen fra. Så skal man i stedet aktivere assistenten ved at trykke på en fysisk- eller softwareknap på sin telefon eller tablet.


Når først assistenten er aktiveret, er din enhed klar til at lytte efter din forespørgsel.

Sluserne til Googles eller Apples servere bliver åbnet, og der bliver lavet en lydoptagelse via den indbyggede mikrofon, som bliver live-streamet til et datacenter - det der ofte bliver kaldt 'skyen'.

Assistenten kan vækkes til live uden internetforbindelse, men den virker ikke uden den er online. Din telefon eller computer har brug for regnekraften fra ‘skyen’ for at kunne forstå og tolke, hvad du siger og udføre den kommando, du har bedt om.


Hvis du bruger assistenten på en enhed med en skærm, vil du samtidig se, hvordan det du siger bliver skrevet ud i tekst mens du taler. Teknologien, der klarer det, hedder ‘speech to text’ - tale til tekst.

Det lader sig gøre ved hjælp af 'machine learning', som er navnet på den overordnede computerdisciplin, der ofte blot bliver kaldt for kunstig intelligens.

Oversættelsen af tale til tekst, er den samme teknologi, som Google fx bruger til at tekste videoer på YouTube.

Når computeren har lavet dit spørgsmål om til tekst, er den klar til at prøve at finde ud af, hvad det betyder. Det foregår ved hjælp af det, der kaldes Natural Language Processing, som er computerens evne til at forstå og tolke, hvad du mener - også når det er mere underforstået.

Spørger du fx "Skal jeg tage en jakke med i aften?", vil assistenten forstå, at du underforstået spørger, om det bliver køligt udenfor, og vil derfor spytte en vejrudsigt ud.

Der er dog stadig stor forskel på, hvor godt assistenterne klarer simple og komplekse sætninger. Fx er det rimelig kompliceret for en computer, hvis den skal behandle kommandoen: "Vis mig de billeder jeg tog i februar i Norge, hvor mine børn står på ski”.

Udover at der er en lang række 'krav', der skal afkodes, skal assistenten også vide, hvem mine børn er, og hvordan et par ski ser ud. Men det er det niveau, assistenterne er ved at nå til.


Siger du: “Vis mig billeder af Eiffeltårnet”, er det til gengæld relativt let for computeren.

Det er et helt normalt ønske (vis mig billeder af), som kun er efterfulgt af ét parameter (Eiffeltårnet).

Assistenten vil i dette tilfælde formentlig være 99,99 procent sikker på, den har forstået dig korrekt, og dermed klar til action.

Men hvordan finder assistensen så dine billeder af Eiffeltårnet?

På overfladen lyder det simpelt. Assistenten kan finde informationer om Eiffeltårnet, for eksempel GPS-koordinater, billeder på nettet og tekst-beskrivelser.

Så kan assistenten sammenligne de informationer med dine billeder. Den kan se efter placeringen (GPS-koordinater) på dine billeder. Den kan kigge om billedets navn eller beskrivelse indeholder Eiffeltårnet.

Desuden kan assistenten ved hjælp af billedegenkendelse (endnu en form for kunstig intelligens) muligvis genkende, hvordan Eiffeltårnet ser ud.



Har assistenten tolket spørgsmålet korrekt, vil den nu åbne din foto-app og vise dig billeder af det kendte tårn i Paris.

Præcist hvilke oplysninger assistenterne bruger, og hvordan den vurderer dem, er forretningshemmeligheder som teknologivirksomheder gør meget ud af at beskyttte.


Hvis du ikke har nogle billeder af Eiffeltårnet i dit foto-bibliotek, vil assistenten fortælle dig det
på et rimelig formfuldendt dansk og i stedet foreslå billeder af monumentet fra nettet.

Svaret er ikke et computeren selv "finder på". Den trækker derimod på en række forprogrammerede svar, som den genbruger flittigt, mens den sideløbende lærer nye måder at formulere sig på.

For at kunne svare dig, gør assistenten brug af det modsatte af ‘speech to text’, nemlig ‘text to speech'. Det kaldes også talesyntese.


Først formulerer computeren svaret som et stykke tekst, som den digitale assistent så 'læser op'. Her har computeren lært - og trænet sig selv i - at sætte en vanvittig mængde af lyde sammen, som former ordene.


På dansk kan man stadigvæk godt høre, der er tale om en computer, men på engelsk lyder computerens udtale næsten skræmmende naturlig. (Hvor vildt det er, kan du se i videoen nedenfor.)

Hele processen med at aktivere assistenten, stille den et spørgsmål og finde de rigtige billeder frem, er overstået på lige omkring to sekunder.

Du behøver hverken kunne stave til Eiffeltårnet eller kunne huske, hvornår billederne er taget - du spørger bare. Det er altså langt hurtigere og mere smidigt, end at navigere gennem en jungle af menuer eller lede på må og få.

Men om der er tale om kunstig intelligens, som det ofte bliver kaldt, er lidt et temperamentsspørgsmål.

Assistentens svar er baseret på 'machine learning', en betegnelse som dækker over matematiske modeller, sandsynlighedsregning, statistik og mønstergenkendelse, så der er nærmere tale om en lærenem computer.

De fleste opgaver, assistenten kan løse for dig, er heller ikke nogle, der kræver stor intelligens. De minder i høj grad om helt almindelige søgninger på nettet eller i dine egne data.

Det, der får digitale assistenter til at virke intelligente, er taleforståelsen. Det er evnen til at forstå hvad du siger, udlede mening af naturligt formulerede spørgsmål og finde svaret, i den 'rigtige' app eller på nettet og dernæst svare dig med en naturlig stemme.

Det giver tiltagende muligheder for at føre en længere samtale med computeren - og af den vej ændre måden vi interagerer med computere på.

Credit


Tekst: Nicolai Franck

Grafik: Pernille Bækholm Sloth

Kilder: Behshad Behzadi - Senior Director of Engineering hos Google & Barbara Plank, Lektor i datalogi på ITU med speciale i Natural Language Processing.