Taligenkänningsteknik

Taligenkänning, enhetens förmåga att svara på talade kommandon. Taligenkänning möjliggör handsfree-kontroll av olika enheter och utrustning (en speciell välsignelse för många funktionshindrade personer), ger input till automatisk översättning och skapar utskriftsklar diktering. Bland de tidigaste applikationerna för taligenkänning var automatiska telefonsystem och programvara för medicinsk diktering. Det används ofta för diktering, för att fråga databaser och för att ge kommandon till datorbaserade system, särskilt i yrken som förlitar sig på specialiserade vokabularer. Det möjliggör också personliga assistenter i fordon och smartphones, som Apples Siri.

Innan någon maskin kan tolka tal måste en mikrofon översätta vibrationerna i en persons röst till en våglik elektrisk signal. Denna signal konverteras i sin tur av systemets hårdvara - till exempel en dators ljudkort - till en digital signal. Det är den digitala signalen som ett taligenkänningsprogram analyserar för att känna igen separata fonemer, de grundläggande byggstenarna för tal. Fonema kombineras sedan till ord. Men många ord låter lika, och för att välja rätt ord måste programmet lita på sammanhanget. Många program skapar sammanhang genom trigramanalys, en metod baserad på en databas med frekventa treordskluster där sannolikheter tilldelas att två ord kommer att följas av ett givet tredje ord. Till exempel, om en högtalare säger "vem jag är", kommer nästa ord att känna igen uttalet "jag" snarare än det liknande, men mindre troliga "ögat." Icke desto mindre behövs mänsklig intervention ibland för att korrigera fel.

Program för att känna igen några isolerade ord, som telefonröstnavigeringssystem, fungerar för nästan alla användare. Å andra sidan måste kontinuerliga talprogram, såsom dikteringsprogram, utbildas för att känna igen individens talmönster; utbildning innebär att användaren läser högt upp textprover. Idag, med den växande kraften hos persondatorer och mobila enheter, har noggrannheten för taligenkänning förbättrats markant. Felfrekvensen har minskats till cirka 5 procent i ordförråd som innehåller tiotusentals ord. Ännu större noggrannhet uppnås i begränsade vokabularer för specialiserade applikationer som diktering av radiologiska diagnoser.