Numri i aplikacioneve dhe rëndësia e ndërfaqeve zanore po rritet me shpejtësi

Përmbajtje

katër të mëdha
Amerikanët duan të blejnë
Lani, piqni, pastroni!
Koncepti i vjetër. A ka ardhur më në fund koha e saj?
pyetje teknikisht e vështirë
Zëri? Artet grafike? Apo ndoshta të dyja?
Kujdes nga siguria!

Një familje amerikane në Portland, Oregon kohët e fundit mësoi se asistenti zanor i Alex regjistroi bisedat e tyre private dhe ia dërgoi një miku. Pronarja e shtëpisë, e quajtur Danielle nga media, u tha gazetarëve se ajo "nuk do ta fuste më kurrë atë pajisje sepse nuk mund t'i besohet".

Alexa, i siguruar nga altoparlantët Echo (1) dhe pajisje të tjera në dhjetëra miliona shtëpi në SHBA, fillon regjistrimin kur dëgjon emrin ose "fjalën e thirrjes" të folur nga përdoruesi. Kjo do të thotë se edhe nëse fjala "Alexa" përmendet në një reklamë televizive, pajisja mund të fillojë regjistrimin. Kjo është pikërisht ajo që ndodhi në këtë rast, thotë Amazon, distributori i harduerit.

"Pjesa tjetër e bisedës u interpretua nga asistenti zanor si një komandë për të dërguar një mesazh," tha kompania në një deklaratë. "Në një moment, Alexa pyeti me zë të lartë: "Kujt?" Vazhdimi i bisedës familjare për dyshemenë me drurë duhet të ishte perceptuar nga makina si një artikull në listën e kontakteve të klientit. Të paktën kështu mendon Amazon. Kështu, përkthimi reduktohet në një sërë aksidentesh.

Megjithatë, ankthi mbetet. Sepse për disa arsye, në një shtëpi ku ne ende ndiheshim të qetë, duhet të futemi në një lloj "modaliteti zanor", të shikojmë atë që themi, çfarë transmeton televizori dhe, natyrisht, çfarë është ky altoparlant i ri në gjoks. sirtarët thotë . ne.

Megjithatë, Pavarësisht papërsosmërive të teknologjisë dhe shqetësimeve për privatësinë, me rritjen e popullaritetit të pajisjeve si Amazon Echo, njerëzit kanë filluar të mësohen me idenë e ndërveprimit me kompjuterët duke përdorur zërin e tyre..

Siç vuri në dukje Werner Vogels, CTO i Amazon, gjatë seancës së tij AWS re:Invent në fund të vitit 2017, teknologjia deri më tani ka kufizuar aftësinë tonë për të ndërvepruar me kompjuterët. Ne shtypim fjalë kyçe në Google duke përdorur tastierën, pasi kjo është ende mënyra më e zakonshme dhe më e lehtë për të futur informacione në makinë.

tha Vogels. -

katër të mëdha

Kur përdornim motorin e kërkimit Google në telefon, me siguri kemi vënë re një shenjë mikrofoni me një thirrje për të folur shumë kohë më parë. Kjo Google tani (2), i cili mund të diktojë një pyetje kërkimi, të futë një mesazh me zë, etj. Vitet e fundit, Google, Apple dhe Amazon janë përmirësuar shumë teknologjia e njohjes së zërit. Asistentët zanorë si Alexa, Siri dhe Google Assistant jo vetëm që regjistrojnë zërin tuaj, por gjithashtu kuptojnë se çfarë u thoni atyre dhe u përgjigjen pyetjeve.

Google Tani është në dispozicion falas për të gjithë përdoruesit e Android. Aplikacioni mund, për shembull, të vendosë një alarm, të kontrollojë parashikimin e motit dhe të kontrollojë itinerarin në Google Maps. Zgjerimi bisedor i shteteve të Google Now "Asistenti i Google" () – ndihmë virtuale për përdoruesit e pajisjes. Ai është i disponueshëm kryesisht në pajisjet mobile dhe smart në shtëpi. Ndryshe nga Google Tani, ai mund të marrë pjesë në një shkëmbim të dyanshëm. Asistenti debutoi në maj 2016 si pjesë e aplikacionit të mesazheve të Google Allo, si dhe në altoparlantin zanor të Google Home (3).

3. Google Home

Sistemi IOS gjithashtu ka asistentin e vet virtual, Siri, i cili është një program i përfshirë me sistemet operative të Apple iOS, watchOS, tvOS homepod dhe macOS. Siri debutoi me iOS 5 dhe iPhone 4s në tetor 2011 në konferencën Let's Talk iPhone.

Softueri bazohet në një ndërfaqe bisedore: ai njeh fjalimin natyral të përdoruesit (me iOS 11 është gjithashtu e mundur të futni komanda me dorë), u përgjigjet pyetjeve dhe përfundon detyrat. Falë prezantimit të mësimit të makinerive, një asistent me kalimin e kohës analizon preferencat personale përdoruesi të ofrojë rezultate dhe rekomandime më të rëndësishme. Siri kërkon një lidhje të vazhdueshme në internet - burimet kryesore të informacionit këtu janë Bing dhe Wolfram Alpha. iOS 10 prezantoi mbështetje për shtesat e palëve të treta.

Një tjetër nga katër të mëdhenjtë Cortana. Është një asistent personal inteligjent i krijuar nga Microsoft. Ai mbështetet në platformat Windows 10, Windows 10 Mobile, Windows Phone 8.1, Xbox One, Skype, Microsoft Band, Microsoft Band 2, Android dhe iOS. Cortana u prezantua për herë të parë në Konferencën e Zhvilluesve të Microsoft Build në Prill 2014 në San Francisko. Emri i programit vjen nga emri i një personazhi nga seria e lojërave Halo. Cortana është në dispozicion në anglisht, italisht, spanjisht, frëngjisht, gjermanisht, kinezisht dhe japonisht.

Përdoruesit e programit të përmendur tashmë Alexa ata gjithashtu duhet të marrin parasysh kufizimet gjuhësore - asistenti dixhital flet vetëm anglisht, gjermanisht, frëngjisht dhe japonisht.

Asistenti Virtual Amazon u përdor për herë të parë në altoparlantët inteligjentë të Amazon Echo dhe Amazon Echo Dot të zhvilluara nga Amazon Lab126. Ai mundëson ndërveprimin zanor, riprodhimin e muzikës, krijimin e listës së detyrave, vendosjen e alarmit, transmetimin e podkasteve, riprodhimin e librave audio dhe informacione të motit, trafikut, sporteve dhe lajmeve të tjera në kohë reale, si lajmet (4). Alexa mund të kontrollojë shumë pajisje inteligjente për të krijuar një sistem automatizimi në shtëpi. Mund të përdoret gjithashtu për të bërë blerje të përshtatshme në dyqanin Amazon.

4. Për çfarë përdorin përdoruesit Echo (Sipas Kërkimit)

Përdoruesit mund të përmirësojnë përvojën e Alexa duke instaluar "aftësitë" e Alexa (), veçori shtesë të zhvilluara nga palët e treta, më shpesh të referuara si aplikacione të tilla si moti dhe programet audio në cilësime të tjera. Shumica e pajisjeve Alexa ju lejojnë të aktivizoni asistentin tuaj virtual me një fjalëkalim zgjimi, i quajtur .

Sot, Amazon definitivisht dominon tregun e altoparlantëve të zgjuar (5). IBM, e cila prezantoi një shërbim të ri në mars 2018, po përpiqet të hyjë në top katërshe Ndihmësi i Watson, i krijuar për kompanitë që duan të krijojnë sistemet e tyre të asistentëve virtualë me kontroll zanor. Cili është avantazhi i zgjidhjes IBM? Sipas përfaqësuesve të kompanisë, para së gjithash, për mundësi shumë më të mëdha për personalizimin dhe mbrojtjen e privatësisë.

Së pari, Watson Assistant nuk është i markës. Kompanitë mund të krijojnë zgjidhjet e tyre në këtë platformë dhe t'i etiketojnë ato me markën e tyre.

Së dyti, ata mund të trajnojnë sistemet e tyre ndihmëse duke përdorur grupet e tyre të të dhënave, gjë që IBM thotë se e bën më të lehtë shtimin e veçorive dhe komandave në atë sistem sesa teknologjitë e tjera VUI (ndërfaqja e përdoruesit me zë).

Së treti, Watson Assistant nuk i siguron IBM informacione rreth aktivitetit të përdoruesve - zhvilluesit e zgjidhjeve në platformë mund të mbajnë vetëm të dhëna të vlefshme për veten e tyre. Ndërkohë, kushdo që ndërton pajisje, për shembull me Alexa, duhet të jetë i vetëdijshëm se të dhënat e tyre të vlefshme do të përfundojnë në Amazon.

Watson Assistant tashmë ka disa implementime. Sistemi u përdor, për shembull, nga Harman, i cili krijoi një asistent zanor për makinën koncept Maserati (6). Në Aeroportin e Mynihut, një asistent i IBM fuqizon një robot Pepper për të ndihmuar pasagjerët të lëvizin përreth. Shembulli i tretë është Chameleon Technologies, ku teknologjia e zërit përdoret në një matës inteligjent të shtëpisë.

6. Watson Assistant në një makinë koncepti Maserati

Vlen të shtohet se teknologjia themelore këtu nuk është gjithashtu e re. Watson Assistant përfshin aftësi enkriptimi për produktet ekzistuese të IBM, Watson Conversation dhe Watson Virtual Agent, si dhe API për analizën e gjuhës dhe bisedën.

Amazon nuk është vetëm një lider në teknologjinë e zërit të zgjuar, por po e kthen atë në një biznes të drejtpërdrejtë. Megjithatë, disa kompani kanë eksperimentuar me integrimin Echo shumë më herët. Sisense, një kompani në industrinë e BI dhe analitikës, prezantoi integrimin Echo në korrik 2016. Nga ana tjetër, startup Roxy vendosi të krijojë softuerin dhe harduerin e vet të kontrolluar me zë për industrinë e mikpritjes. Në fillim të këtij viti, Synqq prezantoi një aplikacion për marrjen e shënimeve që përdor zërin dhe përpunimin e gjuhës natyrore për të shtuar shënime dhe shënime në kalendar pa pasur nevojë t'i shtypni ato në tastierë.

Të gjitha këto biznese të vogla kanë ambicie të larta. Mbi të gjitha, megjithatë, ata mësuan se jo çdo përdorues dëshiron të transferojë të dhënat e tij në Amazon, Google, Apple ose Microsoft, të cilët janë lojtarët më të rëndësishëm në ndërtimin e platformave të komunikimit zanor.

Amerikanët duan të blejnë

Në vitin 2016, kërkimi me zë përbënte 20% të të gjitha kërkimeve të Google celular. Njerëzit që e përdorin këtë teknologji në baza ditore përmendin lehtësinë e saj dhe kryerjen e shumë detyrave ndër përfitimet e saj më të mëdha. (për shembull, aftësia për të përdorur një motor kërkimi gjatë drejtimit të një makine).

Analistët e Visiongain vlerësojnë vlerën aktuale të tregut të asistentëve inteligjentë dixhitalë në 1,138 miliardë dollarë.Ka gjithnjë e më shumë mekanizma të tillë. Sipas Gartner, deri në fund të 2018 tashmë 30% e ndërveprimeve tona me teknologjinë do të jetë përmes bisedave me sistemet zanore.

Firma britanike e kërkimit IHS Markit vlerëson se tregu për asistentët dixhitalë të fuqizuar nga AI do të arrijë në 4 miliardë pajisje deri në fund të këtij viti dhe ky numër mund të rritet në 2020 miliardë deri në vitin 7.

Sipas raporteve nga eMarketer dhe VoiceLabs, 2017 milionë amerikanë përdorën kontrollin e zërit të paktën një herë në muaj në 35,6. Kjo do të thotë një rritje prej gati 130% krahasuar me një vit më parë. Vetëm tregu i asistentëve dixhital pritet të rritet me 2018% në 23. Kjo do të thotë që ju tashmë do t'i përdorni ato. 60,5 milionë amerikanë, të cilat do të rezultojnë në para konkrete për prodhuesit e tyre. RBC Capital Markets vlerëson se ndërfaqja Alexa do të gjenerojë deri në 2020 miliardë dollarë të ardhura për Amazon deri në vitin 10.

Lani, piqni, pastroni!

Ndërfaqet zanore po hyjnë gjithnjë e më me guxim në tregjet e pajisjeve shtëpiake dhe të elektronikës së konsumit. Kjo tashmë mund të shihet gjatë ekspozitës së vitit të kaluar IFA 2017. Kompania amerikane Neato Robotics prezantoi, për shembull, një fshesë me korrent robotik që lidhet me një nga disa platforma të zgjuara të shtëpisë, duke përfshirë sistemin Amazon Echo. Duke folur me altoparlantin inteligjent Echo, mund ta udhëzoni makinën të pastrojë të gjithë shtëpinë tuaj në periudha të caktuara të ditës ose natës.

Produkte të tjera të aktivizuara me zë u shfaqën në shfaqje, duke filluar nga televizorët inteligjentë të shitur nën markën Toshiba nga kompania turke Vestel deri te batanijet me ngrohje nga kompania gjermane Beurer. Shumë nga këto pajisje elektronike mund të aktivizohen edhe nga distanca duke përdorur telefonat inteligjentë.

Megjithatë, sipas përfaqësuesve të Bosch, është shumë herët të thuhet se cila nga opsionet e asistentit në shtëpi do të bëhet dominuese. Në IFA 2017, një grup teknik gjerman shfaqi lavatriçe (7), furra dhe aparate kafeje që lidhen me Echo. Bosch gjithashtu dëshiron që pajisjet e tij të jenë të pajtueshme me platformat zanore të Google dhe Apple në të ardhmen.

7. Lavatriçe Bosch që lidhet me Amazon Echo

Kompani të tilla si Fujitsu, Sony dhe Panasonic po zhvillojnë zgjidhjet e tyre të ndihmës zanore të bazuara në AI. Sharp po e shton këtë teknologji në furrat dhe robotët e vegjël që hyjnë në treg. Nippon Telegraph & Telephone po punëson prodhues harduerësh dhe lodrash për të përshtatur një sistem inteligjence artificiale të kontrolluar me zë.

Koncepti i vjetër. A ka ardhur më në fund koha e saj?

Në fakt, koncepti i Ndërfaqes së Përdoruesit zanor (VUI) ka ekzistuar për dekada. Kushdo që ka parë Star Trek ose 2001: A Space Odyssey vite më parë, me siguri priste që rreth vitit 2000 ne të gjithë do të kontrollonim kompjuterët me zërin tonë. Gjithashtu, nuk ishin vetëm shkrimtarët e trillimeve shkencore që panë potencialin e këtij lloji të ndërfaqes. Në vitin 1986, studiuesit e Nielsen pyetën profesionistët e IT se çfarë mendonin se do të ishte ndryshimi më i madh në ndërfaqet e përdoruesve deri në vitin 2000. Ata më së shpeshti vunë në dukje zhvillimin e ndërfaqeve zanore.

Ka arsye për të shpresuar për një zgjidhje të tillë. Komunikimi verbal është, në fund të fundit, mënyra më e natyrshme që njerëzit të shkëmbejnë me vetëdije mendimet, kështu që përdorimi i tij për ndërveprimin njeri-makinë duket si zgjidhja më e mirë deri më tani.

Një nga VUI-të e para, i quajtur kuti këpucësh, u krijua në fillim të viteve '60 nga IBM. Ishte pararendësi i sistemeve të njohjes së zërit të sotëm. Sidoqoftë, zhvillimi i pajisjeve VUI ishte i kufizuar nga kufijtë e fuqisë llogaritëse. Analiza dhe interpretimi i të folurit njerëzor në kohë reale kërkon shumë përpjekje dhe u deshën më shumë se pesëdhjetë vjet për të arritur në pikën ku në fakt u bë e mundur.

Pajisjet me një ndërfaqe zanore filluan të shfaqen në prodhim masiv në mesin e viteve '90, por nuk fituan popullaritet. Telefoni i parë me komandim zanor (thirrje) ishte Philips Sparklëshuar në vitin 1996. Megjithatë, kjo pajisje inovative dhe e lehtë për t'u përdorur nuk ishte e lirë nga kufizimet teknologjike.

Telefona të tjerë të pajisur me forma të ndërfaqes zanore (të krijuar nga kompani të tilla si RIM, Samsung ose Motorola) dalin rregullisht në treg, duke i lejuar përdoruesit të telefonojnë me zë ose të dërgojnë mesazhe me tekst. Gjithsesi, të gjitha kërkonin memorizimin e komandave specifike dhe shqiptimin e tyre në një formë të detyruar, artificiale, të përshtatur me aftësitë e pajisjeve të asaj kohe. Kjo gjeneroi një numër të madh gabimesh, të cilat, nga ana tjetër, çuan në pakënaqësi të përdoruesve.

Megjithatë, tani po hyjmë në një epokë të re të informatikës, në të cilën përparimet në mësimin e makinerive dhe zhvillimi i inteligjencës artificiale po zhbllokojnë potencialin e bisedës si një mënyrë e re për të bashkëvepruar me teknologjinë (8). Numri i pajisjeve që mbështesin ndërveprimin zanor është bërë një faktor i rëndësishëm që ka pasur një ndikim të madh në zhvillimin e VUI. Sot, pothuajse 1/3 e popullsisë së botës tashmë zotëron telefona inteligjentë që mund të përdoren për këtë lloj sjelljeje. Duket se shumica e përdoruesve janë më në fund gati për të përshtatur ndërfaqet e tyre zanore.

8. Historia moderne e zhvillimit të ndërfaqes zanore

Megjithatë, përpara se të mund të flasim lirisht me një kompjuter, siç bënë personazhet e A Space Odyssey, ne duhet të kapërcejmë një sërë problemesh. Makineritë nuk janë ende shumë të mira në trajtimin e nuancave gjuhësore. Përveç kësaj shumë njerëz ende nuk ndjehen rehat duke dhënë komanda zanore në një motor kërkimi.

Statistikat tregojnë se asistentët zanorë përdoren kryesisht në shtëpi ose midis miqve të ngushtë. Asnjë nga të intervistuarit nuk pranoi se përdorte kërkimin zanor në vende publike. Megjithatë, kjo bllokadë ka të ngjarë të zhduket me përhapjen e kësaj teknologjie.

pyetje teknikisht e vështirë

Problemi me të cilin përballen sistemet (ASR) është nxjerrja e të dhënave të dobishme nga një sinjal i të folurit dhe lidhja e tij me një fjalë të caktuar që ka një kuptim të caktuar për një person. Tingujt e prodhuar janë të ndryshëm çdo herë.

Ndryshueshmëria e sinjalit të të folurit është vetia e saj natyrore, falë së cilës ne, për shembull, njohim një theks ose intonacion. Çdo element i sistemit të njohjes së të folurit ka një detyrë specifike. Në bazë të sinjalit të përpunuar dhe parametrave të tij, krijohet një model akustik, i cili shoqërohet me modelin gjuhësor. Sistemi i njohjes mund të funksionojë në bazë të një numri të vogël ose të madh modelesh, i cili përcakton madhësinë e fjalorit me të cilin punon. Mund të jenë fjalorë të vegjël në rastin e sistemeve që njohin fjalë ose komanda individuale, si dhe bazat e të dhënave të mëdha që përmban ekuivalentin e grupit gjuhësor dhe duke marrë parasysh modelin gjuhësor (gramatikë).

Problemet me të cilat përballen ndërfaqet zanore në radhë të parë kuptojnë saktë fjalimin, në të cilat, për shembull, shpeshherë hiqen sekuenca të tëra gramatikore, ndodhin gabime gjuhësore dhe fonetike, gabime, lëshime, defekte në të folur, homonime, përsëritje të pajustifikuara etj.. Të gjitha këto sisteme ACP duhet të funksionojnë shpejt dhe me besueshmëri. Të paktën këto janë pritshmëritë.

Burimi i vështirësive janë edhe sinjalet akustike të ndryshme nga ligjërata e njohur që hyjnë në hyrjen e sistemit të njohjes, d.m.th. të gjitha llojet interferenca dhe zhurma. Në rastin më të thjeshtë, ju nevojiten ato filtroje. Kjo detyrë duket rutinë dhe e lehtë - në fund të fundit, sinjale të ndryshme filtrohen dhe çdo inxhinier elektronik e di se çfarë të bëjë në një situatë të tillë. Megjithatë, kjo duhet bërë me shumë kujdes dhe kujdes nëse rezultati i njohjes së të folurit do të përmbushë pritshmëritë tona.

Filtrimi i përdorur aktualisht bën të mundur heqjen, së bashku me sinjalin e të folurit, të zhurmës së jashtme të marrë nga mikrofoni dhe vetitë e brendshme të vetë sinjalit të të folurit, të cilat e bëjnë të vështirë njohjen e tij. Sidoqoftë, një problem teknik shumë më kompleks lind kur ndërhyrja në sinjalin e analizuar të të folurit është ... një sinjal tjetër i të folurit, domethënë, për shembull, diskutime me zë të lartë përreth. Kjo pyetje njihet në literaturë si e ashtuquajtura. Kjo tashmë kërkon përdorimin e metodave komplekse, të ashtuquajturat. dekonvolucioni (zbërthimi) sinjali.

Problemet me njohjen e të folurit nuk mbarojnë me kaq. Vlen të kuptohet se fjalimi mbart shumë lloje të ndryshme informacioni. Zëri i njeriut sugjeron gjininë, moshën, karakteret e ndryshme të pronarit ose gjendjen e tij shëndetësore. Ekziston një departament i gjerë i inxhinierisë biomjekësore që merret me diagnostikimin e sëmundjeve të ndryshme bazuar në fenomenet karakteristike akustike që gjenden në sinjalin e të folurit.

Ekzistojnë gjithashtu aplikacione ku qëllimi kryesor i analizës akustike të një sinjali të të folurit është të identifikojë folësin ose të verifikojë se ai është ai që pretendon të jetë (zë në vend të çelësit, fjalëkalim ose kod PUK). Kjo mund të jetë e rëndësishme, veçanërisht për teknologjitë e ndërtesave inteligjente.

Komponenti i parë i një sistemi të njohjes së të folurit është mikrofon. Megjithatë, sinjali i marrë nga mikrofoni zakonisht mbetet i pakët. Studimet tregojnë se forma dhe rrjedha e valës së zërit ndryshojnë shumë në varësi të personit, shpejtësisë së të folurit dhe pjesërisht humorit të bashkëbiseduesit - ndërsa në një masë të vogël ato pasqyrojnë vetë përmbajtjen e komandave të folura.

Prandaj, sinjali duhet të përpunohet saktë. Akustika moderne, fonetika dhe shkenca kompjuterike së bashku ofrojnë një grup të pasur mjetesh që mund të përdoren për të përpunuar, analizuar, njohur dhe kuptuar një sinjal të të folurit. Spektri dinamik i sinjalit, i ashtuquajturi spektrogramet dinamike. Ato janë mjaft të lehta për t'u marrë dhe fjalimi i paraqitur në formën e një spektrogrami dinamik është relativisht i lehtë për t'u njohur duke përdorur teknika të ngjashme me ato të përdorura në njohjen e imazhit.

Elementet e thjeshta të të folurit (për shembull, komandat) mund të njihen nga ngjashmëria e thjeshtë e spektrogrameve të tëra. Për shembull, një fjalor i telefonit celular i aktivizuar me zë përmban vetëm disa dhjetëra deri në disa qindra fjalë dhe fraza, zakonisht të grumbulluara paraprakisht në mënyrë që ato të mund të identifikohen lehtësisht dhe me efikasitet. Kjo është e mjaftueshme për detyra të thjeshta kontrolli, por kufizon rëndë aplikimin e përgjithshëm. Sistemet e ndërtuara sipas skemës, si rregull, mbështesin vetëm folësit specifikë për të cilët zërat janë të trajnuar posaçërisht. Pra, nëse ka dikush i ri që dëshiron të përdorë zërin e tij për të kontrolluar sistemin, me shumë mundësi nuk do të pranohet.

Rezultati i këtij operacioni quhet Spektrogrami 2-W, domethënë një spektër dydimensional. Ekziston një aktivitet tjetër në këtë bllok që ia vlen t'i kushtohet vëmendje - segmentim. Në përgjithësi, ne po flasim për ndarjen e një sinjali të vazhdueshëm të të folurit në pjesë që mund të njihen veçmas. Vetëm nga këto diagnoza individuale bëhet njohja e së tërës. Kjo procedurë është e nevojshme sepse nuk është e mundur të identifikohet një fjalim i gjatë dhe kompleks me një lëvizje. Tashmë janë shkruar vëllime të tëra se cilat segmente të dallojmë në një sinjal të të folurit, kështu që ne nuk do të vendosim tani nëse segmentet e dalluara duhet të jenë fonema (ekuivalente të tingullit), rrokje ose ndoshta alofone.

Procesi i njohjes automatike i referohet gjithmonë disa veçorive të objekteve. Qindra grupe parametrash të ndryshëm janë testuar për sinjalin e të folurit.Sinjali i të folurit ka ndarë në korniza të njohura dhe duke pasur veçoritë e zgjedhuraku këto korniza paraqiten në procesin e njohjes, ne mund të kryejmë (për secilën kornizë veç e veç) klasifikimi, d.m.th. duke caktuar një identifikues në kornizë, i cili do ta përfaqësojë atë në të ardhmen.

Faza tjetër montimi i kornizave në fjalë të veçanta - më së shpeshti bazuar në të ashtuquajturat. modeli i modeleve implicite Markov (HMM-). Pastaj vjen montazhi i fjalëve fjali të plota.

Tani mund të kthehemi në sistemin Alexa për një moment. Shembulli i tij tregon një proces shumëfazor të "kuptimit" të makinës së një personi - më saktë: një komandë e dhënë prej tij ose një pyetje e bërë.

Të kuptuarit e fjalëve, të kuptuarit e kuptimit dhe të kuptuarit e qëllimit të përdoruesit janë gjëra krejtësisht të ndryshme.

Prandaj, hapi tjetër është puna e modulit NLP (), detyra e të cilit është njohja e qëllimit të përdoruesit, d.m.th. kuptimi i urdhrit/pyetjes në kontekstin në të cilin është shqiptuar. Nëse qëllimi identifikohet, atëherë caktimi i të ashtuquajturave aftësi dhe aftësi, pra veçoria specifike e mbështetur nga asistenti inteligjent. Në rastin e një pyetjeje për motin, thirren burimet e të dhënave të motit, të cilat mbeten për t'u përpunuar në të folur (TTS - mekanizëm). Si rezultat, përdoruesi dëgjon përgjigjen e pyetjes së bërë.

Zëri? Artet grafike? Apo ndoshta të dyja?

Shumica e sistemeve moderne të ndërveprimit të njohura bazohen në një ndërmjetës të quajtur ndërfaqe grafike e përdoruesit (ndërfaqe grafike). Fatkeqësisht, GUI nuk është mënyra më e dukshme për të bashkëvepruar me një produkt dixhital. Kjo kërkon që përdoruesit fillimisht të mësojnë se si të përdorin ndërfaqen dhe ta mbajnë mend këtë informacion me çdo ndërveprim pasues. Në shumë situata, zëri është shumë më i përshtatshëm, sepse mund të ndërveproni me VUI thjesht duke folur me pajisjen. Një ndërfaqe që nuk i detyron përdoruesit të mësojnë përmendësh dhe të mësojnë përmendësh komanda të caktuara ose metoda ndërveprimi shkakton më pak probleme.

Sigurisht, zgjerimi i VUI nuk do të thotë braktisje e ndërfaqeve më tradicionale - përkundrazi, ndërfaqet hibride do të jenë të disponueshme që kombinojnë disa mënyra ndërveprimi.

Ndërfaqja zanore nuk është e përshtatshme për të gjitha detyrat në një kontekst celular. Me të, ne do të telefonojmë një mik që drejton një makinë dhe madje do t'i dërgojmë një SMS, por kontrollimi i transfertave më të fundit mund të jetë shumë i vështirë - për shkak të sasisë së informacionit të transmetuar në sistem () dhe të gjeneruar nga sistemi (sistemi). Siç sugjeron Rachel Hinman në librin e saj Mobile Frontier, përdorimi i VUI bëhet më efektiv kur kryeni detyra ku sasia e informacionit hyrës dhe dalës është e vogël.

Një smartphone i lidhur në internet është i përshtatshëm, por edhe i papërshtatshëm (9). Sa herë që një përdorues dëshiron të blejë diçka ose të përdorë një shërbim të ri, ai duhet të shkarkojë një aplikacion tjetër dhe të krijojë një llogari të re. Këtu është krijuar një fushë për përdorimin dhe zhvillimin e ndërfaqeve zanore. Në vend që t'i detyrojnë përdoruesit të instalojnë shumë aplikacione të ndryshme ose të krijojnë llogari të veçanta për secilin shërbim, ekspertët thonë se VUI do ta zhvendosë barrën e këtyre detyrave të rënda te një asistent zanor i fuqizuar nga AI. Ai do të jetë i përshtatshëm për të kryer aktivitete të vështira. Ne do t'i japim vetëm urdhra.

9. Ndërfaqja zanore nëpërmjet telefonit inteligjent

Sot, më shumë se një telefon dhe një kompjuter janë të lidhur me internetin. Termostatet inteligjente, dritat, kazanët dhe shumë pajisje të tjera të integruara në IoT janë gjithashtu të lidhura në rrjet (10). Kështu, ka pajisje me valë rreth nesh që mbushin jetën tonë, por jo të gjitha përshtaten natyrshëm në ndërfaqen grafike të përdoruesit. Përdorimi i VUI do t'ju ndihmojë t'i integroni ato lehtësisht në mjedisin tonë.

10. Ndërfaqja zanore me Internetin e Gjërave

Krijimi i një ndërfaqeje përdoruesi me zë do të bëhet së shpejti një aftësi kryesore e projektuesit. Ky është një problem i vërtetë - nevoja për të zbatuar sisteme zanore do t'ju inkurajojë të përqendroheni më shumë në dizajnin proaktiv, domethënë, duke u përpjekur të kuptoni synimet fillestare të përdoruesit, duke parashikuar nevojat dhe pritshmëritë e tij në çdo fazë të bisedës.

Zëri është një mënyrë efikase për të futur të dhëna—i lejon përdoruesit të lëshojnë shpejt komanda në sistem sipas kushteve të tyre. Nga ana tjetër, ekrani ofron një mënyrë efikase për të shfaqur informacionin: lejon sistemet të shfaqin një sasi të madhe informacioni në të njëjtën kohë, duke reduktuar barrën në kujtesën e përdoruesve. Është logjike që kombinimi i tyre në një sistem tingëllon inkurajues.

Altoparlantët inteligjentë si Amazon Echo dhe Google Home nuk ofrojnë fare një ekran vizual. Duke përmirësuar ndjeshëm saktësinë e njohjes së zërit në distanca të moderuara, ato lejojnë funksionimin pa duar, i cili nga ana tjetër rrit fleksibilitetin dhe efikasitetin e tyre - ato janë të dëshirueshme edhe për përdoruesit që tashmë kanë telefona inteligjentë me kontroll zanor. Megjithatë, mungesa e një ekrani është një kufizim i madh.

Vetëm bip-et mund të përdoren për të informuar përdoruesit për komandat e mundshme, dhe leximi i daljes me zë të lartë bëhet i lodhshëm, përveç detyrave më themelore. Vendosja e një kohëmatësi me një komandë zanore gjatë gatimit është e shkëlqyeshme, por nuk është e nevojshme t'ju bëjnë të pyesni se sa kohë ka mbetur. Marrja e një parashikimi të rregullt të motit bëhet një provë e kujtesës për përdoruesin, i cili duhet të dëgjojë dhe thithë një sërë faktesh gjatë gjithë javës, në vend që t'i marrë ato nga ekrani me një shikim.

Dizajnerët tashmë kanë zgjidhje hibride, Echo Show (11), i cili shtoi një ekran ekrani në altoparlantin bazë të zgjuar Echo. Kjo zgjeron shumë funksionalitetin e pajisjes. Megjithatë, Echo Show është ende shumë më pak i aftë për të kryer funksionet bazë që kanë qenë prej kohësh të disponueshme në telefonat inteligjentë dhe tabletët. Ai (ende) nuk mund të shfletojë në ueb, të shfaqë komente ose të shfaqë përmbajtjen e një karroce blerjeje Amazon, për shembull.

Një ekran vizual është në thelb një mënyrë më efektive për t'u ofruar njerëzve një pasuri informacioni sesa thjesht zëri. Dizenjimi me përparësi zëri mund të përmirësojë shumë ndërveprimin zanor, por në planin afatgjatë, mospërdorimi arbitrar i menusë vizuale për hir të ndërveprimit do të jetë si të luftoni me njërën dorë të lidhur pas shpine. Për shkak të kompleksitetit të afërt të ndërfaqeve inteligjente të zërit dhe ekranit nga fundi në fund, zhvilluesit duhet të konsiderojnë seriozisht një qasje hibride ndaj ndërfaqeve.

Rritja e efikasitetit dhe shpejtësisë së sistemeve të gjenerimit dhe njohjes së të folurit ka bërë të mundur përdorimin e tyre në aplikacione dhe fusha të tilla si, për shembull:

• ushtarake (komanda zanore në aeroplanë ose helikopterë, për shembull, F16 VISTA),

• transkriptimi automatik i tekstit (të folurit në tekst),

• sistemet e informacionit ndërveprues (Prime Speech, portalet zanore),

• pajisjet celulare (telefonat, telefonat inteligjentë, tabletët),

• robotikë (sistemet Cleverbot - ASR të kombinuara me inteligjencën artificiale),

• automobila (kontroll pa duar i komponentëve të makinës, si Blue & Me),

• aplikacionet në shtëpi (sistemet e shtëpisë inteligjente).

Kujdes nga siguria!

Automobilat, pajisjet shtëpiake, sistemet e ngrohjes/ftohjes dhe sigurisë së shtëpisë dhe një mori pajisjesh shtëpiake kanë filluar të përdorin ndërfaqe zanore, shpesh të bazuara në AI. Në këtë fazë dërgohen të dhënat e marra nga miliona biseda me makina retë kompjuterike. Është e qartë se tregtarët janë të interesuar për to. Dhe jo vetëm ata.

Një raport i fundit nga ekspertët e sigurisë së Symantec rekomandon që përdoruesit e komandave zanore të mos kontrollojnë veçoritë e sigurisë si bravat e dyerve, e lëre më sistemet e sigurisë së shtëpisë. E njëjta gjë vlen edhe për ruajtjen e fjalëkalimeve ose informacionit konfidencial. Siguria e inteligjencës artificiale dhe produkteve inteligjente ende nuk është studiuar mjaftueshëm.

Kur pajisjet në të gjithë shtëpinë dëgjojnë çdo fjalë, rreziku i hakimit dhe keqpërdorimit të sistemit bëhet një shqetësim i madh. Nëse një sulmues fiton akses në rrjetin lokal ose adresat e lidhura me të e-mail, cilësimet e pajisjes inteligjente mund të ndryshohen ose rivendosen në cilësimet e fabrikës, gjë që do të çojë në humbjen e informacionit të vlefshëm dhe fshirjen e historisë së përdoruesit.

Me fjalë të tjera, profesionistët e sigurisë kanë frikë se AI dhe VUI e drejtuar nga zëri nuk janë ende mjaft të zgjuar për të na mbrojtur nga kërcënimet e mundshme dhe për të mbajtur gojën mbyllur kur një i huaj kërkon diçka.