DI atveria naują komunikacijos erą (1 dalis)
Akiračio redakcija
Turinį įkėlė
DI atveria naują komunikacijos erą (1 dalis)...Įsivaizduokite pasaulį, kuriame bendravimas tarp žmonių vyksta sklandžiai, nepriklausomai nuo to, kaip jie nusprendžia save išreikšti. Kurčiųjų ir neprigirdinčiųjų bendruomenei ši vizija tampa vis realesnė dėl įspūdingos dirbtinio intelekto (DI) pažangos.
Tai, kas anksčiau atrodė kaip mokslinė fantastika (pavadinkime tai universaliu vertėju), šiandien įgauna realią formą naujoviškose DI sistemose, kurios mokosi sudėtingos gestų kalbos. Dirbtinio intelekto valdomas gestų kalbos vertimo pasaulis yra ne tik algoritmai, bet ir žmonių tarpusavio supratimo tiltų kūrimas.
Naujausi DI laimėjimai GK srityje
Per pastaruosius kelerius metus smarkiai išaugo tyrimų ir inovacijų apimtys gestų kalbos vertimo, naudojant dirbtinį intelektą, srityje. Šiandien pažangūs DI modeliai, pasitelkdami kompiuterinę regą, natūralios kalbos apdorojimą ir mašininį mokymąsi, gali sudėtingus gestus išversti į sakytinę arba rašytinę kalbą, ir atvirkščiai.
Vienas iš naujų pasiekimų yra „SpellRing“ žiedas, kurį sukūrė Kornelio (JAV) universiteto mokslininkai. Tai ant piršto užmaunamas įrenginys-žiedas, kuris naudodamas mikrosonaro (elektroninio prietaiso povandeniniams kūnams aptikti) technologiją realiu laiku verčia amerikiečių gestų kalbos pirštų abėcėlę į tekstą. Šis mažas ir patogus įrenginys pakeitė anksčiau naudotas sudėtingas kamerų sistemas. „SpellRing“ labai tiksliai verčia pirštų abėcėlę, kuri dažnai vartojama tikriniams vardams ir terminams, todėl kasdienė komunikacija tampa prieinamesnė. Tai įkvepiantis pavyzdys, kaip net ir nedidelis naujoviškas prietaisas gali turėti didelį poveikį asmeninei laisvei ir bendravimui.
Verslo pasaulyje įmonės taip pat supranta didžiulį DI potencialą. Pavyzdžiui, „Microsoft“ aktyviai dalyvauja projektuose, kuriais siekiama pagerinti prieinamumą pasitelkiant DI, įskaitant gestų kalbos vertimo galimybių tyrimą savo platformose. Tokia pozicija rodo augantį supratimą, kad įtraukios technologijos yra ne tik socialinė gėrybė, bet ir išmani verslo strategija. Kaip teigė „Microsoft“ generalinis direktorius Satya Nadella: „Technologijos turi suteikti galimybių kiekvienam žmogui ir kiekvienai organizacijai planetoje pasiekti daugiau.“ DI pagrįstas gestų kalbos vertimas yra būtent tokia galimybė.
Prie pokyčių prisideda ne tik didžiosios technologijų korporacijos ir universitetai, bet ir mažesni startuoliai. Tokios įmonės, kaip „Signapse“, naudoja generatyvinį dirbtinį intelektą (tai – dirbtinio intelekto rūšis, galinti kurti naujus duomenis, pavyzdžiui, tekstą, kodą, vaizdus ar muziką), kad sukurtų fotorealistinius ir labai tikslius britų ir amerikiečių gestų kalbos vertimus. Generuojant realistišką vaizdo turinį siekiama, kad vertimai būtų ne tik tikslūs, bet ir vizualiai patrauklūs. Tokios naujovės priartina DI gestų kalbos vertimą prie kasdienio vartojimo.
Kaip DI mato ir supranta gestų kalbą
Taigi, kaip veikia DI „magija“? Šis procesas – tai įdomus meno ir mokslo derinys, kurį lemia dvi pagrindinės technologijos: kompiuterinė rega ir mašininis mokymasis.
Visų pirma, kompiuterinė rega veikia kaip DI „akys“. Tai dirbtinio intelekto sritis, kuri moko kompiuterius suprasti vizualų pasaulį. Gestų kalbos atveju, kamera realiu laiku fiksuoja kalbantįjį gestais. DI mato ne tik žmogų, bet ir sudėtingą duomenų rinkinį – jis seka tikslią rankų padėtį ir judesius, pirštų formą, kalbančiojo žvilgsnio kryptį ir net subtilias veido išraiškas ar galvos judesius. Visa tai yra esminiai gestų kalbos gramatikos komponentai.
Tuomet šie duomenys perduodami į mašininio mokymosi modelį, kuris yra DI „smegenys“. Galima įsivaizduoti DI kaip itin greitą mokinį, kuris buvo „apmokytas“ naudojant tūkstančius gestų kalbos vaizdo įrašų. Siekiant atrasti dėsningumus duomenyse, naudojama giliojo mokymosi technika, dažnai apimanti ir neuroninius tinklus. Taip modelis išmokomas susieti tam tikras rankų formas, judesius ir veido išraiškas su žodžiais arba frazėmis. Pavyzdžiui, jis išmoksta, kad tam tikra rankos forma ir judesys konkrečioje kūno vietoje visada reiškia „labas“, o kitoks derinys reiškia „viso gero“.
Iššūkis yra milžiniškas. Skirtingai nuo statiško vaizdo, gestų kalba yra dinamiška, todėl DI turi apdoroti nuolatinį vaizdų srautą, atpažinti ne tik pavienius gestus, bet ir tai, kaip jie susilieja į sakinius. Naujausi tyrimai šioje srityje tampa vis geresni, nes analizuojami keli duomenų srautai vienu metu, pereinant nuo paprasto atskirų gestų atpažinimo prie vizualinio pokalbio gramatikos supratimo.
(Bus daugiau)
(Lengvai skaitoma kalba)
Dirbtinis intelektas (DI)
mokosi gestų kalbos.
Vertimo iš gestų kalbos
į šnekamąją kalbą, ir atvirkščiai.
Štai mažas pasiekimas.
Mokslininkai sukūrė „žiedą“,
užmaunamą ant piršto.
Žiedas atstoja anksčiau naudotas
filmavimo kameras. Jis „stebi“
pirštų formas (pirštų abėcėlę)
ir labai tiksliai jas verčia į raides.
Tai palengvina bendravimą.
DI įrenginiai „mokosi“
versti žodžius. Kaip?
DI „akys“ stebi kalbantįjį gestais.
Mato jo rankų padėtį, judesius,
pirštų formą,
veido išraiškas, galvos judesius.
Stebi vieną, du, daug kalbančiųjų.
Įsimena pasikartojančius judesius.
Įsimena, ką jie reiškia.
Susieja su žodžiais.
Gestus mokosi sujungti į sakinius.
DI sekasi versti gestų kalbą vis geriau.
Iš anglų kalbos vertė Joana VANAGIENĖ
Šaltinis: https://medium.com/@larrydelaneyjr
(Parašas po piešinėliu)
DI sugeneruotas piešinėlis apie GK vertimą.
Autorius: Akiračio redakcija
Kopijuoti, platinti ar skelbti šį turinį be autoriaus raštiško sutikimo draudžiama