Žmogaus suvokimas padėjo dirbtiniam intelektui pagerinti garso įrašų kokybę

Publikuota:	2024-02-11 09:24
Tematika:	Mokslo naujienos

Aut. teisės:	©MoksloTaskas.lt
Inf. šaltinis:	MoksloTaskas.lt

Neuroniniai tinklai ir žmonės skirtingai suvokia garsą. Dėl šios priežasties garso gerinimo algoritmai ne visada apdoroja garsą norimu būdu. Mokslininkai sukūrė naują gilaus mokymosi modelį, kuris remiasi žmogaus garso takelio vertinimu ir gali efektyviau pagerinti garso įrašus.

Žmogaus suvokimas padėjo dirbtiniam intelektui pagerinti garso įrašų kokybę

Paprastai dirbtinis intelektas stengiasi priartinti savo elgseną prie žmogaus, kad taptų žmonių pagalbininku įvairiose srityse. Pavyzdžiui, Japonijoje atsirado vaikščiojantis robotas su tikrais raumenimis, o Jungtinėje Karalystėje robotas jutiklis buvo išmokytas atpažinti Brailio raštą kaip žmogus, bet dvigubai greičiau.

Indianos universiteto (JAV) specialistai sukūrė gilųjį neuroninį tinklą, kuris, reaguodamas į garso įrašus, remiasi žmogaus suvokimu. Jų darbo rezultatai paskelbti žurnale „IEEE/ACM Transactions on Audio, Speech and Language Processing“.

Naujasis modelis orientuojasi ne tik į objektyvius garso kokybės rodiklius, bet ir į subjektyvius žmonių vertinimus. Tai leidžia atsižvelgti į atvejus, kai formaliai aiškus kalbos įrašas suvokiamas kaip triukšmingas, ir suprasti, kurie neuroniniam tinklui priimtini signalai yra nepageidaujami žmogaus ausiai.

Tyrėjai pranešė, kad naujasis gilaus mokymosi modelis buvo sėkmingai išbandytas. Jie sutelkė dėmesį į kalbos, sklindančios iš vieno garso kanalo – mikrofono, sustiprinimą.

Bandymui jie naudojo du ankstesnių tyrimų duomenų rinkinius – informaciją apie tai, kaip žmonės skalėje nuo 1 iki 100 vertino pokalbių įrašus su foniniu triukšmu, pavyzdžiui, veikiančio televizoriaus ar muzikos garsu.

Taikytas bendro mokymo metodas: jis apima ne tik kalbos modulį, skirtą kalbai sustiprinti, bet ir algoritmą, kuris numato vidutinį žmogaus vertinimą triukšmingo signalo atžvilgiu.

Tyrėjai pažymėjo, jog darbas su subjektyviais vertinimais, kartais susiduria su sunkumais. Žmonių suvokimas skiriasi priklausomai nuo fiziologinių savybių, asmeninės patirties.

Tačiau tyrėjai ir toliau tobulins modelį, kad jis galėtų apdoroti sudėtingesnius garso įrašus ir prisitaikyti prie nuolat kintančių žmonių lūkesčių.

Sukurtą technologiją galima pritaikyti įvairiose srityse. Visų pirma ji padės sukurti patogesnius klausos aparatus naudotojams, kalbos atpažinimo programinę įrangą, garsiakalbių ir jų sistemų testavimo programas.