Dirbtinio intelekto (DI) ir biometrinių technologijų įmonė „Neurotechnology“ išleido balso transkripcijos modelį (angl. Speech-to-Text) lietuvių kalbai, gebantį garso įrašus paversti tekstu. Ši technologija remiasi natūralios kalbos apdorojimu (NLP, angl. Natural Language Processing), kuris padeda kurti automatizuotas kalbines ir tekstines sistemas bei įrankius.

Asociatyvi „Pixabay“ nuotr.
Demonstracinė modelio versija, galinti jūsų balso įrašą paversti tekstu, pasiekiama internete. Galite pasirinkti vieną iš dviejų variantų – įkelti jau turimą garso failą iš savo įrenginio arba įrašyti balsą tiesiogiai per interneto naršyklę.
„Mūsų balso transkripcijos modelis yra sukurtas naudojant pažangiausius giliojo mokymosi algoritmus ir apmokytas išsamiu, aukštos kokybės lietuvių kalbos duomenų rinkiniu. Dėl to modelis pasižymi išskirtiniu tikslumu transkribuojant kalbą net ir sudėtingomis sąlygomis, tarkime, esant pašaliniams garsams ar keliems kalbėtojams kalbant vienu metu“, – aiškino natūralios kalbos apdorojimo inžinierius Paulius Janėnas.
Modelio treniravimo etape naudotas platus viešai prieinamų duomenų rinkinys, įskaitant „LIEPA-2“ garsyną, kuris buvo sukurtas Vilniaus universitete, vykdant projektą „Lietuvių šneka valdomų paslaugų plėtra“.. Siekiant užtikrinti efektyvumą, įmonė pasitelkė išskirtinę techninę įrangą – „NVIDIA H100 80GB SXM5“ grafinius procesorius, kurie pasižymi dideliu galingumu, yra skirti neuroninių tinklų mokymams, tad padėjo paspartinti mokymo procesą.
Pažangi technologija, skirta Lietuvos rinkai
Lietuviškas balso transkripcijos modelis gali būti naudojamas daugelyje sričių palengvinant ir optimizuojant darbo procesus. Jo integracija su balso sintezės technologija leidžia automatizuoti klientų aptarnavimo centrų darbą. Šis modelis gali būti naudojamas konferencijų, paskaitų ar teismo posėdžių medžiagos tvarkymui, paverčiant sakytinę kalbą rašytiniu tekstu. Balso transkripcijos modelis taip pat gali būti naudojamas medicinoje, švietime, rinkodaroje ir kitose srityse, kur reikalingas greitas ir tikslus garso įrašų vertimas tekstu.
„Mūsų balso transkripcijos modelis – tai lankstus įrankis, skirtas įvairioms užduotims lietuvių kalba. Dirbtinis intelektas gali padėti kurti kalbos technologijas, kurios būtų naudingos tiek verslui, tiek visuomenei“, – dalinosi „Neurotechnology“ DI sprendimų vystytojas Vytas Mulevičius.
Naujasis lietuviškas modelis ne tik tiksliai atpažįsta standartinę lietuvių kalbą, bet ir puikiai susidoroja su įvairių regionų dialektais bei skirtingomis kalbėjimo manieromis. Jis taip pat nepainioja lietuviškų žodžių su anglicizmais, taip užtikrinant dar didesnį transkripcijos sklandumą. Šis modelis gali būti adaptuotas įvairioms reikmėms, kur reikalingas optimizuotas ilgų garso įrašų apdorojimas ir tekstinių dokumentų generavimas.
Aukščiausia transkripcijos kokybė
Siekdama užtikrinti aukščiausią savo algoritmų tikslumą, „Neurotechnology“ nuolat vykdo griežtus vertinimus, naudodama viešai prieinamus duomenų rinkinius. Žemiau pateikiama lentelė, kurioje įmonės algoritmas lyginamas su kitais tiksliausiais rinkoje esančiais algoritmais.
Modelis | Vidutinis WER (visų duomenų vidurkis) | WER 1 - Facebook Voxpopuli | WER 2 - Mozilla Common Voice | WER 3 - Google Fleurs |
---|---|---|---|---|
Mūsų algoritmas 2025.05 | 6.3% | 5.7% | 6.9% | 19.6% |
Algoritmas 1 | 8.3% | 8.4% | 8.3% | 22.2% |
Algoritmas 2 | 29.3% | 33.5% | 25.2% | 42.2% |
„Neurotechnology“ testavimui pasirinko tris gerai žinomus duomenų rinkinius: „Facebook Voxpopuli“, „Mozilla Common Voice“ ir „Google Fleurs“. Svarbu paminėti, kad šie testavimo duomenys buvo be didžiųjų raidžių ir skyrybos ženklų, siekiant standartizuoti vertinimo sąlygas.
Testavimo metrika, kurią naudojo „Neurotechnology“, yra WER (angl. Word Error Rate) – klaidingų žodžių dažnis. Ši metrika parodo, kiek transkribuotų žodžių yra klaidingi duomenų rinkinyje. Kuo didesnis WER procentas, tuo didesnis klaidų skaičius. „Neurotechnology“ tikslas yra mažinti šį rodiklį siekiant kuo didesnio transkripcijos tikslumo.