Elektronika.lt
 2026 m. birželio 15 d. Projektas | Reklama | Žinokite | Klausimai | Prisidėkite | Atsiliepimai | Kontaktai
Paieška portale
EN Facebook RSS

 Kas naujo  Katalogas  Parduotuvės  Forumas  Tinklaraščiai
 Pirmas puslapisSąrašas
 NaujienosSąrašas
 StraipsniaiSąrašas
 Vaizdo siužetaiSąrašas
 Nuolaidos, akcijosSąrašas
 Produktų apžvalgosSąrašas
 Naudingi patarimaiSąrašas
 Vykdomi projektaiSąrašas
 - Elektronika, automatika
 - Kompiuterija
 - Telekomunikacijos
 - Organizaciniai
 Schemų archyvasSąrašas
 Teorija, žinynaiSąrašas
 Nuorodų katalogai
 Įvairūs siuntiniai
 Bendravimas
 Skelbimai ir pasiūlymai
 Elektronikos remontas
 Robotų kūrėjų klubas
 RTN žurnalo archyvas






 Verta paskaityti
Birželio 15 d. 20:27
Ekspertės išpažintis: 10 dalykų, kuriuos supratau stebėdama tūkstančius stojančiųjų
Birželio 15 d. 17:16
Kaip Lietuva per 60 metų tapo pasauline lazerių lydere
Birželio 15 d. 14:17
Kasdieniai įpročiai, kurie net nejučiomis padeda taupyti energiją visus metus
Birželio 15 d. 12:55
„Google" praranda pozicijas: 78 proc. e. pirkėjų produktus atranda socialiniuose tinkluose
Birželio 15 d. 10:57
Jei atsiskaitymai stringa, pirkėjas gali pasitraukti: ką turi užtikrinti e. parduotuvė?
Birželio 15 d. 08:25
Lietuvių kalbos proveržis dirbtinio intelekto srityje: sukurtas 10 tūkst. valandų šnekos garsynas
Birželio 14 d. 16:50
Kibernetinis saugumas – nebe IT skyriaus problema: atsakomybė krenta vadovams
Birželio 14 d. 10:13
Išmanus vartojimas: kaip planuoti pirkinius naudojant skaitmeninius įrankius?
Birželio 13 d. 16:17
Galingiausias DI nebebus vienas visiems: naujas „Anthropic“ modelis keičia žaidimo taisykles
Birželio 13 d. 10:06
Kur dėti pirmą reklamos eurą: kaip mažam verslui paskirstyti biudžetą internete?
FS25 Tractors
Farming Simulator 25 Mods, FS25 Maps, FS25 Trucks
ETS2 Mods
ETS2 Trucks, ETS2 Bus, Euro Truck Simulator 2 Mods
FS22 Tractors
Farming Simulator 22 Mods, FS22 Maps, FS25 Mods
Dantų protezavimas
All on 4 implantai,
Endodontija mikroskopu,
Dantų implantacija
FS25 Mods
FS25 Maps, FS25 Cheats, FS25 Install Mods
FS25 Mods
Farming Simulator 25 Mods,
FS25 Maps
ATS Trailers
American Truck Simulator Mods, ATS Trucks, ATS Maps
RDR2 Mods
Euro Truck Simulator 2 Mods, WOT Mods, Assetto Corsa Rally Mods
Reklama
 Vykdomi projektai » IT, kompiuteriai ir sistemos Dalintis | Spausdinti

Lietuvių kalbos proveržis dirbtinio intelekto srityje: sukurtas 10 tūkst. valandų šnekos garsynas

Publikuota: 2026-06-15 08:25
Tematika: IT, kompiuteriai ir sistemos
Vykdytojai: Profesionalai
Inf. šaltinis: Pranešimas žiniasklaidai

Lietuvoje baigtas kurti Didysis lietuvių kalbos garsynas LIEPA-3. Vilniaus universiteto ir kitų įstaigų mokslininkai surinko ir anotavo 10 tūkst. valandų lietuvių kalbos įrašų, kurie sudaro daugiau nei vienerius metus nenutrūkstamos šnekos. Tai didžiausias iki šiol lietuvių kalbos šnekos duomenų rinkinys, skirtas dirbtinio intelekto technologijoms.

 Rodyti komentarus (0)
Įvertinimas:  1 2 3 4 5 

Lietuvoje baigtas kurti Didysis lietuvių kalbos garsynas LIEPA-3. Vilniaus universiteto (VU) ir kitų įstaigų mokslininkai surinko ir anotavo 10 tūkst. valandų lietuvių kalbos įrašų, kurie sudaro daugiau nei vienerius metus nenutrūkstamos šnekos. Tai didžiausias iki šiol lietuvių kalbos šnekos duomenų rinkinys, skirtas dirbtinio intelekto technologijoms.

KurkGarsyna.lt nuotr.
KurkGarsyna.lt nuotr.

Kam reikia tokio garsyno?

Šiuolaikinės dirbtinio intelekto sistemos – nuo balso asistentų iki automatinių subtitrų ar pokalbių robotų – veikia tik tada, kai turi didelius kiekius kokybiškų šnekos duomenų.

Didžiosios pasaulio kalbos tokių duomenų turi labai daug, o lietuvių kalbai didelės apimties viešai prieinamų šnekos išteklių iki šiol trūko.

„Nors technologijos kasmet sparčiai tobulėja, lietuvių kalba jose vis dar dažnai neveikia arba veikia prasčiau, negu norėtųsi. Priežastis paprasta – dirbtiniam intelektui vis dar trūksta lietuviškų balsų pavyzdžių, iš kurių jis galėtų mokytis suprasti gyvą, autentišką kalbą – tokią, kokia ji vartojama kasdien“, – pasakoja LIEPA-3 vadovė, VU Matematikos ir informatikos fakulteto profesorė Gražina Korvel.

LIEPA-3 sukurtas būtent tam, kad lietuvių kalba turėtų didelės apimties šnekos duomenų pagrindą, reikalingą šiuolaikinėms dirbtinio intelekto technologijoms. Be VU, Didįjį lietuvių kalbos garsyną taip pat kūrė Vytauto Didžiojo universiteto (VDU) ir Lietuvių kalbos instituto (LKI) mokslininkai.

Įrašyta reali lietuviška šneka

LIEPA-3 išsiskiria ne tik apimtimi, bet ir įvairove. Į garsyną įtraukti spontaninės, skaitytinės ir tarminės šnekos pavyzdžiai, surinkti iš įvairių šaltinių: radijo laidų, telefoninių pokalbių, viešai prieinamų įrašų ir specialiai garsynui įskaitytų tekstų.

„Didelė spontaninės šnekos garsyno dalis nebūtų buvusi įmanoma be žiniasklaidos partnerių bendradarbiavimo, – teigia projekto LIEPA-3 VU dalies vadovas, projekto ekspertas, VU MIF lektorius Gediminas Navickas. – Esame dėkingi LRT, Žinių radijui ir Lietuvos nacionalinei Martyno Mažvydo bibliotekai už suteiktą galimybę panaudoti jų garso archyvų įrašus. Ši partnerystė leido sukaupti vertingą lietuvių kalbos šnekos medžiagą ir svariai prisidėjo prie lietuvių kalbos technologinių išteklių stiprinimo.“

Dirbtinio intelekto algoritmų mokymui labai svarbi renkamų mokymo duomenų įvairovė ir reprezentatyvumas. „Renkant sakytinės šnekos garsyno dalį, fonetinė įvairovė buvo užtikrinama pasitelkiant kompiuterinius algoritmus taip, kad jie parinktų kuo įvairesnį skaitomą tekstą“, – sako projekto ekspertas, VDU profesorius dr. Gailius Raškinis.

Tam, kad garsyne atsispindėtų reali šiuolaikinė lietuvių kalba – diktorių balsų ir kalbėjimo stilių įvairovė, regioninės tarties bruožai, amžius, kalbėjimo tempas, įvairūs įrašymo įrenginiai ir akustinės aplinkos, – buvo būtinas daugelio aktyvių visuomenės narių įsitraukimas. Taip pat reikėjo rasti būdų, kaip šiuos aktyvius narius pasiekti ir sudaryti jiems sąlygas prisijungti prie projekto veiklų.

„Esame dėkingi UAB „Gooliver“ ir UAB „Lucid Agreements“ bei jų verslo partneriams už įdėtas pastangas renkant skaitytinės šnekos įrašus visose Lietuvos savivaldybėse ir užtikrinant įrašų reprezentatyvumą visais išvardintais aspektais. LIEPA-3 skaitytinės šnekos garsyno daliai balso įrašų pavyzdžius pateikė daugiau nei 7000 Lietuvos gyventojų“, – sako projekto VDU dalies vadovė prof. Daiva Vitkutė-Adžgauskienė.

Atskira garsyno dalis skirta lietuvių kalbos tarmėms

Lietuvių kalbos požiūriu Lietuva labai įvairi ir marga. „Nesunku pastebėti, kad vienaip vietiniai žmonės kalba, pavyzdžiui, Alytaus, kitaip – Utenos, Telšių ar Mažeikių apylinkėse, – sako LKI projekto dalies vadovė prof. Danguolė Mikulėnienė. – Todėl projekto LIEPA-3 garsyną buvo svarbu papildyti ir tarmėms būdingais garsais.“

Profesorės teigimu, sistemiškai bei tolygiai iš viso ploto surinkta ir anotuota tarminė medžiaga (100 val. garso įrašų) fiksuoja XXI a. trečiojo dešimtmečio vietinių lietuvių kalbos atmainų situaciją, tarsi iš paukščio skrydžio parodo tradicinėms tarmėms būdingų ypatybių paplitimą ir jų kaitos tendencijas. „Šie garso įrašai leidžia kalbininkams ne tik pastebėti naujųjų tarminių (ar tik tarmiškųjų) vietinių regionų lietuvių kalbos darinių formavimąsi, bet ir numatyti galimas ilgalaikės raidos perspektyvas, – sako mokslininkė. – Tarminės šnekamosios kalbos garsais išplėsta lietuvių kalbos amplitude galės pasinaudoti visi, kuriems rūpi lietuvių kalbos tvarumas.“

Vien garso įrašų neužtenka

Kad dirbtinis intelektas „mokytųsi“ kalbos, reikia anotuotų garso įrašų, t. y. parašytų tekstu ir susietų su konkrečiais frazių pradžios bei pabaigos laiko momentais.

Visi LIEPA-3 garsyno įrašai buvo anotuoti frazių lygmeniu. Dalis garsyno (500 valandų) papildomai anotuota leksinių vienetų ir fonemų lygmeniu. Tai leidžia garsyną naudoti pažangių lietuvių šnekos atpažinimo technologijų kūrimui ir mokymui.

Bendradarbiavimas tarp informatikų ir filologų

Svarbiausi projekto LIEPA-3 privalumai greta pasiektų rezultatų – sukurto Didžiojo lietuvių kalbos garsyno – yra du: prasmingas, produktyvus ir kolegiškas bendradarbiavimas tarp informatikų ir filologų ir tarpdalykiškumo kūrimas bei plėtra.

Pasak VU Filologijos fakulteto profesoriaus Vytauto Kardelio, projekto metu vykdyti darbai ir pasiekti rezultatai rodo, kad didelio garsyno reikia ne tik šnekos technologijoms: „Jis labai svarbus ir norint suprasti, kokia yra šiuolaikinė, dabartinė lietuvių kalba. Svarbu ne vien didelė medžiagos apimtis. Kur kas svarbiau, kad informatikai ir filologai vykdydami projektą suprato, kaip galima vienos ir kitos srities žinias sujungti ir pritaikyti ne tik šnekos technologijoms, bet ir lingvistiniams tyrimams.“

Prof. V. Kardelio teigimu, tarpdalykinis požiūris į kalbą gali duoti įdomių ir vertingų rezultatų. „Tai ne vien tik įrankiai, kuriuos kolegos informatikai gali sukurti kalbos analizei, bet ir įsisenėjusių lingvistinių hipotezių verifikacija, ir naujų teorinių prieigų kūrimas. Toks bendradarbiavimas ir tarpdalykiškumo plėtojimas, manau, yra vienas iš svarbiausių kelių, kuriuo turėtų sukti lingvistika“, – sako profesorius.

Garsynas viešai ir nemokamai prieinamas visiems

LIEPA-3 garsynas jau publikuotas ir yra laisvai prieinamas pagal atvirąją licenciją. Tai reiškia, kad garsyno duomenis gali naudoti mokslininkai, universitetai, įmonės ir technologijų kūrėjai, kuriantys lietuvių kalbos dirbtinio intelekto sprendimus.

Garsynas paskelbtas CLARIN-LT atviroje kalbos išteklių saugykloje (galima parsisiųsti čia) ir Lietuvos atvirų duomenų portale data.gov.lt.

Pasak projekto vadovės prof. G. Korvel, LIEPA-3 garsyną reikėtų vertinti ne kaip baigtinį produktą, o kaip ilgalaikę investiciją į lietuvių kalbos ateitį skaitmeninėje erdvėje. „LIEPA-3 yra ne galutinis produktas, o pamatas, ant kurio bus statomi lietuvių kalbos dirbtinio intelekto sprendimai“, – teigia ji.

Didysis lietuvių kalbos garsynas bus svarbus ir moksliniams tyrimams. Jis pasitarnaus ne tik kalbos, dirbtinio intelekto bei skaitmeninių technologijų srityse, bet ir padės tirti, kaip lietuvių kalba vartojama skirtinguose regionuose ir skirtingų kartų.

Atvirai prieinamas garsynas sudarys galimybes tiek tyrėjams, tiek verslo bendruomenei kurti naujus sprendimus, prisidės prie to, kad lietuvių kalba išliktų aktyviai vartojama šiuolaikinėse technologijose ir inovacijų ekosistemoje.




Draudžiama platinti, skelbti, kopijuoti
informaciją su nurodyta autoriaus teisių žyma be redakcijos sutikimo.

Global electronic components distributor – Allicdata Electronics

Electronic component supply – „Eurodis Electronics“

LOKMITA – įvairi matavimo, testavimo, analizės ir litavimo produkcija

Full feature custom PCB prototype service

Technologijos.lt

Mokslo festivalis „Erdvėlaivis Žemė

LTV.LT - lietuviškų tinklalapių vitrina

„Konstanta 42“

„Mokslo sriuba“

www.matuok.lt - Interneto spartos matavimo sistema

Programuotojas Tautvydas – interneto svetainių-sistemų kūrimas

PriedaiMobiliems.lt – telefonų priedai ir aksesuarai

Draugiškas internetas


Reklama
‡ 1999–2026 © Elektronika.lt | Autoriaus teisės | Privatumo politika | Atsakomybės ribojimas | Reklama | Turinys | Kontaktai LTV.LT - lietuviškų tinklalapių vitrina Valid XHTML 1.0!
ScriptHookV, GTA 5 Mods, GTA 5 Map Mods
gta5mod.net
„MokslasPlius“ – mokslui skirtų svetainių portalas
www.mokslasplius.lt
Būk saugus
elektroninėje erdvėje

www.esaugumas.lt
LTV.LT – lietuviškų tinklalapių vitrina
www.ltv.lt/technologijos/
Elektroninių parduotuvių optimizavimas „Google“ paieškos sistemai
www.seospiders.lt
Mokslo festivalis „Erdvėlaivis žemė“
www.mokslofestivalis.eu
Reklama


Reklama