Čo je treba na trénovanie slovenského veľkého jazykového modelu

V posledných rokoch veľké jazykové modely (LLM) dramaticky zmenili počítačové spracovanie prirodzeného jazyka (NLP). Prelomovým bodom bolo použitie architektúry transformerov, ktoré sú vhodné hlavne na spracovanie väčšieho textového kontextu, a generatívne jazykové modely. Čo je potrebné na vytvorenie takého modelu komunikujúceho v slovenčine? Typické množstvo textu potrebného na trénovanie modelu, ktorý je schopný komunikovať gramaticky správne je zhruba v oblasti jedného bilióna slov. Existuje vôbec v slovenčine dosť textov? Starostlivo dlhé roky zbieraný a budovaný Slovenský národný korpus ma aktuálne veľkosť 1,5 miliardy slov. Webový korpus je väčší, má aktuálne okolo 4 miliardy slov. Záľubu obyvateľov Slovenska v súdnych sporoch dokumentuje veľkosť korpusu súdnych rozhodnutí, ktorý má vyše 10 miliárd slov a je to aktuálne najväčší dostupný korpus slovenských textov. Ostatné korpusy sú výrazne menšie. Môžeme sa ale obrátiť k viacjazyčným LLM, ktoré môžeme dotrénovať slovenskými dátami. Ukazuje sa, že okolo 5 miliárd slov stačí na „naučenie sa“ nového jazyka, čomu sa už približuje veľkosť webového korpusu a otvára možnosti pridať slovenčinu do existujúcich multilingválnych LLM.

Dátum konania: 
26. 11. 2024 o 16:00
Miesto konania: 
Fakulta chemickej a potravinárskej technológie STU, Radlinského 9, Bratislava. Druhé poschodie nad hlavným vchodom do budovy, priestory knižnice.
Prednášajúci: 
Radovan Garabík
Inštitúcia: 
Jazykovedný ústav Ľudovíta Štúra SAV, v. v. i.