Čo je treba na trénovanie slovenského veľkého jazykového modelu
Primary tabs
V posledných rokoch veľké jazykové modely (LLM) dramaticky zmenili počítačové spracovanie prirodzeného jazyka (NLP). Prelomovým bodom bolo použitie architektúry transformerov, ktoré sú vhodné hlavne na spracovanie väčšieho textového kontextu, a generatívne jazykové modely. Čo je potrebné na vytvorenie takého modelu komunikujúceho v slovenčine? Typické množstvo textu potrebného na trénovanie modelu, ktorý je schopný komunikovať gramaticky správne je zhruba v oblasti jedného bilióna slov. Existuje vôbec v slovenčine dosť textov? Starostlivo dlhé roky zbieraný a budovaný Slovenský národný korpus ma aktuálne veľkosť 1,5 miliardy slov. Webový korpus je väčší, má aktuálne okolo 4 miliardy slov. Záľubu obyvateľov Slovenska v súdnych sporoch dokumentuje veľkosť korpusu súdnych rozhodnutí, ktorý má vyše 10 miliárd slov a je to aktuálne najväčší dostupný korpus slovenských textov. Ostatné korpusy sú výrazne menšie. Môžeme sa ale obrátiť k viacjazyčným LLM, ktoré môžeme dotrénovať slovenskými dátami. Ukazuje sa, že okolo 5 miliárd slov stačí na „naučenie sa“ nového jazyka, čomu sa už približuje veľkosť webového korpusu a otvára možnosti pridať slovenčinu do existujúcich multilingválnych LLM.