Jezyk a trenovanie modelov AI

Maciej Milach 6.11.2025

Jezyky slovianske mogu byti ključne do obučenja štučnogo intelekta. Do takovyh konkluziji došli naučniki iz Universiteta of Maryland i Microsoftu. Oni mnogo udivili se od togo zaključenja, ibo poljsky abo rosijsky to jezyky s menšimi resursami treningovymi, než na priklad anglijsky ili kitajsky. Najčestěje na anglijskom ili kitajskom trenuje se umětna inteligencija, ale obadva tute jezyky, je byli daleko za slovianskimy v ogledu.

Naučniki prěgledali sposobnost lingvističnyh/ jezyčnyh modeli do raboty z tako zvanym dolgym kontekstom. V največšim uproščenju AI trěbovalo najdti v mnogo komplikovanyh tekstah konkretne vědomosti ili sdělati jih sintezu. Eksperiment prověril takože, či štučny intelekt ne obmanyvaje i ne izmysla odgovorov na pytanja, kojih ne možno najdti v prislanym tekstu.

V tom testu jezyk poljsky iměl až 88 procent efektivnosti a rosijsky 87. Anglijsky zajel doprva šeste město iz-srěd dvadeset šesti jezykov, iměl srědnju točnost na uravnji osmdeset tri procent. Ješče vyše udivjajuči je byli izhod kitajskogo jezyka, ktory je byl četvrtym najgoršim jezykom - srědnja točnost šestdeset dva procent.

Čto interesno, prve deset měst zajmajut jezyky slovjanske, romanske i germanske, koje imajut mnogo člankov v Vikipediji. Lěpje izšli jezyki, koje imajut vyše resursy. V zavisnosti od konteksta, točnost štučnogo intelekta, može razniti se navet o okolo dvadeset procent. Podolg naučnikov to je signal, že dobro jest postaviti na jezyky slovianske, koje mogut se okazati efektivnějše do obučenja jezyčnyh modeli.

The performance of each language in the most complex tasks (source: “One ruler to measure them all: Benchmarking multilingual long-context language models”, Yekyung Kim, Jenna Russell, Marzena Karpinska, Mohit Iyyer)

Čto zapravdu čini jezyky slovianske izključnymi?

Jezyky slovianske i sanskrit to jedinove jezyki o tak vysokoj morfologičnoj složenosti i logičnoj regularnosti. Vsake slovo sodržaje informacije o svezkah, vrěmenah, čislu i rodu, a poredok slov jest menje važny od značenja - smysl izplyva iz gramatičnoj formy, ne iz poredka.

Slovosbory

Večinstvo jezykov imaje podobnu osnovu slovosbora:

Jezyk	Slova
Anglijsky	600 000
Němečsky	400 000
Poljsky	500 000
Francuzsky	100 000 - 60 000
Rosijski	250 000
Arabsky	100 200
Japonsky	500 000
Kitajsky	370 000
Sanskrit	500 000

V jezykah syntetičnih vsake sklonene slovo nese vyše danyh - na priklad Sanskrit posle obsegnutje fleksij ima petsot tysečij x sto = petdeset milionov tokenov. Jezyky analitične (anglijsky i kitajsky) opirajut se na poredku i kontekstu - sut prostějše, ale menje točne. Modele AI ne čitajut bukv, toliko tokeny - najmenše měry značenij.

V jezykah kako němečsky mnogo slov to sut dolge, rědke sostavy, na priklad: Donaudampfschifffahrtsgesellschaftskapitän, koje za AI sut jednom, težkom do razbitje tokenom. V jezykah fleksijnyh - sloviankych ili sanskrite gramatika jest modularna i redna, tokeny odpovědajut morfemom a značnosti sut zaključene v strukture slova. Morfemy često slučajut několiko kategoriji za jedno (na priklad padež, čislo, rod jest v jednom slove).

Na osnove članka Gazety Wyborczej i drugyh tekstov.