Google Prevajalnik (Translate) je že vrsto let orodje, ki ruši jezikovne pregrade in ljudem omogoča boljše povezovanje ter razumevanje sveta. Vedno znova vpeljujejo nove tehnologije, da bi več ljudem omogočili dostop do prevajanja. Leta 2022 so dodali 24 novih jezikov z uporabo Zero-Shot strojnega prevajanja, pri katerem se model strojnega učenja nauči prevajati v drug jezik, ne da bi imel predhodni primer. Prav tako so naznanili pobudo “1,000 Languages Initiative”, s katero si prizadevajo podpreti 1.000 najbolj govorjenih jezikov na svetu.

S pomočjo umetne inteligence širijo nabor jezikov

Sedaj pa Google s pomočjo umetne inteligence širi nabor jezikov, ki jih podpirajo. Z velikim jezikovnim modelom PaLM 2 dodajajo kar 110 novih jezikov v Google Prevajalnik, kar predstavlja njihovo največjo širitev do sedaj.

Prevajanje za več kot pol milijarde ljudi

Med novimi jeziki, kot so kantonščina in Qʼeqchiʼ, je veliko takih, ki jih govori več kot 614 milijonov ljudi po vsem svetu. Ta širitev bo odprla možnost prevajanja za okoli 8 % svetovnega prebivalstva. Nekateri izmed teh jezikov so večji svetovni jeziki z več kot 100 milijoni govorcev, medtem ko drugi pripadajo manjšim skupnostim staroselcev. Nekateri jeziki pa so skoraj izumrli, vendar potekajo aktivni napori za njihovo oživitev. Približno četrtina novih jezikov prihaja iz Afrike, kar predstavlja največjo širitev afriških jezikov do zdaj, vključno s Fon, Kikongo, Luo, Ga, Swati, Venda in Wolof.

Izpostavljeni novi jeziki v Google Translate:

  • Afar: Tonalni jezik, ki se govori v Džibutiju, Eritreji in Etiopiji. Afar jezik je imel največ prispevkov prostovoljcev v tej širitvi.
  • Kantonščina: Že dolgo je eden izmed najbolj zaželenih jezikov za Google Translate. Kantonščina se pogosto prekriva z mandarinsko pisavo, zato je težko najti podatke za usposabljanje modelov.
  • Manx: Keltski jezik z otoka Man, ki je skoraj izumrl z zadnjim rodnim govorcem leta 1974. Zahvaljujoč oživljanju jezika, ga danes govori na tisoče ljudi.
  • NKo: Standardizirana oblika zahodnoafriških jezikov Manding, ki združuje številne narečja v skupen jezik. Njegova unikatna abeceda je bila izumljena leta 1949.
  • Pandžabi (Shahmukhi): Različica pandžabščine, zapisana v perso-arabski pisavi (Shahmukhi), ki je najbolj govorjen jezik v Pakistanu.
  • Tamazight (Amazigh): Berberski jezik, ki se govori po Severni Afriki. Kljub različnim narečjem je pisna oblika medsebojno razumljiva. Google Translate podpira pisavi latinico in Tifinagh.
  • Tok Pisin: Kreolski jezik, ki temelji na angleščini in je lingua franca Papue Nove Gvineje. Če govorite angleško, lahko poskusite prevajati v Tok Pisin, saj bi lahko ugotovili pomen!

Kako Google izbira jezikovne različice

Pri dodajanju novih jezikov v Google Prevajalnik je treba upoštevati številne dejavnike, od tega, katere različice jezika ponuditi, do pravopisa, ki ga izbrati. Jeziki imajo ogromno različic: regionalne narečje, različni pravopisni standardi in mnoge nimajo enotne standardne oblike.

Pri izbiri se Google osredotoča na najbolj pogosto uporabljene različice vsakega jezika. Na primer, romski jezik ima številne narečje po Evropi, Google Translate pa se osredotoča na južni Vlax Romani, ki je pogost na spletu, vendar vključuje tudi elemente drugih narečij, kot so severni Vlax in balkanski Romani.

Učinkovitejše učenje jezikov

Ključni del pri učenju teh jezikov je bil model PaLM 2, ki omogoča učinkovitejše učenje jezikov, ki so si med seboj sorodni, na primer jeziki, ki so blizu hindijščini, kot sta Awadhi in Marwadi, ter francoski kreoli, kot sta sejšelski in mavricijski kreolski jezik.

Z napredkom tehnologije in nadaljnjim sodelovanjem z lingvisti in rojenimi govorci Google obljublja, da bo podprl še več jezikovnih različic in pravopisnih konvencij v prihodnosti.