iPon Cikkek

Az univerzális fordító és a mai tolmácsprogramok

Dátum | 2013. 01. 06.
Szerző | Jools
Csoport | EGYÉB

A gépi tolmácsolás ötlete, mint sok más dolog, először a tudományos-fantasztikus művekben bukkant fel. A Star Trek univerzális fordítója például a közlő agyhullámaiból olvassa ki a jelentést, amit aztán a kívánt nyelven közöl is használójával. Számos olyan fejlesztéssel találkozhattunk az elmúlt évtizedekben, amelynek alapjait valaha egy sci-fi író ötlötte ki, és egyre-másra hallunk is különféle tolmácsprogramokról, amelyek a bábeli zűrzavar felszámolásával kecsegtetnek. Érdekes kérdés tehát, hogy vajon mennyit kell még várni az iskolai nyelvtanulást fölöslegessé tevő, automatizált, szimultán fordítógépek megszületéséig? Feltéve persze, hogy lehetséges egyáltalán ilyet alkotni.

Az elmúlt hónapokban több olyan bejelentés is történt, amely alapján úgy tűnik, hogy ez a cél egyszerre van közel is, meg nem is. Abban biztosak lehetünk, hogy a tökéletes tolmácsgép létrehozására még egy jó darabig várni kell, de az is igen valószínű, hogy pár éven belül a mainál jóval könnyebben boldogulunk majd számunkra ismeretlen nyelvekkel találkozva. Egy londoni feltaláló, Will Powell nyáron mutatta be saját rendszerét, amely angol és spanyol beszélgető felek közt fordít oda-vissza, amennyiben a résztvevők türelmesek és lassan, artikuláltan, lehetőleg felváltva beszélnek. Powell készüléke nem beszéddé, hanem felirattá fordít, amely a felek által viselt, mobilra csatlakoztatott speciális szemüvegen vetítődik ki, tehát olyan, mintha egy feliratos filmet néznének a felhasználók.

Novemberben Japán legnagyobb mobilszolgáltatója, az NTT DoCoMo mutatta be tolmácsszolgáltatását, amely telefonhívásokat fordít japánról angolra, kínaira vagy koreaira és vissza. A felváltva beszélő felek mondandóját a cég számítógépei pár másodperces csúszással képesek átültetni a kívánt nyelvre, és a lefordított verzió a beszélő nemétől függően férfi vagy női hangon kerül lejátszásra.

A Microsoftnál is dolgoznak egy tolmácsprogramon, amelynek eddigi eredményességét úgy demonstrálták, hogy egy októberi, Tiencsinben tartott konferencián Rick Rashid vezető kutató angol felszólalását gyakorlatilag szimultán fordította mandarin nyelvre a rendszer. A Microsoft verziója a korábban említett két változat kombinációjának tekinthető, mivel feliratozásra és tolmácsolásra egyaránt képes. Ez utóbbi szoftver igazi érdekessége azonban az, hogy nagyjából egy órányi „tréning” alatt képes elsajátítani a beszélő hangjának jellegzetes vonásait, így azok az idegen nyelven fennhangzó fordításban is azonosíthatók, vagyis olyan, mintha valóban a felhasználó szólalna meg.


Bár az eddigiekben említett három rendszer megvalósítási módjában jelentősen különbözik egymástól, alapvetően nagyon is hasonló problémákkal küzdenek. Az első feladat egy tolmácsprogram megalkotásánál a beszéd felismerése és digitalizálása. Az első beszédfelismerő szoftverek a szavak építőelemeire, vagyis a fonémákra koncentráltak, majd statisztikai beszédmodellek és valószínűségi módszerek alkalmazása után ezekből igyekeztek újraépíteni a szavakat. A magyarban 38 fonéma van (14 magánhangzó és 24 mássalhangzó), az angolban pedig 40, ami nyelvek között átlag fölöttinek számít. (A piraha nyelvben például csak 11, az Afrika déli részén beszélt !xu nyelvben viszont 141 fonémát találunk.) A módszer viszonylag jól működik korlátozott szókincs esetében, azonban szabadabb beszéd mellett már kevésbé eredményes, és jelenlegi verzióiban átlagosan négy szóból egyet biztosan rosszul értelmez.

A Microsoft tolmácsprogramja számos dologban sokkal jobb elődeinél. Az első előrelépés, hogy nem a fonémák jelentik a felismerés alapegységeit, hanem három fonémás egységekkel, fonémasorozatokkal dolgozik. Ezekből nyilvánvalóan sokkal több van, mint fonémákból, az angolban például 9000 fölött van a számuk, viszont könnyebben megbirkóznak velük a felismerést végző szoftverek, így lecsökken a hibák száma is.

A Microsoft fonémasorozatokat felismerő rendszerének működése mesterséges neurális hálózati formában történik. Az agy sejtjeit modellező kis feldolgozóegységek (virtuális neuronok) kilenc rétegbe rendeződnek. A legalsó réteg neuronjai birkóznak meg a feldolgozandó beszéd alapvető hangtani jellegzetességeivel, a következő réteg egységei pedig már ezek különféle kombinációival operálnak, és így tovább, rétegről rétegre egyre kifinomultabb a felismerés szintje. Végül a legfelső réteg neuronjai közvetítik a végeredményt, vagyis megállapítják, hogy melyik fonémasor hangzott el. A helyes megoldások aztán visszatáplálódnak a rendszerbe, amely így egyre hatékonyabban fog működni.

A Microsoft kutatóinak elmondása szerint ezzel a fajta rendszerrel legalább egyharmadával csökkenthető hibák száma a fonémák felismerésén alapuló szoftverekhez képest, és egyes esetekben már azt is sikerült elérni, hogy nyolc szóból mindössze egyben tévedett a program. A Google is ehhez hasonló, mély neurális hálókat alkalmaz legújabb, androidos okostelefonokra írt beszédfelismerő szoftvereiben (bár ezeket nem tolmácsolásra használják), és a cég szakértői szerint ennek a metódusnak köszönhetően több mint húsz százalékkal sikerült csökkenteniük a hibák számát. Mivel ezen hálózatok használata igencsak megterheli a rendszert, a legtöbb beszédfelismerő, illetve fordító szolgáltatás felhő alapú. 

A beszédfelismerés azonban még csak a fordítás első lépése. A következő, legalább ilyen fontos szakaszban a megfejtett szavakat le kell fordítani egy másik nyelvre, ami önmagában sem egyszerű feladat, hiszen ki kell találni, hogy az adott szót éppen melyik jelentésében kívánta használni a közlő, majd ezekből értelmes, lehetőleg az eredetivel megegyező tartalmú mondatokat kell összefűzni. Ezt persze jelentősen megnehezíti, hogy a különböző nyelvekben eltérnek a nyelvtani szabályok, és másfajta szórend érvényes. Tehát hiába kerül helyesen lefordításra minden egyes szó, ha azok sorrendje és ragozása nem megfelelő, akkor mesterkéltnek tűnő, bár sokszor nagyon szórakoztató, de pontatlan fordítás lesz az eredmény.

A Google megoldása saját fordítószolgáltatása esetében erre az, hogy a fordítandó szöveget összehasonlítja a szoftveren átfutó mondatok millióival, és ezek alapján állítja össze a legmegfelelőbbnek ítélt megoldást. A Carnegie Mellon Egyetem projektjéből továbbfejlesztett Jibbigo nevű fordítóalkalmazás szintén a crowdsourcing módszerét használja, sőt: a fejlődő országokban élő felhasználóknak még fizetnek is azért, hogy kijavítsák az anyanyelvükre történő fordítások hibáit.

Mindent összevetve azonban elmondható, hogy a nyelv bonyolultsága és megfoghatatlansága gyakran a legelszántabb szoftverfejlesztőkön is kifog, legalábbis ami a tökéleteshez közeli eredményességet illeti. Az NTT DoCoMo tolmácsprogramja például nagyon könnyen és jól használható egészen addig, amíg csak formálisabb társalgási fordulatokkal van dolga (köszönések, igen, nem, köszönöm stb.). A szintén neurális hálózattal működtetett rendszer azonban rögvest hibát hibára halmoz, ha hosszabb mondatok vagy ritkább szavak kerülnek bele a társalgásba, és még a rövid, megszokott szókapcsolatoknál is elég gyakran téved.

A Microsoft fejlesztői úgy vélik, hogy a beszélgető felek megbocsátóbbak lesznek a szoftver hibáival szemben, ha a fordítás a közlő saját hangján hangzik el. Mint már említettük, tolmácsprogramjuk a beszélő hangjának jellegzetességeit utánozza a szintetizált mondanivaló megkomponálásakor, amit Rashid beszédekor a kínai közönség az elhangzott hibák ellenére is nagy lelkesedéssel üdvözölt. Elképzelhető tehát, hogy türelmesebben kivárjuk egy adott program tökéletesedését, ha az személyesebb, és kevésbé gépi hangon szólal meg.


A tolmácsprogramok másik nagy problémája, hogy mennyire bizonyulnak „mozdíthatónak”, praktikusnak. Powell kifejezetten utazóknak, turistáknak létrehozott rendszeréhez például jelenleg szükséges, hogy hálózati lefedettséggel és egy bekapcsolt laptoppal is rendelkezzen a felhasználó, a headseten és a szemüvegen kívül. A fejhallgató által felvett beszédet a laptopra telepített beszédfelismerő program írott szöveggé alakítja át, majd a hálózaton keresztül a Microsoft online fordítószolgáltatását használva lefordítja a szöveget, amelyet kivetít aztán a szemüvegre.

A hasonló vállalkozások következő nehézsége, hogy a programnak meg kell állapítania, ki is beszél éppen. Powell rendszere hangfelismeréssel nem is próbálkozik, hanem minden hallott szövegre lefuttatja az angolról spanyolra és spanyolról angolra fordítást is, és abból következteti ki, hogy ki beszélt, hogy melyik verzió hoz értelmes eredményt. Ha pedig megvan a közlő, a másik fél szemüvegén jeleníti meg a fordítást.

Powell szimultán rendszere tehát egyelőre még csak kezdeti stádiumában van, mindenesetre jelenleg ez tűnik a legjobban működő rendszernek, ha két fél természetes körülmények közt lefolyó társalgását kell fordítani. A szigorúan egyszerre egy beszélővel szembesülő rendszerek jóval előrébb járnak, közülük is különösen kifinomult a Jibbigo, amely beszédfelismeréssel és egy tíz nyelvre kiterjedő, 40 ezer szavas szótárokkal operáló fordítóalkalmazása netkapcsolat nélkül is gond nélkül futtatható a legtöbb mai okostelefonon.

A fő oka annak, hogy a Star Trekben látott univerzális fordító még elég távol áll a megvalósulástól az, hogy az emberek hajlamosak nagyon „rendetlenül” viselkedni kötetlen társalgás közben: egymás szavába vágnak, szlenget használnak vagy éppen zajos háttér mellett igyekeznek kommunikálni, ezekkel a kihívásokkal pedig egyelőre a legjobb gépi rendszerek sem képesek megbirkózni. Szóval feltéve, hogy a természet időközben nem rukkol elő a Bábel-hal egyik rokonával, egy darabig még mindenképpen érdemes lesz nyelveket tanulni.
 

Új hozzászólás írásához előbb jelentkezz be!

Eddigi hozzászólások

8. mtrx220
2013.01.06. 13:00
magyarul, érdemes nyelvet tanulni
 
Válasz írásához előbb jelentkezz be!
7. petXYZW
2013.01.06. 13:34
A nyelvtanulás fontos.
 
Válasz írásához előbb jelentkezz be!
6. Janus27
2013.01.06. 23:23
Szerintem a jó megoldás ezen technikák kibővített változatainak összekapcsolása lesz, kvantumszámítógépeken futtatva majd valamikor az évszázad vége felé vagy a 22. században.
 
Válasz írásához előbb jelentkezz be!
5. Silgrond
2013.01.07. 22:32
左様なら
Komolyra fordítva a szót, én egy picit félek azért, hiszen tolmácsnak/fordítónak készülök. Lehet, hogy pár évtized múlva már nem lesz munkám.
Az egyetlen mentség persze a cikkben említett nyelvek "megfoghatatlansága" amit nem biztos, hogy át lehet ültetni egy másik nyelvre.
 
Válasz írásához előbb jelentkezz be!
4. Asagrim Silgr...
2013.01.08. 06:24
Én is annak készülök (jelenleg), de kétségem sincs affelől, hogy ebben a szakmában dolgozva fogok nyugdíjba vonulni.

A fordítást nem lehet algoritmizálni, mivel a fordítás = szövegértelmezés, értelmezni meg csak intelligenciával rendelkező entitás tud ... a számítógép pedig biztos nem lesz ide sorolható mostanában.
 
Válasz írásához előbb jelentkezz be!
3. kiskoller Asagr...
2013.01.08. 11:16
" fordítás = szövegértelmezés, értelmezni meg csak intelligenciával rendelkező entitás tud"

Számítógép is tud intelligens lenni ha úgy írják meg. Csak nincs még elég erős gépünk hozzá. Meg mi nem vagyunk még elég okosak hozzá. De a szövegértelmezés nem egy annyira nagyon felsőbbrendű dolog amit csak mi tudunk csinálni..
 
Válasz írásához előbb jelentkezz be!
2. CyberPunk6... Asagr...
2013.01.08. 11:50
Vannak a számítástechnikában olyan ágak ahol pont ezzel foglalkoznak és ez egy létező dolog. A google sem véletlen menti le az egész internetet.

Amúgy annyira ne legyél biztos benne, hogy ebből mész nyugdíjba (hacsak nem mész már 10 éven belül). A fordító programok a nagy nyelvek között már nagyon jó hatékonysággal tudnak fordítani. Nézz meg egy német-angol fordítás, meglepően jó minőségű.

A nyugdíj meg már csak azért is erős túlzás, mert nézd meg a 40 évvel ezelőtti technikát és képzeld el mi lesz 40 év múlva.
 
Válasz írásához előbb jelentkezz be!
1. Hitoshi
2013.01.10. 22:11
Asagrim: Az IBM nemrég épített egy szuperszámítógépet, ami legyőzte az ember valami kvízjátékban, mindezt a 20. század hajnalán!!! 50-70 év múlva már tuti lesz öngondolkodó gép, ez kétségtelen. Szóval én nem vennék rá mérget, hogy 70 év múlva lesz e még tolmácsra szükség. Gondoljunk csak bele... mi van ha találkozunk egy földön kívüli fajjal ? Egy gép fogja tudni dekódolni a leggyorsabban az adott faj nyelvi kódolását, és azt újra kódolni is tudni fogja, persze a leggyorsabban, míg lehet, nekünk embereknek év tizedekig tartana.

A fordítást nem lehet algoritmizálni Már miért ne ? A nyelv nem más mint egy kiterjedt kód sorozat. A delfinek is tudnak kommunikálni, és ők nem használnak szavakat, csak egyszerű hangokat. Szóval egy komplex kód a nyelv, amit ha akarunk, akkor tudunk modellezni majd.
 
Válasz írásához előbb jelentkezz be!