iPon Hírek

Hangeffekteket is feliratozhat a YouTube

Dátum | 2017. 03. 27.
Szerző | J.o.k.e.r
Csoport | SZOFTVER

A Google egy újabb területen veszi igénybe a mesterséges intelligencia nyújtotta előnyöket, ugyanis a vállalat a gépi mélytanulás segítségével oldja meg, hogy a YouTube videók alatt hallható különböző hangeffekteket felirat formájában a siketek és a nagyothallók is élvezhessék. Egy ideje hasonló funkció a Blu-ray és DVD filmek esetében már elérhető, így ennek engedélyezésével a „jelentősebb audió események” felirat formájában is megjelennek a képernyőn, ami a hallássérültek számára kifejezetten pozitívum. Az említett tartalmaknál persze nem mesterséges intelligencia biztosítja a feliratokat, hanem előre elkészített felirat fájlok.
A YouTube videói alatt elég régóta elérhetőek az automatikusan generált feliratok, ám a szolgáltatás rövidesen kiegészül, így a fontosabb audió effektet feliratozására is lesz mód. Eleinte ez annyit jelent, hogy ha a videón nevetés, zene vagy éppen taps hallatszik, akkor az szögletes zárójelek közé szorított feliratok formájában a hallássérültek számára is észlelhető lesz. Az egyszerűnek tűnő feladatot persze még véletlenül sem olyan könnyű megoldani, hiszen a gépi tanulásra támaszkodó szuperszámítógép-fürt ugyan sokféle hang felismerésére képes, a tréningezés folyamata során azonban számos kihívást kellett leküzdeni. A meglévő „hangeffekt-feliratok” segítségével nehéz lett volna elvégezni a tanítási folyamatot, hiszen egy egyszerű (Cseng) felirat jelenthet kapucsengő-hangot, telefoncsörgést, illetve egyéb csilingelő hangot is, ez pedig a biztos alapokhoz elég kevés információ. A Google mérnökei ezért a „hangeffekt-felismerő” algoritmus tréningezésénél egy speciális infrastruktúrát és elemző-keretrendszert hoztak létre, amelyekkel érzékelhetőek a különböző hangok és ezzel egy időben az automatikus feliratsávba is beilleszthető a hozzájuk tartozó szöveg. A rendszer úgy épül fel, hogy könnyedén bővíthető az alapszótár, ami általános hangokat tartalmaz, az egyes hangtípusok pedig tovább kategorizálhatóak, ami még hatékonyabb feliratozást eredményez. A [TAPS] például az adott kontextushoz is igazodhat, így a felirat relevánsabb lehet, ha a hangeffektus „milyenségét” is tartalmazza. Például egyszerű (Taps) helyett (Harsány Taps), vagy egyszerű (Zene) helyett (Zongoramuzsika) felirat jelenhet meg, ami összességében jobb felhasználói élményt eredményez.
Így dolgozik az algoritmus
A feliratozás a gyorsan, kis szünetekkel ismétlődő hangeffekteknél némi trükköt igényelt, ezeknél ugyanis a mesterséges intelligencia a hangsáv elemzésekor meghatározza, mettől-meddig tartanak, így ahelyett, hogy másodpercenként „villogna” a [Nevetés] felirat, az adott szakasznak csak az elején jelenik meg, néhány másodpercig. A fejlesztőket az is komoly kihívás elé állította, ha az algoritmusnak egyszerre többféle hangtípust kellett felismernie: például a (Nevet) felirattal jelölt sávok tartalmazhattak nevetést és beszédet is egy időben, így ez a tanítás során problémát okozhatott. A megoldás az lett, hogy időkeretet szabtak, vagyis amennyiben egy adott effektus egy adott időtartamnál rövidebb időre jelenik meg a hangsávban, akkor azt figyelmen kívül hagyja az algoritmus. A munka végére sikerült elérni, hogy azoknál a hangfolyamoknál, amelyek az algoritmus szótárában szereplő minden hangeffektet tartalmazzák, 100 képkocka/másodperces feldolgozási sebességgel zajlott a munka, ami abszolút nem lassú. A technológia működését az alábbi videó mutatja be. A feliratokat a CC/Feliratok gombra kattintva lehet engedélyezni.
A szakemberek természetesen tovább dolgoznak az algoritmus fejlesztésén, hogy a hatékonyság javulhasson.
Új hozzászólás írásához előbb jelentkezz be!

Eddigi hozzászólások

1. pdx06
2017.03.28. 04:51
Inkább az összes nyelv felismerését raknák már bele, és a magyart például nem orosznak ismerné fel.
 
Válasz írásához előbb jelentkezz be!