iPon Hírek

A Mozilla egyszerűbbé tenné a hangvezérlés használatát

Dátum | 2017. 07. 21.
Szerző | J.o.k.e.r
Csoport | SZOFTVER

A Mozilla Alapítvány egy új közösségi kezdeményezést indított, amely a „Common Voice”, azaz a közös hang nevet viseli, célja pedig az, hogy elegendő hanganyagot gyűjtsön össze, amit aztán könnyedén fel lehet majd használni hang alapú vezérlést támogató alkalmazások fejlesztésére. A hangvezérlés nagyon sok fejlesztő figyelmét keltette fel az elmúlt évek során, a vállalatok pedig egyre nagyobb figyelmet fordítanak a funkció tökéletesítésére, illetve különböző eszközökbe történő beültetésére. Az Apple, a Baidu, az Amazon, a Microsoft és a Google kínálatában egyaránt található ilyen szolgáltatás, ám ezek mögött jellemzően mesterséges intelligencia húzódik, ami óriási segítség a különböző funkciók tökéletesítésében. A felsorolt cégek kiélezett versenyt folytatnak egymással annak érdekében, hogy minél nagyobb szeletet hasíthassanak ki maguknak a piac képzeletbeli tortájából, ehhez pedig arra van szükség, hogy minél több eszközbe, minél gyorsabban integrálják a hangfelismerő és hangvezérlő funkciókat – plusz az sem árt, ha ezek megbízhatóan működnek. A Mozilla szerint ezek a törekvések szépek és jók, de van velük egy hatalmas baj: mindannyian szabadalmaztatott, hétpecsétes titokként kezelt technológiák köré épülnek, és az általuk használt adatkészletek sem érhetőek el mások számára, így az egyetemek és a startupok komoly hátrányból indulnak, ha ezen a területen szeretnének tevékenykedni, illetve tanulmányokat folytatni. A nagyvállalatok a pénzügyi előnyeik miatt a technológia további fejlődésével behozhatatlan előnyre tehetnek szert a kisebb szereplőkkel és a startupokkal szemben, ez pedig nem jó irány a Mozilla szerint. Ráadásul a nagy és neves vállalatok jellemzően csak a legszélesebb körben használt világnyelveken beszélők zökkenőmentes kiszolgálására törekszenek, ezáltal nagyon sok felhasználót zárnak ki az újszerű felhasználói- és rendszerirányítási élményből.
Éppen ezért indult el a Common Voice kezdeményezés, amely gondoskodna a hangfelismerő technológia szélesebb körben történő elérhetőségéről is. A Mozilla célja, hogy több, mint 10 000 órányi felvételt gyűjtsön be átlagemberektől, akiknek különböző mondatokat kell hangosan felolvasniuk. A felvétel minősége nem számít, a környezetnek pedig nem kell csendesnek lennie – éppen ellenkezőleg, minél változatosabb helyekről érkeznek a hangminták, annál jobban lehet majd tökéletesíteni a hangfelismerés pontosságát. A szakemberek szerint a nagymennyiségű, kellően változatos hangminta jóvoltából tökéletesíthető lesz a hangfelismerő motor. Ezáltal garantálható, hogy a hangfelismerés és a hangvezérlés nem csak a csendes hálószobában, hanem akár zajosabb környezetben is megfelelően fog működni. Az egész projekt nyílt forráskódú megoldásként válhat elérhetővé az érdeklődő fejlesztők számára A közösségi összefogáson alapuló adatgyűjtés abszolút nem szokatlan dolog, hiszen egyebek mellett a Google Translate szolgáltatása is használja ezt a lehetőséget a fordítások tökéletesítésére. Persze a munka oroszlánrészét ma már nem a szolgáltatás felhasználói, hanem a Google Translate mögött húzódó mesterséges intelligencia végzi, de azért még most is van lehetőség a javaslatok beküldésére. A Mozilla nyílt forráskódú Common Voice hangadatbázisa várhatóan még idén elérhetővé válik az érdeklődő fejlesztők számára. Aki szeretne jelentkezni "hangdonornak", vagy csak szeretne segíteni a már felvett tartalmak ellenőrzésében, itt megteheti – de csak FireFox, Chrome vagy Edge webböngésző alól, az Internet Explorer 11 nem lesz jó.
Új hozzászólás írásához előbb jelentkezz be!

Eddigi hozzászólások

7. katt777
2017.07.21. 11:15
Egyre több szoftverkészítő gyúr a Stasi módra. A legügyesebb kémszoftver (lehallgató/adatgyűjtő „berendezés“ automatikus jelentésírással) gyártója pedig beszállítói szerződést kap, na, hol? Petya wanna cry.
 
Válasz írásához előbb jelentkezz be!
6. BiroAndras
2017.07.21. 11:50
Érdekes, hogy még mindíg ilyen kezdetleges ez a technológia. Az egyetemen kb. 20 éve foglalkoztunk ugyanezzel a problémával. Egy kis előfeldolgozással és nagyon primitív MI-vel az akkori gépeken is egész jó eredményeket értünk el.
És már akkor is a minta adatbázis felépítése volt az egyik nagy probléma.
Azt gondolnám, hogy ma már ennek nem kellene problémának lennie, hiszen az interneten végtelen mennyiségű hangminta áll rendelkezésre, csak fel kell dolgozni.
Mi úgy csináltuk, hogy az új mintákra ráengedtük a hang felismerőt, és kézzel csak az esetleges hibákat kellett javítani. Ugyanis nem volt elég az, hogy melyik szó van a felvételen, fonémákra kellett bontani a felvételt.
Ezután az újabb adag mintával meg lehetett ismételni a tanulást, és ezt iterálva viszonylag kis munkával lehetett előre haladni.

Szerintem ma már mélytanulással megoldható lenne, az emberi beavatkozás nélküli tanulás is. Kiindulásnak a már létező beszéd felismerő rendszereken kellene átfuttatni a hangmintákat, és azoknak a tévedéseit már szerintem képes lenne a rendszer felismerni, és javítani. Így gyakorlatilag korlátlan mennyiségű mintán lehet tanulni, mindenféle háttérzajok mellett, és a világ összes nyelvén.
Sőt, valószínűleg bőven lehet olyan felvételeket is találni a neten, ahol konkrét szöveget olvasnak fel az emberek. Hangos könyvek például. Bár azoknál nincs háttérzaj, és viszonylag kevés ember olvassa fel őket, de azért biztosan nem lenne haszontalan.
 
Válasz írásához előbb jelentkezz be!
5. Busterftw BiroA...
2017.07.21. 13:16
Szerintem vannak melytanulasos projektek, de azok nem lesznek belathato idon belul open soucre-ok.
Mozilla-nak az a celja (mind a legtobb szabvanya), hogy egy nyitott technologiat hozzon letre.

Az mondjuk igaz, hogy rengeteg ingyenes forras van neten, radiok, podcastok etc.
 
Válasz írásához előbb jelentkezz be!
4. katt777 BiroA...
2017.07.21. 18:59
Értsd már meg, hogy itt a lehallgatás a fő szempont, lehetőleg minél nagyobb méretekben. Persze, hogy meg lehetne csinálni anélkül, ma már elég hozzá a szt kapacitás.
 
Válasz írásához előbb jelentkezz be!
3. BiroAndras katt7...
2017.07.21. 19:09
Ha akarnak, most is kiválóan lehallgatnak, ehhez nem kell semmi új technológia.
 
Válasz írásához előbb jelentkezz be!
2. fofoka
2017.07.21. 22:15
Persze a lehallgatásban is jól jönne, de lássuk be, ezen kívül sok más területen is lehetne használni. Nem kell hozzá gimnáziumi érettségi, hogy ezt valaki felfogja.
 
Válasz írásához előbb jelentkezz be!
1. Dante73 katt7...
2017.07.22. 11:26
Az esetek 60%-ában 1, 95%-ában 2 méteren belül van a számhoz képest a telefonom. Mióta a mikrofont be lehet rajta távolról kapcsolni, azóta szinte bárki lehallgathat, aki ENGEM akar.
Ezzel, (legrosszabb esetben) annyi változik, hogy ezt majd egy gép teszi, folyamatosan.
Ám, mivel viszonylag ritkán tervezek öngyilkos robbantást, bankrablást, vagy éppen felnőtt témájú film forgatását kiskorúakkal, így a beépített szűrőn nem fogok fennakadni, tehát az, hogy folyamatosan egy gép fog figyelni, valahogy nem hat meg... Irtózat szörnyűség fog történni, ha esetleg el sem kell majd mondanom, a telefonban, milyen pizzát hozzon a futár, mert csak telefonálok, azt mondom, hogy -PIZZÁT! és a diszpécser gépe kiírja, hogy ma épp milyen pizzára vágyom. és hová is kérem. BORZALOM!
Azt viszont értékelni fogom, ha a telefonommal, "Májkel Nájt" módra cseveghetek, az édes anyanyelvemen...
 
Válasz írásához előbb jelentkezz be!