A Microsoft kutatási vezetője kínaiul szólalt meg virtuális avatarja segítségével

Pekingben, a Microsoft Research 20 éves fennállását ünneplő eseményen, Craig Mundie kínaiul szólalt meg a hallgatóság előtt. Tette mindezt saját hangján úgy, hogy nem tud kínaiul: fotorealisztikus avatarja segített a mondandó tolmácsolásában.

A természetes felhasználói interfészek át fogják alakítani a piacot, vélte Mundie. "Egy másik álmunk az, hogy képesnek kéne lennem arra, hogy az irodámban ülve elküldjem az avataromat, hogy találkozzon valakivel Pekingben. Én angolul beszélnék, az avatarom pedig valós időben mandarinul. Szeretnénk, hogy a számítógép szinkrontolmáccsá váljon."

A cikk itt olvasható.

Videó a technológia egyes részeiről:

Hozzászólások

"Szeretnénk, hogy a számítógép szinkrontolmáccsá váljon."

Szeretni én is sokmindent szeretnék, de a beszédszintetizátor, a valós idejű 3D és a Microsoft Translate egybekötve annyira szinkrontolmács, mint amennyire a disznóól űrállomás.

Pedig annyira már nem is áll messze egy Gépi fordítás az emberitől. Nem azt mondom, hogy a mai fordítóprogramok felveszik közelítőleg is a versenyt egy profi tolmáccsal (sőt ugyancsak orbitális marhaságokat tudnak fordítani), de néhány év, és már nem biztos, hogy ezt mondanám. Pl angol->francia esetben egy angol-francia szakos tanár haverom szerint egész ügyes. Szóval fejlődik ez szépen. Persze ettől függetlenül abszolút nélkülözhetetlen a nyelvtudás, viszont tanulni bizonyítottan mindenki az anyanyelvén sokkal hatékonyabban tud.

------
3 fajta matematikus létezik. Aki tud számolni, és aki nem.

Azért még sok víz le fog folyni a Dunán az elektronikus szinkrontolmácsig, elvégre ezek csak mintázatokat felismerő algoritmusok adatbázissal (amit gépi tanulásnak neveznek az mindössze statisztikai inferencia).

Ezzel a mechanikus megközelítéssel a természetes nyelvek nehezen feldolgozhatóak.

Ahhoz, hogy a számítógép szinkrontolmáccsá válhasson véleményem szerint a Turing-teszt teljesítésére lenne szükség, ami nem feltétlenül lehetséges mindössze a természetes nyelvek feldolgozásával, azok megértése nélkül, ami meg már az AI-komplett problémahalmaz részét képezi.

Ez szerintem még ettől is bonyolultabb. A Turing teszt egy szubjektív dolog. Logikaként pedig nem csak az emberi létezik (vedd alapul pl a sakkot, a gépi és az emberi is zseniális lehet, bár tény a sakk tisztán logikai játék, a nyelv pedig nem). Az tiszta sor, hogy a nyelvünk viszont ezen alapul. A nyelv is lényegében egy "sakkjátszma", te lépsz én lépek..... Vannak szabályai, változói.... Ami viszont a sakknak nincs az a szubjetív oldal. Nincs humora, rímei, hangulata......... Ez utóbbi rész amivel szerintem gyakorlatilag lehetetlen bármit is kezdeni. Véleményem szerint lehet írni egy szaknyelv fordító programot, de pl egy verset, vagy humoreszket fordítót nem. A szaknyelv erősen törekszik, az egyértelműségre, egyszerűségre, kivételmentességre.... Erre egy gép jó lehet. A többi esélytelen szerintem. A gépi szinkrontolmács ezért van kilőve. Kimarad az emberi oldal.

------
3 fajta matematikus létezik. Aki tud számolni, és aki nem.

egyetertek, a legtobb manapsag "meno" gepi fordito kizarolag statisztikai alapon mukodik, mert ha van hatalmas jo minosegu korpuszod, akkor jobb eredmenyt lehet elerni vele.
egy bizonyos pontig.
es altalaban a legtobb resztvevonek nincs igazan jo minosegu korpusza. :/
masik problema tovabba hogy meg mindig nem alapveto, hogy osszefuggo szoveget forditunk, nem pedig elszigetelt mondatok halmazat.

szerintem is az igazi szinkrontolmacshoz szukseg lesz ra, hogy a forditogep __ertse__ a fogalmakat, el tudja oket helyezni (pl. nem tudom mi az a banan, de ha edes es ledus, akkor valoszinuleg gyumolcs, etc.) es kepes legyen a tanulasra.

ugy gondolom hogy a jelenleg meg mindig erobol probaljuk megoldani a feladatot, illetve hogy a kizarolag statisztikai alapon mukodo gepi forditas nem lesz eleg az igazi gepi tolmacsolashoz.

ps: nem en vagyok a terulet legnagyobb szakertoje, de volt alkalmam egy picit belekostolni a temaba.

Tyrael

Tegyük azt is hozzá, hogy még így is csak addig vagyunk képesek eljutni, hogy az illesztő nyelvekről, illesztő nyelvekre tudunk fordítani.
Azonban, hogy csak pár közelebbit mondjak, a magyar, olasz, spanyol nyelv hajlító típusú nyelv, ahol elég komplex nyelvtani szabályok mentén hajlanak el a szavak formája. Ezeket a szabályokat matematikailag leképezni igencsak nehéz, majd pedig ezt a matematikát logikusan alkalmazni nem kevésbé.

A Dzsoni menni bele a New Yorkba dolgozni. Nem éppen magyaros, de ugyan ezt angolról, németre lefordítani pofon egyszerű, mitöbb az értelme is megmarad a mondatnak.

----
올드보이
http://molnaristvan.eu/

Miért, szerinted a te agyad hogy működik? Mintafelismerés, adatbázis. Az egyetlen dolog, ami miatt az emberek jobban fordítanak, az az, hogy a beszélt nyelvek nagyon-nagyon nem környezetfüggetlenek, és még a nyelvtanon kívül is környezetfüggőek. Tehát az egyes kifejezések helyes jelentése nem csak a közvetlen környezetüktől, hanem a tágabb, és a még annál is tágabb környezetüktől is függ. Ezt nehéz megragadni géppel, mivel minél kijebb megyünk, annál kevesebb lesz a statisztikai előfordulása egy-egy esetnek, baromi nehezen fogja megragadni a gép.
----
Hülye pelikán

"Miért, szerinted a te agyad hogy működik? Mintafelismerés, adatbázis."

Ez a klasszikus kognitizmus, csak éppen mára már jelentősen túlhaladottá volt, vagyis az emberi agy egészen másképpen, konnekcionista módon működik.

Ezt most kifejteném, de nincs rá időm, akárhogy is ha utánnaolvasol a konnekcionizmusnak akkor meg fogod érteni.

A Microsoft Research tehát nem mostanában (vagy egyáltalán nem) fog elektronikus szinkrontolmácsot létrehozni (ez a kutatás egyébként is mindössze marketingcélokat szolgál), de az IBM Research a megfelelő irányba indult el a SyNAPSE-al.

>> "ez a kutatás egyébként is mindössze marketingcélokat szolgál"

Két friss publikáció a Microsoft Research kutatóitól a témában:

Üdv,
Marci

Azon már rég túl vagyunk, hogy fogalmunk nincs, mi folyik az agyban. Nagyon sok mindent tudunk. Sokat meg nem. De nem kell a legapróbb részletekig ismerni valaminek a működését, hogy nagyjábóli képet alkothassunk a főbb mechanizmusairól. Biztos vagyok benne, hogy nem tudnék összerakni egy autót, de nagyjából értem, hogy működik a motorja, legalább alapvel szinten. Igen, hup autós hasonlat.
----
Hülye pelikán

csak azért az agy kicsit bonyolultabb, int az autó motorja...
(és igen, ezért nem jó a hup-os autós hasonlat(tm) már megint...)

(ráaádsul egy modernemm, közvetlen befecskendezéses, változó vezérlésű, biturbós motor meg már bonyolult annyira, hogy hiába érted, hogy úgy mködik, hogy elégeti a benzint, aztán forog a főtengely, részleteiben annyira más, annyira bonyolult hogy semmire sem més az alapelvvel... és még mindig csak egy autós hasonlatnál vagyunk...)

Elmentetek a lényeg mellett...

A Microsoft fikázása nélkül mondom, nekik is szükségük van mostanában megjelenő videókra, hogy prezentálják nem nagyon maradnak le a már mindenki (cégek és/vagy egyéni harcosok) által reprodukált "játékszerek" terén, persze ők ezt tudományosan csinálják.

A Speech API, ha jól emlékszem Windows 2000-óta lapul a windows-ban, kihasználatlanul, egy férfi, nő talán gyerek hangon és angolul, de ez már akkor is csak kiegészítés kérdése volt.
És az API már akkor is tudta ezt a 3D-s szájmozgást.

Ez (+) az MS-nek, 2000-ben.

De (-) az MS-nek, mert 2011 van és megint úgy állítanak be valamit, hogy mekkora nagy találmány.

néhány pl:

kinect-et előbb használták mások játékon kívüli 3D-s vezérlésekre, mint maga az MS.
A fej követésre (ami ms-nél ugye "very difficult") OpenCV videók a jutubon, ja és kinect előtt OpenCV már képes volt a 3D rekonstrukcióra.
Microsoft Mouse Without Borders vs. Synergy (persze ablak nem fog menni, de teccőleges számú és típusú oprendszer)
stb.

Ami az MS 2000-beli beszédszintetizátorát illeti, rendes hangkártyán is borzalmasan hangzott. Az őt egy évtizeddel megelőző SzKI-Recognita beszédszintetizátora csörgő-zörgő PC speakeren is sokkal jobban szólt.

Az SzKI-Recognita beszélőkéjét is lehetett más progiból hívni, így 15 éve beszélgettem a számítógépemmel magyarul úgy, hogy bepötyögtem a mondandómat, a gép meg "emberi" hangon válaszolt. Egyszerű mintaillesztéssel próbálta meg felfogni, amit kapott. Aztán az adott inputra adható válaszok közül véletlenszerűen választva, időt és dátumot is figyelembe véve válaszolt. MS-DOS-on, 1994-ben.

Teljesen igazad van!!!

...de azért még mindig sokkal jobb volt a nagy semminél, és hangot használható mértékben felismert.

Itt a lényeg, hogy a szoftver már 2000-ben is meg volt, csak most v5.3 és ennek megfelelően fejlődött is.

Ezt már az elmúlt 10 évben is használhattuk volna, mert nem volt teljesen sz@r.

Ez a hír tényleg csak marketing maszlag a sötétebbeknek, akarom mondani az átlag (j)lúzereknek.

Azaz megint leporoltak egy ki nem használt, de már meglévő technológiát, mint qva nagy fejlesztést.
És közben teljesen hülyének néztek bennünket.

Engem csak ez zavar egy kicsit.

Ja, erről jut eszembe egy hasonló, amikor a Longhorn fejlesztésébe kezdtek, akkor jelent meg pár videó, hogy milyen fasza felhasználóbarát lesz az új OS, egy asztalba épített tapi képernyőn fotókat/fájlokat baszkuráltak. Ez végül kimaradt. Aztán kiderült hogy a tengerentúlon kiadták ezt, de bukta volt, így kuss van. Ilyen a hírek a W7 fejlesztése előtt ismét előkerültek, és megint nyoma sincs, persze a W8 előtt megint ilyeneket lehet látni, gondolom ezután se lesz használható formában. Hozzáteszem nekem nem is hiányzik, mert baromság, gondolom ezért nem jött be.

Hello,

a Surface tényleg nem halott, sőt! Az is biztos, hogy az első verziónál nem volt cél a széles körű elterjedés.
Azonban a Samsunggal együttműködésben megszületett az a tranzisztortechnológia, ami a tömeggyártás felé vezető utat megnyithatja: http://www.microsoft.com/surface/en/us/pixelsense.aspx

Erre a technológiára épül a Samsung SUR40 készüléke, melynek prototípusa az idei CES-en bemutatásra került.
http://news.softpedia.com/news/Samsung-SUR40-for-Microsoft-Surface-Offi…

Üdv,
Marci

Dehát a májkroszoftnál csak az ügyvédi részleg dolgozik, nem!?!?!

jaj, de jó ez a windows!
------------------------------------
A Windowsról sokat elárul, hogy Slackwaret könnyebb telepíteni.

Ez előttem szólókhoz még hozzátenném, hogy egy tolmács nem csak fordít, de ismeri is a protokollt esetleg, szóval van hogy inkább mást fordít. Pl.: a kérdés "hogy van a kedves felesége?", nem jó akkor, ha nagy csinnadrattával vált el a férfi, mivel a feleségen végigment a teljes jégkoron válogatott és erről a neten is meg lehet győződni. Viszont nem biztos, hog a beszélő tudja ezt. Ezért van, hogy a tolmácsot is felkészítik azok az emberek, akik a cégvezető/politikus körül vannak és az a feladatuk, hogy mindent tudjanak.
Bár a fenti példa sántít, mert általában ilyenkor a fenti emberkének szólnak, hogy mi az amiről ne beszéljen, stb, stb. De értitek mit mondok....

Amúgy bohóckodni jó...bár akkor már inkább angolul kommunikálok, mint hogy valami úgy fordítsa le a mondandómat, hogy én se értsem. :D

Azt mondjuk sosem értettem, na persze nem kell értelmet keresni a SW-ben, hogy ott volt pl. R2D2, aki nagyon okos volt, és ugyan a teste tele volt pakolva mindenféle szerszámmal, de a futóműve azért egyszerű volt. Szóval a "fejében" azért lehetett hely bőven a vetítő, meg a mono optikája mellett. Ezért nem tudom, hogy miért spóroltak ki belőle egy kb 2 Ft-os alkatrészt amelynek segítségével valamilyen emberi hangot is ki tudott volna adni, nem csak az idióta csipákolást. Főleg úgy, hogy közben érteni meg megértett mindent. Ez miért csak annak a szellemi fogyatékos C3PO-nak járt, akinek ráadásul az "emberi" mozgásához is elég bonyolult szerkezet lehet a testében, meg a fejel is elég kicsi, ráadásul van benne 2 db, világítós, sztereó szem is. Ebből gondolom, hogy a több ezer nyelvjárás tudásához nem kellett valami nagy agy. :)

Megszámlálhatatlanul sok bolygó van. Nyílván azok fognak benépesülni hozzánk hasonló létformákkal, amik a Földhöz hasonlóak. Ha más bolygókra mennénk, biztos másfajta élőlényeket találnánk. Amúgy a legtöbb sci-fiben azért legalábbis megpróbálták megmagyarázni, hogy miért mindenki humanoid (különben nem minősül sci-finek, és nem, a star trek nem sci-fi. nem, a star wars sem).
----
Hülye pelikán

A TARDIS már 1963 óta tudja a valósidejű fordítást :P

Régebben amikor még vedeltem néha alkoholt nagyobb mennyiségben simán beszéltem kínaiul és semmilyen protokoll droid nem kellett hozzá :-)

--
A főnököm mindig megtartja amit ígér, ha pénzt ígér azt is!

1. a videóban angolul beszél a poligon arc.
2. a faszi miért nem tud kínaiul. Elfelejtette?
3. lipsync + text2speak. Húha...

--
GPLv3-as hozzászólás.

"How is that cool?" a videó végén. :)
Inkább "How cool is that?"-nek kéne lennie. :)

Hát 10 éve meg azt mondták, nem kell majd titkárnő. Csak diktálunk és a gép felismeri.
Ezt is úgy írtam. XD :)