Házi készítésű virtuális asszisztensem: Liza

https://photos.app.goo.gl/79ig4OjUTUdDa5DY2

Egyelőre a projekt pihen, majd úgy egy hónap múlva folytatom rendes mikrofonnal/hangkártyával raspberry pi-n.
Beszéd felismerés + beszédszintetizátor a google-től, minden más nulláról. Jelenleg képes egy böngészőben futni, felismer kb 20 féle utasítást/kérdést. Messze még, hogy legyen belőle valami hasznos dolog, de smart home-hoz mondjuk biztos jó lesz.

Mivel nyelvünk bonyolult, sokféle szórendet és ragozást használunk, plusz a G gyakran félreérti így első körben megoldottam, hogy - mint amikor nyelvet tanulsz - noha a teljes magyar nyelvet nem ismeri, de tudjon spekulálni, hogy mit akarhattál mondani. Ha bővül a szókincse nyilván még többet kell majd tanítani.
Lokálisan folyamatosan figyeli az elhangzottakat, tehát nem kell megszólítással kezdeni a mondandód, elég ha a mondatba - akár a végébe - belefoglalod a nevét.

Tervek: raspi kliens készítése, userek kezelése - így lehetővé válik, hogy több raspi legyen több relémodullal, érzékelővel vagy akármivel a lakásban és ezek összhangban tudjanak működni. Természetesen a kliens részét publikálni fogom ha majd valami értelmes kisült belőle valamikor... :)

Hozzászólások

Tetszik. A Mycroft keretrendszerét nem tudod használni? Én kipróbáltam a Linuxos telepíthető verzióját, és teljesen használható. Ha tudna magyarul is, szerintem tudna mindent, ami első körben kell. Érdemes megnézni, ha másra nem is jó, lehet belőle ötleteket venni.
--
Csaba

Jopofa, de ilyen nagy ceg API-jat - plane folyton hallgatozo modban - nem hasznalnam. Asszem az az Amazon rendszere volt ugyan, de volt, hogy egy vitatkozo parra rahivta a rendoroket..

Ha teljesen sajat kezben van, ugy mar mas. Persze tisztaban vagyok vele, hogy a beszedfelismeres nehez.

--
Any A.I. smart enough to pass a Turing test is smart enough to know to fail it. -Ian McDonald

Én is így látom, a folyamatos hallgatózással ha több ember van körülötte és többmindent beszél, egyszer csak "Liza, mondj egy viccet" és vagy nem is fog hallgatni a nevére, mert valami tök mást hall, vagy össze fog zavarodni, mert több szót hallott, mint kellett volna és nem érti (kipróbáltam otthon szüleimnél és ez történt).

Szóval alakul még ez.. :)

Érdekesnek tűnik
--
"Always code as if the guy who ends up maintaining your code will be a violent psychopath who knows where you live." John F. Woods

Tök jó :)

"Lokálisan folyamatosan figyeli az elhangzottakat, tehát nem kell megszólítással kezdeni a mondandód, elég ha a mondatba - akár a végébe - belefoglalod a nevét."

Viszont valami rémlik, hogy valamelyik, (talán samsung?) TV is ilyesmit csinált, és hogy kifakadtak az emberek, hogy miaz hogy mindig figyel. Vagy Microsoft kinect volt.
Ettől függetlenül hajrá :)

Egy nemet sracnak is van egy asszisztense ami open source, es beszedfelismeresre a pocket sphinx-et hasznalja, azt nezted mar?
itt van rola egy demo.

Igen jol tudod nem keszult meg hozza :) a doksit olvasva viszont kivitelezheto ezert is javasoltam, hogy esetleg nezz ra, ha mar ugyis bovulni fog "Lisa"szokincse:)
Amugy tetszik a projected, jo lenne ha sikerulne hamarabb kozzetenned. Esetleg megosztanad ami eddig elkeszult?

Egyelőre nem döntöttem meg, hogy opensource legyen-e az egész.
Jelenlegi álláspont: a logikáját mindenkinek otthon üzemeltetni tök hülyeség, mert minél többet tanul annál okosabb lesz és ha csak 1 ember használja örökké buta marad, de ha 10-100 egyből más a helyzet. Ha az adatbázisa localhoston lesz onnantól kezdve megáll a fejlődés, max forkok lesznek mindenhol.
Ellenben a kliensoldalt nyílttá tenném, átszerveznék bizonyos kódrészleteket oda, ezen kívül egy webes felületet is tervezek amivel custom mondatokat lehet neki betanítani amire személyreszabottan a megszoktottól máshogyan reagálhatna.

Ez az utóbbi fícsör lenne a kulcsa annak, hogy ha azt mondom, hogy "liza, kapcsold fel a lámpát a nappaliban", vagy "liza, indítsd be a klímát" (és hasonlók) tudjon személyre szabottan reagálni.

Ha ezt így hülyeségnek gondoljátok beszéljük meg, mert végülis nem jönne nekem se rosszul egy kis segítség a projektben :)

Az adatkezeléssel kapcsolatban egyeztetnem kellene egy ügyvéddel is még valószínűleg az adatok tárolását illetőleg is...

Most más munkaprojekt jött közben, így még mindig sleep van, de kb 2 hét múlva már fogom tudni folytatni.

Egyebkent vannak nagyon jo projectek ezen a teren, nem tudom ismered az enkelo beszedszintetizatort? :)
Itt lehet vele jatszani, bar ez is angolul tud.Ittpedig a demo.

Mindenesetre is, en figyelemmel kiserem mert igeretes.
Lehet neked is kellene valami brainstorming platformot inditanod ahogy az openassistant is tette