Best AI tool for ...

Sziasztok,

Ma már ezernyi AI megoldás közül válogathat az ember.
Gondoltam érdemes lehet összeszedni, milyen feladatra miket lehet, és mit érdemes használni.
Kíváncsi vagyok, milyen feladatra kinek, mivel, milyen tapasztalata van, melyiket ajánlja.
Elsősorban az ingyenes, vagy olcsó megoldások (<10EUR / hó) érdekelnek.

Ami gyorsan eszembe jutott, amire használtam, használni próbáltam, vagy használni szeretném a közeljövőben:

  • programozás (egyszerűbb függvények létrehozása, elsősorban C++, Ruby, JavaScript) Jó lenne, ha emlékezne rám, idővel megtanulná/megszokná a stílusomat, preferenciáimat.
  • automata tesztek írása webalkalmazásokhoz
  • nagyobb szövegek (regények) nyersfordítása angol/német/francia/spanyol -> magyar
  • speech to text (magyarul és angolul is)
  • OCR (szerintem ezen is sokat dobhat egy nyelvi képesség, talán a kézírás utólagos felismerése sem lehetetlen)
  • novellákhoz, regényekhez illusztrációk készítése (fekete-fehér rajz, vagy réznyomat stílusban)
  • képek retusálása 1.: kamera elé belógó ujj, épületfotóba belerondító vezetékek vagy közlekedési lámpák eltüntetése (esetleg további, más szögből készült képek segítségével)
  • képek retusálása 2.: bemozdult képek, rossz fókusz, régi gyűrött, megsárgult fekete-fehér képek felújítása
  • karikatúra készítése meglévő fotó(k) alapján
  • utazás/nyaralás tervezés (költségoptimalizálás adott időszakon belül az időpont kiválasztásával, program-tervezés - gyerek korának és az érdeklődési köreink figyelembe vételével -, esőnap esetén B terv, stb.)
  • hírek kivonatolása az érdeklődésemnek megfelelően.
  • weboldalak figyelése, (fizetős, loginos oldalak is) és jelzés ha számomra érdekes tartalom jelenik meg (pl. valamelyik aukciós oldalon feltűnt valami, ami érdekelhet, vagy olyan sportesemény, vagy koncert jön, stb.)

Hozzászólások

Ha találsz text to speech-re magyar megoldást, ami offline mp3-ba ment, akkor írd meg kérlek. Egy ideje keresek ilyet.

Piper: https://github.com/rhasspy/piper (wav-ot gyárt, de gondolom nem okoz gondot ebből mp3-at generálni). Home Assitsnat alatt ez a default, ha lokális asszisztenst használsz, szerintem nem rossz, de azért a Microsoft online  tts-e jobban szól.

Nálunk ezt találta ki az egyik kolléga W10 alatt:

Edge, bejelentkezés nélkül is elérhető a Copilot, ezek után Ctrl-O -val betölt egy PDF-et a kívánt szöveggel, majd jobb gomb és Felolvasás.

És máris csak az Audacity-t kellett kicsit állítgatni, hogy a picit furán hangsúlyozó szöveget felvegye, és ebből már kb. olyan formátumba mented, amibe jól esik. (A gyárilag alapértelmezett Szabolcs talán a leggyatrább hang, de a Hnagbeállítások segítségével még talált párat.)

Programozásra nekem Aider vált be a legjobban. Ez egy helyben futó konzolos ügynök, ami a helyi fájljaidon dolgozik.

Nagyon komoly cucc, szerintem a fizetős ügynökök is gyermetegek még ehhez képest. Aider legutóbbi kiadásaiban az új kódok 50-70%-át már Aider írta.

Akármilyen modellre, modellekre rá tudod kötni. Szerintem előfizetni értelmetlen bármire is. Én OpenRouterre töltöttem fel pár dollárt, azzal használom.

OpenRouter egy proxy, ami a legtöbb modellhez tud csatlakozni és felhasznált tokenenként vonogatja az egyenleget. Minden modellnek más ára van.

Jellemzően úgy használom, hogy architect modellnek Claude-3.5-Sonnet van beállítva (ez a modell nagyon jó tervező, de szerkesztésre túl drága használni), editor modellnek pedig DeepSeek-et használom. Ez nagyon olcsó és teljesen jól működik Claude-dal együttműködve. Érdekes figyelni, ahogy a két modell társalog egymással :)

Persze érdemes más modelleket is kipróbálni. Nekem például az ingyenes experimental Gemini modell C++ kódolásra nagyon bejön. Nagyon pontos speckó alapján meglepően jó kódot generál simán önmagában is. Gondolom, a Google rengeteg belső C++ kódján tréningezték.

Javascriptre egyértelműen Claude-3.5-Sonnet a legjobb jelenleg szerintem, de GPT-o1 sem rossz, csak értelmetlenül drága.

Aiderrel mg tudod csinálni akár azt is, hogy minden generálás után futtassa a unit-teszteket és a hibák alapján tovább szerkesszen a kódon.

A Bito -t fizettem elő 10X Developer Plan -ben, Java kódoláshoz, IDEA Ultimateben pluginnel.

15 $ havonta.

A GPT-4o -val használom. Amiket tud:

- Ha jól felkommentezem a megírandó class -t, szinte kitalálja, hogy mit is akarok írni, csak a tab -ot kell lenyomni a ... megjelenése után.

- jUnit test case -ek generálása, ebben elég hasznos tud lenni.

- Meglévő kód kommentezése.

- Kód optimalizálás.

 

Copilot valószínűleg többet tud, de arról eddig csak meetup -ot láttam.

Van plugin hozzá VSCode -hoz is.

Szerkesztve: 2024. 11. 10., v – 05:37

> speech to text (magyarul és angolul is)

whisper, irtam is rola

> nagyobb szövegek (regények) nyersfordítása angol/német/francia/spanyol -> magyar

deepl.com

Szerkesztve: 2024. 11. 10., v – 08:25

Github copilot, Linux alatt vscode-ban használom, böngészőben github.com oldalon is megy. Python és Shell scripthez. A teljes kódom a context, szóval képben van. Egy egy új procedúra, funkció, metódus írásakor előre bedobja a végső megoldást TAB-ra, picit sokkoló. Nagyon kell ismerni a saját kódot és az adott nyelvet, nehogy bevigyen az erdőbe.

Linux terminálba is be lehet kötni, de azt nem próbáltam.

Jó kód ötleteket ad kommentblokk alapján. Jól tud dokumentálni, kódot analizálni, refaktorálni, hibakeresésben is nagyot segít.

Szöveges feladat leírás alapján (angol teljesen jó), a feladat megoldásra előírt nyelvi verziót/dialektust/keretrendszert alkalmazni tudó és elfogadható minőségű Java/JavaScript/SQL kódot generáló on-premises nyelvi modell/modellek mik lennének? Helyben futtatás ésszerű ráfordítás mellett (pl. egy dedikált 24GB rtx 3090 gpu még belefér munkahelyenként, de egy A100 cluster nem), sw engineering személyi productivity toolként használva LLM-et. Cloud LLM használatát nem látnám szívesen a fejlesztési folyamat részeként, igazából nem is engedném, ahogy verziókezelőként is on-prem git van nem github stb. On-prem is elsősorban csak kíváncsi vagyok mintsem különösebben hinnék benne. Nem a kód előállítása a lead time egy fejlesztési folyamatban, mindegy hogy cr vagy hibajavítás, vagy új funkció. Ha ennek az idejét egy ilyen generátor praktikusan nullára redukálja (senior/szakértő dev-ek vannak nem mankó kell nekik hogy meg tudják csinálni a munkát, hanem segédeszköz a termelékenység javításra), az egy számszerüsíthető, pénzértéken is kifejezhető jellemző, de továbbra sem az a főidő, a fejlesztési folyamat egészének kockázata, összetettsége nem sokat fog csökkenni vele, talán semennyit csak másképp lesz bonyi.   

Szerkesztve: 2024. 11. 10., v – 17:10

TTS-re sokan a fizetos elevenlabs-ot ajanljak, de helyileg futtatva vannak nagyon jo hangklonozo eszkozok. Az xtts-v2 mar nincs fejlesztve, de erre epul a chattts es az alltalk is, de huggingface-en van nagyon sok jo tts modell (f5tts) (nehany, pl az alltalk nagyon jo hanangklonozasra) - hangoskonyv gyartasra is. Stt-re egyertelmuen az openai whisper jo, abbol a nagyobb modellek szepen atirjak a magyart is. Alacsony igennyel a silero , piper is elfut.

Egy csomo dologra lehet hasznalni egy helyileg futtatott ollama-t vagy vllm-t, pl az ooo ollamat is tud hasznalni parancssorbol, parancssori egysorosokat tud gyartani szovegbol.

Kepfelismeresre nagyon helyi modellek vannak, a pixtral, llava nagyon jok, es van egy microsoft modell is ami foleg user interface screenshotok struktruralt leirasara jo.

Adattudomanyra meg nem sok jot lattam, de adatszerzesre , kinyeresre van nehany modell, peldaul a LlamaIndex. 

Programozasra az aider, pythagoran mind jonak tunik, egyelore nekem a helyi modellek gyengenek tunnek hozza. De a mistral es a supermaven, tabnine is ad ingyenes api-t programozashoz, sok vs code plugin tudja hasznalni.

Az open webui es a textgenerationwebui (oobaguba vagy mi a neve), es a gpt4all (m1 macen is) is jol elfut a gepen, tud pdf-t olvasni es szoveget generalni. 

Telefonon is lehet futtatni par modellt, a "pocket pal" nalam elketyeg. 

Egy 3090-esen en is gondolkodom. Most az egyik legolcsobb 24gb-os kartya.

Tegnap reggel lázas delíriumban üldögéltem a gép előtt (flú), és az éppen folyamatban lévő szekrényépítési projekten nyöszögtem: Cut-out plant kellene csinálni, hogy a meglévő rétegelt lemez lapokat minél inkább veszteségmentesen vághassam föl a kívánt méretű darabokra. Hallottam, hogy van olyan szoftver, ami tud ilyet, de nem szerettem volna a pilótavizsgás CAD-okat beüzemelni, szóval gondoltam, megkérdezem ChatGPT-t. Ajánlott is rögtön három Linuxos megoldást is, amiből az egyik egy Python library volt (py3dbp). No, gondoltam, nekem az lesz a legjobb, kértem, hogy írja meg nekem a kódot is hozzá, szépen leírtam neki a szitut. (Van 5 nagy lapom, az akarom szétvágni 24 kisebb darabra úgy, hogy ne legyen túl sok hulladék.) Mit ne mondjak, szépen ki is köpte a kódot, még az is ment neki, hogy ne szövegesen, hanem PDF-be exportált grafikába adja meg a kimenetet. Majdnem tökéletes lett a megoldás, csak néhány paramétert kellett állítgatni, és meg is volt kulcsrakészen minden kb fél óra alatt. Meglepett, pozitívan.

Csaba

Gyógyításban, diagnózis felállításban valakinek tapasztalat?

„Az összeomlás elkerülhetetlen, a katasztrófa valószínű, a kihalás lehetséges.” (Jem Bendell)

Lokálisan (on-prem) futtatok Ollama-t, azon llama3.1:70b-t, mixtral:8x22b-t, és más kisebb modeleket, RTX4000 Ada Gen GPU-n. Open WebUI felületen érem el az Ollama-t a lokál hólózaton, próbálom okosítani a modeleket RAG segítségével, Apache Tika dokumentumfelismeréssel. (Eléggé érdekel ez a téma, ez egy sub.)

Nem, a "sima" alap 70b (pl. 70b-instruct-q4_0) valóban nehézkes rajta a Q4_0 kvantálással, csak kb. 1,6-1,8 token/s a kimeneten, ami tényleg lassú, kb másodpercenként egy szót tol ki pl. a komolyabb és nagyobb doksik analizálásánál.

Kicsit lejjebb kell menni kvantálásban, pl. 70b-instruct-q3_K_M (34GB), vagy 70b-instruct-q2_K (26GB) ezek már jobban illeszkednek a 20GB VRAM-hoz, már 3-5 token/s is lesz a kimeneten, ami már nem olyan vészes.

De igaz, kellene bele még egy ugyanilyen kártya (egyébként nem A4000, hanem RTX4000 Ada 20GB) a fullos 70B paraméterhez.

Az a baj, hogy a kisebb LLM modelek 2-3b paraméterrel nagyon kis bénák, komolyabb munkára szerintem nem alkalmasak, csak ismerkedésre.

Keresesre, osszefoglalasra:

perplexity (ingyenes vagy fizetos) vagy helyileg futtatva a perplexica