Ezért aztán fogtam, feltöltöttem a dokumentumkezelőmbe. Aztán lefejeltem az asztalt, hogy miért lett hirtelen olyan sok fájl, ugyanolyan néven. Hát azért, mert a fájlokat verziózni minek. Úgyszintén minek Docspellben.
Ja meg igen, van doxc meg pdf, de a paperless nem mutatja a típust, szóval érdemes úgy kezdeni a fájlnevet, hogy pdf vagy docx... vagy hagyni a picsába ezt a trágyát*.
Mellékesen Mayan EDMS demó itt.
Komolyan. Egyre nagyobb hibának érzem, hogy elengedtem a fájlrendszeren tárolást.
*) Azt csak most vettem észre, hogy ha kitörlöm a doksit, és a kukából is eltüntetem, akkor ha feltöltök egy új verziót, akkor is a régi fájl dátumát mutatja mint feltöltés dátuma... oké, lehet kéne frissíteni, de ezek után inkább nem, köszönöm.
- Fisher blogja
- A hozzászóláshoz be kell jelentkezni
- 707 megtekintés
Hozzászólások
Btw. Otthoni dokumentumok, számlák garancia, stb tárolására mit ajánlanál? Van itthon egy kis proxmox szerver szóval lehet standalone, docker, bármi.
“The basic tool for the manipulation of reality is the manipulation of words. If you can control the meaning of words, you can control the people who must use them.”
― Philip K. Dick
- A hozzászóláshoz be kell jelentkezni
Jelenleg semmit :)
Elvileg a Mayan jó lehet, de ha jól emlékszem, akkor - amikor még működött a demója - csak nevettem rajta. Most meg van fontosabb dolgom is, mint hogy dockerbe feldobjam és böködjem.
Update: na, nem a Mayan volt. Feldobtam, böködtem, kicsi hozzá a VPS-em, lapoztam. Viszont így 10 perc után a Teedy egész szimpatikus. Pont nem ilyet akartam, de működik, keveset tud (annyira talán nem is), de az nekem pont elég, és pattog mint a nikkelbolha az olcsó VPS-en is.
Aztán így beugrott, hogy egy owncloud (vagy most épp mi a legfrissebb manifesztációja) szintén jó lehet, mert sok dolgot tud. Nagyon nem emlékszem rá, mert régen használtam, de ha illik a mindennapjaidba, akkor lehet hogy tökéletes választás a kontaktokkal, képekkel, miegyebekkel együtt.
- A hozzászóláshoz be kell jelentkezni
Hát ha a nextcloud valamolyen pluginnal tudna akár OCR képességeket is az tök szuper lenne...
“The basic tool for the manipulation of reality is the manipulation of words. If you can control the meaning of words, you can control the people who must use them.”
― Philip K. Dick
- A hozzászóláshoz be kell jelentkezni
Hát, van pár esélyes: https://apps.nextcloud.com/?search=ocr
- A hozzászóláshoz be kell jelentkezni
Ez érdekes.
Régóta keresünk olyan dokumentumkezelőt, amely OCR képességgel rendelkezik és a fájlokat a tartalmuk szerint elemezni, értékelni, szortírozni tudja.
Egy döglött projekt lett belőle, altatásban várja, hogy elővegyük.
- A hozzászóláshoz be kell jelentkezni
Így, most, az elmúlt egy nap nettó fél órája alapján ez már az alap(*).
A verziókezelés meg egzotikum. Változnak az idők.
*) Más kérdés, hogy pl. a paperless-ngx faszul csinálja, pl. elvileg kitalálhatja, hogy melyik céghez tartozik az adott ojjektum, pl. Eon, mert a szöveget statisztikázza(?), de nekem a gyakorlatban ez úgy 30%-ban működött.
- A hozzászóláshoz be kell jelentkezni
Utoljára úgy fél évvel ezelőtt egy "szakértő" csapat százmilliós AI fejlesztési projektnek nevezte a feladatot. Ennyire gyorsan azért nem változik semmi.
- A hozzászóláshoz be kell jelentkezni
Ahogy vissza is kérdeztek, a feladat kicsit alulhatározott. Ugye nem ismeretlen, hogy a "ja, el is felejtettük, még ez is kéne bele" után hirtelen ugrik egy nagyságrendet az ár.
De elvileg rendszerezést a paperless is tudna, pl. céget hozzárendelni meg címkéket. Én öntanulón hagytam, hogy hátha jó lesz, de nem lett. Persze lehet fixre is állítani, lásd: https://docs.paperless-ngx.com/advanced_usage/
- A hozzászóláshoz be kell jelentkezni
Egyetértek, a feladat definíciója nagyon felületes. Amit a postabontóban Gizike tud, azt kell tudnia a szoftvernek, csak nem papírokkal, hanem fájlokkal. Megkockáztatom azt a provokatív kijelentést, hogy innentől a feladatkijelölés egy normális üzleti modellben az informatika dolga, nem a megbízóé, aki fizet a megoldásért.
Ha az informatikus aztán felveszi a megoldandó feladatok közé a kávéfőzést is, és megoldja szoftveresen, akkor ez esetleg lehet plusz opció az árban, amit nem mindenki fog igénybe venni. Ez az informatika kockázata. Az Amazon modellje szerintem nem tud kávét főzni.
Mentségünkre szóljon, hogy a világon szerintem több tízmillió postabontó van és mindegyikben nagyjából ugyanaz a feladat. Nem kérdéses, hogy néha Gizike ki tud borulni, olyan hülye levelek is érkeznek, mert a feladók kevésbé érintettek abban a meccsben, amit egy informatikai fejlesztő a fogyasztó igényeivel szemben játszik.
- A hozzászóláshoz be kell jelentkezni
Amit a postabontóban Gizike tud, azt kell tudnia a szoftvernek
Hát, Gizike egy ember, aki nagyon sok dolgot tud értelmezni, például csúnya kézírást is, ezt azért a gépek nem tudják olyan olcsón. Vehetsz sokféle AI szolgáltatást, de lehet, hogy Gizike olcsóbb és pontosabb. Azaz lehet jobban jársz a kézi kategorizálással továbbra is.
- A hozzászóláshoz be kell jelentkezni
Ezt belátom, de nem fogadom el, mert ismerem Gizike értelmi képességeit és látom hogy a munkája ennek ellenére is hibátlan. A projekt alszik és szerintem hamarosan újra megnyitjuk.
- A hozzászóláshoz be kell jelentkezni
és a fájlokat a tartalmuk szerint elemezni, értékelni,
Ez mit jelent? Írjon róla automatikusan egy összefoglalót? Vagy mit értesz az alatt, hogy a rendszer elemzi és értékeli a fájlt?
- A hozzászóláshoz be kell jelentkezni
[Eleje] Postás megáll a pult előtt, a leveleket kiborítja, Gizike szépen egyenként felbontja a borítékokat, hozzátűzi a levelekhez (hogy megállapítható legyen, mikor adták fel, hol és mikor érkezett)
- ránéz a tartalmukra, látja róla hogy ez egy számla, egyik kupacba teszi, látja róla, hogy ez egy reklamáció, másik kupacba teszi, látja róla, hogy ez egy reklám, harmadik kupacba teszi stb. stb.
[Vége] a kupacokat aztán külön külön a számára előírt munkafolyamat szerint továbbítja az emeleten a különböző címzetteknek vagy a tőle balra lent elhelyezkedő kukába.
Az eleje és a vége szerintem mindenhol rendezett, a közepe meg a világ összes vállalkozásában, ahova posta megy és ahol van postabontó, nagyjából ugyanaz.
Annyi minta van rá, mint égen a csillag.
- A hozzászóláshoz be kell jelentkezni
Jó, hát ez csak kategorizálás, klasszifikáció, nem mély elemzés. Ezt azért nagyon sok CMS tudja, pl. Alfresco is. Persze nem ingyen.
https://docs.alfresco.com/intelligence-services/latest/
Van benne OCR, klasszifikáció, az Amazon megfelelő szolgáltatásait használva.
Ami neked kell, az az Amazon Comprehend Custom classification: https://docs.aws.amazon.com/comprehend/latest/dg/how-document-classific…
- A hozzászóláshoz be kell jelentkezni
Kösz, ez nagyon érdekes. Ismer valaki olyat, aki ezt idehaza kínálná, "nacionalizálva"?
Az Alfresco-val néhány évvel ezelőtt befürödtünk, nem fognék bele megint. Annyit látok, hogy Microsoftnak is van hivatalos megoldása ilyesmire a mostanában sokat emlegetett Sharepointtal. Úgy látszik a Sharepoint nyújt elegendő tapasztalati információt a szabályok kialakításához a Microsoftnak... persze bizalmasan. Nem baj, ha fizetős, de én mondjuk a nextCloud felé keresgélnék inkább, mert az már bevált nálunk valamennyire.
- A hozzászóláshoz be kell jelentkezni
Van, aki gyárt nextCloudhoz is Comprehend integrációt: https://n8n.io/integrations/aws-comprehend/and/nextcloud/
De ez nem biztos, hogy tudja azt, ami neked kell:
Detect Dominant Language - Identify the dominant language
Detect Entities - Inspects text for named entities, and returns information about them
Detect Sentiment - Analyse the sentiment of the text
De nézz körül, hogy az n8n mit kínál még, nem ismerem, Google első találat volt.
- A hozzászóláshoz be kell jelentkezni
Köszönöm a segítséget! Megnézzük.
- A hozzászóláshoz be kell jelentkezni
> hogy ez egy reklám, harmadik kupacba teszi
mondjuk ez meg az emailek eseten sem mukodik 100% megbizhatosaggal, mondom ezt ugy hogy 25 eve foglalkozom spamszuro fejlesztessel...
- A hozzászóláshoz be kell jelentkezni
A spam szűrés analóg ügy, nem tudom hogy az AI milyen szerepet játszhat benne és mióta.
- A hozzászóláshoz be kell jelentkezni
en mar 2016 ota hasznalok AI-t (foleg CNN-t) hozza, sok esetben nagyon jo, de annak sincs 98-99%-nal jobb pontossaga. es nagyon sok tanitas utan (kb 120 ezer minta!)
csinaltam teszteket LLM-ekkel is, kicsit jobb de az eroforrasigenye tobb nagysagrenddel magasabb, nem eri meg.
- A hozzászóláshoz be kell jelentkezni
98-99% laikusként pedig elég jónak számít, pláne más módszerekkel kombinálva – vagy nem az?
- A hozzászóláshoz be kell jelentkezni
szerintem az, a zugyfelek szerint nem, nagyon fel tudnak haborodni ha havonta beesik 1-2 spam/adathalasz a szuro ellenere. amellett hogy napi sok 100-at meg kiszur.
- A hozzászóláshoz be kell jelentkezni
Akkor ugyanazokkal a felhasználókkal van dolgunk.
- A hozzászóláshoz be kell jelentkezni
> tartalmuk szerint elemezni, értékelni, szortírozni tudja.
text classification amit keresel, regota meg lehet oldnai sokfele keppen, kezzel irt regexp-ekkel, bayes statisztikaval, doc2vec-el, CNN neuralis haloval, LLM-el stb, kerdes mennyire komplex a problema es mennyi eroforras van ra. ami kozos mindegyikben hogy eloszor meg kell tanitani, ehhez jol cimkezett mintak kellenek, eleg sok.
- A hozzászóláshoz be kell jelentkezni
Paperless-ng nevű cuccban van Tesseract integráció.
Nextcloud-hoz jó lehet a Full text search - Files - Tesseract OCR kiterjesztés.
- A hozzászóláshoz be kell jelentkezni
Az a baj, hogy ahhoz, hogy egy dokumentumról felismerje, hogy az pl. egy számla, sajnos nem elég, hogy a szövegben van-e "számla" karaktersorozat.
- A hozzászóláshoz be kell jelentkezni
kb 1 eve olvastam a Minneren, hogy talan egy roman faszi fejlesztett egy szoftvert ami kb barmilyen szamla jellegu doksibol kiszedi rendesen az adatokat, es ezt arulja multiknak es milliardos lett belole.
kerdes van-e meg szukseg ilyenre, mikor a NAV-nal ott van minden szabvanyos xml-ben, csak le kell tolteni... (kiveve persze ha kulfoldi szamlakrol van szo)
- A hozzászóláshoz be kell jelentkezni
Az hogy a számla mitől számla, viszonylag korrektül szabályozott. Törvény határozza meg a számla "kellékeit". Ha nem papírra nyomtatják és nem EDI fájlban küldik meg, akkor a feladat ugyanaz ma is, bár abban igazad van, hogy a NAV hatálya sajnos nem terjed ki az egész világra. Ebben is előrébb járunk a művelt nyugatnál, sok helyen még ma is egy sajtcetlit is le lehet könyvelni számlaként.
- A hozzászóláshoz be kell jelentkezni
10+ éve voltunk dokumentumkezelős rendezvényen, ott "hardveres" dokumentumszkenner tudta azt, hogy beleszórtál mindenféle mindenfélét, értve ez alatt, hogy a bolti cetlitől kezdve a kb. A5-ös méretig mindent, kicsit gyűröttet, kicsit szakadtat, fejjel lefelé, felfelé (és talán kétoldalasan scannelt eleve), aztán azokat kb. zrrrr átpörgette és köpte ki az adatokat. Én csak pislogtam. Létező technológia, bár a számomra még mindig fekete mágia.
- A hozzászóláshoz be kell jelentkezni
Mi is kb 10 éve használunk ilyen szoftvert imaging célból, de az csak a dokumentumokon levő vonalkódot használja fel, igaz azt akármelyik sarokban, középen, nem várt helyen vagy az okmány hátulján is felismeri. A "darálás" viszonylag érzékeny, ha nem jó papírt rakunk bele, hibát jelez és manuálisan kell a WC papírt szkenneltetni vele. Egyébként meglepően hatékony.
Nekem úgy tűnik, hogy maga az ismeretanyag, ami alapján a dokumentumok szortírozhatók, értékelhetők, nagyon nagy mintán kell alapuljon és nem véletlen, hogy a tudás a Microsoft, a Google vagy az Amazon kezében van.
- A hozzászóláshoz be kell jelentkezni
Itt az egyik fő dolog amire büszkék voltak, hogy "bármilyen" papírt korrektül kezel, legyen az hártyavékony vagy kartonszerű. Jó, most azért túlzok, de nagyjából ez volt a helyzet.
A papíralapú dokumentumkezeléshez kb. semmi közöm egyébként, úgymond véletlenül kerültünk oda, mert nekünk kizárólag a digitális része volt az érdekes.
- A hozzászóláshoz be kell jelentkezni
Aztán most így erőltetem az emlékeimet, és olyan 50% hogy hallucinálok, de talán még az is téma volt, hogy a táblázatokat táblázatként adja vissza. De... szóval akinek ilyen kell, az jobb ha nem rám hallgat, hanem olyanra, aki ért is hozzá :)
- A hozzászóláshoz be kell jelentkezni
Wow.
Ilyet bérelni nem lehet egy hétvégére?
- A hozzászóláshoz be kell jelentkezni
Szerintem lehet, de nem akarod tudni, hogy mennyiért. ;^))
- A hozzászóláshoz be kell jelentkezni
Jó, jó, azért még ne engedjük el, mert te sem tudod, hogy hány ilyet kéne feldolgozni vele :D
- A hozzászóláshoz be kell jelentkezni
Nálunk naponta 2 ilyen, de 11-re végezni kell vele hajcsárkodási okból.
- A hozzászóláshoz be kell jelentkezni
De, lehet.
- A hozzászóláshoz be kell jelentkezni
Így hogy látom, nem esküdnék meg, hogy nem pont a Terc volt aki demózott.
- A hozzászóláshoz be kell jelentkezni
Teedy pár nap használat után.
Hááát... oké, van egy logikája, amit még el tudok fogadni. De hogy letöltéskor előzékenyen odaveri a verziószámot a fájlnévbe, mert csak... hát azt már nem.
Egyelőre reménykedek, hogy ki lehet kapcsolni ezt a bugot.
Update: aha, csak akkor, ha egybe, .zip-be csomagolva töltöm le...
- A hozzászóláshoz be kell jelentkezni