Dokumentumkezelés 2025.

Szóval az van, hogy kitöltöttem az egyik gépen a motyót, és le akartam tölteni a másik gépen...

Ezért aztán fogtam, feltöltöttem a dokumentumkezelőmbe. Aztán lefejeltem az asztalt, hogy miért lett hirtelen olyan sok fájl, ugyanolyan néven. Hát azért, mert a fájlokat verziózni minek. Úgyszintén minek Docspellben.

Ja meg igen, van doxc meg pdf, de a paperless nem mutatja a típust, szóval érdemes úgy kezdeni a fájlnevet, hogy pdf vagy docx... vagy hagyni a picsába ezt a trágyát*.

Mellékesen Mayan EDMS demó itt.

Komolyan. Egyre nagyobb hibának érzem, hogy elengedtem a fájlrendszeren tárolást.

 

*) Azt csak most vettem észre, hogy ha kitörlöm a doksit, és a kukából is eltüntetem, akkor ha feltöltök egy új verziót, akkor is a régi fájl dátumát mutatja mint feltöltés dátuma... oké, lehet kéne frissíteni, de ezek után inkább nem, köszönöm.

Hozzászólások

Btw. Otthoni dokumentumok, számlák garancia, stb tárolására mit ajánlanál? Van itthon egy kis proxmox szerver szóval lehet standalone, docker, bármi. 

“The basic tool for the manipulation of reality is the manipulation of words. If you can control the meaning of words, you can control the people who must use them.”

― Philip K. Dick

Jelenleg semmit :)

Elvileg a Mayan jó lehet, de ha jól emlékszem, akkor - amikor még működött a demója - csak nevettem rajta. Most meg van fontosabb dolgom is, mint hogy dockerbe feldobjam és böködjem.

Update: na, nem a Mayan volt. Feldobtam, böködtem, kicsi hozzá a VPS-em, lapoztam. Viszont így 10 perc után a Teedy egész szimpatikus. Pont nem ilyet akartam, de működik, keveset tud (annyira talán nem is), de az nekem pont elég, és pattog mint a nikkelbolha az olcsó VPS-en is.

 

Aztán így beugrott, hogy egy owncloud (vagy most épp mi a legfrissebb manifesztációja) szintén jó lehet, mert sok dolgot tud. Nagyon nem emlékszem rá, mert régen használtam, de ha illik a mindennapjaidba, akkor lehet hogy tökéletes választás a kontaktokkal, képekkel, miegyebekkel együtt.

Hát ha a nextcloud valamolyen pluginnal tudna akár OCR képességeket is az tök szuper lenne...

“The basic tool for the manipulation of reality is the manipulation of words. If you can control the meaning of words, you can control the people who must use them.”

― Philip K. Dick

Ez érdekes.

Régóta keresünk olyan dokumentumkezelőt, amely OCR képességgel rendelkezik és a fájlokat a tartalmuk szerint elemezni, értékelni, szortírozni tudja.

Egy döglött projekt lett belőle, altatásban várja, hogy elővegyük.

Így, most, az elmúlt egy nap nettó fél órája alapján ez már az alap(*).

A verziókezelés meg egzotikum. Változnak az idők.

 

*) Más kérdés, hogy pl. a paperless-ngx faszul csinálja, pl. elvileg kitalálhatja, hogy melyik céghez tartozik az adott ojjektum, pl. Eon, mert a szöveget statisztikázza(?), de nekem a gyakorlatban ez úgy 30%-ban működött.

Ahogy vissza is kérdeztek, a feladat kicsit alulhatározott. Ugye nem ismeretlen, hogy a "ja, el is felejtettük, még ez is kéne bele" után hirtelen ugrik egy nagyságrendet az ár.

De elvileg rendszerezést a paperless is tudna, pl. céget hozzárendelni meg címkéket. Én öntanulón hagytam, hogy hátha jó lesz, de nem lett. Persze lehet fixre is állítani, lásd: https://docs.paperless-ngx.com/advanced_usage/

Egyetértek, a feladat definíciója nagyon felületes. Amit a postabontóban Gizike tud, azt kell tudnia a szoftvernek, csak nem papírokkal, hanem fájlokkal. Megkockáztatom azt a provokatív kijelentést, hogy innentől a feladatkijelölés egy normális üzleti modellben az informatika dolga, nem a megbízóé, aki fizet a megoldásért.

Ha az informatikus aztán felveszi a megoldandó feladatok közé a kávéfőzést is, és megoldja szoftveresen, akkor ez esetleg lehet plusz opció az árban, amit nem mindenki fog igénybe venni. Ez az informatika kockázata. Az Amazon modellje szerintem nem tud kávét főzni.

Mentségünkre szóljon, hogy a világon szerintem több tízmillió postabontó van és mindegyikben nagyjából ugyanaz a feladat. Nem kérdéses, hogy néha Gizike ki tud borulni, olyan hülye levelek is érkeznek, mert a feladók kevésbé érintettek abban a meccsben, amit egy informatikai fejlesztő a fogyasztó igényeivel szemben játszik.

Amit a postabontóban Gizike tud, azt kell tudnia a szoftvernek

Hát, Gizike egy ember, aki nagyon sok dolgot tud értelmezni, például csúnya kézírást is, ezt azért a gépek nem tudják olyan olcsón. Vehetsz sokféle AI szolgáltatást, de lehet, hogy Gizike olcsóbb és pontosabb. Azaz lehet jobban jársz a kézi kategorizálással továbbra is.

[Eleje] Postás megáll a pult előtt, a leveleket kiborítja, Gizike szépen egyenként felbontja a borítékokat, hozzátűzi a levelekhez (hogy megállapítható legyen, mikor adták fel, hol és mikor érkezett)

- ránéz a tartalmukra, látja róla hogy ez egy számla, egyik kupacba teszi, látja róla, hogy ez egy reklamáció, másik kupacba teszi, látja róla, hogy ez egy reklám, harmadik kupacba teszi stb. stb.

[Vége] a kupacokat aztán külön külön a számára előírt munkafolyamat szerint továbbítja az emeleten a különböző címzetteknek vagy a tőle balra lent elhelyezkedő kukába.

Az eleje és a vége szerintem mindenhol rendezett, a közepe meg a világ összes vállalkozásában, ahova posta megy és ahol van postabontó, nagyjából ugyanaz.

Annyi minta van rá, mint égen a csillag.

Jó, hát ez csak kategorizálás, klasszifikáció, nem mély elemzés. Ezt azért nagyon sok CMS tudja, pl. Alfresco is. Persze nem ingyen.

https://docs.alfresco.com/intelligence-services/latest/

Van benne OCR, klasszifikáció, az Amazon megfelelő szolgáltatásait használva.

 

Ami neked kell, az az Amazon Comprehend Custom classification: https://docs.aws.amazon.com/comprehend/latest/dg/how-document-classific…

Kösz, ez nagyon érdekes. Ismer valaki olyat, aki ezt idehaza kínálná, "nacionalizálva"?

Az Alfresco-val néhány évvel ezelőtt befürödtünk, nem fognék bele megint. Annyit látok, hogy  Microsoftnak is van hivatalos megoldása ilyesmire a mostanában sokat emlegetett Sharepointtal. Úgy látszik a Sharepoint nyújt elegendő tapasztalati információt a szabályok kialakításához a Microsoftnak... persze bizalmasan. Nem baj, ha fizetős, de én mondjuk a nextCloud felé keresgélnék inkább, mert az már bevált nálunk valamennyire.

Van, aki gyárt nextCloudhoz is Comprehend integrációt: https://n8n.io/integrations/aws-comprehend/and/nextcloud/

De ez nem biztos, hogy tudja azt, ami neked kell:

Detect Dominant Language - Identify the dominant language

Detect Entities - Inspects text for named entities, and returns information about them

Detect Sentiment - Analyse the sentiment of the text

 

De nézz körül, hogy az n8n mit kínál még, nem ismerem, Google első találat volt.

en mar 2016 ota hasznalok AI-t (foleg CNN-t) hozza, sok esetben nagyon jo, de annak sincs 98-99%-nal jobb pontossaga. es nagyon sok tanitas utan (kb 120 ezer minta!)

csinaltam teszteket LLM-ekkel is, kicsit jobb de az eroforrasigenye tobb nagysagrenddel magasabb, nem eri meg.

> tartalmuk szerint elemezni, értékelni, szortírozni tudja.

text classification amit keresel, regota meg lehet oldnai sokfele keppen, kezzel irt regexp-ekkel, bayes statisztikaval, doc2vec-el, CNN neuralis haloval, LLM-el stb, kerdes mennyire komplex a problema es mennyi eroforras van ra. ami kozos mindegyikben hogy eloszor meg kell tanitani, ehhez jol cimkezett mintak kellenek, eleg sok.

kb 1 eve olvastam a Minneren, hogy talan egy roman faszi fejlesztett egy szoftvert ami kb barmilyen szamla jellegu doksibol kiszedi rendesen az adatokat, es ezt arulja multiknak es milliardos lett belole.

kerdes van-e meg szukseg ilyenre, mikor a NAV-nal ott van minden szabvanyos xml-ben, csak le kell tolteni... (kiveve persze ha kulfoldi szamlakrol van szo)

Az hogy a számla mitől számla, viszonylag korrektül szabályozott. Törvény határozza meg a számla "kellékeit". Ha nem papírra nyomtatják és nem EDI fájlban küldik meg, akkor a feladat ugyanaz ma is, bár abban igazad van, hogy a NAV hatálya sajnos nem terjed ki az egész világra. Ebben is előrébb járunk a művelt nyugatnál, sok helyen még ma is egy sajtcetlit is le lehet könyvelni számlaként.

10+ éve voltunk dokumentumkezelős rendezvényen, ott "hardveres" dokumentumszkenner tudta azt, hogy beleszórtál mindenféle mindenfélét, értve ez alatt, hogy a bolti cetlitől kezdve a kb. A5-ös méretig mindent, kicsit gyűröttet, kicsit szakadtat, fejjel lefelé, felfelé (és talán kétoldalasan scannelt eleve), aztán azokat kb. zrrrr átpörgette és köpte ki az adatokat. Én csak pislogtam. Létező technológia, bár a számomra még mindig fekete mágia.

Mi is kb 10 éve használunk ilyen szoftvert imaging célból, de az csak a dokumentumokon levő vonalkódot használja fel, igaz azt akármelyik sarokban, középen, nem várt helyen vagy az okmány hátulján is felismeri. A "darálás" viszonylag érzékeny, ha nem jó papírt rakunk bele, hibát jelez és manuálisan kell a WC papírt szkenneltetni vele. Egyébként meglepően hatékony.

Nekem úgy tűnik, hogy maga az ismeretanyag, ami alapján a dokumentumok szortírozhatók, értékelhetők, nagyon nagy mintán kell alapuljon és nem véletlen, hogy a tudás a Microsoft, a Google vagy az Amazon kezében van. 

Itt az egyik fő dolog amire büszkék voltak, hogy "bármilyen" papírt korrektül kezel, legyen az hártyavékony vagy kartonszerű. Jó, most azért túlzok, de nagyjából ez volt a helyzet.

A papíralapú dokumentumkezeléshez kb. semmi közöm egyébként, úgymond véletlenül kerültünk oda, mert nekünk kizárólag a digitális része volt az érdekes.

Szerkesztve: 2025. 07. 28., h – 19:49

Teedy pár nap használat után.

Hááát... oké, van egy logikája, amit még el tudok fogadni. De hogy letöltéskor előzékenyen odaveri a verziószámot a fájlnévbe, mert csak... hát azt már nem.

Egyelőre reménykedek, hogy ki lehet kapcsolni ezt a bugot.

Update: aha, csak akkor, ha egybe, .zip-be csomagolva töltöm le...