Az UTF-8 teljes?

 ( ddmb | 2019. április 8., hétfő - 18:41 )

Tisztában vagyok az UTF-8 működésével, meg az egyes karakterek reprezentációjával, viszont azt nem értem, hogy miért nincsenek verziói? Kapásból az összes karakter belekerült? Nincsenek valamilyen fejlődő nyelvek, amelyeknek a karakterei csak később kerültek be? Pl. kínai... nem hagytak ki véletlenül belőle egy-két karaktert a kezdetek kezdetén, és csak most pótolták? Vagy az egész UTF-8 már érintetlen a kezdetek óta?

Hozzászólás megjelenítési lehetőségek

A választott hozzászólás megjelenítési mód a „Beállítás” gombbal rögzíthető.

Az UTF-8 egy kódolási algoritmus, mint pl. az UTF-16 vagy az ASCII. Bájtok és Unicode code pointok (gyk. számok) között konvertál. Összekevered a Unicode-dal.

A Unicode az egy szám, az UTF-8 ennek egy reprezentációja. Az, hogy a számból emoji vagy betű legyen, ahhoz a betűtípusnak vagy az OS-nek kell támogatnia az adott számot. Az Unicode-ban végtelen szám van: nyilván végtélen sok lesz, amit nem ismer az OS: akkor látsz valami default szemetet a helyén (pl.: négyzet).
--
https://naszta.hu

Olvass 2019. márciusi verziót: http://www.unicode.org/versions/Unicode12.0.0/
Unicode 12.0 adds 554 characters, for a total of 137,928 characters.
Ebben a 108 MB-os állományban az összeset megtalálod: https://www.unicode.org/Public/12.0.0/charts/CodeCharts.pdf

És mivel kíváncsi vagy, hogy melyik verzióban mit tettek bele: https://en.wikibooks.org/wiki/Unicode/Versions

kösz a válaszokat, eddig abban a tudatban voltam, hogy az UTF-8 is karaktereket rendel bitekhez/byteokhoz, viszont ez így nem teljesen igaz, ugyanis mindezt a UNICODEos code pointokon keresztül teszi.. és a Unicode-nak pedig vannak verziói

Pontosabban a Unicode az egységes karakterkészleted (jelenleg 18 bites), az UTF8 (8-bit Unicode Transformation Format) csak a Unicode egy változó hosszúságú kódolása, hogy kisebb méretű legyen a tároláshoz (RAM, háttértár) illetve a továbbításhoz.

Az UTF8 másik fontos tulajdonsága, hogy az eredeti ASCII 7 bites értékeivel kompatibilis, azaz továbbra is változatlanul olvasható a számítástechnika hőskorából származó szöveg.

+1

Őszintén szólva (a törpök életéhez hasonlóan) az Unicode sem csak játék és mese. Például az utf8 korábban 1-6 hosszú szekvenciákat engedett, aztán ezt visszavették 1-4 hosszra. Most nem lövöm le a poént (vagyis hogy miért), de ide beírtam, csak meg kell keresni: http://lzsiga.users.sourceforge.net/ekezet.html#Q0150

Szerk: az érdekesség kedvéért említsük meg, hogy a belátható jövőben a maximális unikód a 1,114,111 (0x10ffff), legalábbis amíg az UTF-16 végleg ki nem pusztul. (Ami sokára vagy sohasem lesz.)

[Feliratkozás]