Az UTF-8 teljes?

UNIX haladó

Tisztában vagyok az UTF-8 működésével, meg az egyes karakterek reprezentációjával, viszont azt nem értem, hogy miért nincsenek verziói? Kapásból az összes karakter belekerült? Nincsenek valamilyen fejlődő nyelvek, amelyeknek a karakterei csak később kerültek be? Pl. kínai... nem hagytak ki véletlenül belőle egy-két karaktert a kezdetek kezdetén, és csak most pótolták? Vagy az egész UTF-8 már érintetlen a kezdetek óta?

1037 megtekintés

http://www.utf-8.com/

0 szavazat

A hozzászóláshoz be kell jelentkezni

Az UTF-8 egy kódolási algoritmus, mint pl. az UTF-16 vagy az ASCII. Bájtok és Unicode code pointok (gyk. számok) között konvertál. Összekevered a Unicode-dal.

0 szavazat

A hozzászóláshoz be kell jelentkezni

A Unicode az egy szám, az UTF-8 ennek egy reprezentációja. Az, hogy a számból emoji vagy betű legyen, ahhoz a betűtípusnak vagy az OS-nek kell támogatnia az adott számot. Az Unicode-ban végtelen szám van: nyilván végtélen sok lesz, amit nem ismer az OS: akkor látsz valami default szemetet a helyén (pl.: négyzet).
--
https://naszta.hu

0 szavazat

A hozzászóláshoz be kell jelentkezni

Olvass 2019. márciusi verziót: http://www.unicode.org/versions/Unicode12.0.0/
Unicode 12.0 adds 554 characters, for a total of 137,928 characters.
Ebben a 108 MB-os állományban az összeset megtalálod: https://www.unicode.org/Public/12.0.0/charts/CodeCharts.pdf

És mivel kíváncsi vagy, hogy melyik verzióban mit tettek bele: https://en.wikibooks.org/wiki/Unicode/Versions

0 szavazat

A hozzászóláshoz be kell jelentkezni

kösz a válaszokat, eddig abban a tudatban voltam, hogy az UTF-8 is karaktereket rendel bitekhez/byteokhoz, viszont ez így nem teljesen igaz, ugyanis mindezt a UNICODEos code pointokon keresztül teszi.. és a Unicode-nak pedig vannak verziói

0 szavazat

A hozzászóláshoz be kell jelentkezni

Pontosabban a Unicode az egységes karakterkészleted (jelenleg 18 bites), az UTF8 (8-bit Unicode Transformation Format) csak a Unicode egy változó hosszúságú kódolása, hogy kisebb méretű legyen a tároláshoz (RAM, háttértár) illetve a továbbításhoz.

Az UTF8 másik fontos tulajdonsága, hogy az eredeti ASCII 7 bites értékeivel kompatibilis, azaz továbbra is változatlanul olvasható a számítástechnika hőskorából származó szöveg.

0 szavazat

A hozzászóláshoz be kell jelentkezni

https://www.joelonsoftware.com/2003/10/08/the-absolute-minimum-every-so…

1 szavazat

A hozzászóláshoz be kell jelentkezni

0 szavazat

A hozzászóláshoz be kell jelentkezni

Őszintén szólva (a törpök életéhez hasonlóan) az Unicode sem csak játék és mese. Például az utf8 korábban 1-6 hosszú szekvenciákat engedett, aztán ezt visszavették 1-4 hosszra. Most nem lövöm le a poént (vagyis hogy miért), de ide beírtam, csak meg kell keresni: http://lzsiga.users.sourceforge.net/ekezet.html#Q0150

Szerk: az érdekesség kedvéért említsük meg, hogy a belátható jövőben a maximális unikód a 1,114,111 (0x10ffff), legalábbis amíg az UTF-16 végleg ki nem pusztul. (Ami sokára vagy sohasem lesz.)

0 szavazat

A hozzászóláshoz be kell jelentkezni

[Feliratkozás]

0 szavazat

A hozzászóláshoz be kell jelentkezni

Az UTF-8 teljes?

Hozzászólások