ÚvodBlogy

Manifest Miroslae

Unicode, ASCII & UTF-8

black flat screen computer monitor

Unicode, ASCII & UTF-8: Jak se domlouvají počítače

Zdravím vás u dalšího článku, ve kterém se podíváme na svět textového kódování. Možná vás při čtení titulku napadlo, proč bychom měli řešit něco jako kódování textů. Vždyť je to jen text, ne?

Proč je kódování důležité?

Možná vás překvapí, že kódování textu je naprostý základ, díky kterému se můžeme bavit prostřednictvím internetu, číst e-maily nebo psát kód. Bez správného kódování bychom se setkávali s podivnými znaky, místo aby se nám zobrazoval čitelný text.

ASCII: Začátek textového kódování

Pojďme začít s ASCII (American Standard Code for Information Interchange). ASCII bylo vytvořeno v 60. letech a umožňuje kódování základní anglické abecedy, číslic a několika speciálních znaků. Celkem se jedná o 128 znaků, což na první pohled vypadá jako dost, ale pouze pokud píšete anglicky.

char: A = 65, B = 66, ...

ASCII je velmi jednoduché – každý znak je reprezentován číslem. Například 'A' je 65, 'B' je 66 a tak dále. Ovšem co když chcete napsat něco v češtině nebo čínštině?

Unicode: Jednotný standard pro všechny

Zde přichází na scénu Unicode. Unicode byl vytvořen jako globální standard, který zahrnuje všechny znaky všech písem světa. To už zní jako pořádná výzva, že? A taky že je. Unicode má dnes více než 143 000 znaků, a to už vyžaduje nějakou tu strukturu.

UTF-8: Jak se vejde celý svět do jednoho bajtu

Teď přichází na řadu UTF-8, což je nejpoužívanější kódovací formát pro Unicode. Je to variabilní formát, který používá 1 až 4 bajty na znak. Proč je to důležité? Protože UTF-8 je zpětně kompatibilní s ASCII, což znamená, že pokud máte text jen v angličtině, zabere přesně tolik místa jako v ASCII.

char: A = 65 (1 byte), č = C4 8D (2 bytes), 😊 = F0 9F 98 8A (4 bytes)

UTF-8 je skvělý, protože umožňuje efektivně kódovat texty s různými znaky, aniž by zabíral zbytečně mnoho místa.

Kde se s tím setkáme?

Nyní, když víme, co jsou ASCII, Unicode a UTF-8, je důležité vědět, kde se s nimi setkáváme. De facto všude, kde se pracuje s textem – webové stránky, e-maily, databáze, všude tam je potřeba zajistit správné kódování.

Tipy a triky

  • Vždy specifikujte kódování ve svých HTML dokumentech – například <meta charset="UTF-8"> v hlavičce HTML.
  • Pokud používáte databáze, ujistěte se, že podporují Unicode. Například MySQL podporuje UTF-8mb4 pro všechny Unicode znaky.
  • Při práci s API vždy zkontrolujte, že data jsou v očekávaném kódování.

Doufám, že vám tento článek pomohl pochopit, proč je kódování textu tak důležité a jak může ovlivnit vaše každodenní IT činnosti. Pokud máte jakékoli otázky, neváhejte je napsat do komentářů!