Logo Unikodu
Unicode
(formalnie
Unicode Standard
[1]
, pol. Unikod) ? komputerowy
standard
kodowania
zestawu znakow
obejmuj?cego litery wi?kszo?ci u?ywanych na ?wiecie
pism
, a tak?e symboli,
emoji
i
kodow formatowania
. Standard Unicode rozwijany jest przez
konsorcjum
Unicode, składaj?ce si? z firm wytwarzaj?cych
sprz?t komputerowy
,
producentow
oprogramowania
oraz instytutow naukowych, agencji mi?dzynarodowych i grup u?ytkownikow
[2]
. Konsorcjum wspołpracuje z organizacj?
ISO
.
W odro?nieniu od standardow takich jak
ISO 10646
, oprocz kodowania znakow publikacje konsorcjum Unicode dostarczaj? rownie? wiele szczegołow o
systemach pisma
i sposobie ich wy?wietlania: reguły normalizacji, dekompozycji,
kolacjonowania
,
renderowania
i dwukierunkowej kolejno?ci wy?wietlania dla tekstow wieloj?zycznych. Zawieraj? rownie? referencyjne pliki danych i wykresy wizualne, ktore pomagaj? deweloperom poprawnie zaimplementowa? standard Unicode
[3]
.
Standard Unicode definiuje przestrze? kodow? (
ang.
codespace
), ktora jest zbiorem warto?ci numerycznych (
ang.
code points
) od 0 do 10FFFF w
systemie szesnastkowym
[4]
. Wszystkie znaki Unicode zostaj? przypisane do jednej z warto?ci numerycznych przestrzeni kodowej i nazwane według wzoru U+0000, gdzie 0000 jest warto?ci? numeryczn? znaku
[5]
. Zapis warto?ci w tym systemie musi zawiera? co najmniej cztery cyfry ? gdy warto?? numeryczna znaku jest mniejsza, na jej pocz?tek zostaj? przypisane zera
[6]
. Przykładowo, znak dzielenia posiada warto?? numeryczn? F7 i jest zapisywany jako U+00F7, natomiast znak jednego z
egipskich hieroglifow
o warto?ci numerycznej 13254 zostaje zapisany bez ?adnych modyfikacji jako U+13254.
Istnieje kilka metod zapisywania warto?ci numerycznych znakow Unicode jako ich
bajtowe
odpowiedniki w
systemach komputerowych
. Rozro?nia si? mi?dzy systemami mapowania
UCS
(
Universal Character Set
) i UTF (
Unicode Transformation Format
), ktore dziel? si? na podgrupy zale?ne od ilo?ci bajtow potrzebnej do zapisania jednego znaku
[7]
.
Do najpowszechniejszych metod bajtowego kodowania znakow nale??:
Mniej popularnymi kodowaniami Unicode s?:
Istniej? rownie? inne kodowania, stanowi?ce margines lub pozostaj?ce na etapie propozycji, na przykład:
Standard Unicode zsynchronizowany jest ze standardem
ISO 10646
, stosuj?c te same warto?ci numeryczne dla poszczegolnych znakow. Zapis binarny tekstu
ASCII
jest rownie? kompatybilny z metod? zapisu znakow Unicode
UTF-8
[8]
.
Według ogłoszonej w 2005 roku wypowiedzi
Andrzeja Blikle
, członka
Rady J?zyka Polskiego
na stanowisku przewodnicz?cego Zespołu Terminologii Informatycznej
[9]
, sugeruje si? u?ywanie nazwy Unikod nie tylko jako okre?lenie stworzonego przez konsorcjum Unicode standardu, ale rownie? wszystkich pozostałych systemow unifikacji liter
[10]
. Stosuj?c tak? definicj?, Unikodem byłby rownie? mi?dzy innymi standard
ISO 10646
. Proponowana terminologia nie upowszechniła si? jednak w sposob prawidłowy i słowo Unikod najcz??ciej słu?y jako spolszczenie słowa Unicode, a nie odr?bne poj?cie w dziedzinie informatyki
[11]
[12]
[13]
, prawdopodobnie przez podobie?stwo obu nazw. Rownie? sama strona internetowa konsorcjum Unicode u?ywa Unikodu jako polskiego tłumaczenia Unicode
[12]
, co w 2017 roku spotkało si? z krytyk?
Janusza S. Bienia
[14]
. Słowo Unikod nie znajduje si? w
Encyklopedii PWN
, w przeciwie?stwie do słowa Unicode
[15]
. Poniewa? pierwotna wypowied? Andrzeja Blikle stanowiła zaledwie zalecenie
[10]
, dokładna definicja słowa Unikod pozostaje niejasna.
Standard Unicode jest dominuj?cym systemem kodowania znakow, a
UTF-8
jego najpowszechniejsz? implementacj?, u?ywany wewn?trznie w
systemach operacyjnych
takich jak
Unix
,
Windows
czy
macOS
. W roku 2020 u?ywało go około 98% stron internetowych
[16]
.
- 1991 Unicode 1.0.0 (pa?dziernik
[17]
)
- 1993 Unicode 1.1.0 (czerwiec
[17]
)
- 1996 Unicode 2.0.0 (lipiec
[17]
)
- 1998 Unicode 2.1.2 (maj
[17]
)
- 1998 Unicode 2.1.5 (sierpie?
[17]
)
- 1998 Unicode 2.1.8 (grudzie?
[17]
)
- 1999 Unicode 2.1.9 (kwiecie?
[17]
)
- 1999 Unicode 3.0.0 (wrzesie?
[17]
)
- 2000 Unicode 3.0.1 (sierpie?
[17]
)
- 2001 Unicode 3.1.0 (23 marca)
- 2001 Unicode 3.1.1 (sierpie?
[17]
)
- 2002 Unicode 3.2.0 (25 marca)
- 2003 Unicode 4.0.0 (17 kwietnia)
- 2004 Unicode 4.0.1 (marzec
[17]
)
- 2005 Unicode 4.1.0 (31 marca
[17]
)
- 2006 Unicode 5.0.0 (4 lipca
[17]
) (ogłoszenie prasowe: 18 lipca)
- 2008 Unicode 5.1.0 (15 marca) (ogłoszenie prasowe: 4 kwietnia
[18]
)
- 2009 Unicode 5.2.0 (1 pa?dziernika
[17]
)
- 2010 Unicode 6.0.0 (11 pa?dziernika
[17]
), m. in. start standaryzacji
emoji
- 2012 Unicode 6.1.0 (31 stycznia
[17]
)
- 2012 Unicode 6.2.0 (26 wrze?nia
[17]
)
- 2013 Unicode 6.3.0 (30 wrze?nia
[17]
)
- 2014 Unicode 7.0 (16 czerwca)
- 2015 Unicode 8.0 (17 czerwca)
- 2016 Unicode 9.0 (czerwiec)
- 2017 Unicode 10.0 (czerwiec)
- 2018 Unicode 11.0 (czerwiec)
- 2019 Unicode 12.0 (5 marca)
- 2019 Unicode 12.1 (7 maja
[17]
[19]
)
- 2020 Unicode 13.0 (10 marca
[17]
[20]
)
- 2021 Unicode 14.0 (wrzesie?)
[21]
- Unicode 1.1 ISO/IEC ? 10646-1:1993
- Unicode 3.0 ISO/IEC ? 10646-1:2000
- Unicode 3.2 ISO/IEC ? 10646-2:2001
- Unicode 4.0 ISO/IEC ? 10646:2003
- Unicode 5.0 ISO/IEC ? 10646:2003/Amd.2:2006
- Unicode 5.1 ISO/IEC ? 10646:2003/Amd.4:2008
- Unicode 5.2 ISO/IEC ? 10646:2003/Amd.6:2009
- Unicode 6.0 ISO/IEC ? 10646:2010
- Unicode 6.1 ISO/IEC ? 10646:2012
Wstawianie znakow Unicode
[
edytuj
|
edytuj kod
]
Klawiatura komputerowa
udost?pnia tylko znaki ze
strony kodowej
wła?ciwej dla ustawionego j?zyka klawiatury. W przypadku polskiej klawiatury b?dzie to strona kodowa
CP852
i
Windows-1250
(
kodowanie polskich znakow
). Wszystkie znaki z tych stron mo?na wprowadzi? za pomoc?
alt-kodow
. Do wprowadzania znakow niedost?pnych przez alt-kody mo?na u?y? jednej z poni?szych metod:
- W systemie Windows NT, Mac OS X (od wersji
10.2
) oraz w licznych dystrybucjach Linuksa (ze ?rodowiskiem graficznym) dost?pna jest tablica znakow, w ktorej mo?na wyszuka? potrzebny znak, skopiowa? go do schowka, a nast?pnie wklei? w program. W systemach Windows 95, 98 i ME tablica znakow nie daje dost?pu do wszystkich znakow Unicode.
- Znaj?c numer pozycji znaku (czy to dziesi?tny, czy to szesnastkowy), mo?na wprowadzi? ten znak na kilka sposobow (nie wszystkie programy obsługuj? wszystkie opisane tu sposoby):
- Trzymaj?c naci?ni?ty (lewy)
Alt
i wpisuj?c z klawiatury numerycznej numer dziesi?tny tego znaku, po czym zwolni? klawisz
Alt
[22]
.
- Wpisa? numer szesnastkowy tego znaku, a nast?pnie wcisn?? kombinacj? (lewy)
Alt
+
X
[22]
. Przed numerem szesnastkowym nie mo?e by? cyfra ani litera z zakresu
a
?
f
(gdy? zostan? uznane jako cz??? kodu, ewentualnie nale?y poprzedzi? kod np. spacj? lub uzupełni? kod wiod?cymi zerami, tak by liczył dokładnie sze?? pozycji).
- Trzymaj?c naci?ni?ty (lewy)
Alt
, nacisn?? klawisz plus, wpisa? numer szesnastkowy znaku, po czym zwolni? klawisz
Alt
. Metoda ta działa w systemie
Windows XP
i nowszych.
- Trzymaj?c naci?ni?te klawisze
Ctrl
+
? Shift
, wpisa? numer szesnastkowy znaku, a nast?pnie pu?ci? klawisze. Metoda ta działa w ?rodowisku
GNOME
. Od wersji
GTK+
2.10 nale?y nacisn??
Ctrl
+
? Shift
+
U
, wprowadzi? kod szesnastkowy znaku, nacisn??
? Enter
[22]
.
Istniej? te? programy do tworzenia własnych układow klawiatur (np. Microsoft Keyboard Layout Creator), dzi?ki nim mo?na podpi?? dowolny znak Unicode pod dowoln? kombinacj? klawiszy (najcz??ciej wykorzystywana jest kombinacja
AltGr
+
klawisz
, gdzie AltGr to prawy klawisz
Alt
). Niektore programy dla Windows pozwalaj? jedynie na wprowadzanie z klawiatury znakow istniej?cych w
stronie kodowej
wła?ciwej dla j?zyka klawiatury, np. w przypadku polskiego systemu Windows proba wpisania kombinacj?
AltGr
+
klawisz
znaku nieistniej?cego w stronie kodowej
Windows-1250
nie da oczekiwanego efektu.
- ↑
Unicode Standard
[online], unicode.org
[dost?p 2022-03-25]
.
- ↑
Diana
,
Members
[online], Unicode
[dost?p 2022-03-25]
(
ang.
)
.
- ↑
Technical Introduction
[online], www.unicode.org
[dost?p 2022-03-25]
.
- ↑
Glossary
[online], unicode.org
[dost?p 2022-03-25]
.
- ↑
Introduction to Unicode
[online], mathias.gaunard.com
[dost?p 2022-03-25]
.
- ↑
Unicode Mail List Archive: Re: Origin of the U+nnnn notation
[online], unicode.org
[dost?p 2022-03-25]
.
- ↑
FAQ ? UTF-8, UTF-16, UTF-32 & BOM
[online], unicode.org
[dost?p 2022-03-25]
.
- ↑
HTML UTF-8 Reference
[online], www.w3schools.com
[dost?p 2022-03-25]
(
ang.
)
.
- ↑
Skład osobowy
[online], web.archive.org, 13 sierpnia 2019
[dost?p 2022-03-25]
[zarchiwizowane z
adresu
2019-08-13]
.
- ↑
a
b
Unicode, unikod
[online], rjp.pan.pl
[dost?p 2022-03-25]
.
- ↑
Ogonki w Unikodzie
[online], www.unikod.pl
[dost?p 2022-03-25]
.
- ↑
a
b
What is Unicode? in Polish
[online], unicode.org
[dost?p 2022-03-25]
.
- ↑
[ Domeny ? IDN ] Czym jest Unikod?
[online], dawne.az.pl
[dost?p 2022-03-25]
.
- ↑
Re: Unicode vs. Unikod from Martin J. Durst via Unicode on 2017-04-11 (Unicode Mail List Archive)
[online], unicode.org
[dost?p 2022-03-25]
.
- ↑
Unicode
, [w:]
Encyklopedia PWN
[dost?p 2022-03-25]
.
- ↑
Usage Survey of Character Encodings broken down by Ranking
[online], w3techs.com
[dost?p 2022-03-25]
.
- ↑
a
b
c
d
e
f
g
h
i
j
k
l
m
n
o
p
q
r
s
t
Daty publikacji poszczegolnych wyda?
.
- ↑
wydanie wersji 5.1.0 standardu
.
- ↑
Unicode 12.1.0
[online], unicode.org
[dost?p 2019-08-02]
.
- ↑
Unicode 13.0.0
[online], unicode.org
[dost?p 2020-05-22]
.
- ↑
Unicode 14.0.0
[online], unicode.org
[dost?p 2024-04-26]
(
ang.
)
.
- ↑
a
b
c
How to Input Unicode
[online], xahlee.info
[dost?p 2020-03-18]
[zarchiwizowane z
adresu
2019-09-14]
.