Плоскость (Юникод)

В стандарте Юникод плоскость — непрерывный диапазон из 65 536 (216) кодовых позиций. Существует 17 плоскостей, обозначенных числами от 0 до 16, что соответствует возможным значениям 00—1016 первым двум шестнадцатеричным цифрам в шестизначном формате номера кодовой позиции (U+hhhhhh). Последняя кодовая позиция в Юникоде — последняя кодовая позиция в плоскости 16, U+10FFFF. Плоскость 0 называется Основная многоязычная плоскость (англ. Basic Multilingual Plane, BMP), которая содержит наиболее часто используемые символы. Остальные плоскости (1—16) называются «дополнительными»[1]. В версии Юникода 12.1 задействованы кодовые позиции шести плоскостей, при этом две из них предназначены для частного использования.

Ограничение в 17 плоскостей обусловлено кодировкой UTF-16, в которой могли быть закодированы 220 кодовых позиций (16 плоскостей) и BMP[2]. Кодировка UTF-8 была разработана с гораздо большим лимитом в 231 (2 147 483 648) кодовых позиций (32 768 плоскостей) и могла задействовать 221 (2 097 152) кодовых позиций (32 плоскости) даже при лимите 4 байта[3].

Плоскости Юникода:

  • Плоскость 0 (0000—FFFF): Основная многоязычная плоскость (англ. Basic Multilingual Plane, BMP)
  • Плоскость 1 (10000—1FFFF): Дополнительная многоязычная плоскость (англ. Supplementary Multilingual Plane, SMP)
  • Плоскость 2 (20000—2FFFF): Дополнительная идеографическая плоскость (англ. Supplementary Ideographic Plane, SIP)
  • Плоскость 3 (30000—3FFFF): Третичная идеографическая плоскость (англ. Tertiary Ideographic Plane, TIP)[4]
  • Плоскости 4—13 (40000—DFFFF) не используются
  • Плоскость 14 (E0000—EFFFF): Специализированная дополнительная плоскость (англ. Supplementary Special-purpose Plane, SSP)
  • Плоскость 15 (F0000—FFFFF) Дополнительная область для частного использования — A (англ. Supplementary Private Use Area-A, SPUA-A)
  • Плоскость 16 (100000—10FFFF) Дополнительная область для частного использования — B (англ. Supplementary Private Use Area-B, SPUA-B)

Содержание

Основная многоязычная плоскость

 
Основная многоязычная плоскость

Плоскость 0 (Основная многоязычная плоскость, англ. Basic Multilingual Plane, BMP) отведена для символов практически всех современных письменностей и большого числа специальных символов. Большая часть таблицы занята китайско-японскими иероглифами и своеобразными корейскими буквами.

В Юникоде 12.1 в этой плоскости представлены следующие блоки:

  • Геометрические фигуры (25A0—25FF)
  • Разные символы (2600—26FF)
  • Dingbats (2700—27BF)
  • Разные математические символы — A (27C0—27EF)
  • Дополнительные стрелки — A (27F0—27FF)
  • Шрифт Брайля (2800—28FF)
  • Дополнительные стрелки — B (2900—297F)
  • Разные математические символы — B (2980—29FF)
  • Дополнительные математические операторы (2A00—2AFF)
  • Разные символы и стрелки (2B00—2BFF)
  • Глаголица (2C00—2C5F)
  • Расширенная латиница — C (2C60—2C7F)
  • Коптское письмо (2C80—2CFF)
  • Дополнение к грузинскому письму (2D00—2D2F)
  • Древнеливийское письмо (2D30—2D7F)
  • Расширенное эфиопское письмо (2D80—2DDF)
  • Расширенная кириллица — A (2DE0—2DFF)
  • Дополнительная пунктуация (2E00—2E7F)
  • Дополнение к ключам ККЯ (2E80—2EFF)
  • Ключи Канси (2F00—2FDF)
  • Идеографические пояснительные символы (2FF0—2FFF)
  • Символы и пунктуация ККЯ (3000—303F)
  • Хирагана (3040—309F)
  • Катакана (30A0—30FF)
  • Чжуинь фухао (3100—312F)
  • Совместимые элементы хангыля (3130—318F)
  • Камбун (3190—319F)
  • Расширенное чжуинь фухао (31A0—31BF)
  • Черты ККЯ (31C0—31EF)
  • Фонетические расширения катаканы (31F0—31FF)
  • Обрамлённые буквы и месяцы ККЯ (3200—32FF)
  • Совместимые элементы ККЯ (3300—33FF)
  • Унифицированные идеограммы ККЯ — расширение A (3400—4DBF)
  • Гексаграммы «Книги Перемен» (4DC0—4DFF)
  • Унифицированные идеограммы ККЯ (4E00—9FFF)
  • Слоговое письмо и (A000—A48F)
  • Ключи письма и (A490—A4CF)
  • Лису (A4D0—A4FF)
  • Ваи (A500—A63F)
  • Расширенная кириллица — B (A640—A69F)
  • Бамум (A6A0—A6FF)
  • Символы изменения тона (A700—A71F)
  • Расширенная латиница — D (A720—A7FF)
  • Силхетское нагари (A800—A82F)
  • Общеиндийские числовые формы (A830—A83F)
  • Монгольское квадратное письмо (A840—A87F)
  • Саураштра (A880—A8DF)
  • Расширенное деванагари (A8E0—A8FF)
  • Кая-ли (A900—A92F)
  • Реджанг (A930—A95F)
  • Расширенные элементы хангыля — A (A960—A97F)
  • Яванское письмо (A980—A9DF)
  • Расширенное бирманское письмо — B (A9E0—A9FF)
  • Чамское письмо (AA00—AA5F)
  • Расширенное бирманское письмо — A (AA60—AA7F)
  • Тай-вьет (AA80—AADF)
  • Расширения манипури (AAE0—AAFF)
  • Расширенное эфиопское письмо — A (АВ00—АВ2F)
  • Расширенная латиница — E (AB30—AB6F)
  • Дополнение к чероки (AB70—ABBF)
  • Манипури (ABC0—ABFF)
  • Слоговое письмо хангыля (AC00—D7AF)
  • Расширенные элементы хангыля — B (D7B0—D7BF)
  • Верхняя часть суррогатных пар (D800—DB7F)
  • Нижняя часть суррогатных пар (DC00—DFFF)
  • Область для частного использования (E000—F8FF)
  • Совместимые идеограммы ККЯ (F900—FAFF)
  • Алфавитные формы представления (FB00—FB4F)
  • Арабские формы представления — A (FB50—FDCF, FDF0—FDFF)
  • Вариантные селекторы (FE00—FE0F)
  • Вертикальные формы (FE10—FE1F)
  • Комбинируемые полузнаки (FE20—FE2F)
  • Совместимые формы ККЯ (FE30—FE4F)
  • Малые вариантные формы (FE50—FE6F)
  • Арабские формы представления — B (FE70—FEFF)
  • Полуширинные и полноширинные формы (FF00—FFEF)
  • Специальные символы (FFF0—FFFF)

Дополнительная многоязычная плоскость

 
Дополнительная многоязыковая плоскость

Плоскость 1 (Дополнительная многоязыковая плоскость, англ. Supplementary Multilingual Plane, SMP) отведена преимущественно для исторических письменностей, но включает также символы условных обозначений, такие как музыкальные и математические символы.

В Юникоде 12.1 в этой плоскости представлены следующие наборы символов:

  • Слоги линейного письма Б (10000—1007F)
  • Идеограммы линейного письма Б (10080—100FF)
  • Эгейские цифры (10100—1013F)
  • Древнегреческие цифры (10140—1018F)
  • Древние символы (10190—101CF)
  • Фестский диск (101D0—101FF)
  • Ликийское письмо (10280—1029F)
  • Карийский (102A0—102DF)
  • Коптские цифры епакты (102E0—102FF)
  • Древнеиталийское письмо (10300—1032F)
  • Готское письмо (10330—1034F)
  • Древнепермское письмо (10350—1037F)
  • Угаритское письмо (10380—1039F)
  • Древнеперсидское письмо (103A0—103DF)
  • Дезеретское письмо (10400—1044F)
  • Алфавит Шоу (10450—1047F)
  • Сомалийское письмо (10480—104AF)
  • Осейдж (104B0—104FF)
  • Эльбасанское письмо (10500—1052F)
  • Агванское письмо (10530—1056F)
  • Линейное письмо А (10600—1077F)
  • Кипрское письмо (10800—1083F)
  • Имперское арамейское письмо (10840—1085F)
  • Пальмирское письмо (10860—1087F)
  • Набатейское письмо (10880—108AF)
  • Хатран (108E0—108FF)
  • Финикийское письмо (10900—1091F)
  • Лидийское письмо (10920—1093F)
  • Мероитские иероглифы (10980—1099F)
  • Мероитский курсив (109A0—109FF)
  • Кхароштхи (10A00—10A5F)
  • Древнее южноаравийское письсо (10A60—10A7F)
  • Древнее северноаравийское письмо (10A80—109FF)
  • Манихейское письмо (10AC0—10AFF)
  • Авестийское письмо (10B00—10B3F)
  • Парфянское эпиграфическое письмо (10B40—10B5F)
  • Пахлевийское эпиграфическое письмо (10B60—10B7F)
  • Псальтирь пахлеви (10B80—10BAF)
  • Древнетюркское руническое письмо (10C00—10C4F)
  • Венгерские руны (10C00—10C4F)
  • Ханифи (10D00—10D3F)
  • Цифры руми (10E60—10E7F)
  • Древнесогдийское письмо (10F00—10F2F)
  • Согдийское письмо (10F30—10F6F)
  • Элимайское письмо (10FE0—10FFF)
  • Брахми (11000—1107F)
  • Кайтхи (11080—110CF)
  • Соранг-сомпенг (110D0—110FF)
  • Чакма (11100—1114F)
  • Махаджани (11150—1117F)
  • Шарада (11180—111DF)
  • Сингальские архаические цифры (111E0—111FF)
  • Ходжики (11200—1124F)
  • Мултани (11280—112AF)
  • Худабади (112B0—112FF)
  • Грантха (11300—1137F)
  • Нева (11400—1147F)
  • Тирхута (11480—114DF)
  • Сиддхаматрика (11580—115FF)
  • Моди (11600—1165F)
  • Дополнение к старомонгольскому письму (11660—1167F)
  • Такри (11680—116CF)
  • Ахом (11700—1173F)
  • Догра (11800—1184F)
  • Варанг-кшити (118A0—118FF)
  • Нандинагари (119A0—119FF)
  • Квадратное письмо Дзанабадзара (11A00—11A4F)
  • Соёмбо (11A50—11AAF)
  • По Чин Хо (11AC0—11AFF)
  • Бхайкшуки (11C00—11C6F)
  • Марчен (11C70—11CBF)
  • Гонди Масарама (11D00—11D5F)
  • Гунджалское гонди (11D60—11DAF)
  • Макасарское письмо (11EE0—11EFF)
  • Дополнение к тамильскому письму (11FC0—11FFF)
  • Клинопись (12000—123FF)
  • Клинописные цифры и пунктуация (12400—1247F)
  • Раннединастическая клинопись (12480—1254F)
  • Египетские иероглифы (13000—1342F)
  • Управляющие символы форматирования египетских иероглифов (13430—1343F)
  • Анатолийские иероглифы (14400—1467F)
  • Дополнение к бамуму (16800—16A3F)
  • Мро (16A40—16A6F)
  • Басса (16AD0—16AFF)
  • Пахау (16B00—16B8F)
  • Медефайдрин (16E40—16E9F)
  • Мяо (16FE0—16FFF)
  • Идеографические символы и пунктуация (16F00—16F9F)
  • Тангутское письмо (17000—187FF)
  • Элементы тангутского письма (18800—18AFF)
  • Дополнение к кане (1B000—180FF)
  • Расширенная кана — A (1B100—1B12F)
  • Расширение малой каны (1B130—1B16F)
  • Нюй-шу (блок Юникода) (1B170—1B2FF)
  • Стенография Дюплойе (1BC00—18C9F)
  • Форматирующие символы стенографии (1BCA0—180CAF)
  • Византийские музыкальные символы (1D000—1D0FF)
  • Музыкальные символы (1D100—1D1FF)
  • Древнегреческая нотопись (1D200—1D24F)
  • Цифры майя (1D2E0—1D2FF)
  • Символы «Канона великого сокровенного» (1D300—1D35F)
  • Цифры счётных палочек (1D360—1D37F)
  • Математические буквы и цифры (1D400—1D7FF)
  • SignWriting (1D800—1DAAF)
  • Дополнение к глаголице (1E000—1E02F)
  • Ньиэкэнг пуэцым хмонг (1E100—1E14F)
  • Ванчо (1E2C0—1E2FF)
  • Кикакуи (1E800—1E8DF)
  • Адлам (1E900—1E95F)
  • Индийские цифры сийяк (1EC70—1ECBF)
  • Османские цифры сийяк (1ED00—1ED4F)
  • Арабские математические алфавитные символы (1EE00—1EEFF)
  • Кости для маджонга (1F000—1F02F)
  • Кости для домино (1F030—1F09F)
  • Игральные карты (1F0A0—1F0FF)
  • Дополнение к обрамлённым буквам и цифрам (1F100—1F1FF)
  • Дополнение к обрамлённым идеографическим символам (1F200—1F2FF)
  • Разные символы и пиктограммы (1F300—1F5FF)
  • Эмотиконы (1F600—1F64F)
  • Орнаментные символы (1F650—1F67F)
  • Транспортные и картографические символы (1F680—1F6FF)
  • Алхимические символы (1F700—1F77F)
  • Расширенные геометрические фигуры (1F780—1F7FF)
  • Дополнительные стрелки — C (1F800—1F8FF)
  • Дополнительные символы и пиктограммы (1F900—1F9FF)
  • Шахматные символы (1FA00—1FA6F)
  • Расширенные символы и пиктограммы — A (1FA70—1FAFF)

Дополнительная идеографическая плоскость

 
Дополнительная идеографическая плоскость

Плоскость 2 (Дополнительная идеографическая плоскость, англ. Supplementary Ideographic Plane, SIP) отведена для редко используемых иероглифов ККЯ.

В Юникоде 12.1 в этой плоскости представлены следующие наборы иероглифов:

Третичная идеографическая плоскость

Плоскость 3 (Третичная идеографическая плоскость, англ. Tertiary Ideographic Plane, TIP) зарезервирована для редко используемых китайских иероглифов, а также для исторических форм китайского письма.

Третичная идеографическая плоскость предварительно разделена на следующие поддиапазоны[5]:

В вышеперечисленные диапазоны предполагается включить следующие наборы иероглифов:

  • в диапазон U+30000—U+3134F - дополнительные редко используемые идеограммы китайского письма.
  • в диапазон U+31400—U+33D1F — иероглифы в стиле «малая печать» (сяочжуань, 小篆)[6][5].
  • в диапазон U+33E00—U+355FF — древнейшие китайские иероглифы эпохи Шан (цзягувэнь, 甲骨文), встречающиеся в гадательных надписях на панцирях, черепах и костях животных[7][5].

В будущем также предполагается включить иероглифы эпох Шан и Чжоу (цзиньвэнь, 金文), встречающиеся в ритуальных надписях на бронзовых сосудах и музыкальных инструментах, и наборы иероглифов Периода Сражающихся царств[5].

Специализированная дополнительная плоскость

 
Специализированная дополнительная плоскость

Плоскость 14 (Специализированная дополнительная плоскость, англ. Supplementary Special-purpose Plane, SSP) отведена для символов, используемых по особому назначению.

В Юникоде 12.1 в этой плоскости представлены следующие блоки:

  • Тэги (E0000—E007F)
  • Дополнение к вариантным селекторам (E0100—E01EF)

Области для частного использования

Некоторые диапазоны Юникода отведены для частного использования и экспериментов. Они включают:

  • Частную область в Базовой многоязыковой плоскости (E000—F8FF)
  • Дополнительные плоскости 15 (F0000—U+FFFFF) и 16 (100000—10FFFF)

См. также

Примечания

  1. Unicode Consortium Glossary—Supplementary Planes
  2. See Table 3.5 "UTF-16 Bit Distribution" in the Unicode Standard https://www.unicode.org/versions/Unicode6.0.0/UnicodeStandard-6.0.pdf
  3. See Table 3.6 "UTF-8 Bit Distribution" in the Unicode Standard https://www.unicode.org/versions/Unicode6.0.0/UnicodeStandard-6.0.pdf
  4. На данный момент не задействована, но зарезервирована для дополнительных идеограмм и древних форм китайского письма.
  5. 1 2 3 4 Roadmap to the TIP (англ.) (PDF) (27 June 2017). Дата обращения 20 ноября 2017.
  6. Proposal to encode Small Seal Script in UCS (англ.) (PDF) (20 October 2015). Дата обращения 20 ноября 2017.
  7. Request for comment on encoding Oracle Bone Script (англ.) (PDF) (21 October 2015). Дата обращения 20 ноября 2017.

Ссылки