Текст ⇄ числовой код
Пошаговый конвертер для кириллицы, emoji, спецсимволов и полного диапазона Unicode без потери символов.
Оглавление
Бывает так: строка выглядит нормально, а внутри у нее маленький бардак. Кириллица внезапно ломается при импорте. Emoji исчезают в логе. Визуально одинаковые символы почему-то не совпадают при поиске. HTML-сущности приезжают вместо обычного текста. И вот уже не текст работает на вас, а вы ходите за ним с фонариком.
Этот Unicode-конвертер онлайн как раз для таких случаев. Он умеет переводить текст в числовой код Unicode и собирать код обратно в текст. Поддерживает десятичный формат, HEX, BIN, префиксы U+, 0x, 0b, а еще понимает HTML-сущности, кириллицу, спецсимволы, переносы строк и символы вне BMP, включая emoji. Если нужно, можно включить нормализацию Unicode: NFC, NFD, NFKC, NFKD.
Инструмент не превращает работу в технический квест. У него спокойная пошаговая логика: сначала вы выбираете направление, потом формат и правила разбора, затем вводите данные и только на последнем шаге запускаете расчет. До финальной кнопки ничего не вычисляется. Это удобно, когда нужно не спешить, а сначала проверить настройки и не словить глупую ошибку на ровном месте.
Такой инструмент полезен не только разработчикам. Он выручает SEO-специалистов, контент-менеджеров, QA, аналитиков, локализаторов, студентов и всех, кто работает с текстом глубже, чем “вставил и забыл”. Когда нужно увидеть не только символ, но и его точную кодовую сущность, этот конвертер быстро наводит порядок.
Как пользоваться инструментом
Выберите направление конвертации
Текст в код — если нужно превратить каждый символ в его кодовую точку Unicode.
Код в текст — если у вас уже есть числовые коды и нужно собрать из них исходную строку.
Настройте формат на шаге 2
Если выбран режим «Текст в код», доступны такие параметры:
Формат чисел
Десятичный — обычная запись числа.
Пример:
Привет→1055 1088 1080 1074 1077 1090
HEX — шестнадцатеричная запись кодовых точек.
Пример:
Привет→041F 0440 0438 0432 0435 0442
BIN — двоичная запись.
Пример:
A→1000001
Префикс
Набор префиксов зависит от выбранного формата:
для десятичного формата доступен только «Без префикса»
для HEX доступны «Без префикса», U+, 0x
для BIN доступны «Без префикса» и 0b
Примеры:
HEX + U+ →
U+041FHEX + 0x →
0x041FBIN + 0b →
0b10000011111
Разделитель
Пробел
Запятая
Точка с запятой
Новая строка
Пример: вместо
1055 1088 1080можно получить1055, 1088, 1080
Нормализация текста перед кодированием
Без нормализации
NFC — собирает совместимые комбинации в стандартную составную форму
NFD — раскладывает составные символы на базовый знак и диакритику
NFKC — приводит совместимые символы к более унифицированному виду
NFKD — совместимая декомпозиция
Это важно, если строка выглядит одинаково, но хранится по-разному.
Если выбран режим «Код в текст», доступны такие параметры:
Формат входных кодов
Авто
Десятичный
HEX
BIN
Что понимает автоопределение
U+041F0x41F0b10000011111041FППМожно смешивать пробелы, запятые, точки с запятой, вертикальную черту и переносы строк.
Нормализация текста после сборки
Без нормализации
NFC
NFD
NFKC
NFKD
Введите данные на шаге 3
Если выбран режим «Текст в код», вставьте обычную строку.
Пример:
Привет, мир 👋
Если выбран режим «Код в текст», вставьте числовые коды.
Пример:
U+041F U+0440 U+0438 U+0432 U+0435 U+0442
Кнопка «Вставить пример» подставляет тестовый образец.
Кнопка «Очистить поле» очищает только текущее поле ввода.
Проверьте сводку на шаге 4
Инструмент показывает:
направление конвертации
формат вывода или формат входа
префикс
разделитель
режим нормализации
факт наличия введенных данных
До нажатия кнопки «Преобразовать» расчет не запускается.
Нажмите «Преобразовать»
После расчета появятся:
поле «Вывод»
статус результата
статистика
короткая поясняющая подсказка
Посмотрите статистику
В зависимости от режима инструмент показывает:
количество кодов
количество символов
число символов вне BMP
количество переносов строк
Если в результате есть управляющие символы, инструмент предупредит, что часть вывода может быть визуально неочевидной.
Скопируйте или сбросьте результат
«Копировать результат» — копирует итог в буфер обмена
«Очистить все» — полностью сбрасывает форму и результат
«Сброс» в нижней навигации делает то же самое: возвращает инструмент к начальному состоянию
Что важно понимать заранее
Инструмент работает с кодовыми точками Unicode, а не с байтовым представлением UTF-8, UTF-16 или UTF-32.
Если введен код вне диапазона Unicode, будет ошибка.
Значения из диапазона D800–DFFF не считаются самостоятельными символами — это суррогатный диапазон.
Если поле пустое, инструмент не даст перейти к расчету.
Если после сборки строка выглядит странно, причина часто в управляющих символах, неправильном формате ввода или в выбранной нормализации.
Для большинства повседневных задач проще всего начать с десятичного формата или с режима «Авто» при декодировании.
Примеры использования
Пример 1. Декодировать HTML-сущности после импорта в CMS
Постановка задачи:
После переноса контента в CMS заголовок приехал не текстом, а HTML-сущностями. Нужно вернуть читаемый вид.
Шаги решения:
Выберите «Код в текст».
В формате входа оставьте «Авто».
В поле ввода вставьте:
П р и в е тНажмите «Преобразовать».
Полученные результаты:Привет
Применение на практике:
Такой сценарий полезен при миграции сайта, чистке старых шаблонов, импорте контента и разборе HTML-выгрузок.
Пример 2. Получить Unicode-коды для кириллицы в HEX
Постановка задачи:
Нужно быстро получить HEX-коды Unicode для русского слова, чтобы вставить их в документацию или техническое задание.
Шаги решения:
Выберите «Текст в код».
Установите:
Формат чисел: HEX
Префикс: U+
Разделитель: Пробел
Введите:
ЦенаНажмите «Преобразовать».
Полученные результаты:U+0426 U+0435 U+043D U+0430
Применение на практике:
Это удобно для спецификаций, отладки интерфейсов, проверки локализации и объяснения проблем с кодировкой на уровне конкретных символов.
Пример 3. Понять, почему визуально одинаковые строки не совпадают
Постановка задачи:
В базе две строки выглядят как Café, но поиск считает их разными. Нужно проверить, не скрыта ли разница в форме хранения символов.
Шаги решения:
Выберите «Текст в код».
Введите строку
Café, где последняя буква состоит изeи отдельной диакритики.Сначала выполните конвертацию без нормализации.
Затем включите NFC и повторите расчет.
Полученные результаты:
Без нормализации:
67 97 102 101 769С NFC:
67 97 102 233
Применение на практике:
Так проверяют дубли, чистят словари, нормализуют данные для поиска, индексации и корректного сравнения строк.
Пример 4. Проверить emoji в логе или API-ответе
Постановка задачи:
Нужно убедиться, что emoji действительно сохранился как корректный Unicode-символ, а не потерялся по дороге.
Шаги решения:
Выберите «Текст в код».
Установите:
Формат чисел: HEX
Префикс: U+
Введите:
Готово ✅Нажмите «Преобразовать».
Полученные результаты:U+0413 U+043E U+0442 U+043E U+0432 U+043E U+0020 U+2705
Применение на практике:
Это полезно для QA, проверки мессенджеров, форм обратной связи, чатов, email-рассылок и любой системы, где emoji могут вести себя капризно.
Пример 5. Собрать текст из смешанных форматов кода
Постановка задачи:
Коды пришли из разных источников: часть в U+, часть в 0x, часть в обычном HEX. Нужно собрать исходную строку без ручной возни.
Шаги решения:
Выберите «Код в текст».
Оставьте «Авто».
Вставьте:
U+041F, 0x0440 | 0438; 0432 0435 0442Нажмите «Преобразовать».
Полученные результаты:Привет
Применение на практике:
Это удобно при работе с логами, данными из API, технической документацией, кодом, таблицами и разнородными выгрузками.
Таблица: что выбрать для разных задач
| Задача | Что выбрать в инструменте | Пример ввода | Результат | Частая ошибка | Где полезно |
|---|---|---|---|---|---|
| Перевести текст в Unicode-код | Текст в код + Десятичный | Привет | 1055 1088 1080 1074 1077 1090 | Путают кодовые точки с UTF-8 байтами | Отладка строк, импорт в базу, учебные задачи |
| Получить HEX-коды с префиксом U+ | Текст в код + HEX + U+ | Цена | U+0426 U+0435 U+043D U+0430 | Ожидают префикс в десятичном формате, но его там нет | Документация, локализация, техзадания |
| Декодировать HTML-сущности | Код в текст + Авто | П р и в е т | Привет | Вставляют сущности и ждут результат в режиме «Текст в код» | CMS, HTML, миграции, чистка старого контента |
| Собрать текст из смешанных кодов | Код в текст + Авто | U+041F, 0x0440; 0438 0432 0435 0442 | Привет | Забывают разделители или смешивают неверные форматы вручную | Логи, API, спецификации, выгрузки |
| Проверить emoji и символы вне BMP | Любой режим | 👋 или U+1F44B | Корректная конвертация emoji | Принимают суррогаты за отдельные символы | QA, мессенджеры, интерфейсы, формы |
| Сравнить формы хранения одной строки | Текст в код + NFC/NFD | Café | Разные коды до и после нормализации | Думают, что визуальное совпадение гарантирует одинаковое хранение | Поиск, дедупликация, SEO, аналитика |
| Проверить двоичную запись символов | Текст в код + BIN + 0b | A | 0b1000001 | Вставляют BIN-код с лишними символами | Обучение, низкоуровневые проверки |
| Избежать ошибок при невалидных кодах | Код в текст | D800 | Сообщение об ошибке | Пытаются декодировать суррогат как готовый символ | Валидация данных перед импортом |
Что такое Unicode простыми словами?
Unicode — это единый стандарт, который присваивает символам уникальные числовые значения. Благодаря этому одна и та же буква, цифра, emoji или знак валюты может быть корректно распознана в разных системах.
Чем Unicode отличается от UTF-8?
Unicode — это набор кодовых точек, то есть система “какому символу какое число соответствует”. UTF-8 — это способ хранения этих символов в байтах. Один отвечает за смысл символа, другой — за его техническую упаковку.
Почему одинаковые на вид символы иногда не совпадают при поиске?
Потому что визуально одинаковая строка может храниться в разных формах. Например, буква с диакритикой бывает цельным символом или комбинацией из буквы и отдельного знака. Именно для этого нужна нормализация Unicode.
Что такое NFC, NFD, NFKC и NFKD?
Это стандартные формы нормализации Unicode. Они приводят текст к более предсказуемому виду: либо собирают составные символы, либо раскладывают их, либо дополнительно учитывают совместимые формы для поиска и унификации.
Можно ли перевести HTML-сущности в обычный текст?
Да. Если у вас строка вида П или П, инструмент в режиме «Код в текст» с автоопределением соберет из нее обычный читаемый текст.
Почему emoji считаются отдельной сложной темой?
Потому что многие emoji находятся вне BMP, то есть за пределами базовой многоязычной плоскости Unicode. Из-за этого они чаще ломаются при старых интеграциях, некорректной обработке строк и ошибках кодировки.
Что такое BMP?
BMP — это базовая многоязычная плоскость Unicode. В ней лежит большая часть привычных символов: латиница, кириллица, базовые знаки, числа и множество служебных элементов. Все, что выше, часто требует более аккуратной обработки.
Почему инструмент не принимает суррогатные коды как готовые символы?
Потому что значения из диапазона D800–DFFF — это не самостоятельные символы, а техническая часть механизма хранения некоторых знаков в UTF-16. Для декодирования текста как готовых символов такие значения сами по себе не подходят.
В каких случаях особенно полезен конвертер Unicode?
Когда нужно разобрать символы в логах, API, CMS, HTML, JSON, таблицах, текстовых миграциях, локализации, поиске дублей, индексации контента и любой задаче, где важно понять, какой символ реально хранится в строке.
Это инструмент только для разработчиков?
Нет. Он полезен всем, кто работает с данными и текстом глубже обычного: контент-менеджерам, SEO-специалистам, QA, аналитикам, редакторам, локализаторам и студентам.
SAS инструменты Сайт с 1000 ми полезных инструментов и калькуляторов SAS