определение числовых кодов символов и перекодировка текста
Определение числовых кодов символов и перекодировка текста
Кодирование текстовой информации
Двоичное кодирование – один из распространенных способов представления информации. В вычислительных машинах, в роботах и станках с числовым программным управлением, как правило, вся информация, с которой имеет дело устройство, кодируется в виде слов двоичного алфавита.
Начиная с конца 60-х годов, компьютеры все больше стали использоваться для обработки текстовой информации, и в настоящее время основная доля персональных компьютеров в мире (и большая часть времени) занята обработкой именно текстовой информации. Все эти виды информации в компьютере представлены в двоичном коде, т. е. используется алфавит мощностью два (всего два символа 0 и 1). Связано это с тем, что удобно представлять информацию в виде последовательности электрических импульсов: импульс отсутствует (0), импульс есть (1).
С точки зрения ЭВМ текст состоит из отдельных символов. К числу символов принадлежат не только буквы (заглавные или строчные, латинские или русские), но и цифры, знаки препинания, спецсимволы типа «=», «(«, «&» и т.п. и даже (обратите особое внимание!) пробелы между словами.
Тексты вводятся в память компьютера с помощью клавиатуры. На клавишах написаны привычные нам буквы, цифры, знаки препинания и другие символы. В оперативную память они попадают в двоичном коде. Это значит, что каждый символ представляется 8-разрядным двоичным кодом.
В процессе вывода символа на экран компьютера производится обратный процесс — декодирование, то есть преобразование кода символа в его изображение. Важно, что присвоение символу конкретного кода — это вопрос соглашения, которое фиксируется в кодовой таблице.
Теперь возникает вопрос, какой именно восьмиразрядный двоичный код поставить в соответствие каждому символу. Понятно, что это дело условное, можно придумать множество способов кодировки.
Все символы компьютерного алфавита пронумерованы от 0 до 255. Каждому номеру соответствует восьмиразрядный двоичный код от 00000000 до 11111111. Этот код просто порядковый номер символа в двоичной системе счисления.
Виды таблиц кодировок
Таблица, в которой всем символам компьютерного алфавита поставлены в соответствие порядковые номера, называется таблицей кодировки.
Для разных типов ЭВМ используются различные таблицы кодировки.
Таблица кодов ASCII делится на две части.
Международным стандартом является лишь первая половина таблицы, т.е. символы с номерами от 0 (00000000), до 127 (01111111).
Структура таблицы кодировки ASCII
Символы с номерами от 0 до 31 принято называть управляющими.
Их функция – управление процессом вывода текста на экран или печать, подача звукового сигнала, разметка текста и т.п.
Стандартная часть таблицы (английский). Сюда входят строчные и прописные буквы латинского алфавита, десятичные цифры, знаки препинания, всевозможные скобки, коммерческие и другие символы.
Все остальные отражаются определенными знаками.
Альтернативная часть таблицы (русская).
Вторая половина кодовой таблицы ASCII, называемая кодовой страницей (128 кодов, начиная с 10000000 и кончая 11111111), может иметь различные варианты, каждый вариант имеет свой номер.
Кодовая страница в первую очередь используется для размещения национальных алфавитов, отличных от латинского. В русских национальных кодировках в этой части таблицы размещаются символы русского алфавита.
Обращается внимание на то, что в таблице кодировки буквы (прописные и строчные) располагаются в алфавитном порядке, а цифры упорядочены по возрастанию значений. Такое соблюдение лексикографического порядка в расположении символов называется принципом последовательного кодирования алфавита.
Для букв русского алфавита также соблюдается принцип последовательного кодирования.
К сожалению, в настоящее время существуют пять различных кодировок кириллицы (КОИ8-Р, Windows. MS-DOS, Macintosh и ISO). Из-за этого часто возникают проблемы с переносом русского текста с одного компьютера на другой, из одной программной системы в другую.
Хронологически одним из первых стандартов кодирования русских букв на компьютерах был КОИ8 («Код обмена информацией, 8-битный»). Эта кодировка применялась еще в 70-е годы на компьютерах серии ЕС ЭВМ, а с середины 80-х стала использоваться в первых русифицированных версиях операционной системы UNIX.
От начала 90-х годов, времени господства операционной системы MS DOS, остается кодировка CP866 («CP» означает «Code Page», «кодовая страница»).
Компьютеры фирмы Apple, работающие под управлением операционной системы Mac OS, используют свою собственную кодировку Mac.
Кроме того, Международная организация по стандартизации (International Standards Organization, ISO) утвердила в качестве стандарта для русского языка еще одну кодировку под названием ISO 8859-5.
Наиболее распространенной в настоящее время является кодировка Microsoft Windows, обозначаемая сокращением CP1251. Введена компанией Microsoft; с учетом широкого распространения операционных систем (ОС) и других программных продуктов этой компании в Российской Федерации она нашла широкое распространение.
С конца 90-х годов проблема стандартизации символьного кодирования решается введением нового международного стандарта, который называется Unicode.
Это 16-разрядная кодировка, т.е. в ней на каждый символ отводится 2 байта памяти. Конечно, при этом объем занимаемой памяти увеличивается в 2 раза. Но зато такая кодовая таблица допускает включение до 65536 символов. Полная спецификация стандарта Unicode включает в себя все существующие, вымершие и искусственно созданные алфавиты мира, а также множество математических, музыкальных, химических и прочих символов.
Внутреннее представление слов в памяти компьютера
с помощью таблицы ASCII
Таким образом, каждая кодировка задается своей собственной кодовой таблицей. Как видно из таблицы, одному и тому же двоичному коду в различных кодировках поставлены в соответствие различные символы.
Н апример, последовательность числовых кодов 221, 194, 204 в кодировке СР1251 образует слово «ЭВМ» (Рис. 10), тогда как в других кодировках это будет бессмысленный набор символов.
К счастью, в большинстве случаев пользователь не должен заботиться о перекодировках текстовых документов, так как это делают специальные программы-конверторы, встроенные в приложения.
Урок 10
Определение числовых кодов символов и перекодировка текста
§ 2.1. Кодирование текстовой информации
Содержание урока
Определение числовых кодов символов и перекодировка текста
Определение числовых кодов символов и перекодировка текста
Двоичное кодирование текстовой информации в компьютере.
Информация, выраженная с помощью естественных и формальных языков в письменной форме, обычно называется текстовой информацией.
Для представления текстовой информации (прописные и строчные буквы русского и латинского алфавитов, цифры, знаки и математические символы) достаточно 256 различных знаков. По формуле (1.1) можно вычислить, какое количество информации необходимо, чтобы закодировать каждый знак:
N = 2 I ⇒ 256 = 2 I ⇒ 2 8 = 2 I ⇒ I = 8 битов.
Для обработки текстовой информации в компьютере необходимо представить ее в двоичной знаковой системе. Для кодирования каждого знака требуется количество информации, равное 8 битам, т. е. длина двоичного кода знака составляет восемь двоичных знаков. Каждому знаку необходимо поставить в соответствие уникальный двоичный код в интервале от 00000000 до 11111111 (в десятичном коде от 0 до 255) (табл. 2.1).
Человек различает знаки по их начертанию, а компьютер — по их двоичным кодам. При вводе в компьютер текстовой информации происходит ее двоичное кодирование. Пользователь нажимает на клавиатуре клавишу со знаком, и в компьютер поступает определенная последовательность из восьми электрических импульсов (двоичный код знака). Код знака хранится в оперативной памяти компьютера, где занимает одну ячейку (размером 1 байт).
В процессе вывода знака на экран компьютера производится обратное кодирование, т. е. преобразование двоичного кода знака в его изображение.
Таблица 2.1. Кодировки знаков
Различные кодировки знаков. Присвоение знаку конкретного двоичного кода — это вопрос соглашения, которое фиксируется в кодовой таблице. Первые 33 кода в кодовой таблице (десятичные коды с 0 по 32) соответствуют не знакам, а операциям (перевод строки, ввод пробела и т. д.).
Десятичные коды с 33 по 127 являются интернациональными и соответствуют знакам латинского алфавита, цифрам, знакам арифметических операций и знакам препинания.
Десятичные коды с 128 по 255 являются национальными, т. е. в различных национальных кодировках одному и тому же коду соответствуют разные знаки. К сожалению, в настоящее время существуют пять различных кодовых таблиц для русских букв (Windows, MS-DOS, КОИ-8, Mac, ISO), поэтому тексты, созданные в одной кодировке, не будут правильно отображаться в другой.
В последние годы широкое распространение получил новый международный стандарт кодирования текстовых символов Unicode, который отводит на каждый символ 2 байта (16 битов). По формуле (1.1) определим количество символов, которые можно закодировать:
N = 2 I = 2 16 = 65 536.
Такого количества символов оказалось достаточно, чтобы закодировать не только русский и латинский алфавиты, цифры, знаки и математические символы, но и греческий, арабский, иврит и другие алфавиты.
Итак, в настоящее время имеется шесть различных кодировок для букв русского алфавита, в которых один и тот же знак имеет различные коды (табл. 2.2). К счастью, в большинстве случаев пользователь не должен заботиться о перекодировках текстовых документов, так как это делают специальные программы-конверторы, встроенные в операционную систему и приложения.
Таблица 2.2. Десятичные коды некоторых знаков в различных кодировках
Например, в кодировке Windows последовательность числовых кодов 221 194 204 образует слово «ЭВМ» (см. табл. 2.2), тогда как в других кодировках это будет бессмысленный набор символов.
Контрольные вопросы
1. Почему при кодировании текстовой информации в компьютере в большинстве кодировок используется 256 различных символов, хотя русский алфавит включает только 33 буквы?
2. С какой целью ввели кодировку Unicode, которая позволяет закодировать 65 536 различных символов? Подготовьте сообщение.
Задания для самостоятельного выполнения
2.1. Задание с кратким ответом. В текстовом режиме экран монитора компьютера обычно разбивается на 25 строк по 80 символов в строке. Определите объем текстовой информации, занимающей весь экран монитора, в кодировке Unicode.
2.2. Задание с развернутым ответом. Пользователь компьютера, хорошо владеющий навыками ввода информации с клавиатуры, может вводить в минуту 100 знаков. Какое количество информации может ввести пользователь в компьютер за одну минуту в кодировке Windows? В кодировке Unicode?
Cкачать материалы урока
Практическая работа к уроку «Кодирование текстовой информации»
Практическая работа «Кодирование текстовой информации»
Цель работы. Научиться определять числовые коды символов, вводить символы с помощью числовых кодов и осуществлять перекодировку русскоязычного текста в текс товом редакторе.
Задание: В текстовом редакторе Блокнот ввести с помо щью числовых кодов последовательность символов в коди ровках Windows и MS — DOS .
Ввод символов с помощью числовых кодов в тексто вом редакторе Блокнот
Запустить стандартное приложение Блокнот командой [Программы-Стандартные-Блокнот].
С помощью дополнительной цифровой клавиатуры при нажатой клавише < Alt >ввести число 0224, отпустить клавишу < Alt >, в документе появится символ «а». Повто рить процедуру для числовых кодов от 0225 до 0233, в документе появится последовательность из 12 символов «абвгдежзий» в кодировке Windows .
С помощью дополнительной цифровой клавиатуры при нажатой клавише < Alt >ввести число 224, в документе появится символ «р». Повторить процедуру для число вых кодов от 225 до 233, в документе появится последовательность из 12 символов «рстуфхцчшщ» в кодировке MS — DOS .
143 174 162 239 167 160 171 160 32 174 225 165 173 236 32 175 165 225 226 224 235 169 32 228 160 224 226 227 170
136 32 162 165 164 165 224 170 168 32 225 32 170 224 160 225 170 160 172 168 32 162 167 239 171 160 46
144 160 173 168 172 32 227 226 224 174 172 44 32 175 224 174 229 174 164 239 32 175 174 32 175 160 224 170 227 44
138 168 225 226 236 239 32 175 174 167 174 171 174 226 174 169 32 174 161 162 165 171 160 46
В текстовом редакторе Word определить числовые коды нескольких символов: (в кодировке Windows )
Запустить текстовый редактор Word командой [Программы- Microsoft Word ].
Ввести команду [Вставка-Символ. ]. На экране появится диалоговая панель Символ. Центральную часть диалоговой панели занимает таблица символов.
Для определения десятичного числового кода символа в кодировке Windows с помощью раскрывающегося списка из: выбрать тип кодировки кириллица ( dec ).
В таблице символов выбрать символ (например, прописную букву «А»). В текстовом поле Код знака: появится десятичный числовой код символа (в данном случае 192).
Закодировать следующий текст:
Унылая пора! Очей очарованье!
Приятна мне твоя прощальная краса —
Люблю я пышное природы увяданье,
В багрец и в золото одетые леса,
Сохранить документ на Рабочий стол, в папку 8 «А» класс, под именем «Осень»
Курс повышения квалификации
Дистанционное обучение как современный формат преподавания
Курс профессиональной переподготовки
Информатика: теория и методика преподавания в образовательной организации
Курс профессиональной переподготовки
Математика и информатика: теория и методика преподавания в образовательной организации
Онлайн-конференция для учителей, репетиторов и родителей
Формирование математических способностей у детей с разными образовательными потребностями с помощью ментальной арифметики и других современных методик
Международная дистанционная олимпиада Осень 2021
Номер материала: ДБ-184871
Не нашли то что искали?
Вам будут интересны эти курсы:
Оставьте свой комментарий
Авторизуйтесь, чтобы задавать вопросы.
Путин назвал уровень доходов преподавателей одним из социальных приоритетов
Время чтения: 1 минута
Путин поручил сократить количество контрольных работ в школах
Время чтения: 1 минута
В пяти регионах России протестируют новую систему оплаты труда педагогов
Время чтения: 2 минуты
Онлайн-регистрация на ГИА для школьников Москвы откроется 1 октября
Время чтения: 2 минуты
Минпросвещения анонсировало изменения в перечень олимпиад школьников
Время чтения: 2 минуты
Выпускники российских вузов смогут получить электронную копию диплома
Время чтения: 1 минута
Подарочные сертификаты
Ответственность за разрешение любых спорных моментов, касающихся самих материалов и их содержания, берут на себя пользователи, разместившие материал на сайте. Однако администрация сайта готова оказать всяческую поддержку в решении любых вопросов, связанных с работой и содержанием сайта. Если Вы заметили, что на данном сайте незаконно используются материалы, сообщите об этом администрации сайта через форму обратной связи.
Все материалы, размещенные на сайте, созданы авторами сайта либо размещены пользователями сайта и представлены на сайте исключительно для ознакомления. Авторские права на материалы принадлежат их законным авторам. Частичное или полное копирование материалов сайта без письменного разрешения администрации сайта запрещено! Мнение администрации может не совпадать с точкой зрения авторов.
Практическая работа «Кодирование текстовой информации»
Выбранный для просмотра документ практика кодировки текста 10.doc
«Кодирование текстовой информации»
Цель работы. Научиться определять числовые коды символов, вводить символы с помощью числовых кодов и осуществлять перекодировку русскоязычного текста в текстовом редакторе.
Задание: В текстовом редакторе Блокнот ввести с помощью числовых кодов последовательность символов в кодировках Windows и MS — DOS .
Ввод символов с помощью числовых кодов в текстовом редакторе Блокнот
Запустить стандартное приложение Блокнот командой [Программы-Стандартные-Блокнот].
С помощью дополнительной цифровой клавиатуры при нажатой клавише < Alt >ввести число 0224, отпустить клавишу < Alt >, в документе появится символ «а». Повторить процедуру для числовых кодов от 0225 до 0233, в документе появится последовательность из 12 символов «абвгдежзий» в кодировке Windows .
С помощью дополнительной цифровой клавиатуры при нажатой клавише < Alt >ввести число 224, в документе появится символ «р». Повторить процедуру для числовых кодов от 225 до 233, в документе появится последовательность из 12 символов «рстуфхцчшщ» в кодировке MS — DOS .
Задание №1
143 174 162 239 167 160 171 160 32 174 225 165 173 236 32 175 165 225 226 224 235 169 32 228 160 224 226 227 170
136 32 162 165 164 165 224 170 168 32 225 32 170 224 160 225 170 160 172 168 32 162 167 239 171 160 46
144 160 173 168 172 32 227 226 224 174 172 44 32 175 224 174 229 174 164 239 32 175 174 32 175 160 224 170 227 44
138 168 225 226 236 239 32 175 174 167 174 171 174 226 174 169 32 174 161 162 165 171 160 46
135 173 160 165 226 32 164 165 162 174 231 170 160 32 168 32 172 160 171 236 231 168 170 44
136 32 167 165 171 165 173 235 169 32 175 174 175 227 163 160 169 44
133 225 171 168 32 164 162 168 166 165 226 225 239 32 226 224 160 172 162 160 169 231 168 170
144 165 171 236 225 235 32 173 165 32 175 165 224 165 161 165 163 160 169 46
141 160 172 32 173 165 32 164 160 173 174 32 175 224 165 164 227 163 160 164 160 226 236 44
138 160 170 32 225 171 174 162 174 32 173 160 232 165 32 174 226 167 174 162 165 226 225 239 44 32 45
136 32 173 160 172 32 225 174 231 227 162 225 226 162 168 165 32 164 160 165 226 225 239 44
138 160 170 32 173 160 172 164 160 165 226 225 239 32 161 171 160 163 174 164 160 226 236 46 46 46
141 160 172 32 173 165 32 164 160 173 174 32 175 224 165 164 227 163 160 164 160 226 236 44
138 160 170 32 225 171 174 162 174 32 173 160 232 165 32 174 226 167 174 162 165 226 225 239 44 32 45
136 32 173 160 172 32 225 174 231 227 162 225 226 162 168 165 32 164 160 165 226 225 239 44
138 160 170 32 173 160 172 164 160 165 226 225 239 32 161 171 160 163 174 164 160 226 236 46 46 46
141 160 172 32 173 165 32 164 160 173 174 32 175 224 165 164 227 163 160 164 160 226 236 44
138 160 170 32 225 171 174 162 174 32 173 160 232 165 32 174 226 167 174 162 165 226 225 239 44 32 45
136 32 173 160 172 32 225 174 231 227 162 225 226 162 168 165 32 164 160 165 226 225 239 44
138 160 170 32 173 160 172 164 160 165 226 225 239 32 161 171 160 163 174 164 160 226 236 46 46 46
141 160 172 32 173 165 32 164 160 173 174 32 175 224 165 164 227 163 160 164 160 226 236 44
138 160 170 32 225 171 174 162 174 32 173 160 232 165 32 174 226 167 174 162 165 226 225 239 44 32 45
136 32 173 160 172 32 225 174 231 227 162 225 226 162 168 165 32 164 160 165 226 225 239 44
138 160 170 32 173 160 172 164 160 165 226 225 239 32 161 171 160 163 174 164 160 226 236 46 46 46
Курс повышения квалификации
Дистанционное обучение как современный формат преподавания
Курс профессиональной переподготовки
Информатика: теория и методика преподавания в образовательной организации
Курс профессиональной переподготовки
Математика и информатика: теория и методика преподавания в образовательной организации
Онлайн-конференция для учителей, репетиторов и родителей
Формирование математических способностей у детей с разными образовательными потребностями с помощью ментальной арифметики и других современных методик
Международная дистанционная олимпиада Осень 2021
«Кодирование текстовой информации»
Цель работы. Научиться определять числовые коды символов, вводить символы с помощью числовых кодов и осуществлять перекодировку русскоязычного текста в текс товом редакторе.
Ввод символов с помощью числовых кодов в тексто вом редакторе Блокнот
Запустить стандартное приложение Блокнот командой [Программы-Стандартные-Блокнот].