Кодирование текстовой информации. Кодирование информации. Кодирование информации в ПК

Информация может поступать от источника к приёмнику с помощью сигналов самой разной физической природы. Например, сигнал может быть световым, звуковым, тепловым, электрическим или в виде жеста, движения, слова, сломанной веточки на дереве, другого условного знака.

Для того чтобы произошла передача информации, приёмник информации должен не только получить сигнал, но и расшифровать его. Так, услышав звонок будильника, ученик понимает, что пришло время просыпаться и собираться в школу. Телефонный звонок означает, что кому-то нужно с вами поговорить.

Звонок в дверь сообщает, что кто-то пришёл, а школьный звонок собирает ребят на урок или оповещает их о долгожданной перемене.

Необходимо заранее договариваться, как понимать те или иные сигналы, другими словами, требуется разработка кода.

Код — это система условных знаков для представления информации. Кодирование — это представление информации с помощью некоторого кода.

Множество кодов очень прочно вошло в нашу жизнь. Так, для общения в нашей стране используется код — русский язык. Код используется для оценки знаний в школе (число 5 — код отличных знаний, 4 — код хороших знаний, 3 — удовлетворительных, 2 — плохих).

С помощью нотных знаков записывается (кодируется) любое музыкальное произведение. По номерному знаку можно узнать сведения об автомобиле и его владельце.

В современных супермаркетах каждый товар имеет на упаковке штрих-код — метку, состоящую из чёрных линий. Для чтения штрих-кодов применяют специальные сканеры. С их помощью в компьютер вводят информацию о стоимости покупки.

Правила дорожного движения кодируются с помощью наглядных символических рисунков. Всем хорошо известны следующие дорожные знаки, изображённые на рис. 15.

Рис. 15

Свой код из шести цифр (почтовый индекс) имеет каждый населённый пункт Российской Федерации. Его следует писать на конверте в специально отведённом для этого месте (рис. 16). По коду можно узнать, куда отправлять письмо. Например, код города Москвы и коды всех населённых пунктов Московской области начинаются с цифры 1.

Рис. 16

В середине XIX века французский педагог Луи Брайль придумал специальный способ представления информации для слепых. «Буквы» этого кода выдавливаются на листе плотной бумаги. Одна буква занимает два столбика, в каждом из которых может быть выдавлено от одной до трёх точек (рис. 17). Проводя пальцами по выступам, незрячие люди различают буквы и могут читать.

Рис. 17

В памяти компьютера информация представлена в двоичном коде в виде цепочек нулей и единиц. Каждому символу, вводимому с клавиатуры, соответствует уникальная цепочка из восьми 0 и 1. Например, буква «Q» имеет двоичный код 01010001, а цифра «7» — 00110111.

Пример 1. Составим простейшую кодовую таблицу, поставив в соответствие каждой букве её порядковый номер в алфавите. Тогда скороговорка

ОТ ТОПОТА КОПЫТ
ПЫЛЬ ПО ПОЛЮ ЛЕТИТ

в закодированном виде будет выглядеть так:

16 20 20 16 17 16 20 1 12 16 17 29 20
17 29 13 30 17 16 17 16 13 32 13 6 20 10 20

Пример 2. Можно закодировать информацию, заменяя каждую букву исходного текста, например, следующей после неё буквой в алфавите. Такой код называют шифром замены. В этом случае исходное сообщение

АЛ ЦВЕТ МИЛ НА ВЕСЬ СВЕТ

БМ ЧГЁУ НКМ ОБ ГЁТЭ ТГЁУ

О кодировании информации с помощью языка жестов можно прочитать в электронном приложении к учебнику.

Кодирование текстовой информации.

На сегодняшний день большое колличество пользователей при помощи компьютера обрабатывает текстовую информацию, которая состоит из: букв, цифр, знаков препинания и других элементов.

Обычно для кодирования одного символа, используеться 1 байт памяти то есть 8 бит. По теории вероятностей с помощью простой формулы, которая связывает количество возможных событий (К) и количество информации (I), можно вычислить сколько не одинаковых символов можно закодировать: К = 2^I = 28 = 256.

Примечание

Для кодирования текстовой информации обычно используют алфавит мощьностью в 256 символов…

Принцип данного кодирования заключается в том, что каждому символу (букве, знаку) соответствуе свой двоичный код от 00000000 до 11111111, так-же текстовая информация может быть представлена в десятичном коде от 0 до 255.

Нужно запомнить, что на сегодняшний день для кодирования букв российского алфавитаиспользуют пять разных кодировачных таблиц (КОИ — 8, СР1251, СР866, Мас, ISO), запомните, что тексты закодированные с помощью одной таблицы не будут корректно отображаться в другой кодировке. Это можно увидить в обьединенной таблице кодировки символов.

Для одного двоичного кода в разных таблицах соответствуют разные символы:

Двоичный код Десятичный код КОИ8 СР1251 СР866 Мас ISO
11000010 194 б В Т

На сегодняшний день перекодированием текстовых документов заботится не пользователь, а программы, которые встроены в текстовые редакторы и текстовые процессоры. В начале 1997 года Microsoft Office начали поддерживать новую кодировку Unicode. В Unicode можно закодировать не 256 символов а, 65536, это было достигнуто тем, что под каждый символ начали отводить 2 байта. Сегодня больше всего популярны две таблицы это Windows (СР1251), и Unicode.

Решаем задачи.

Задача №1.
Допустим у нас есть два текста которые содержат одинаковое колличество символов. Один текст записан на русском языке его алфавит (32 символа), а второй допустим на украинском его алфавит (16 символов). Чей текст несет большее количество информации?

Решение

I = К * а (информационный объем текста равен произведению числа символов на информационный вес одного символа). Т.к. оба текста имеют одинаковое число символов (К), то разница зависит от информативности одного символа алфавита (а).
2^а1 = 32, т.е. а1 = 5 бит.
2^а2 = 16, т.е. а2 = 4 бит.
I1 = К * 5 бит, I2 = К * 4 бит.
Значит, текст, записанный на русском языке в 5/4 раза несет больше информации.

Задача №2.
Объем сообщения, содержащего 2048 символов, составил 1/512 часть Мбайта. Определить мощность алфавита.

Решение

I = 1/512 * 1024 * 1024 * 8 = 16384 бит. — перевели в биты информационный объем сообщения.
а = I / К = 16384 /1024 = 16 бит — приходится на один символ алфавита.
2^16 = 65536 символов — мощность использованного алфавита.
Именно такой алфавит используется в кодировке Unicode, который стал международным стандартом для представления символьной информации в компьютере.

Кодирование текстовой информации и таблицы кодировок

Таблица кодировки — это место, где прописано какому символу какой код относится. Все таблицы кодировки являются согласованными — это нужно, чтобы не возникало путаницы между документами, закодированными по одной таблице, но на разных устройствах.

На сегодняшний день существует множество таблиц кодировок. Из-за этого часто возникают проблемы с переносом текстовых документов между устройствами. Так получается, что если текстовая информация была закодирована по одной какой-то таблице, то и раскодирована она может быть только по этой таблице. Если попытаться раскодировать другой таблицей, то в результате получим только набор непонятных символов, но никак не читабельный текст.

Наиболее популярные таблицы кодировки:

  • ASCII,
  • MS-DOS,
  • ISO,
  • Windows,
  • КОИ8,
  • CP866,
  • Mac,
  • CP 1251,
  • Unicode,
  • и др.

Самое главное

Передаваемая информация может поступать от источника к приёмнику с помощью условных знаков или сигналов, то есть в закодированном виде.

Код — это система условных знаков для представления информации.

Кодирование — это представление информации с помощью некоторого кода.

Выбор способа кодирования зависит от цели, ради которой оно осуществляется.

Чтобы декодировать закодированное сообщение, необходимо знать код.

Как текстовая информация может выглядеть в памяти компьютера?

Любой текст набирают на клавиатуре, на клавишах клавиатуры, мы видим привычные для нас знаки (цифры, буквы и т.д.). В оперативную память компьютера они попадают только в виде двоичного кода. Двоичный код каждого символа, выглядит восьмизначным числом, например 00111111.

Поскольку, байт – это самая маленькая адресуемая частица памяти, и память обращена к каждому символу отдельно – удобство такого кодирование очевидно. Однако, 256 символов – это очень удобное количество для любой символьной информации.

Естественно, встал вопрос: Какой конкретно восьми разрядный код принадлежит каждому символу? И как осуществить перевод текста в цифровой код?

Этот процесс условный, и мы вправе придумать различные способы для кодировки символов. Каждый символ алфавита имеет свой номер от 0 до 255. И каждому номеру присвоен код от 00000000 до 11111111.

Таблица для кодировки – это «шпаргалка», в которой указаны символы алфавита в соответствии порядковому номеру. Для различных типов ЭВМ используют разные таблицы для кодировки.

ASCII(или Аски), стала международным стандартом для персональных компьютеров. Таблица имеет две части.

В данный момент вы не можете посмотреть или раздать видеоурок ученикам

Чтобы получить доступ к этому и другим видеоурокам комплекта, вам нужно добавить его в личный кабинет, приобретя в каталоге.

Как считает компьютер?

В компьютере используется элементарная двоичная система исчисления: числа складываются только из двух знаков – нуля и единицы. Это связано в первую очередь с внутренним строением компьютера. Внутри процессора находятся миллионы транзисторов, которые по своим техническим особенностям имеют два состояния: включен (ток свободно протекает) или выключен (ток не течет).

Различия между двоичной, десятичной и шестнадцатеричной системой

Таблицы кодировок [ править ]

На заре компьютерной эры на каждый символ было отведено по пять бит. Это было связано с малым количеством оперативной памяти на компьютерах тех лет. В эти [math]32[/math] символа входили только управляющие символы и строчные буквы английского алфавита.

С ростом производительности компьютеров стали появляться таблицы кодировок с большим количеством символов. Первой семибитной кодировкой стала ASCII7. В нее уже вошли прописные буквы английского алфавита, арабские цифры, знаки препинания. Затем на ее базе была разработана ASCII8, в которым уже стало возможным хранение [math]256[/math] символов: [math]128[/math] основных и еще столько же расширенных. Первая часть таблицы осталась без изменений, а вторая может иметь различные варианты (каждый имеет свой номер). Эта часть таблицы стала заполняться символами национальных алфавитов.

Но для многих языков (например, арабского, японского, китайского) [math]256[/math] символов недостаточно, поэтому развитие кодировок продолжалось, что привело к появлению UNICODE.

Стандарты кодирования видео

Как вы знаете, видеоряд состоит из быстро меняющихся фрагментов. Смена кадров происходит со скоростью в интервале 24-60 кадров в секунду.

Размер видеоряда в байтах определяется размером кадра (количеством пикселей на экран по высоте и ширине), количеством используемых цветов, а также количеством кадров в секунду. Но наряду с этим может присутствовать ещё и звуковая дорожка.

© 2013-2020 Информатика. Полезные материалы по информационным технологиям. Использование материалов без активной ссылки на сайт запрещено! Публикация в печати только с письменного разрешения администрации.

Оцените статью
Fobosworld.ru
Добавить комментарий

Adblock
detector