Краткое объяснение кодирования текстовой информации. Информатика
Кодирование текстовой информации — очень распространенное явление. Один и тот же текст может быть закодирован в нескольких форматах. Принято считать, что кодирование текстовой информации появилось с приходом компьютеров. Это и так и не так одновременно. Кодировка в том виде, в котором мы ее знаем, действительно к нам пришла с приходом компьютеров. Но над самим процессом кодирования люди бьются уже много сотен лет. Ведь, по большому счету, сама письменность уже является способом закодировать человеческую речь, для ее дальнейшего использования. Вот и получается, что любая окружающая нас информация никогда не бывает представленной в чистом виде, потому что она уже каким-то образом закодирована. Но сейчас не об этом.
Самый распространенный способ кодирования текстовой информации — это ее двоичное представление, которое сплошь и рядом используется в каждом компьютере, роботе, станке и т. д. Все кодируется в виде слов в двоичном представлении.
Сама технология двоичного представления информации зародилась еще задолго до появления первых компьютеров. Среди первых устройств, которые использовали двоичный метод кодирования, был аппарат Бодо — телеграфный аппарат, который кодировал информацию в 5 битах в двоичном представлении. Суть кодировки заключалась в простой последовательности электрических импульсов:
- 0 — импульс отсутствует;
- 1 — импульс присутствует.
В компьютерный мир такая кодировка пришла вместе с персонализацией самих компьютеров. То есть в первых компьютерах не было такой кодировки. Но как только компьютеры стали уходить «в массы», то резко обнаружилась потребность обрабатывать компьютерами большое количество именно текстовой информации, которую нужно было как-то кодировать. Тенденция обрабатывать большое количество текстовой информации сохранилась и в современных устройствах.
Так получилось, что двоичное кодирование в компьютерах связано только с двумя символами «0» и «1», которые выстраиваются в определенной логической последовательности. А сам язык подобной кодировки стал называться машинным.
САМОЕ ГЛАВНОЕ
Текст состоит из символов — букв, цифр, знаков препинания и т. д., которые человек различает по начертанию. Компьютер различает вводимые символы по их двоичному коду. Соответствие между изображениями и кодами символов устанавливается с помощью кодовых таблиц.
В зависимости от разрядности используемой кодировки информационный вес символа текста, создаваемого на компьютере, может быть равен:
• 8 битов (1 байт) — восьмиразрядная кодировка;
• 16 битов (2 байта) — шестнадцатиразрядная кодировка.
Информационный объём фрагмента текста — это количество битов, байтов (килобайтов, мегабайтов), необходимых для записи фрагмента оговорённым способом кодирования.
III. Изучение нового материала.
(лекция в сопровождении презентации «Кодирование текстовой информации», см. Приложение 2)
Двоичное кодирование текстовой информации в компьютере.
В процессах восприятия, передачи и хранения информации живыми организмами, человеком и техническими устройствами происходит ее кодирование. Человечество использует шифрование (кодировку) текста с того момента, когда появилась первая секретная информация. Текст – последовательность символов компьютерного алфавита.
Текстовая информация – это информация, выраженная с помощью естественных и формальных языков в письменной форме (прописные и строчные буквы русского и латинского алфавитов, цифры, знаки и математические символы).
Для представления текстовой информации достаточно 256 различных знаков.
По формуле N=2 I можно вычислить, какое количество информации необходимо, чтобы закодировать каждый знак: N = 2 I => 256 = 2 I => 2 8 = 2 I => I = 8 битов.
Для обработки текстовой информации на компьютере необходимо представить ее в двоичной знаковой системе (в виде 0 и 1). Для кодирования каждого знака требуется количество информации, равное 8 битам, т. е. длина двоичного кода знака составляет восемь двоичных знаков. Каждому знаку необходимо поставить в соответствие уникальный двоичный код из интервала от 00000000 до 11111111 (в десятичном коде от 0 до 255)
Человек различает знаки по их начертанию, а компьютер — по их двоичным кодам. При вводе в компьютер текстовой информации происходит ее двоичное кодирование, изображение знака преобразуется в его двоичный код. Пользователь нажимает на клавиатуре клавишу со знаком, и в компьютер поступает определенная последовательность из восьми электрических импульсов (двоичный код знака). Код знака хранится в оперативной памяти компьютера, где занимает одну ячейку.
Рисунок 1. «Кодировки знаков»
В процессе вывода знака на экран компьютера производится обратное перекодирование, т. е. преобразование двоичного кода знака в его изображение.
Различные кодировки знаков.
При кодировании каждому символу алфавита ставиться в соответствие уникальный двоичный код.
Таблица кодировки – таблица, в которой всем символам компьютерного алфавита поставлена в соответствие порядковые номера (коды)
Присваивание знаку конкретного двоичного кода — это вопрос соглашения, которое фиксируется в кодовой таблице.
В существующих кодовых таблицах:
- десятичные коды с 0 по 32 соответствуют не знакам, а операциям (перевод строки, ввод пробела и т. д.).
- десятичные коды с 33 по 127 являются интернациональными и соответствуют знакам латинского алфавита, цифрам, знакам арифметических операций и знакам препинания.
- десятичные коды с 128 по 255 являются национальными, т. е. в различных национальных кодировках одному и тому же коду соответствуют разные знаки.
В настоящее время существуют пять различных кодовых таблиц для русских букв (Windows, MS-DOS, КОИ-8, Mac, ISO) поэтому тексты, созданные в одной кодировке, не будут правильно отображаться в другой. Для разных типов ЭВМ используются различные таблицы кодировки. С распространением персональных компьютеров типа IBM PC международным стандартом стала таблица кодировки под названием ASCII (American Standart Code for Information Interchange) – американский стандартный код для информационного обмена.
Рисунок 2. Десятичные коды некоторых символов в различных кодировках
Например, в кодировке Windows последовательность числовых кодов 221, 194, 204 образует слово «ЭВМ», тогда как в других кодировках это будет бессмысленный набор символов.
К счастью, в большинстве случаев пользователь не должен заботиться о перекодировках текстовых документов, так как это делают специальные программы-конверторы, встроенные в операционную систему и приложения.
Понятие кодировки Unicode(UCS — 2)
В последние годы широкое распространение получил новый международный стандарт кодирования текстовых символов Unicode, который отводит на каждый символ 2 байта (16 битов). По формуле можно определить количество символов, которые можно закодировать согласно этому стандарту: N = 2 I = 2 16 = 65 536.
Такого количества символов достаточно, чтобы закодировать не только русский и латинский алфавиты, цифры, знаки и математические символы, но и греческий, арабский, иврит и другие алфавиты.
Ресурсы ФЦИОР
(Внимание! Для воспроизведения модуля необходимо установить на компьютере проигрыватель ресурсов.) Скачать проигрыватель ресурсов ФЦИОР
1) информационный модуль по теме «Представление текста в различных кодировках»;
2) практический модуль теме «Представление текста в различных кодировках»;
3) контрольный модуль по теме «Представление текста в различных кодировках».
В данный момент вы не можете посмотреть или раздать видеоурок ученикам
Чтобы получить доступ к этому и другим видеоурокам комплекта, вам нужно добавить его в личный кабинет, приобретя в каталоге.
В алфавите формального (искусственного) языка всего два знака-буквы («0» и «Х»)
В алфавите формального (искусственного) языка всего два знака-буквы («0» и «Х»). Каждое слово этого языка состоит всегда из пяти букв. Какое максимальное число слов возможно в этом языке?
Алфавит племени содержит всего 8 букв. Какое количество информации несет одна буква этого алфавита?
Имеется тест, объем которого 20 килобайт (на каждой странице теста 40 строк по 64 символа в строке, 1 символ занимает 8 бит). Определить количество страниц в тесте.
Сколько байт в 32 Гбайт?
Урок по теме «Кодирование текстовой информации»
Цели урока: — помочь учащимся усвоить понятие информации и способы кодирования информации в компьютере; — познакомить учащихся со способами кодирования и декодирования текстовой информации с помощью кодовых таблиц; — воспитание информационной культуры учащихся, внимательности, аккуратности, дисциплинированности, усидчивости.
— развитие мышления, познавательных интересов, навыков работы с мышью и клавиатурой, самоконтроля, умения конспектировать.
Оборудование:
— рабочее место ученика, ПК;
— интерактивная доска, мультимедийный проектор;
— таблица самооценки знаний, умений
Задачи урока:
— формировать знания учащихся по теме “Кодирование и обработка текстовой информации”;
— содействовать формированию у школьников образного мышления;
— развить навыки анализа и самоанализа;
— формировать умения планировать свою деятельность.
Организационный момент (1 мин);
Проверка знаний, домашнего задания (7-8 мин);
Изучение нового материала (теоретическая часть) – (13 мин)
Закрепление изученного (практическая работа) – (15 мин);
Домашнее задание. (2 мин);
Подведение итогов (2 мин);
1. Организационный момент:
Приветствие, проверка присутствующих. Слайд 2. ( Приложение 1 )
2. Проверка знаний, домашнего задания
Слайд 3
— На прошлом уроке мы с вами повторили понятие информации, о роли информации в живой и неживой природе. Я предлагаю всем проверить свои знания с помощь теста. (Учащиеся проверяют знания, усвоение ключевых понятий предыдущей темы с помощью программы MyTest. Результаты тестирования сообщают учителю и записывают в таблицу самоконтроля) ( Приложение 2 )
Тест
3. Изучение нового материала
Слайд 4. Тема урока «Кодирование и обработка текстовой информации»
— Сегодня на уроке вы узнаете, как представляется текстовая информация в компьютере. Научитесь кодировать и декодировать текстовую информацию с помощью кодовых таблиц и ПК. Но для начала мы должны вспомнить, что же такое «кодирование»?
-Какой принцип кодирования информации используют в компьютере?
С развитием человечества появилась потребность обмениваться информацией. Но человеческий мозг не способен сохранять всю имеющуюся информацию. Так появилось гениальное изобретение – письменность. Возник набор условных обозначений для представления звуков, названный алфавитом. Алфавит мы сейчас рассматриваем как конечную совокупность символов, использующих для создания сообщений. Алфавит есть код человеческого языка. С созданием автоматических устройств возникла потребность создания таких языков, которые не имели бы множества толкований, т.е необходимо было формализовать человеческий язык. Огромное количество способов кодирования информации неизбежно привело пытливый человеческий ум к попыткам создать универсальный язык или азбуку для кодирования
Уже с 60-х годов прошлого столетия, компьютеры всё больше стали использовать для обработки текстовой информации. Для кодирования текстовой информации в компьютере применяется двоичное кодирование, т.е. представление текста в виде последовательности 0 и 1 (Эти два символа называются двоичными цифрами, по-английски – binary digit или сокращённо bit ).
Почему же двоичное кодирование используется в вычислительной технике?
Оказывается такой способ легко реализовать технически: 1 – есть сигнал, 0 – нет сигнала. Каждому символу алфавита сопоставили определённое количество и последовательность нулей и единиц.
Сколько же бит необходимо для кодирования символов?
Ограничений на количество символов не существует. Однако есть количество, которое можно назвать достаточным.
Посчитаем примерное достаточное количество символов для внутреннего алфавита компьютера и по формуле вычислим необходимое количество бит.
33 русских прописных буквы + 33 русских строчных букв + 26 английских строчных букв + 26 прописных английских букв + 10 цифр + знаки препинания + скобки и знаки математических операций + специальные символы (@, #, $, %, &, *) + знаки псевдографики ≈ 256 символов. Вспомним формулу определения количества информации в двоичной знаковой системе (Тема предыдущего урока).
Для количества такого количества символов достаточно 8 бит лил 1 байт. Итак, с помощью 1 байта можно закодировать 256 различных символов.
Кодирование заключается в том, что каждому символу ставится в соответствие уникальный десятичный код от 0 до 255 или соответствующий ему двоичный код от 00000000 до 11111111. Т.О. человек различает символы по их начертанию, компьютер по их коду. При вводе в компьютер текстовой информации происходит двоичное кодирование, изображение символа преобразуется в двоичный код. Код символа хранится в одной ячейке оперативной памяти.
Слайд 8 – 12
Любой код – это своего рода соглашение между людьми, которые договариваются , что таким-то образом они будут обозначать то-то и то-то. Данное соглашение фиксируется в кодовой таблице. В качестве международного стандарта принята кодовая таблица ASCII (American Standard Code for Information Interchange).
Первые 33 кода (с 0 по 33) этой таблице соответствует не символам, а операциям (ввод пробела, перевод строки и т.д.)
Коды с 33 по 127 являются интернациональными и соответствуют символам латинского алфавита, цифрам, знакам арифметических операций и знакам препинания.
Коды с 128 по 255 являются национальными, т.е. в разных национальных кодировках одному и тму же коду соответствуют различные символы. Существует 5 кодировочных таблиц для русских букв ( Windows , MS — DOS , Mac , ISO , КОИ – 8). Поэтому тексты созданные в одной кодировке не будут правильно отображаться в другой
Слайд 13 – 17
В мире существует примерно 6800 различных языков. Если прочитать текст, напечатанный в Японии на компьютере в России или США, то понять его будет нельзя. Чтобы буквы любой страны можно было читать на любом компьютере, для их кодировки стали использовать два байта (16 бит).
Сколько символов можно закодировать двумя байтами?
Такая кодировка называется Unicode и обозначается как UCS-2. Этот код включает в себя все существующие алфавиты мира, а также множество математических, музыкальных, химических символов и многое другое. Существует кодировка и UCS-4, где для кодирования используют 4 байта, то есть можно кодировать более 4 млрд. символов.
4. Закрепление изученного. Практическая работа
Слайд 18 — 20
1. Задание: В Web -редакторе Компоновщик (приложение Sea — Monkey ) создать web -страницы, содержащие слово «информатика» в пяти различных кодировках: Windows , MS — DOS , Unicode , ISO , КОИ – 8. Просмотреть их в браузере в нужной кодировке.
( Ход выполнения практической работы: Учебник 10 класс Угринович Н.Д. стр 15 -17 )
2. Задание. ( Слайд) (Подготовка к ЕГЭ. Решение заданий А1 и А2. Раздаточный материал тренировочных тестов. Информатика. ЕГЭ. ТРИГОН Санкт-Петербург).
А1. Считая, что каждый символ кодируется одним байтом, определите, чему равен информационный объём следующего высказывания Жан-Жака Руссо:
Тысячи путей ведут к заблуждению, к истине – только один.
1) 92 бита 2) 220 бит 3) 456 бит 4) 512 бит
Ответ : 3) 456 бит.
б) А2. Два текста содержат одинаковое количество символов. Первый текст составлен в алфавите мощностью 16 символов. Второй текст в алфавите мощностью 256 символов. Во сколько раз количество информации во втором тексте больше, чем в первом?
1) 12 2) 2 3) 24 4) 4
5.Обобщение. Домашнее задание:
1. Какой принцип кодирования текстовой информации используется в компьютере?
2. Как называется международная таблица кодировки символов?
3. Перечислите названия таблиц кодировок для русскоязычных символов.
4. В какой системе счисления представлены коды в перечисленных вами таблицах кодировок?
Учебник Н.Д.Угринович 10 класс. § 1.1.1, ответить на вопрос.
Выполнить задание из Демонстрационного варианта контрольных измерительных материалов единого государственного экзамена 2011 года по информатике и ИКТ
А2. Автоматическое устройство осуществило перекодировку информационного
сообщения на русском языке длиной в 20 символов, первоначально
записанного в 16-битном коде Unicode, в 8-битную кодировку КОИ-8. При
этом информационное сообщение уменьшилось на
1) 320 бит 2) 20 бит 3) 160 байт 4) 20 байт
6. Подведение итогов.
Сегодня мы с вами познакомились со способами кодирования и декодирования текстовой информации с помощью кодовых таблиц и компьютера; потренировались в решении задач из тестовых заданий ЕГЭ на данную тему. Давайте подведём итоги нашего урока. Оцените самостоятельно работу на уроке.
Спасибо за урок.
Список используемых информационных источников
Ровнягина Л.В. Кодирование текстовой (символьной) информации (2007 / 2008 учебный год) // http://festival.1september.ru/articles/502820 (дата обращения: 22 октября 2009 год).
Угринович, Н. Д. Практикум по информатике и информационным технологиям. Учебное пособие для общеобразовательных учреждений / Н. Д. Угринович, Л. Л. Босова, Н. И. Михайлова. — М. : БИНОМ. Лаборатория знаний, 2003. — 400 с. : ил.
Угринович, Н.Д. Информатика и ИКТ. Базовый уровень : учебник для 10 класса/Н. Д. Угринович. — 6-е изд. — М. : БИНОМ. Лаборатория знаний, 2010.
Демонстрационный вариант контрольных измерительных материалов единого государственного экзамена по информатике 2011 года (подготовлен Федеральным государственным научным учреждением «ФЕДЕРАЛЬНЫЙ ИНСТИТУТ ПЕДАГОГИЧЕСКИХ ИЗМЕРЕНИЙ»)
Раздаточный материал тренировочных тестов по информатике. ЕГЭ И.Ю.Гусева. ТРИГОН Санкт-Петербург 2009г.
Разработка урока Учитель: Митина Наталья Владимировна, учитель информатики НМОУ «Гимназия №44» города Новокузнецка Кемеровской области.
Поурочные разработки по информатике 8-9 классы А.Х Шелепаева. Москва «ВАКО» 2005
Слайд 1
10 класс Кодирование и обработка информации Учитель информатики МОУ СОШ №8 с.Ульяновка Голованева Елена Владимировна 03/25/18 1
Слайд 2
Сегодня на уроке • • • • • Проверим наши знания Изучим новую тему Потренируемся, закрепим новые знания Разберём домашнее задание Подведём итоги 03/25/18 2
Слайд 3
Тест • Запустите программу MyTest • Откройте на Рабочем столе папку 10 класс – Тесты – Тест3 • Время тестирования – 7 минут 03/25/18 3
Слайд 4
Кодирование и обработка текстовой информации Уже с 60-х годов прошлого столетия, компьютеры всё больше стали использовать для обработки текстовой информации. Для кодирования текстовой информации в компьютере применяется двоичное кодирование, т.е. представление текста в виде последовательности 0 и 1 (Эти два символа называются двоичными цифрами, по-английски – binary digit или сокращённо bit). 03/25/18 4
Слайд 5
Почему же двоичное кодирование ? Такой способ легко реализовать технически: 1 – есть сигнал, 0 – нет сигнала. Каждому символу алфавита сопоставили определённое количество и последовательность нулей и единиц. 03/25/18 5
Слайд 6
Сколько же бит необходимо для кодирования символов? Посчитаем примерное достаточное количество символов для алфавита компьютера и по формуле вычислим необходимое количество бит. 33 русских прописных буквы + 33 русских строчных букв + 26 английских строчных букв + 26 прописных английских букв + 10 цифр + знаки препинания + скобки и знаки математических операций + специальные символы (@, #, $, %, &, *) + знаки псевдографики ≈ 256 символов. N = 2I 256 = 28 03/25/18 6
Слайд 7
В чём суть кодирования? Кодирование заключается в том, что каждому символу ставится в соответствие уникальный десятичный код от 0 до 255 или соответствующий ему двоичный код от 00000000 до 11111111. 03/25/18 7
Слайд 8
ASCII (American Standard Code for Information Interchange). • Первые 33 кода (с 0 по 33) этой таблице соответствует не символам, а операциям (ввод пробела, перевод строки и т.д.) • Коды с 33 по 127 являются интернациональными и соответствуют символам латинского алфавита, цифрам, знакам арифметических операций и знакам препинания. 03/25/18 8