Измерение информации

Информационный объем текста и единицы измерения информации

Современный компьютер может обрабатывать числовую, текстовую, графическую, звуковую и видео информацию. Все эти виды информации в компьютере представлены в двоичном коде, т. е. используется всего два символа 0 и 1 . Связано это с тем, что удобно представлять информацию в виде последовательности электрических импульсов: импульс отсутствует ( 0 ), импульс есть ( 1 ).

Такое кодирование принято называть двоичным , а сами логические последовательности нулей и единиц — машинным языком .

Какой длины должен быть двоичный код, чтобы с его помощью можно было закодировать васе символы клавиатуры компьютера?

Наименьшая единица измерения информации

Для измерения информации в информатике используют свою, особенную единицу измерения. Она получила название — «бит» и образована от словосочетания двух английских слов — «binary digit».

Для того чтобы была возможность измерить информацию необходимо, как вы помните, закодировать информацию в цифровые двоичные данные. Только так, мы сможем узнать размер набора цифровых данных, хранящемся в каком-либо файле.

Бит — наименьшая единица измерения информации.

Это определение означает, что не существует никакой другой единицы измерения информации, которая была бы меньше, по своему значению, чем один бит.

Один бит содержит в себе очень малую часть информации. Ведь он способен принимать только одно из двух определенных значений (1 или 0).

Поэтому, измерять информацию, используя лишь одни биты, крайне неудобно — числа выходят очень большими. Это тоже самое, если бы мы измеряли высоту своего тела в миллиметрах.

Например, для кодирования 1 символа в текст достаточно 8 бит. 8 бит называют байтом.

1 байт = 8 бит

Учитель информатики

Здравствуйте, сегодня в данной статье мы поговорим про единицы измерения информации, в чем измеряется информация и как переводить из одной единицы информации в другую.

Информацию принято мерить битами и байтами. Самое маленькое значение это 1 бит меньше нет, но однако при измерении информации на носителях обычно не берут единицу ниже байта.

Байт — это набор из 8 битов.

1 байт = 8 бит

Если информации становиться больше мы прибегаем к более крупным единицам килобайтам.

1 килобайт = 1024 байт

Если и килобайтов становиться больше, то мы уже будем иметь дело с мегабайтом.

1 мегабайт = 1024 килобайт

1 гигабайт = 1024 мегабайт

1 терабайт = 1024 гигабайт

1 петабайт = 1024 терабайт

1 эксабайт = 1024 петабайт

1 зеттабайт = 1024 эксабайт

1 йоттабайт = 1024 зеттабайт и так далее.

Единицы информации после терабайтов это гигантские числа и в действительности мы их еще не используем. В недалеком будущем конечно мы с ними столкнемся. Пока же современные носители информации не превышают нескольких терабайт.

Вы заметили, что переход от одной единицы к другой происходит не на десятках или тысячах круглых значениях что было бы удобно при расчетах, а на числе восемь и 1024. Эти числа появились не спроста. Дело в том, что при кодировании и хранении информации на компьютере используется не десятичная система счисления, а двоичная.

Значения получаются не степеней десяток (10 100 1000 и т. д.), а из степеней двойки (8 = 2^3, 1024 = 2^10). Подробно разбирать суть двоичной системы мы сейчас не будем это тема отдельной статьи. Поэтому примите числа 8 и 1024 как данность.

Теперь давайте поговорим как переводить единицы измерения из одной в другую и когда это может понадобиться.

Например, у вас такая задача. Вам известно, что ваш файл весит 700 000 килобайт, а флешка имеет объем 2 гигабайта. И вам нужно понять поместиться ваш файл на флешку или нет.

Просто сверить эти два значения не представляется возможным потому что они даны в разных единицах измерения килобайт и гигабайт. Нам нужно перевести одну из них в одинаковую единицу. Переведем килобайты в гигабайты.

Для этого введем такое правило.

Если вы переводите единицы измерения из меньшего в большую, то вы будете делить.

Если вы переводите из более крупной в меньшую, то вы умножаете.

единицы измерения информации

В данном нашем случае мы переводим килобайты в гигабайты. Значит нам нужно подняться на 2 ступени по весу единицы измерения. Вес становиться больше поэтому мы делим дважды на значение 1024. Так как это значение связывает наши единицы измерения.

700 000 килобайт: 1024 = 683,6 мегабайт

Поделив один раз на 1024, мы попадем в мегабайты.

683,6 мегабайт: 1024 = 0,7 гигабайт

Мы перешли из мегабайтов в гигабайты. Теперь можем легко сравнивать 0,7 гигабайт . Наш файл поместиться на флешку.

Решим еще несколько примеров.

Переведем 85 мегабайт в байты.

Что бы перевести мегабайты в байты нужно определить направление нашего движения. Мы идем от более крупных к мелким или наоборот. Конечно видно, что мегабайты более крупные единицы. Значит мы в нашей табличке движемся вверх, будем умножать. Нам нужно сделать 2 действия пройти от мегабайта к килобайтам, а затем к байтам.

85 мегабайт * 1024 = 87 040 килобайт

87 040 килобайт * 1024 = 89 128 960 байт

0,5 петабайт в гигабайты.

0,5 петабайт * 1024 = 512 терабайт

512 терабайт * 1024 = 524 288 гигабайт

100 килобайт в байты

100 килобайт * 1024 = 102 400 байт

102 400 байт * 8 = 819 200 бит

342000 бит в мегабайты

342 000 бит / 8 = 42 750 байт

42 750 байт / 1024 = 41,7 килобайтов

41,7 килобайта / 1024 = 0,04 мегабайта

Итак, что вам нужно запомнить при переводе из одной единицы в другую. Если единица измерения повышается при переводе вам нужно делить. Если единица измерения уменьшается, то вам нужно умножать. применяется обратно пропорциональная связь.

Байт и более крупные единицы

Восемь бит, расположенных в определённой последовательности, составляют один байт или октет — наименьший информационный блок, к которому система обращается напрямую. Именно этими блоками оперируют компьютерные программы. Вот почему в Проводнике Windows объём каждого файла отображается именно в байтах.

В чём измеряется количество данных и какие объёмы информации востребованы сегодня

Множества байт обозначают при помощи приставок, которые используются в любых математических расчётах: «кило-», «мега-», «гига-» и так далее. Мы знаем, например, что приставка «кило-» означает 10 в 3 степени, то есть 1000. Поэтому начинающие изучать информатику путаются. Проблема в том, что в этой науке используются те же самые приставки, но кратны они не 1000, а 1024, то есть 2 в 10 степени. Таким образом, в килобайте содержится не 1000 байт, а 1024. В теории уникальные обозначения для различных объемов компьютерных данных существуют, и они могли бы путаницу устранить. Эти обозначения образуются путём изменения последнего слога обычной приставки на слог «би» — например, кибибайт, гибибайт и так далее. Однако на практике эти обозначения не используются.

Путаницей с радостью пользуются в собственных интересах производители жёстких дисков. Типична ситуация, когда человек покупает винчестер, например, на 500 гигабайт, но, подключив его к компьютеру, видит, что памяти на нём значительно меньше — скажем, 465. Причина кроется в том, что производитель при расчёте пользуется международной системой единиц, согласно которой один гигабайт равен 10 в 9 степени (1 млрд) байт. А вот операционная система ориентирована на двоичную систему исчисления, в которой 1 гигабайт — это 1 073 741 824 байт. Отсюда разница. И чем больше памяти на носителе, тем значительнее может быть расхождение между заявленным и реальным объемом.

На современном этапе развития IT-индустрии наиболее часто используются следующие единицы:

  • Мегабайт (Мб), 1024 килобайта. Обычно в них измеряется размер небольших музыкальных файлов, фотографий и непродолжительных видеозаписей.
  • Гигабайт (Гб), 1024 мегабайта. В гигабайтах измеряют вес фильмов в высоком качестве, современных видеоигр и т.п.
  • Терабайт (Тб), 1024 Гб. На сегодняшний день это самая крупная информационная единица, с которой имеет дело обычный пользователь. Причём в терабайтах на домашних компьютерах измеряются объёмы не отдельных файлов, а целых локальных дисков.

Более крупные единицы — петабайт, эксабайт, зеттабайт, йоттабайт — тоже существуют, но домашние и офисные компьютеры столь огромными массивами данных не оперируют. Впрочем, это лишь вопрос времени.

ЦП Автоматизированные системы управления и промышленная безопасность

Количественные характеристики информации

Классификация мер информации представлена на рис.1.

Рис. 1. Классификация мер информации

Синтаксическая мера информации оперирует с обезличенной информацией, не выражающей смыслового отношения к объекту. На синтаксическом уровне учитываются тип носителя и способ представления информации, скорость передачи и обработки, размеры кодов представления информации.

Существуют два основных подхода в определении количества информации. Исторически они возникли почти одновременно. В конце 40-х г. XX века один из основоположников кибернетики, американский математик Клод Шеннон развил вероятностный подход к измерению количества информации, а работы по созданию ЭВМ привели к «объемному» подходу.

Объём данных (VД) понимается в техническом смысле этого слова как информационный объём сообщения или как объём памяти, необходимый для хранения сообщения без каких-либо изменений.

Информационный объём сообщения измеряется в битах и равен количеству двоичных цифр (“0” и “1”), которыми закодировано сообщение.

В компьютерной практике слово “бит” используется также как единица измерения объёма памяти. Ячейка памяти размером в 1 бит может находиться в двух состояниях (“включено” и “выключено”) и в неё может быть записана одна двоичная цифра (0 или 1). Понятно, что бит – слишком маленькая единица измерения информации, поэтому пользуются кратными ей величинами. Основной единицей измерения информации является байт. 1 байт равен 8 битам. В ячейку размером в 1 байт можно поместить 8 двоичных цифр, то есть в одном байте можно хранить 256 = 2 8 различных чисел. Для измерения ещё больших объёмов информации используются следующие величины:

1 Кбайт (один килобайт) = 2 10 байт = 1024 байта (1 kB );

1 Мбайт (один мегабайт) = 2 10 Кбайт = 1024 Кбайта (1 MB );

1 Гбайт (один гигабайт) = 2 10 Мбайт = 1024 Мбайта (1 GB );

1 Тбайт (один терабайт) = 2 10 Гбайт = 1024 Гбайта (1 TB );

1 Пбайт (один петабайт) = 2 10 Тбайт = 1024 Тбайта (1 PB );

1 Эбайт (один эксабайт) = 2 10 Пбайт = 1024 Пбайта (1 EB );

1 Збайт (один зеттабайт) = 2 10 Эбайт = 1024 Эбайта (1 ZB );

1 Йбайт (один йоттабайт) = 2 10 Збайт = 1024 Збайта (1 YB ).

Пример 1 . При двоичном кодировании текста каждая буква, знак препинания, пробел занимают 1 байт. На странице книги среднего формата примерно 50 строк, в каждой строке около 60 символов, таким образом, полностью заполненная страница имеет объём 50×60= = 3000 байт ≈3 Килобайта. Вся книга среднего формата занимает ≈0,5 Мегабайт. Один номер четырёхстраничной газеты – 150 Килобайт. Если человек говорит по 8 часов в день без перерыва, то за 70 лет он наговорит около 10 Гигабайт информации. Один чёрно-белый кадр (при 32 градациях яркости каждой точки) содержит примерно 300Кб информации, цветной кадр содержит уже около 1Мб информации. Телевизионный фильм продолжительностью 1,5часа с частотой 25 кадров в секунду — 135 Гб.

При вероятностном подходе количество информации I на синтаксическом уровне определяется через понятие энтропии системы.

Пусть до получения информации потребитель имеет некоторые предварительные (априорные) сведения о системе α. Мерой его неосведомленности о системе является функция H(α), которая в то же время служит и мерой неопределенности состояния системы.

После получения некоторого сообщения β получатель приобрел некоторую дополнительную информацию Iβ(α), уменьшившую его априорную неосведомленность так, что неопределенность состояния системы после получения сообщения β стала Hβ(α).

Тогда количество информации Iβ(α) о системе, полученной в сообщении β, определится как

т.е. количество информации измеряется изменением (уменьшением) неопределенности состояния системы. Если конечная неопределенность Hβ(α) обратится в нуль, то первоначальное неполное знание заменится полным знанием и количество информации будет определяться как Iβ(α) = H(α). Иными словами, энтропия системы Н(а) может рассматриваться как мера недостающей информации.

Энтропия системы H(α), имеющая N возможных состояний, согласно формуле Шеннона, равна:

где – вероятность того, что система находится в i-м состоянии. Для случая, когда все состояния системы равновероятны, т.е. их вероятности равны , ее энтропия определяется соотношением:

Пример 2. Часто информация кодируется числовыми кодами в той или иной системе счисления, особенно это актуально при представлении информации в компьютере. Естественно, что одно и то же количество разрядов в разных системах счисления может передавать разное число состояний отображаемого объекта, что можно представить в виде соотношения

N = m n ,где N – число всевозможных отображаемых состояний;

m – основание системы счисления (разнообразие символов, применяемых в алфавите);

n – число разрядов (символов) в сообщении.

Допустим, что по каналу связи передается n-разрядное сообщение, использующее m различных символов. Так как количество всевозможных кодовых комбинаций будет N = m n , то при равновероятности появления любой из них количество информации, приобретенной абонентом в результате получения сообщения, будет определяться по формуле Хартли:

I = log N = n log m

Если в качестве основания логарифма принять m, то I = n. В данном случае количество информации (при условии полного априорного незнания абонентом содержания сообщения) будет равно объему данных I = VД, полученных по каналу связи.

Наиболее часто используются двоичные и десятичные логарифмы. Единицами измерения в этих случаях будут соответственно бит и дит.

Семантическая мера информации

Для измерения смыслового содержания информации, т.е. ее количества на семантическом уровне, наибольшее признание получила тезаурусная мера, которая связывает семантические свойства информации со способностью пользователя принимать поступившее сообщение. Для этого используется понятие «тезаурус пользователя».

Тезаурус – это совокупность сведений, которыми располагает пользователь или система.

В зависимости от соотношений между смысловым содержанием информации S и тезаурусом пользователя Sp изменяется количество семантической информации Ic,воспринимаемой пользователем и включаемой им в дальнейшем в свой тезаурус. Характер зависимости количества семантической информации, воспринимаемой потребителем, от его тезауруса показан на рис. 2.

Рис. 2. Характер зависимости количества семантической информации от его тезауруса

Рассмотрим два предельных случая, когда количество семантической информации Icравно 0:

• при пользователь не воспринимает и не понимает поступающую информацию;

• при пользователь все знает, и поступающая информация ему не нужна.

Максимальное количество семантической информации Ic потребитель приобретает при согласовании ее смыслового содержания S со своим тезаурусом Sp (Sp = Sp opt), когда поступающая информация понятна пользователю и несет ему ранее не известные (отсутствующие в его тезаурусе) сведения. Следовательно, количество семантической информации в сообщении, т.е. количество новых знаний, получаемых пользователем, является величиной относительной. Одно и то же сообщение может иметь смысловое содержание для компетентного пользователя и быть бессмысленным для пользователя некомпетентного.

Относительной мерой количества семантической информации может служить коэффициент содержательности С, который определяется как отношение количества семантической информации к ее объему: .

Прагматическая мера информации (аксиологический подход)

Эта мера определяет полезность информации (ценность) для достижения пользователем поставленной цепи. Эта мера также является величиной относительной, обусловленной особенностями использования этой информации в той или иной системе.

Ценность информации целесообразно измерять в тех же самых единицах (или близких к ним), в которых измеряется целевая функция.

Эксабайты («ЭБ»)

И значение единицы измерения цифрового объема информации из ближайшего будущего – это эксабайт, который, как логично утверждать, состоит из «1024 петабайтов». Мировые технические гиганты, такие как «Amazon», «Google» и «Facebook» (которые обрабатывают немыслимые объемы данных), как правило, единственные, кто беспокоится о подобном виде хранилища прямо сейчас. На потребительском уровне, некоторые (но не все) файловые системы, используемые операционными системами в настоящее время, имеют теоретический предел где-то в эксабайтах.

Реальные примеры хранения цифрового массива информации в эксабайтах («ЭБ»):

«1 ЭБ» = Одиннадцать миллионов видео в стандарте высокого разрешения «4К».

«5 ЭБ» = Включает все слова, произнесенные человечеством.

«15 ЭБ» = Общие расчетные данные, проведенные «Google».

Конечно, этот список можно продолжать. Следующие три возможных значения в списке единиц измерения объема цифровой информации (для тех, кому это интересно) – это зеттабайт, йоттабайт и бронтобайт. Но, честно говоря, используя эксабайты, вы получите астрономические возможности для хранения разнообразной информации, которые сейчас, практически, не имеют реального применения.

Теперь, зная основные единицы измерения цифровой информации и возможный объем хранимых данных для каждой из них, вы легко сможете определиться, в многообразии устройств для хранения, и выбрать наиболее подходящее для вас.

Полную версию статьи со всеми дополнительными видео уроками читайте в нашем блоге.

Данный материал является частной записью члена сообщества Club.CNews.
Редакция CNews не несет ответственности за его содержание.

Оцените статью
Fobosworld.ru
Добавить комментарий

Adblock
detector