Какое количество байтов содержится слово информация
Анонимный вопрос
3 мая 2018 · 14,1 K
Кандидат физ.-мат. наук, делаю Яндекс, увлекаюсь всем на свете
Если бы этот вопрос задали моему ребенку на уроке информатики, то я бы, чтобы помочь ему получить хорошую оценку, ответил, что 88. Сейчас объясню, как обосновать этот ответ в школе, и почему он при этом не совсем правильный, а в настоящем программировании всё сложнее.
В слове “информатика” 11 букв. Каждую букву мы можем закодировать одним байтом. В одном байте 8 бит, поэтому ответ 11х8=88.
Как это проверить? Очень просто, запустите на компьютере “Блокнот” (я предполагаю, что у вас Windows), напечатайте в нём это слово и сохраните в текстовый файл. Кликните правой кнопкой, выберите “свойства”, видите? Размер: 11 байт (то есть 88 бит).
Теперь о том, почему в реальности всё сложнее. Мы выше написали, что каждую букву мы закодируем одним байтом. Всего разных символов у нас, таким образом, может быть максимум столько, сколько разных значений у одного байта, то есть 2 в восьмой степени, 256. Это значит, что все буквы всех алфавитов мира в один байт точно не влезут. Даже одни только японские или китайские иероглифы в один байт не вмещаются.
То есть кодировка, какому значению байта соответствует какая буква, это вовсе не универсальная штука, они бывают разные. В “Блокноте” и много где ещё в Windows используется кодировка Windows-1251 (это если вы в России живете, в других странах другие). В некоторых кодировках слово “информатика” просто нельзя записать. А в Windows-1251 нельзя записать слово 信息学. Если вы свой текстовый файлик, содержащий слово “информатика”, пришлёте китайцу, он, открыв его, увидит какую-то абракадабру, и наоборот. Так что ответ “11 байт или 88 бит” предполагает, что мы с получателем используем одну и ту же однобайтовую кодировку, содержащую кириллические буквы.
А есть такой стандарт кодирования, в котором можно написать что угодно и не устраивать вот этих сложностей? Как ни странно, есть! Он называется Unicode, и в ней каждому символу всех алфавитов Земли (даже вымершим языкам, даже египетским иероглифам, даже смайликам и эмоджи) присвоен свой код. Естественно, в нём много тысяч символов и в один байт всё это не влезет. Unicode можно для компьютера кодировать по-разному, но самый популярный вариант устроен так. В нём самые распространенные символы (цифры, точки-запятые-скобки и буквы латинского алфавита) занимают один байт, чуть менее распространенные (кириллические буквы, а также всякие там Ä и π) два байта, а всякая экзотика вроде индейских узелковых письменностей и четыре может занимать.
С каждым годом Unicode становится всё более популярным, а “старые” кодировки вроде Windows 1251, господствовавшие, когда писался школьный учебник по информатике, уходят на второй план. Так что по-честному я бы ответил, что в слове “информатика” 22 байта = 176 бит, ну, насколько уж этот вопрос вообще имеет смысл.
Вы тоже забыли символ конца строки 🙂
Смотря какой алфавит Вы используете.
Если алфавит – просто строчные русские буквы, то всего имеется 33 символа. В таком случае, для кодировки каждого символа понадобится 6 бит (2^5 < 33, 2^6 >= 33 – берем ближайшую степень двойки, которая вместит наш алфавит). Значит, для кодировки слова “информатика”, где 11 букв, нужно будет 66 бит.
По образу и… Читать далее
Вы символ конца строки забыли 🙂 То есть всего будет 72 бита.
Вероятно, “66 бит” считается правильным ответом в… Читать дальше
Какие два значения имеет слово бит?
Не перестаю узнавать новое. Люблю путешествия и все с этим связанное. Много лет…
Первое значение этого слова: бит – единица, при помощи которой измерияется количество информации.
Второе значение у этого слова музыкальное: бит (от английского beat) – это такт в музыке. Его часто употребляют в выражении “бит в минуту” – bpm, которым измеряется темп музыки. Т.е. чем больше значение bpm, тем быстрее музыка.
Чему учат на специальностях “Информатика и вычислительная техника” и “Информационные системы и технологии”? Чем они отличаются между собой?
DevOps и просто плохой человек
Да, действительно схожие специальности, но есть принципиальное различие. Не знаю, если ли оно в программах обучения, но оно есть в терминологии.
“Информатика и вычислительная техника”
Информатика — Наука, изучающая структуру, общие свойства и методы передачи информации, в том числе связанной с применением ЭВМ. Вычислительная техника — соответсвенно, сами ЭВМ
“Информационные системы и технологии”
Информационная система — система, предназначенная для хранения, поиска и обработки информации и соответствующие организационные ресурсы (человеческие, технические, финансовые и т. д.), которые обеспечивают и распространяют информацию. Информационная технология — это процесс, использующий совокупность средств и методов сбора, обработки и передачи данных для получения информации нового качества о состоянии объекта, процесса или явления.
Из этих определений следует, что первая специальность более ориентирована на аппаратную часть вычислительной техники и её низкоуровневое программное обеспечение(железо, операционная система), а вторая — на программную, скорее прикладную(программы общего пользования)
Прочитать ещё 1 ответ
IT-шники, насколько вам пригодились знания по информатике/математике, полученные в школе?
Хотел бы вставить свои 5 копеек, как дополнение.
Понимаете ли, на специальностях, связанных с программированием и тд, как мне кажется, вам развивают мозги, нежели постоянно дают то, с чем вы будете непосредственно сталкиваться в жизни. Для понимания: в 11 кл/на первом курсе вы учитесь решать интегралы. Вы изучаете кучу теории, всякие верхние интегральные суммы, нижние и тд, но потом оказывается что интегралы можно спокойно решать на компьютере, много чего можно решать на компьютере из того, что мы учим в универе. Но все это “прокачивает” мозги. Ведь программисты (и любые другие профессии из IT области) – люди, которые мыслят не так как все, у них другой склад ума, если можно так выразиться. Именно в этом, на мой взгляд, заключается задача изучения математики, физики и прочих наук. Но, конечно, базовыми знаниями часто приходится пользоваться.
Прочитать ещё 3 ответа
Источник
Проповедник 6 лет назад Каждая буква считается за 8 бит. Вот и считайте, сколько там букв и умножайте на 8. 80 будет. Правда, если считать это в интернет-символах, то получается, что каждая буква по3 символа занимает, например и=%D0. Так что это уже в 3 раза больше. Но, думаю, в школьной информатике это не учитывается. система выбрала этот ответ лучшим Зависит от кодировки, а именно, от количества информации, которая выделяется каждому символу. В кодировке КОИ-8, каждый символ кодируется одним байтом. В слове “информация” 10 букв, значит информационный объём данного слова равен 10-ти байтам. В кодировке UNICODE, каждый символ кодируется двумя байтами. Соответсвенно, инф. объём равен 2*10 = 20-ти байтам. [пользователь заблокирован] 6 лет назад 2байта на каждый символ, если это юникод, в слове информация – 10 букв(символов), значит 20 байт Syshka 6 лет назад если не ошибаюсь, то информационный вес слова “информация” = 80 бит, то есть 10 байт В слове информация десять букв. Это значит, что это слово занимает 10 байт в памяти если кодируется по системе ASCII, в которой на один символ приходится один байт. Если же информация кодируется по системе Unicode, то тогда вдвое больше, то есть 20 байт, так как в системе Unicode на каждый символ выделяется по два байта, что позволяет закодировать до 65536 символов. Kobayashi 2 года назад Информационный объем в словах считается просто в буквах. И каждая из них равна числу восемь, а в слове информация десять букв. Что мы делаем просто умножаем восемь на десять и получаем ответ на ваш вопрос. Это информационный объем слова информация будет равен восьмидесяти. Знаете ответ? |
Источник
Текущая версия страницы пока не проверялась опытными участниками и может значительно отличаться от версии, проверенной 31 августа 2019; проверки требуют 8 правок.
У этого термина существуют и другие значения, см. Byte.
Байт (англ. byte) (русское обозначение: байт и Б; международное: B, byte)[1] — единица хранения и обработки цифровой информации; совокупность битов, обрабатываемая компьютером одновременно. В современных вычислительных системах байт состоит из 8 бит и, соответственно, может принимать одно из 256 (от 0 до 255) различных значений (состояний, кодов). Однако в истории компьютерной техники существовали решения с иными размерами байта (например, 6, 32 или 36 бит), поэтому иногда в компьютерных стандартах и официальных документах для однозначного обозначения группы из 8 бит используется термин «октет» (лат. octet).
В большинстве вычислительных архитектур байт — это минимальный независимо адресуемый набор данных.
История[править | править код]
Название «байт» было впервые использовано в июне 1956 года В. Бухгольцем (англ. Werner Buchholz) при проектировании первого суперкомпьютера IBM 7030 Stretch для пучка одновременно передаваемых в устройствах ввода-вывода битов числом от одного до шести. Позже, в рамках того же проекта, байт был расширен до восьми бит. Слово byte было выбрано как намеренно искажённое слово bite, произносящееся так же (англ. bite — «кусок»; «часть чего-либо, отделённая за один укус»; ср. также появившееся позже название для 4-битной единицы «ниббл» от англ. nibble — «покусывать»). Изменённое написание byte через y вместо i потребовалось, чтобы избежать смешения со словом «бит» (bit)[2]. В печати слово byte впервые появилось в июне 1959 года[3].
Ряд ЭВМ 1950-х и 1960-х годов (БЭСМ-6, М-220) использовали 6-битные символы в 48-битных или 60-битных машинных словах. В некоторых моделях ЭВМ производства Burroughs Corporation (ныне Unisys) размер символа был равен 9 битам. В советской ЭВМ Минск-32 использовался 7-битный байт.
Байтовая адресация памяти была впервые применена в системе IBM System/360. В более ранних компьютерах адресовать можно было только целиком машинное слово, состоявшее из нескольких байтов, что затрудняло обработку текстовых данных.
8-битные байты были приняты в System/360, вероятно, из-за использования BCD-формата представления чисел: одна десятичная цифра (0—9) требует 4 бита (тетраду) для хранения; один 8-битный байт может представлять две десятичные цифры. Байты из 6 бит могут хранить только по одной десятичной цифре, два бита остаются незадействованными.
По другой версии, 8-битный размер байта связан с 8-битным же числовым представлением символов в кодировке EBCDIC.
По третьей версии, из-за двоичной системы кодирования в компьютерах наиболее выгодными для аппаратной реализации и удобными для обработки данных являются длины слов, кратные степеням двойки, в том числе и 1 байт = 23 = 8 бит. Системы и компьютеры с длинами слов, не кратными числу 2, отпали из-за невыгодности и неудобства.
Постепенно 8-битные байты стали стандартом де-факто; с начала 1970-х в большинстве компьютеров байты состоят из 8 бит, а размер машинного слова кратен 8 битам.
Количество состояний (кодов) в байте[править | править код]
Количество состояний (кодов, значений), которое может принимать 1 восьмибитный байт с позиционным кодированием, определяется в комбинаторике. Оно равно количеству размещений с повторениями и вычисляется по формуле:
возможных состояний (кодов, значений), где
Производные единицы[править | править код]
Кратные и дольные приставки для образования производных единиц для байта применяются не как обычно. Уменьшительные приставки не используются совсем, а единицы измерения информации, меньшие, чем байт, называются специальными словами — ниббл (тетрада, полубайт) и бит. Увеличительные приставки кратны либо 1024 = 210, либо 1000 = 103: 1 кибибайт равен 1024 байтам, 1 мебибайт — 1024 кибибайтам или 1024×1024 = 1 048 576 байтам и т. д. для гиби-, теби- и пебибайтов. В свою очередь 1 килобайт равен 1000 байтам, 1 мегабайт — 1000 килобайтам или 1000×1000 = 1 000 000 байтам и т. д. для гига-, тера- и петабайт. Разница между ёмкостями (объёмами), выраженными в кило = 103 = 1000 и выраженными в киби = 210 = 1024, возрастает с ростом веса приставки. МЭК рекомендует использовать двоичные приставки — кибибайт, мебибайт, йобибайт и т. п.
Иногда десятичные приставки используются и в прямом смысле, например, при указании ёмкости жёстких дисков: у них гигабайт (гибибайт) может обозначать не 1 073 741 824 = 10243 байтов, а миллион килобайтов (кибибайтов), то есть 1 024 000 000 байтов, а то и просто миллиард байтов.
Обозначение[править | править код]
Использование русской прописной буквы «Б» для обозначения байта регламентирует Межгосударственный (СНГ) стандарт ГОСТ 8.417-2002[4] («Единицы величин») в «Приложении А» и Постановление Правительства РФ от 31 октября 2009 г. № 879. Кроме того, констатируется традиция использования приставок СИ вместе с наименованием «байт» для указания множителей, являющихся степенями двойки (1 Кбайт = 1024 байт, 1 Мбайт = 1024 Кбайт, 1 Гбайт = 1024 Мбайт и т. д., причём вместо строчной «к» используется прописная «К»), и упоминается, что подобное использование приставок СИ не является корректным. По ГОСТ IEC 60027-2-2015 строчная «к» соответствует 1000 и «Ки» — 1024, так 1 КиБ = 1024 Б, 1 кБ = 1000 Б.
Использование прописной буквы «Б» для обозначения байта соответствует требованиям ГОСТ и позволяет избежать путаницы между сокращениями от байт и бит. Запись со строчной буквой в виде «Кб» (Мб, Гб) для обозначения байта будет не соответствовать международному стандарту IEC (и локализованному по нему ГОСТ). Однако авторы орфографического словаря[5] приводят строчную форму «б» (и «Кб», «Мб», «Гб») для байта, как не образованную от фамилии.
Следует учитывать, что в ГОСТ 8.417, кроме «бит», для бита нет однобуквенного обозначения, поэтому использование записи вроде «Мб» как синонима для «Мбит» не соответствует этому стандарту. Но в некоторых документах используется сокращение b для bit: IEEE 1541-2002, IEEE Std 260.1-2004, в нижнем регистре: ГОСТ Р МЭК 80000-13—2016, ГОСТ IEC 60027-2-2015.
В международном стандарте МЭК IEC 60027-2 от 2005 года[6] для применения в электротехнической и электронной областях рекомендуются обозначения:
- bit — для бита;
- o, B — для октета, байта. Причём о — единственное указанное обозначение во французском языке.[источник не указан 153 дня]
Склонение[править | править код]
Кроме обычной формы родительного падежа множественного числа (байтов, килобайтов, битов) существует счётная форма «байт»[7], которая используется в сочетании с числительными: 8 байт, 16 килобайт. Счётная форма является разговорной. Точно так же, например, с килограммами: обычная форма родительного падежа употребляется, если нет числительного, а в сочетании с числительным могут быть варианты: 16 килограммов (стилистически нейтральная обычная форма) и 16 килограмм (разговорная счётная форма).
См. также[править | править код]
- Машинное слово
- Двоичная система счисления
- Генетический код
- Трайт
Примечания[править | править код]
- ↑ Положение о единицах величин, допускаемых к применению в Российской Федерации. Утверждено Постановлением Правительства РФ от 31 октября 2009 г. № 879 (недоступная ссылка). Дата обращения 23 июля 2015. Архивировано 2 ноября 2013 года.
- ↑ Buchholz W. The Word ‘Byte’ Comes of Age… (англ.) // Byte Magazine. — 1977. — Vol. 2, iss. 2. — P. 144.
- ↑ Blaauw G. A., Brooks F. P., Buchholz W. Processing Data in Bits and Pieces (англ.) // IRE Transactions on Electronic Computers. — June 1959. — P. 121.
- ↑ ГОСТ 8.417-2002 («Единицы величин») «Приложение А» Архивная копия от 8 ноября 2015 на Wayback Machine.
- ↑ Приложение 1 Основные общепринятые графические сокращения // Русский орфографический словарь: около 200 000 слов / Российская академия наук. Институт русского языка имени В. В. Виноградова / Под. ред. В. В. Лопатина О. Е. Ивановой. — 4-е, испр. и доп. — М.: АСТ-ПРЕСС КНИГА, 2013. — С. 859—872. — 896 с. — (Фундаментальные словари русскою языка). — ISBN 978-5-462-01272-3.
- ↑ фр. NORME INTERNATIONALE CEI, Troisième édition, англ. INTERNATIONAL STANDARD IEC, Third edition — 60027-2, от 2005-08, с. 5, 112—117.
- ↑ Русский орфографический словарь: около 180 000 слов [Электронная версия] / О. Е. Иванова, В. В. Лопатин (отв. ред.), И. В. Нечаева, Л. К. Чельцова. — 2-е изд., испр. и доп. — М.: Российская академия наук. Институт русского языка имени В. В. Виноградова, 2004. — 960 с. — ISBN 5-88744-052-X.
Ссылки[править | править код]
- ГОСТ 8.417-2002 («Единицы величин») «Приложение А»
Источник
Единицы измерения информации
Для информации существуют свои единицы измерения информации.
Если рассматривать сообщения информации как последовательность знаков,
то их можно представлять битами, а измерять в байтах, килобайтах,
мегабайтах, гигабайтах, терабайтах и петабайтах.
Давайте разберемся с этим, ведь нам придется измерять объем памяти и быстродействие компьютера.
Бит
Единицей измерения количества информации является бит – это наименьшая (элементарная) единица.
1бит – это количество информации, содержащейся в сообщении, которое вдвое уменьшает неопределенность знаний о чем-либо.
Байт
Байт – основная единица измерения количества информации.
Байтом называется последовательность из 8 битов.
Байт – довольно мелкая единица измерения информации. Например, 1 символ – это 1 байт.
Производные единицы измерения количества информации
1 байт=8 битов
1 килобайт (Кб)=1024 байта =210 байтов
1 мегабайт (Мб)=1024 килобайта =210 килобайтов=220 байтов
1 гигабайт (Гб)=1024 мегабайта =210 мегабайтов=230 байтов
1 терабайт (Гб)=1024 гигабайта =210 гигабайтов=240 байтов
Запомните, приставка КИЛО в информатике – это не 1000, а 1024, то есть 210 .
Методы измерения количества информации
Итак, количество информации в 1 бит вдвое уменьшает неопределенность знаний. Связь же между количеством возможных событий N и количеством информации I определяется формулой Хартли:
Алфавитный подход к измерению количества информации
При этом подходе отвлекаются от содержания (смысла) информации и
рассматривают ее как последовательность знаков определенной знаковой
системы. Набор символов языка, т.е. его алфавит можно рассматривать как
различные возможные события. Тогда, если считать, что появление символов
в сообщении равновероятно, по формуле Хартли можно рассчитать, какое
количество информации несет в себе каждый символ:
Вероятностный подход к измерению количества информации
Этот подход применяют, когда возможные события имеют различные
вероятности реализации. В этом случае количество информации определяют
по формуле Шеннона:
.
, где
I – количество информации,
N – количество возможных событий,
Pi – вероятность i-го события.
Задача 1.
Шар находится в одной из четырех коробок. Сколько бит информации несет сообщение о том, в какой именно коробке находится шар.
Имеется 4 равновероятных события (N=4).
По формуле Хартли имеем: 4=2i. Так как 22=2i, то i=2. Значит, это сообщение содержит 2 бита информации.
Задача 2.
Чему равен информационный объем одного символа русского языка?
В русском языке 32 буквы (буква ё обычно не используется), то есть количество событий будет равно 32. Найдем информационный объем одного символа. I=log2 N=log2 32=5 битов (25=32).
Примечание. Если невозможно найти целую степень числа, то округление производится в большую сторону.
Задача 3.
Чему равен информационный объем одного символа английского языка?
Задача 4.
Световое табло состоит из лампочек, каждая из которых может
находиться в одном из двух состояний (“включено” или “выключено”). Какое
наименьшее количество лампочек должно находиться на табло, чтобы с его
помощью можно было передать 50 различных сигналов?
С помощью N лампочек, каждая из которых может находиться в одном из двух состояний, можно закодировать 2N сигналов.
25< 50 <26, поэтому пяти лампочек недостаточно, а шести хватит. Значит, нужно 6 лампочек.
Задача 5.
Метеостанция ведет наблюдения за влажностью воздуха.
Результатом одного измерения является целое число от 0 до 100, которое
записывается при помощи минимально возможного количества битов. Станция
сделала 80 измерений. Определите информационный объем результатов
наблюдений.
В данном случае алфавитом является множество чисел от 0 до 100, всего
101 значение. Поэтому информационный объем результатов одного измерения
I=log2101. Но это значение не
будет целочисленным, поэтому заменим число 101 ближайшей к нему степенью
двойки, большей, чем 101. это число 128=27. Принимаем для одного измерения I=log2128=7 битов. Для 80 измерений общий информационный объем равен 80*7 = 560 битов = 70 байтов.
Задача 6.
Определите количество информации, которое будет получено
после подбрасывания несимметричной 4-гранной пирамидки, если делают один
бросок.
Пусть при бросании 4-гранной несимметричной пирамидки вероятности отдельных событий будут равны: p1=1/2, p2=1/4, p3=1/8, p4=1/8.
Тогда количество информации, которое будет получено после реализации одного из них, можно вычислить по формуле Шеннона:
I = -[1/2 * log2(1/2) + 1/4 * log2(1/4) + 1/8 * log(1/8) + 1/8 * log(1/8)] = 14/8 битов = 1,75 бита.
Задача 7.
В книге 100 страниц; на каждой странице – 20 строк, в каждой
строке – 50 символов. Определите объем информации, содержащийся в книге.
Задача 8.
Оцените информационный объем следующего предложения:
Тяжело в ученье – легко в бою!
Так как каждый символ кодируется одним байтом, нам только нужно
подсчитать количество символов, но при этом не забываем считать знаки
препинания и пробелы. Всего получаем 30 символов. А это означает, что
информационный объем данного сообщения составляет 30 байтов или 30 * 8 = 240 битов.
Источник