Какая информация содержится в интернет
Несмотря на всю популярность Сети Интернет по всей планете, многие пользователи считают технологию какой-то невидимой силой. Хотя по факту, это более чем материальная вещь, за работу которой отвечают мощные компьютеры, сервера и дата-центры, обменивающиеся информацией за доли секунды и соединенные между собой километрами кабелей и оптоволокон. Что же это за хранилища, как устроены дата-центры и как выглядят центры обработки данных крупнейших компаний.
Что такое дата-центр
Как и много других новшеств, изобретению и распространению Интернета люди обязаны военной отрасли. Именно для нее были первые разработки Сети, и именно для связи военных баз их лаборатории решили объединить в сеть (сначала локальную, а теперь повсеместную), которая используется не только в решении военных конфликтов. Сегодня разработка используется для распространения контента любой тематики и любого направления. Загружая информацию на просторы Сети (будь это фото, видео или «цитата дня» от Джейсона Стэйтема), она молниеносно попадает в центр обработки данных (ЦОД).
Дата-центр – это не просто большая флешка, это огромные здания похожие на крепости, заполненные серверами, оптическими кабелями и проводами. На работу и обслуживание современного хранилища затрачивается столько же электроэнергии, как для обслуживания небольшого городка. Использование дата-центров позволяет решать одновременно несколько задач:
- круглосуточная и бесперебойная работа. Электроэнергия поставляется бесперебойно: ЦОД четвертого уровня Tier4 подключены к двум электростанциям одновременно, для страховки. И даже если случилась авария на линии, в запасе всегда имеются мощные генераторы, которые в любую минуту готовы принять вахту.
- защита доступа. Всегда находятся третьи лица, которые хотят завладеть той или иной информацией, поэтому принимая на хранение данные, дата-центры обеспечивают ее конфиденциальность.
- сохранность и целостность. В дата-центрах хранится вся информация: от фото любимого питомца до секретных данных.
Дата-центр: готов к любым испытаниям
Центры обработки данных укомплектованы не только современными серверами, но и надежной противопожарной защитой. Газовые системы используют порошок углекислоты, который способен ликвидировать возгорание, для предотвращения поломки остального оборудования. Особое внимание уделяется обеспечению соответствующего климата.
Серверы и жесткие диски во время использования выделяют тепло. Для охлаждения ПК достаточно кулера со спичечный коробок, для промышленных масштабов этот вариант не подходит. Здесь установлены полноценные системы кондиционирования и вентиляции, которые защищают лабиринты из серверов от перегревания.
Дух коммерции или на чем зарабатывают дата-центры
Крупные компании, такие как Facebook, Google, имеют в своем распоряжении собственные хранилища, но для более скромных потребителей есть услуга аренды места в дата-центре. Это может быть один сервер (dedicated server) или место в стойке (collocation), где можно установить собственный сервер, или место в сетевом хранилище. В случае аренды с установкой собственного оборудования, владельцы дата-центров зарабатывают не только на аренде площади, но и на электроэнергии, т.к. арендаторам продают ее с небольшой накруткой.
Еще один вариант заработка для владельцев ЦОД – сдача лицензионного ПО в аренду. Дата-центры приобретают программное обеспечение и устанавливают их на своих серверах, а после (за определенную плату) сдают их частями в аренду. В последние годы набирает популярность услуга аренды виртуального сервера: части ресурса сервера (VPS – virtual private server).
Где хранится вся информация в интернете: уникальные по своей грандиозности и мощи дата-центры
IBM (США)
Результатом эксперимента известной корпорации стал дата-центр на территории Сиракьюсского университета. Суть задания была в снижении потребляемой электроэнергии в два раза. И в 2009 году им это удалось. Для питания используется отдельная станция, работающая на газу.
Citigroup (Германия)
Центр, разработанный фирмой Arup Associates в 2008 году, считается одним из самых «зеленых» комплексов этой категории. Это значит, что его работа наносит минимальный вред природе. Все от освещения до охлаждения направлено на рациональное использование. О заботе о природе можно догадаться и просто посмотрев на сооружение: один из фронтонов устелен газоном, который украшает здание и собирает воду, используемую в увлажнителях.
Ebay (США)
Дата-центр Ebay построена на песках Аризонской пустыни (не самая простая задача для инженеров, работающих над созданием охладительной системы). Оборудование в этом центре помещается в специальные контейнеры, которые не только смогли защитить их от перегрева, но и повысить собственную энергоэффективность до 95%.
Digital Beijing (Китай)
Пекинский ЦОД выделяется мощью и смелыми архитектурными решениями. Специально к Олимпиаде 2008 года архитектурной компанией Studio Pei-Zhu было построено здание в 11 этажей, которое стало и дата-центром и штабом технической поддержки Олимпийских игр. Теперь, когда спортивные мероприятия завершились, в здании работает музей.
Apple (США)
Яблочная компания заботится не только о бесперебойности и сохранности данных своих клиентов, но и об экологической ситуации на планете. Поэтому одной из основных целей было использование энергии из возобновляемых источников. Работа в дата-центре зависит от 400 тыс.кв.м солнечных батарей. Энергии достаточно для обеспечения 60% работы центра, остальная мощность подается с электростанции (на биотопливе).
Google (Финляндия)
Гигант веб-индустрии имеет, безусловно, не один дата-центр. Комплексы разбросаны по всей планете и практически все они отвечают критерию «green». Для работы над финским ЦОД был приглашен один из лучших финских специалистов — Алвар Аалто. Холодные воды Финского залива идеально подходят для создания соответствующего климата внутри помещений.
Verne Global (Исландия)
Концерн BMW использует этот ЦОД в Рейкьявике для своих нужд: расчет показателей новых моделей, обработка результатов испытаний и другое. За счет работы гидроэлектростанций, установленных вблизи гейзеров, дата-центр не загрязняет окружающую среду углекислым газом.
Facebook (США)
В Праймвиле компания Марка Цукерберга возвела дата-центр площадью 28 тыс.кв.м. Представьте флешку размером как три футбольных поля. Для объединения серверов используется 6,5 тысяч километров оптоволокна, а для охлаждения построен 7-ми комнатный пентхаус с современной системой природного кондиционирования.
Источник
Для поиска информации в Интернете используются различные системы, позволяющие искать информацию на веб-страницах, в группах новостей и хранилищах файлов.
Стратегия современных поисковых серверов базируется на трех основных подходах:
- • создание индексов;
- • создание каталогов;
- • гибридный метод.
Поисковые системы. Для поиска информации существуют поисковые системы и каталоги. Если раньше примерно половина поиска велась с помощью поисковых систем, а половина — с помощью каталогов, то сейчас это соотношение изменилось до 4:1 в пользу поисковиков.
По данным одной из популярных систем статистики Livelnternet, крупнейшими на сегодняшний день в Рунете являются www.yandex. ш, www.mail.ru,www.google.ru,www.rambler.ru (рис. 1.28)1. Эти порталы снабжены каталогами ресурсов Интернета и мощными поисковыми роботами [3, 5].
Рис. 1.28. Рейтинг поисковых систем в российском Интернете
Стандартная поисковая машина состоит из трех частей.
Одна из них — робот, Robot (Spider). Это программа, которая непрерывно просматривает сайты, считывает (индексирует) полностью или частично их содержимое и следует далее по ссылкам, найденным на данной странице, ищет новые, проверяет ранее найденные. По этим данным формируется индексная база (индекс-система), в которой хранятся преобразованные особым образом текстовые составляющие всех просмотренных страниц. Через определенные периоды времени (например, каждую неделю, месяц) робот возвращается и индексирует страницу снова.
Далее в дело вступает система поиска (поисковик), которая ищет в индексе ресурсы, удовлетворяющие критериям запроса пользователя, и выводит список найденных документов в порядке убывания релевантности2. Таким образом, когда вы посылаете запрос, поиск осуществляется в заранее подготовленной базе данных. Именно поэтому поисковая машина работает достаточно быстро, хотя и имеет существенный недостаток, который заключается в том, что свежую информацию с помощью таких машин найти практически невозможно. Также может быть, что гиперссылка указывает на уже не существующий ресурс, который исчез со времени последнего посещения сайта поисковым роботом.
Каждая поисковая система индексирует страницы своим способом, и приоритеты при поиске по индексам тоже отличны. Поэтому
- 1 http: //www.seorate. ш/rate/sep/
- 2 Релевантность (лат. relevo— поднимать, облегчать) — смысловое (семантическое) соответствие поискового запроса и поискового образа документа.
при одинаковом запросе получаются различные результаты для каждой из поисковых систем.
Каталоги интернет-ресурсов. В отличие от поисковиков каталоги составляются и поддерживаются определенными владельцами, которые коллекционируют ссылки на сайты по тематике, публикуют их адреса и зачастую аннотации. За аналог интернет-каталогов можно принять библиотечные каталоги (рис. 1.29).
Рис. 1.29. Рейтинг каталогов Ucoz
Каталог интернет-ресурсов — упорядоченный по датам, алфавиту, индексу цитирования (ссылочной популярности) и т.д. перечень сайтов.
Каталоги могут быть глобальные, национальные, общие и специализированные (отраслевые, тематические и т.д.). Такие каталоги снабжаются иерархическим либо линейным рубрикатором, имеют тематическую разбивку на подкаталоги, те в свою очередь могут подразделяться на более мелкие темы и т.д. Классическим примером иерархического рубрикатора можно назвать каталог Yahoo!, в русскоязычной сети — www.list.ru. Линейный рубрикатор используется на www.rambler.ru.
Пополняются каталоги обычно по заявкам владельцев сайтов. Изменения в каталог могут быть внесены автоматически, но чаще это делается после просмотра ресурса модератором (гидом поисковой машины) — сотрудником фирмы, отвечающим за содержимое каталога (его отдельного раздела, подраздела и т.д.), его достоверность, надежность и актуальность. Поскольку регистрация производится человеком, а не программой, то поиск по каталогам обычно дает более релевантные результаты, нежели по поисковым системам.
Наиболее популярные каталоги: Rambler’s top 100, Яндекс, narod. ru, mail.ru, Апорт[2].
Комбинированные системы (гибриды). Поисковая машина и каталог, объединенные в единый ресурс, называются объединенным поисковым ресурсом. При этом индексы формируются роботом, а каталог пополняется модератором.
Для эффективного поиска надо использовать как поисковые машины, так и каталоги.
Индексная база поисковой машины обычно содержит гораздо больше ссылок на сайты, чем каталоги. Однако каталоги, снабженные хорошим рубрикатором, позволяют значительно сузить круг поиска и быстрее найти нужную информацию. Модераторы каталогов также в состоянии лучше определить ключевые слова для данного сайта, нежели поисковый робот.
Если поиск не дает нужных результатов, необходимо точнее сформулировать запрос. В этом может помочь тщательная работа с функцией расширенного поиска, которой снабжено большинство крупных поисковых систем. Сами функции расширенного поиска несколько отличаются в разных системах, но цель их одна — создание как можно более точного запроса. Для этих же целей системы дополняют языком запросов.
Следует помнить, что наши поисковые системы работают только с русскоязычными сайтами, а глобальные системы — со всей сетью, т.е. для поиска вне Рунета необходимо использовать другие системы, например google.com.
Метапоисковые системы. Поиск информации с использованием разных поисковых систем требует больших затрат времени. Стремление облегчить задачу поиска информации дало толчок к развитию систем параллельного поиска, называемых метапоисковыми системами, — интерфейсных программ, которые предоставляют доступ поочередно к нескольким серверам. Пример такой системы: https:// home.microsoft.com.
К пободным русскоязычным системам относятся www.metabot.ru, www.poisk.ru,www.360.ru, среди глобальных можно выделить www. metacrawler.com, www.search.com.
Поиск программ и файлов. Для поиска файлов проще всего воспользоваться поиском по FTP-серверам с помощью WWW. Сейчас существует много сайтов, предоставляющих такие услуги, например www.filesearch.ru. Введя в окно поиска имя нужного вам файла, например WinZip, вы получите список FTP-серверов, где такие файлы найдены. При поиске можно в имени файла употреблять знаки «*» и «?» для обозначения неизвестных окончаний или букв в имени файла.
После получения списка файлов и папок будьте внимательны, обратите внимание на полное имя файла, тип файла и его размер. Так, в файле winzip.jpg будет картинка, а не программа, и вы рискуете скачать не то, что нужно. Если с некоторых серверов файл получить не удается, то попробуйте другие — из числа найденных.
Удобно также воспользоваться специализированными каталогами программ. В Рунете к наиболее популярным относятся следующие каталоги программного обеспечения: www.download.ru, www.freeware. ш, www.freesoft.ru,www.softfree.ru,www.listsoft.ru.
В каталогах программы разбиты по темам, и часто ссылки на них снабжены описаниями, что очень удобно. Ссылки ведут на FTP-серверы. Также большинство крупных каталогов имеет поисковую систему. Правда, в этом случае поиск осуществляется не по всему пространству FTP-архивов, а только по файлам, зарегистрированным в данном каталоге.
Источники специализированной информации. Процесс поиска нужной информации в Интернете похож на поиск иголки в стоге сена, информации слишком много и умение ориентироваться в этом хаосе сведений — своеобразное искусство.
Существуют компании, обеспечивающие информационное электронное обслуживание, например, Kight-Ridder (KR) — крупнейшая в мире информационная компания, предоставляющая доступ к своим службам в интерактивном режиме. В ней объединились такие всемирно известные службы, как Dialog Information Service из США и Data Star из Европы. Используя Интернет в качестве среды для распространения своих услуг, KR сумела автоматизировать ключевые моменты своей деятельности, улучшить обслуживание клиентов и, самое главное, расширить рынок своих услуг. Все это в конечном счете привело к тому, что KR стала мировым лидером в области доставки электронных документов и информационного сервиса.
Имеет собственную систему информационного поиска в Интернете и фирма IBM — Infomarket. В ней сочетаются средства получения информации и управления платежами с правами доступа.
При поиске информации полезными могут оказаться адреса вебузлов, хорошо зарекомендовавшие себя источники деловой информации:
. www.kentis.com — сервер компании Kent Information System, сотрудники которой помогают профессионалам в области бухгалтерии и финансов использовать компьютерные технологии, особенно Интернет;
- • https://www.promotion.aha.ru — online-журнал по маркетингу в сети Интернет;
- • https://www.inter.net.ru — журнал «Интернет», регулярно публикующий материал по маркетингу и рекламе в сети Интернет;
- • https://clickz.com — журнал, полностью посвященный вопросам интернет-маркетинга.
Источник
Мы уже привыкли к постоянному и безудержному росту объёма информации в сети. Остановить или замедлить этот процесс никому не под силу, да и смысла в этом нет. Все знают, что интернет огромен, как по количеству данных, так и по поголовью сайтов. Но насколько он велик? Можно ли как-то оценить, хотя бы приблизительно, сколько петабайт бегает по кабелям, опутывающим планету? Сколько сайтов ждут посетителей на сотнях тысяч серверов? Этим вопросом задаются многие, в том числе и учёные, которые пытаются разработать подходы к оценке безбрежного моря информации, называемого интернетом.
Всемирная сеть — очень оживлённое место. Согласно сервису Internet Live Stats, каждую секунду в Google делается более 50 000 поисковых запросов, просматривается 120 000 видео на Youtube, отправляется почти 2,5 млн электронных писем. Да, весьма впечатляет, но всё же эти данные не позволяют в полной мере представить себе размеры интернета. В сентябре 2014 года общее количество сайтов перевалило за миллиард, и сегодня их примерно 1,018 млрд. А ведь здесь ещё не подсчитана так называемая «глубокая паутина» (Deep Web), то есть совокупность сайтов, не индексируемых поисковиками. Как указывается на Википедии, это не синоним «тёмной паутины», к которой в первую очередь относятся ресурсы, на которых ведётся всевозможная противоправная деятельность. Тем не менее, контент в «глубокой паутине» может быть как совершенно безобидным (например, онлайновые базы данных), так и совершенно непригодным для глаз законопослушной публики (к примеру, торговые площадки чёрного рынка с доступом только через Tor). Хотя Tor’ом пользуются далеко не только нечистые на руку люди, но и вполне чистые перед законом пользователи, алчущие сетевой анонимности.
Конечно, вышеприведённая оценка численности веб-сайтов является приблизительной. Сайты возникают и исчезают, к тому же размеры глубокой и тёмной паутин определить практически невозможно. Поэтому даже приблизительно оценивать размеры сети по этому критерию весьма непросто. Но одно несомненно — сеть постоянно растёт.
Всё дело в данных
Если одних только веб-сайтов более миллиарда, то отдельных страницы гораздо больше. Например, на ресурсе WorldWideWebSize представлена оценка размера интернета именно по количеству страниц. Методика подсчёта разработана Морисом де Кундером (Maurice de Kunder), опубликовавшим её в феврале этого года. Вкратце: сначала система осуществляет поиск в Google и Bing по списку из 50 распространённых английских слов. На основании оценки частоты этих слов в печатных источниках полученные результаты экстраполируются, корректируются, вводится поправка на совпадения результатов по разным поисковикам, и в результате получается некая оценка. На сегодняшний день размер интернета оценивается в 4,58 млрд отдельных веб-страниц. Правда, речь идёт об англоязычном сегменте сети. Для сравнения, там же указан размер голландского сегмента — 225 млн страниц.
Но веб-страница в качестве единицы измерения — вещь слишком абстрактная. Куда интереснее оценить размер интернета с точки зрения объёма информации. Но и здесь есть нюансы. Какую именно информацию считать? Передаваемую или обрабатываемую? Если, к примеру, нас интересует информация передаваемая, то и здесь можно считать по-разному: сколько данных может быть передано за единицу времени, или сколько передано фактически.
Одним из способов оценки циркулирующей в интернете информации является измерение трафика. Согласно данным Cisco, к концу 2016 года по всему миру будет передано 1,1 зеттабайта данных. А в 2019 году объём трафика удвоится, достигнув 2 зеттабайт в год. Да, это ОЧЕНЬ много, но как можно попытаться представить себе 1021 байт? Как услужливо подсказывается в инфографике от той же Cisco, 1 зеттабайт эквивалентен 36 000 лет HDTV-видео. И понадобится 5 лет для просмотра видео, передаваемого по миру каждую секунду. Правда, там было предсказано, что этот порог трафика мы перейдём в конце 2015, ну ничего, немного не угадали.
В 2011 году было опубликовано исследование, согласно которому, в 2007 году человечество хранило на всех своих цифровых устройствах и носителях примерно 2,4 х 1021 бит информации, то есть 0,3 зеттабайта. Суммарная вычислительная мощность мирового парка вычислительных устройств «общего назначения» достигала 6,4 х 1012MIPS. Любопытно, что 25% от этой величины приходилось на игровые приставки, 6% — на мобильные телефоны, 0,5% — на суперкомпьютеры. При этом суммарная мощность специализированных вычислительных устройств оценивалась в 1,9 х 1014 MIPS (на два порядка больше), причём 97% приходилось на… видеокарты. Конечно, с тех пор прошло целых 9 лет. Но очень примерно оценить текущее положение дел можно исходя из того, что за период 2000-2007 среднегодовой рост объёмов хранимой информации составил 26%, а вычислительной мощности — 64%. Учитывая развитие и удешевление носителей, а также замедление прироста вычислительной мощности процессоров, предположим, что количество информации на носителях растёт на 30% в год, а вычислительная мощность — на 60%. Тогда объём хранимых данных в 2016 году можно оценить на уровне 1,96 х 1022 бит = 2,45 зеттабайта, а вычислительную мощность персональных компьютеров, смартфонов, планшетов и приставок на уровне 2,75 х 1014 MIPS.
В 2012 году появилось любопытное исследование количества используемых на тот момент IPv4-адресов. Изюминка в том, что информация была получена с помощью глобального сканирования интернета силами огромной хакерской ботнет-сети из 420 тыс. узлов.
После сбора информации и алгоритмической обработки выяснилось, что одновременно активными были около 1,3 млрд IP-адресов. Ещё 2,3 млрд бездействовали.
Физическое воплощение
Несмотря на восход цифрового века, для многих из нас биты и байты остаются понятиями несколько абстрактными. Ну, раньше память измеряли мегабайтами, теперь гигабайтами. А что если попробовать представить размер интернета в каком-то вещественном воплощении? В 2015 году двое учёных предложили использовать для оценки настоящие бумажные страницы А4. Взяв за основу данные с вышеупомянутого сервиса WorldWideWebSize, они решили считать каждую веб-страницу эквивалентной 30 страницам бумажным. Получили 4,54 х 109 х 30 = 1,36 х 1011 страниц А4. Но с точки зрения человеческого восприятия это ничем не лучше тех же байтов. Поэтому бумагу привязали к… амазонским джунглям. Согласно расчёту авторов, для изготовления вышеуказанного количества бумаги нужно 8 011 765 деревьев, что эквивалентно 113 км2 джунглей, то есть 0,002% от общей площади амазонских зарослей. Хотя позднее в газете Washington Post предположили, что 30 страниц — слишком много, и одну веб-страницу правильнее приравнять к 6,5 страницам А4. Тогда весь интернет можно распечатать на 305,5 млрд бумажных листов.
Но всё это справедливо лишь для текстовой информации, которая занимает далеко не самую большую долю от общего объёма данных. Согласно Cisco, в 2015 году на одно только видео приходилось 27 500 петабайт в месяц, а совокупный трафик веб-сайтов, электронной почты и «данных» — 7 700 петабайт. Немногим меньше пришлось на передачу файлов — 6 100 петабайт. Если кто забыл, петабайт равен миллиону гигабайт. Так что амазонские джунгли никак не позволят представить объёмы данных в интернете.
В упомянутом выше исследовании от 2011 года предлагалось визуализировать с помощью компакт-дисков. Как утверждают авторы, в 2007 году 94% все информации было представлено в цифровом виде — 277,3 оптимально сжатых эксабайта (термин, обозначающий сжатие данных с помощью наиболее эффективных алгоритмов, доступных в 2007 году). Если записать всё это богатство на DVD (по 4,7 Гб), то получим 59 000 000 000 болванок. Если считать толщину одного диска равной 1,2 мм, то эта стопка будет высотой 70 800 км. Для сравнения, длина экватора равна 40 000 км, а общая протяжённость государственной границы России — 61 000 км. Причём это объём данных по состоянию на 2007 год! Теперь попробуем таким же образом оценить общий объём трафика, который прогнозируется на этот год — 1,1 зеттабайта. Получим стопку DVD-дисков высотой 280 850 км. Тут уже впору переходить на космические сравнения: среднее расстояние до Луны составляет 385 000 км.
Другая аналогия: общая производительность всех вычислительных устройств в 2007 году достигала 6,4 х 1018 инструкций/сек. Если принять, что в человеческом мозге 100 млрд нейронов, каждый из которых имеет 1000 связей с соседними нейронами и посылает до 1000 импульсов в секунду, то максимальное количество нейронных импульсов в мозге равно 1017.
Глядя на все эти десятки в больших степенях возникает устойчивое ощущение информационного потопа. Радует хотя бы то, что наши вычислительные мощности растут быстрее, чем идёт накопление информации. Так что остаётся надеяться лишь на то, что нам удастся разработать системы искусственного интеллекта, которые будут способны худо-бедно обрабатывать и анализировать всё увеличивающиеся объёмы данных. Ведь одно дело, научить компьютер анализировать текст, а что делать с изображениями? Не говоря уже о когнитивной обработке видео. В конце концов, миром будут править те, кто сможет извлечь как можно больше пользы из всех этих петабайт, заполняющих всемирную сеть.
Источник