Что такое хранилище данных
Перейти к содержимому

Что такое хранилище данных

  • автор:

Что такое хранилище данных?

Хранилище данных – это цифровой репозиторий, который хранит и защищает информацию в компьютерных системах. Оно может быть сетевым хранилищем, распределенным облачным хранилищем, физическим жестким диском или виртуальным хранилищем. В нем могут храниться структурированные данные, такие как информационные таблицы, и неструктурированные данные, такие как электронные письма, изображения и видео. Организации используют хранилища данных для хранения информации, а также обмена и управления ею в разных бизнес-подразделениях.

Почему хранилище данных является важным?

Хранилище данных можно использовать для надежного сохранения информации в компьютерных системах и предотвращения потери данных. Компьютерные системы хранят информацию на постоянных запоминающих устройствах. Постоянное хранилище является энергонезависимым, что означает, что оно сохраняет данные даже после выключения питания устройства. Это гарантирует, что компьютерная система будет иметь доступ к тем же данным после повторного включения.

Предприятия используют хранилища данных для управления, категоризации и упорядочения данных для операций, анализа, отчетности и хранения данных, что важно для соблюдения нормативных требований. Хранилища данных имеют несколько вариантов использования, например данные, создаваемые и потребляемые приложениями, архивирование данных, аналитика данных и аварийное восстановление.

В связи со сложностью требований к данным компании используют различные типы инфраструктуры их хранения для обеспечения доступности, избыточности, управления и прозрачности. Например, организации используют Эластичную файловую систему Amazon (Amazon EFS) для бессерверной файловой системы и Простой сервис хранения данных Amazon (Amazon S3) для хранения объектов.

Какие термины относятся к хранилищам данных?

В контексте хранения данных несколько терминов часто используются как взаимозаменяемые, но имеют несколько разные значения. Ниже представлены несколько примеров.

База данных

База данных – это организованная система хранения данных. Большинство баз данных основаны на реляционной архитектуре баз данных. Реляционная система управления базами данных (RDBMS) дает пользователям возможность хранить данные в таблицах, связанных с определенными точками данных. Организации используют базы данных для хранения транзакционных данных, таких как бухгалтерские, торговые и административные журналы.

Хранилища данных и базы данных

Обсуждение хранилищ данных подразумевает различные методы хранения и получения информации. База данных – это один из методов, который позволяет приложениям легко хранить, обмениваться и извлекать данные. В отличие от файловых систем, база данных придерживается определенных правил организации, форматирования и хранения данных.

Хранилище данных

Хранилище данных – это обширная коллекция связанной с бизнесом информации, полученной из различных источников. Компании используют хранилища данных для поддержки бизнес-аналитики и аналитики. Бизнес-аналитики и специалисты по анализу данных извлекают из хранилища данных действенные идеи.

Хранилища данных

Хранилище данных – это зонтичный термин, который включает в себя различные аппаратные средства, технологии, форматы и архитектуры для хранения и поиска информации. Но существует и особый тип хранилища данных для консолидации аналитических данных для бизнеса. Например, компания GE Renewable Energy использует AWS Redshift для получения новых знаний о собранных данных.

Как работает хранилище данных?

Физическое устройство хранения данных – это технология, лежащая в основе хранилища данных. Вы можете читать и записывать информацию на устройство в определенных форматах, таких как файлы, таблицы или блоки. Устройство может быть локальным, удаленным или находиться в облаке. Большие хранилища данных обычно распределены между несколькими физическими устройствами в разных географических точках. Программные системы и сервисы абстрагируют базовые операции хранилища данных.

Ниже мы приводим несколько примеров физических устройств. Различные типы устройств хранения данных обеспечивают разную степень безопасности и избыточности.

Флеш- и твердотельные накопители

Твердотельный накопитель (SSD) – это полупроводниковая технология, позволяющая записывать и считывать данные в микросхемах флэш-памяти. Технология флэш-памяти была коммерчески доступна в ручках-накопителях, прежде чем стать альтернативой жестким дискам (HDD). По сравнению с жестким диском, физический SSD не имеет движущихся частей, что означает более высокую производительность и долгий срок службы.

Гибридный массив хранения данных

Гибридный массив хранения данных – это физическая система хранения данных, состоящая из SSD и HDD. Хотя твердотельный накопитель обеспечивает работу с низкой задержкой, его стоимость в расчете на единицу хранения гораздо выше, чем у жесткого диска. Поэтому организации используют гибридные массивы хранения данных, чтобы сбалансировать производительность, емкость и стоимость.

RAID

RAID означает избыточный массив независимых дисков. Это технология, которая позволяет хранить одни и те же данные в нескольких местах на твердотельном накопителе.

Какие существуют форматы хранилищ данных?

Хранилища данных предназначены для обработки и организации данных в различных форматах.

Файловое хранилище

Файловое хранилище организует хранимую информацию в виде иерархии файлов и папок сверху вниз. Компьютеры используют файловые хранилища, чтобы облегчить пользователям хранение, поиск и извлечение информации. Файловую систему хранения можно использовать для хранения и организации практически любого типа данных. Хотя файловые хранилища просты в использовании, их трудно горизонтально масштабировать из-за тесно связанной архитектуры.

Блочное хранилище

Блочное хранилище разделяет данные на множество сегментов одинакового размера, называемых блоками. Система блочного хранения хранит различные блоки данных на разных физических устройствах. Когда пользователи запрашивают конкретные данные, система извлекает и собирает их воедино. Используется система отображения для поиска запрашиваемых данных на основе метаданных блока. Метаданные – это дополнительная информация, которая помогает пользователям или приложениям находить определенную информацию в хранилище.

Объектное хранилище

Объектное хранилище хранит неструктурированные данные в масштабируемом, самодостаточном хранилище, которое может быть размещено на различных серверах. Каждый блок данных, принадлежащий объекту, описан в его метаданных. Например, объект может хранить контент социальных сетей, видео, электронные письма и аудиофайлы. Приложения осуществляют поиск информации в хранилище объектов, используя определенные атрибуты метаданных, такие как разрешение, продолжительность и местоположение видео.

Какие существуют типы хранилищ данных?

Существует несколько типов хранилищ данных, каждый из которых обладает уникальной настройкой и характеристиками.

Хранилище с прямым подключением

Хранилище с прямым подключением (DAS) состоит из устройств хранения данных, которые физически подключаются к компьютеру. Например, система DAS подключает жесткий диск, оптический диск или флэш-накопитель к компьютеру. Создание резервных копий на DAS достаточно простое, но обмен данными с другими компьютерами вызывает трудности.

Хранилище с сетевым подключением

NAS (Network-attached storage) – это устройство хранения данных, предназначенное для хранения файлов, которое обеспечивает постоянный доступ к данным для эффективной совместной работы приложений и пользователей по сети. Устройства NAS – это специальные серверы, которые обрабатывают только запросы на хранение данных и обмен файлами. Они предоставляют быстрые, безопасные и надежные услуги хранения для частных сетей.

Сеть хранения данных

Сеть хранения данных (SAN) – это высокоскоростная инфраструктура хранения данных, использующая различные типы носителей и протоколы. Предприятия используют SAN для масштабирования блочного хранилища с легкостью и доступностью. SAN использует виртуализацию хранилища, чтобы скрыть сложность инфраструктуры от многочисленных устройств.

Облачное хранилище

Облачное хранилище – это распределенная инфраструктура хранения данных, размещенная и управляемая облачными провайдерами. Она более масштабируемая, гибкая и имеет удаленный доступ по сравнению с локальными хранилищами. Например, пользователи могут подключаться к облачному хранилищу AWS при условии, что у них есть подключение к Интернету и они авторизованы для доступа к данным. Облачное хранилище также является экономически эффективным, поскольку пользователи платят только за используемую емкость.

Гибридное облачное хранилище

Гибридное облачное хранилище позволяет компаниям разделять данные между локальными и облачными сервисами хранения. Гибридное облачное хранилище помогает компаниям перейти от устаревшей архитектуры к более дешевой и безопасной облачной среде.

Как AWS может удовлетворить ваши потребности в хранении данных?

AWS предоставляет несколько десятков облачных сервисов хранения данных, чтобы удовлетворить ваши потребности в хранении данных. Кроме того, у вас есть возможность размещать на своих инстансах Эластичного вычислительного облака Amazon (Amazon EC2) все, что захотите. Чтобы выбрать лучший сервис облачного хранения AWS, соответствующий вашим требованиям, необходимо сделать следующее:

  • Разделите вашу систему на рабочие нагрузки.
  • Определите механизм хранения данных, наиболее подходящий для конкретной рабочей нагрузки, а не единое хранилище данных для всей системы.
  • Далее выполните оптимизацию по стоимости и производительности, чтобы найти наиболее подходящий для вас сервис хранения данных.

Например, Служба реляционных баз данных Amazon (Amazon RDS) является популярным выбором для организаций, которые хотят создать и масштабировать реляционные базы данных. Она предоставляет приложениям облачное хранилище данных высокой доступности для размещения постоянных оперативных данных. Amazon RDS предлагает самоуправляемое решение для предоставления баз данных, которое освобождает разработчиков от утомительной настройки инфраструктуры хранения данных.

Начните работу с хранилищами данных на AWS, зарегистрировав аккаунт AWS уже сегодня.

Что такое хранилище данных?

Хранилище данных — это разновидность системы управления данными, которая обеспечивает поддержку бизнес-аналитики. Хранилища данных предназначены только для выполнения запросов и анализа и обычно содержат большие объемы исторических данных. Данные обычно поступают в хранилище из самых различных источников, таких как журналы приложений и приложения транзакций.

Хранилище данных служит для централизации и консолидации больших объемов данных из различных источников. Аналитические инструменты дают возможность компаниям извлекать из собственных данных ценные для бизнеса сведения и повышать эффективность принятых решений. Со временем в хранилище накапливаются записи за прошедшие периоды, которые представляют большую ценность для специалистов по изучению данных и бизнес-аналитиков. Эти возможности делают хранилища данных единым источником проверенной информации компании.

Видео по хранилищу данных

Обычно хранилище данных включает в себя следующие компоненты:

  • реляционную базу данных для хранения данных и управления ими;
  • решение для извлечения, загрузки и преобразования данных, которое служит для подготовки данных к анализу;
  • средства статистического анализа, отчетности и глубинного анализа данных;
  • инструменты анализа для визуализации данных и их представления для корпоративных пользователей;
  • Другие, более сложные аналитические приложения, которые генерируют полезную информацию по алгоритмам исследования данных и искусственного интеллекта (ИИ) или с применением функции графа и пространственных функций, обеспечивающих больше вариантов анализа больших объемов данных

Компании также могут выбрать решение, которое объединияет обработку транзакций, аналитику в режиме реального времени для хранилищ данных и озер данных, а также машинное обучение в одной службе баз данных MySQL без сложностей, задержек, затрат и риска, связанного с дублированием при извлечении, преобразовании и загрузке данных (ETL).

Преимущества хранилища данных

Хранилища данных обеспечивают для компаний обширные преимущества, так как дают возможность анализировать большие объемы разнообразных данных, извлекать из них значительную ценность, а также хранить записи за прошедшие периоды.

Эти уникальные преимущества доступны благодаря четырем отличительным особенностям хранилищ данных, которые описал специалист по вычислительным системам Уильям Инмон (William Inmon). Согласно данному им определению, хранилища данных имеют следующие характеристики.

  • Субъектно-ориентированность. Хранилища можно использовать для анализа данных, которые относятся к одной теме или функциональной области (например, продажи).
  • Единообразие. Хранилища данных обеспечивают целостность данных различных типов, полученных из разных источников.
  • Неизменность. Элементы данных, помещенные в хранилище данных, не подвергаются изменениям.
  • Изменения во времени. Анализ данных, помещенных в хранилище данных, предназначен для выявления изменений в закономерностях, возникающих со временем.

Хорошо спроектированное хранилище данных обеспечивает быстрое выполнение запросов, эффективное прохождение больших объемов данных и достаточный уровень гибкости, чтобы конечные пользователи могли формировать продольные и поперечные срезы данных или уменьшать их объем для более подробного изучения, то есть обеспечивает соответствие самым различным потребностям в изучении данных как на высшем, так и на самом низовом уровне. Хранилища данных служат функциональной основой для промежуточных сред бизнес-аналитики, которые предоставляют конечным пользователям доступ к отчетам, панелям мониторинга и прочим элементам интерфейса.

Архитектура хранилища данных

Архитектура хранилища данных зависит от потребностей компании. Наиболее распространенными типами архитектур являются следующие.

  • Простая. Все хранилища данных имеют общую конструкцию, где метаданные, сводные данные и необработанные данные хранятся в центральном репозитории хранилища. В репозиторий поступают данные из источников, к которым затем получают доступ конечные пользователи для выполнения анализа, составления отчетов и изучения.
  • Простая архитектура с областью подготовки. Перед помещением в хранилище операционные данные должны пройти процедуру очистки и обработки. Это можно сделать программным способом, однако во многих хранилищах данных есть специальная область, где данные проходят обработку перед поступлением непосредственно в хранилище.
  • Основное и дополнительные хранилища. Добавление витрин данных между центральным репозиторием и конечными пользователями дает возможность компаниям использовать хранилища данных для обслуживания различных направлений бизнеса. Когда данные готовы к использованию, их помещают в соответствующую витрину.
  • «Песочницы». «Песочницы» представляют собой безопасные частные и защищенные области, в которых компании могут быстро изучать новые наборы данных или способы анализа без необходимости обеспечивать соответствие формальным правилам и протоколам хранилища данных.

Эволюция хранилища данных от анализа данных к ИИ и машинному обучению

Первые хранилища данных появились в конце 1980-х гг., и их задачей было обеспечить обмен данными между операционными БД (БД для поддержки бизнеса) и системами поддержки принятия решения (СППР). Первым хранилищам данных требовалось много копий. Большинство компаний использовали несколько СППР для различных потребностей. Хотя эти СППР обычно использовали одни и те же данные, процессы сбора, очистки и интеграции выполнялись для каждой из них по отдельности.

По мере того как эффективность хранилищ данных росла, они превратились из «складов информации» для поддержки традиционных платформ бизнес-аналитики в обширные аналитические инфраструктуры, которые сегодня обслуживают самые разнообразные потребности компаний, включая операционную аналитику и управление эффективностью.

Эволюция хранилищ данных сделала их важным инструментом для постепенного наращивания бизнес-ценности для предприятия в виде банка данных предприятия (EDW).

Шаг Возможности Бизнес-преимущество
1 Транзакционная отчетность Обеспечивает реляционные сведения для создания моментальных снимков бизнес-эффективности
2 Продольные и поперечные срезы данных, специальные запросы, инструменты бизнес-аналитики Расширяет возможности для углубленного и более эффективного анализа
3 Прогнозирование эффективности в будущем (глубинный анализ данных) Обеспечивает визуализации данных и бизнес-аналитические прогнозы
4 Тактический анализ (пространственный анализ, статистика) Обеспечивает альтернативные сценарии для принятия решений на основе комплексного анализа
5 Хранит данные за несколько месяцев или лет Хранит данные за несколько недель или месяцев

На каждом из пяти этапов требуется увеличивать разнообразие наборов данных. На последних трех этапах максимально обширный диапазон данных и аналитических средств является обязательным требованием.

Сегодня технологии ИИ и машинное обучение применяются практически во всех инструментах для промышленности, сферы обслуживания и бизнеса. И хранилища данных не стали исключением. Широкое применение больших данных и внедрение новых цифровых технологий способствуют изменению требований к хранилищам данных и их функциональным возможностям.

Автономные хранилища данных представляют собой наиболее современное решение. Они дают возможность предприятиям извлекать еще больше ценных сведений из данных и в то же время обеспечивают более высокий уровень надежности и эффективности.

Хранилища данных, витрины данных и хранилища операционных данных

Хранилища данных, витрины данных и хранилища операционных данных (ODS) выполняют схожие роли, однако имеют свои отличия. Витрины данных имеют те же функции, что и хранилища данных, однако, как правило, ограничены одним подразделением или направлением бизнеса. Такая особенность дает возможность создавать витрины легче, чем хранилища данных. Тем не менее использование нескольких витрин может вести к потере целостности данных, так как между ними сложно обеспечить управление данными и контроль.

ODS используются только для поддержки ежедневных операций, поэтому доступ к историческим данным в них весьма ограничен. Они эффективны в качестве источника актуальных сведений и часто используются в этом качестве хранилищами данных, но не поддерживают сложные запросы к историческим данным.

Что такое облачное хранилище данных?

Облачное хранилище данных использует облако для получения и хранения данных из разрозненных источников.

Первоначально хранилища данных создавались на локальных серверах. У таких локальных хранилищ данных и сегодня много преимуществ. Во многих случаях они могут обеспечить более качественное управление, повышенную безопасность, суверенитет данных и более низкую задержку. Однако локальные хранилища данных не настолько гибкие и для них необходимо сложное прогнозирование, чтобы определить, как масштабировать такие хранилища данных для будущих потребностей. Управление такими хранилищами данных тоже может быть непростой задачей.

С другой стороны, облачные хранилища данных отличаются следующими преимуществами.

Лучшие облачные хранилища данных отличает полная управляемость и самоуправляемость, поэтому даже новички могут создавать и начать использовать хранилища данных всего в несколько кликов. Простой способ начать переход в облачное хранилище данных заключается в размещении своего облачного хранилища данных в локальной среде под защитой брандмауэра Вашего центра обработки данных, что соответствует требованиям в отношении суверенитета данных и безопасности.

Кроме того, в большинстве облачных хранилищ данных используется модель оплаты по мере использования, что обеспечивает дополнительную экономию средств для заказчиков.

Что такое современное хранилище данных?

Разные пользователи в компании, будь то ИТ-группы, инженеры по данным, бизнес-аналитики или специалисты по изучению данных, имеют разные потребности в хранилище данных.

Современная архитектура данных способна удовлетворять разные потребности, предоставляя возможность управления всеми типами данных, нагрузками и аналитикой. Она состоит из эталонных архитектур с необходимыми компонентами, интегрированными для совместной работы в соответствии с лучшими отраслевыми практическими рекомендациями. Современное хранилище данных включает следующее.

  • Конвергентная база данных, которая упрощает управление всеми типами данных и предоставляет различные способы использования данных.
  • Сервисы для самостоятельного получения и преобразования данных
  • Поддержка SQL, машинного обучения, графической и пространственной обработки
  • Разные параметры аналитики, упрощающие использование данных без необходимости их перемещения
  • Автоматизированное управление для упрощения выделения ресурсов, масштабирования и администрирования

Современное хранилище данных может так эффективно оптимизировать рабочие процессы, как ни одно другое хранилище ранее. Это означает, что каждый сотрудник, от аналитика и инженера по обработке данных до специалиста по изучению данных и ИТ-экспертов, может выполнять свою работу более эффективно и заниматься инновациями, помогая компании двигаться вперед без постоянных задержек и излишней сложности.

Проектирование хранилища данных

Проектирование хранилища данных для компании следует начать с определения конкретных бизнес-потребностей, согласования сферы применения и разработки концепции проекта. После этого можно приступать к разработке логической и физической модели хранилища данных. Логическая модель включает в себя взаимосвязи между объектами, в то время как физическая служит для определения оптимального способа хранения и извлечения объектов. Кроме того, она также включает в себя процессы передачи, резервного копирования и восстановления.

При проектировании хранилища данных обязательно нужно учитывать следующие факторы.

  • Специфика содержания (данные)
  • Взаимосвязи внутри групп данных и между ними
  • Системные среды обеспечения хранилища данных
  • Необходимые типы преобразования данных
  • Частота обновления данных

Наиболее важным фактором при проектировании является потребность конечных пользователей. Обычно пользователи используют хранилище для анализа, и им нужны данные в обобщенном виде, а не в виде отдельных транзакций. Тем не менее нередко конечные пользователи не знают, какие возможности им нужны до возникновения потребности в них. Таким образом, в процессе планирования необходимо предусмотреть резервные ресурсы для добавления новых возможностей. И наконец, при проектировании хранилища данных необходимо учитывать потребность в расширении по мере развития потребностей конечных пользователей.

Облачные хранилища и хранилища данных

Облачные хранилища данных имеют те же свойства и возможности, что и локальные, а также обеспечивают преимущества облачных вычислений, таких как гибкость, масштабируемость, маневренность, безопасность и экономичность. Использование облачных хранилищ данных дает возможность компаниям полностью сфокусироваться на извлечении полезных сведений из собственных данных вместо того, чтобы заниматься созданием и обслуживанием аппаратной и программной инфраструктуры, необходимой для поддержки хранилища данных.

Зачем нужно озеро данных?

Компании используют озера и хранилища данных для хранения больших объемов данных, полученных из разных источников. Выбор способа хранения зависит от того, как эта компания намеревается использовать данные. Ниже описаны рекомендуемые способы применения каждого из типов хранилищ.

  • Озера данных рекомендованы для хранения разрозненных нефильтрованных данных, которые предназначены для последующего использования в определенных целях. Данные из мобильных и бизнес-приложений, соцсетей, устройств IoT и т. д. сохраняются в необработанном виде в озере данных. Структуру, целостность, состав и формат наборов данных определяет специалист во время выполнения анализа. Если Вашей компании требуется экономичная система хранения для неформатированных, неструктурированных данных из множественных источников, которые предполагается использовать в будущем для конкретных целей, рекомендуем остановить свой выбор на озере данных.
  • Хранилища данных специально предназначены для анализа данных. Данные для анализа проходят в хранилище данных предварительную обработку (сбор, контекстуализацию и преобразование), чтобы облегчить извлечение ценных сведений. Хранилища данных также можно использовать для обработки больших объемов данных из разных источников. Если Вашей компании требуется расширенный анализ исторических данных из множественных источников, рекомендуем выбрать хранилище данных.

Почему среда OLTP не подходит для аналитики данных?

Хранилища данных представляют собой реляционные среды, которые используют для анализа данных, прежде всего за прошедшие периоды. Компании используют хранилища данных для обнаружения вырабатывающихся со временем закономерностей и взаимосвязей в данных.

В отличие от них транзакционные среды применяются для непрерывной обработки транзакций, то есть ввода заказов и совершения финансовых и розничных операций. В них не используются исторические данные. Более того, в средах OLTP данные за прошедшие периоды обычно архивируют или даже удаляют, чтобы улучшить эффективность.

Хранилища данных и OLTP-системы значительно отличаются друг от друга.

Хранилище данных OLTP-система
Рабочая нагрузка Поддерживает специализированные запросы и анализ данных Поддерживает только предварительно заданные операции
Изменения данных Регулярно выполняются автоматические обновления Обновления выполняют конечные пользователи с помощью специальных команд
Дизайн схемы Использует частично денормализованные схемы для улучшения эффективности Использует полностью нормализованные схемы для обеспечения целостности данных
Сканирование данных Включает от нескольких тысяч до миллионов строк Обеспечивает одновременный доступ только к нескольким записям
Исторические данные Хранит данные за несколько месяцев или лет Хранит данные за несколько недель или месяцев

Беспроблемное развертывание: Oracle Autonomous Data Warehouse

Наиболее современной разновидностью хранилищ данных являются автономные хранилища. В них применяются технологии на основе ИИ и машинного обучения. Это дает возможность устранить потребность в ручном выполнении задач по установке, развертыванию и управлению. Автономные хранилища данных предоставляются в виде облачных сервисов и не требуют вмешательства пользователя для администрирования, настройки аппаратного обеспечения или установки ПО.

Создание хранилища данных, резервное копирование, исправления и обновления, а также увеличение и уменьшение размера базы данных выполняются автоматически, что обеспечивает высокие показатели гибкости, масштабируемости, маневренности, безопасности и экономичности, столь популярные в облачных решениях. Использование автономного хранилища данных дает возможность упростить обслуживание, ускорить развертывание и высвободить ресурсы. Так компании могут больше уделять времени на увеличение прибыли.

Oracle Autonomous Data Warehouse

Oracle Autonomous Data Warehouse — простое в использовании, полностью автоматизированное хранилище данных, которое обеспечивает эластичную масштабируемость, быстрое выполнение запросов и не требует администрирования. Настройка Oracle Autonomous Data Warehouse не требует много времени и усилий.

Как устроены хранилища данных: обзор для новичков

Международный рынок гипермасштабируемых дата-центров растет с ежегодными темпами в 11%. Основные «драйверы» — предприятия, подключенные устройства и пользователи — они обеспечивают постоянное появление новых данных. Вместе с объемом рынка растут и требования к надежности хранения и уровню доступности данных.

Ключевой фактор, влияющий на оба критерия — системы хранения. Их классификация не ограничивается типами оборудования или брендами. В этой статье мы рассмотрим разновидности хранилищ — блочное, файловое и объектное — и определим, для каких целей подходит каждое из них.


/ Flickr / Jason Baker / CC

Типы хранилищ и их различия

Хранение на уровне блоков лежит в основе работы традиционного жесткого диска или магнитной ленты. Файлы разбиваются на «кусочки» одинакового размера, каждый с собственным адресом, но без метаданных. Пример — ситуация, когда драйвер HDD пишет и считывает блоки по адресам на отформатированном диске. Такие СХД используются многими приложениями, например, большинством реляционных СУБД, в списке которых Oracle, DB2 и др. В сетях доступ к блочным хостам организуется за счет SAN с помощью протоколов Fibre Channel, iSCSI или AoE.

Файловая система — это промежуточное звено между блочной системой хранения и вводом-выводом приложений. Наиболее распространенным примером хранилища файлового типа является NAS. Здесь, данные хранятся как файлы и папки, собранные в иерархическую структуру, и доступны через клиентские интерфейсы по имени, названию каталога и др.

/ Wikimedia / Mennis / CC

При этом следует отметить, что разделение «SAN — это только сетевые диски, а NAS — сетевая файловая система» искусственно. Когда появился протокол iSCSI, граница между ними начала размываться. Например, в начале нулевых компания NetApp стала предоставлять iSCSI на своих NAS, а EMC — «ставить» NAS-шлюзы на SAN-массивы. Это делалось для повышения удобства использования систем.

Что касается объектных хранилищ, то они отличаются от файловых и блочных отсутствием файловой системы. Древовидную структуру файлового хранилища здесь заменяет плоское адресное пространство. Никакой иерархии — просто объекты с уникальными идентификаторами, позволяющими пользователю или клиенту извлекать данные.

Марк Горос (Mark Goros), генеральный директор и соучредитель Carnigo, сравнивает такой способ организации со службой парковки, предполагающей выдачу автомобиля. Вы просто оставляете свою машину парковщику, который увозит её на стояночное место. Когда вы приходите забирать транспорт, то просто показываете талон — вам возвращают автомобиль. Вы не знаете, на каком парковочном месте он стоял.

Большинство объектных хранилищ позволяют прикреплять метаданные к объектам и агрегировать их в контейнеры. Таким образом, каждый объект в системе состоит из трех элементов: данных, метаданных и уникального идентификатора — присвоенного адреса. При этом объектное хранилище, в отличие от блочного, не ограничивает метаданные атрибутами файлов — здесь их можно настраивать.


/ 1cloud

Применимость систем хранения разных типов

Блочные хранилища

Блочные хранилища обладают набором инструментов, которые обеспечивают повышенную производительность: хост-адаптер шины разгружает процессор и освобождает его ресурсы для выполнения других задач. Поэтому блочные системы хранения часто используются для виртуализации. Также хорошо подходят для работы с базами данных.

Недостатками блочного хранилища являются высокая стоимость и сложность в управлении. Еще один минус блочных хранилищ (который относится и к файловым, о которых далее) — ограниченный объем метаданных. Любую дополнительную информацию приходится обрабатывать на уровне приложений и баз данных.

Файловые хранилища

Среди плюсов файловых хранилищ выделяют простоту. Файлу присваивается имя, он получает метаданные, а затем «находит» себе место в каталогах и подкаталогах. Файловые хранилища обычно дешевле по сравнению с блочными системами, а иерархическая топология удобна при обработке небольших объемов данных. Поэтому с их помощью организуются системы совместного использования файлов и системы локального архивирования.

Пожалуй, основной недостаток файлового хранилища — его «ограниченность». Трудности возникают по мере накопления большого количества данных — находить нужную информацию в куче папок и вложений становится трудно. По этой причине файловые системы не используются в дата-центрах, где важна скорость.

Объектные хранилища

Что касается объектных хранилищ, то они хорошо масштабируются, поэтому способны работать с петабайтами информации. По статистике, объем неструктурированных данных во всем мире достигнет 44 зеттабайт к 2020 году — это в 10 раз больше, чем было в 2013. Объектные хранилища, благодаря своей возможности работать с растущими объемами данных, стали стандартом для большинства из самых популярных сервисов в облаке: от Facebook до DropBox.

Такие хранилища, как Haystack Facebook, ежедневно пополняются 350 млн фотографий и хранят 240 млрд медиафайлов. Общий объем этих данных оценивается в 357 петабайт.

Хранение копий данных — это другая функция, с которой хорошо справляются объектные хранилища. По данным исследований, 70% информации лежит в архиве и редко изменяется. Например, такой информацией могут выступать резервные копии системы, необходимые для аварийного восстановления.

Но недостаточно просто хранить неструктурированные данные, иногда их нужно интерпретировать и организовывать. Файловые системы имеют ограничения в этом плане: управление метаданными, иерархией, резервным копированием — все это становится препятствием. Объектные хранилища оснащены внутренними механизмами для проверки корректности файлов и другими функциями, обеспечивающими доступность данных.

Плоское адресное пространство также выступает преимуществом объектных хранилищ — данные, расположенные на локальном или облачном сервере, извлекаются одинаково просто. Поэтому такие хранилища часто применяются для работы с Big Data и медиа. Например, их используют Netflix и Spotify. Кстати, возможности объектного хранилища сейчас доступны и в сервисе 1cloud.

Благодаря встроенным инструментам защиты данных с помощью объектного хранилища можно создать надежный географически распределенный резервный центр. Его API основан на HTTP, поэтому к нему можно получить доступ, например, через браузер или cURL. Чтобы отправить файл в хранилище объектов из браузера, можно прописать следующее:

После отправки к файлу добавляются необходимые метаданные. Для этого есть такой запрос:

Богатая метаинформация объектов позволит оптимизировать процесс хранения и минимизировать затраты на него. Эти достоинства — масштабируемость, расширяемость метаданных, высокая скорость доступа к информации — делают объектные системы хранения оптимальным выбором для облачных приложений.

Однако важно помнить, что для некоторых операций, например, работы с транзакционными рабочими нагрузками, эффективность решения уступает блочным хранилищам. А его интеграция может потребовать изменения логики приложения и рабочих процессов.

Облачные хранилища данных: для чего они нужны и какие типы существуют

Облачные хранилища данных

Отличительной чертой нашего времени является постоянный рост объема деловой информации. Дизайнеры, маркетологи, копирайтеры, представители IT-профессий, а также компании, работающие с огромными массивами данных, постоянно нуждаются в надежном месте, в котором можно было бы хранить ценные файлы. Если раньше их держали на дискетах, флешках и компакт-дисках, то сейчас лучше всего отправлять их в облачные хранилища.

Облачное хранилище: что это такое?

В общем и целом, это специально выделенное место на серверах, куда любой пользователь может закачать различные документы: текстовые файлы, любимые аудиозаписи и видеоролики, картинки, гифки, переписку из мессенджеров и многое другое. При этом серверы могут находиться где угодно: в Европе, Азии или Северной Америке.

Механизм облачного хранилища очень прост: нужно установить клиентское приложение и зарегистрироваться в нем. После чего можете спокойно сбрасывать в «облако » любую информацию, обмениваться ей с коллегами, обновлять ее, просматривать и так далее. Доступ к нему можно получить с любого устройства и из любого места, в котором есть Интернет. Создать облачное хранилище сейчас проще простого!

Поскольку данные бывают разные, то и хранить их лучше в подходящих для этого местах. По типу организации облачные хранилища делятся на:

  • файловые,
  • блочные,
  • объектные,
  • базы данных.

Поговорим о каждом типе подробнее.

Файловое хранилище

В основе файловой системы лежит иерархическая структура: корневая запись, от которой отходят данные о файлах и их атрибутах. Все они, в свою очередь, организованы в удобную структуру каталогов – з ная имя того или иного документа, доступ к нему можно получить, щелкнув мышью по его имени. С ними можно осуществлять любые операции – открывать, изменять, переименовывать, удалять, копировать, перемещать в другую папку.

Файловое хранилище может быть двух видов: физическим и виртуальным. В первом случае данные сохраняются на жестком диске, во втором – на виртуальном. Последний имеет намного больший объем чем жесткий, а еще туда можно настроить удаленный доступ. В качестве примера можно привести Dropbox , « Облако Mail.Ru», «Google Диск», «Яндекс. Диск» и другие аналогичные им сервисы.

Преимущества:

  • Простая и понятная структура.
  • В таком хранилище легко ориентироваться, искать нужные документы.

Недостатки:

  • Ограниченность в объеме, по мере заполнения которого падает скорость доступа, а вместе с ней и производительность.

Для чего подходит: для работы с небольшими объемами разны данных.

Файловые хранилища

Блочное хранилище

В блочном хранилище структура размещения та же, но все попадающие туда файлы делятся системой на блоки, каждому из которых присваивается свой идентификатор. С его помощью система собирает файлы в случае надобности.

Преимущества:

  • Каждая пользовательская среда находится отдельно, за счет чего можно рассортировывать данные и обеспечить отдельный доступ к ним.
  • БХ обеспечивает повышенную производительность: благодаря хост-адаптеру шины, который разгружает процессор и освобождает его ресурсы для выполнения других задач.

Недостатки:

  • Оно дороже, и им трудно управлять, поскольку работа с блоками создает дополнительную нагрузку на базу данных.
  • Оно, как и файловое, ограничено в объеме.

Для чего подходит: для работы с корпоративными базами данных

Объектное хранилище

Это самый популярный тип хранилища. Вместо файловой системы в нем есть плоское пространство, состоящее из множества объектов, каждый из которых состоит из идентификатора и метаданных. Идентификатор – это присвоенный адрес, в роли которого выступает 128-битное число. Зная его можно без труда найти нужный файл. Метаданные (информация о файле) – его имя, размер, координаты и другая информация.

Объектные хранилища бывают частными или публичными. В первом случае оно создается в частном облаке, во втором – облако берут в аренду у провайдера публичных облаков.

Достоинства:

  • Возможность работы с колоссальным объемом информации. Общий объем данных, хранящихся в Haystack Facebook, оценивается в 357 петабайт.
  • Возможность хранения резервных копий данных, особенно тех, от которых зависит жизнедеятельность системы (например, файлы для аварийного восстановления).
  • Возможность проверки корректности файлов и обеспечения быстрого доступа к ним.

Недостатки:

  • Сложно называть объекты.
  • Во многих объектных хранилищах отсутствует интерфейс для загрузки и управления файлами.

Для чего подходит: для хранения больших данных, текстовых документов, изображений, медиафайлов, переписок и многого другого.

База данных

База данных – это совокупность определенной информации, хранящаяся в строго установленном порядке на физических или виртуальных носителях. Она управляется специальной программой под названием СУБД (Система Управления Базами Данных). СУБД позволяет обрабатывать любые тексты, графику, медиа; с ними можно делать все что угодно: хранить, анализировать, тестировать продукты и обновления, запускать новые проекты.

Она очень хорошо подходят для постоянных типовых операций. Например, туда записывается информация о заказах, поступающих в интернет-магазин, на основе которой приложение автоматически выписывает счет на оплату. Примером такой базы может стать нереляционная высокопроизводительная СУБД Redis, она хранит данные в оперативной памяти.

REDIS

Базы данных могут находиться либо на сервере, либо в облаке. Облачные СУБД сегодня являются самыми популярными в своей области. Согласно исследованиям Market Realist, их используют 35% респондентов, экспериментируют с ними 14%, планируют внедрение – 12%.

Преимущества:

  • Облачные базы данных имеют практически неограниченный объем хранения.
  • Есть функция резервного копирования.
  • Они обладают высоким внешним и внутренним уровнем безопасности, который обеспечивается техническими средствами и экспертами.
  • Поддержка многозадачного и многопользовательского режимов.

Недостатки:

  • Сложность управления, что требует затрат на соответствующий персонал и ПО.
  • В случае нахождения их на физическом носителе имеют ограниченный объем, так что может потребоваться увеличение дискового пространства.
  • Высокая стоимость разработки и эксплуатации.

Для чего подходят: для управления однородными массивами данных.

Чего ждать в будущем

В перспективе нас ждет появление еще одного типа хранилищ – вычислительного, вся работа которого основана на обработке данных в процессе перемещения в слой хранения, что позволяет не отвлекать на выполнение операций ресурсы центрального процессора. По своей доступности, экономичности и надежности такое хранилище пока остается основным местом для безопасного хранения данных.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *