Статьи

Отбор по условию

Словарь автоматизатора




Navigation -
Нахождение пути в сложной системе меню, справочных файлов или каких-либо иных объектов пользовательского интерфейса, перемещение по объектам сети.

Весь словарь »»»








Как построить оптимальную систему хранения данных

Андрей Кормильцев, технический эксперт отдела системной интеграции ООО "ТопС Интегратор Систем" (URL: www.topsbi.ru)
Подробная информация об организации
Резервному копированию, архивированию и структурированному хранению данных (Hierarchical Storage Management HSM) посвящено много статей, но представленная в них информация часто однобока это либо описания программных продуктов, реализующих данные функции, либо обзоры различного оборудования для хранения данных.

Многолетний опыт работы в области построения систем хранения данных (СХД) дает мне право рассматривать эту тематику шире и представить методику создания целостной системы, обеспечивающей резервное копирование, архивирование, структурированное хранение и восстановление данных в требуемые сроки.

Процесс проектирования таких систем должен опираться на пофайловый анализ подлежащих хранению данных, который рекомендуется проводить на основе следующей информации о файлах: даты их создания, модификации, последнего обращения к ним, расширение, расположение в каталогах файловой системы.


Общие положения и понятия

К сожалению, различные производители программного обеспечения нередко вкладывают в такие понятия, как "резервное копирование", "архивирование" и "структурированное хранение", разный смысл. Поэтому для понимания изложенных в статье вопросов сначала необходимо определиться с терминологией.

Под резервным копированием (backup) следует понимать создание копий файлов с целью быстрого восстановления работоспособности системы в случае возникновения аварийной ситуации. Эти копии хранятся на носителях (магнитооптические диски, магнитные ленты), которые нередко называют резервными, определенный срок и затем перезаписываются. Таким образом, с ростом объема информации на серверах число резервных носителей увеличивается относительно медленно. Резервному копированию, как правило, подлежат данные, часто требуемые пользователям. Эти данные можно определить по тому периоду времени, который прошел со дня последнего обращения к их файлам. Считается, что он не должен превышать 120 дней. Для обеспечения надежности защиты данных желательно иметь по три резервных копии последних редакций файлов.

Резервное копирование может быть полным (full), инкрементальным (incremental) и дифференциальным (differential). При полном резервном копировании создается копия всех данных, подлежащих резервному копированию. Недостаток этой процедуры необходимость значительного времени на ее осуществление, а достоинство относительно быстрое восстановление информации из одной полной копии.

При дифференциальном копировании дублируются только файлы, созданные или измененные со времени проведения последнего полного копирования. И чем больше это время, тем дольше будет осуществляться дифференциальное копирование. В случае краха системы администратору для восстановления данных придется задействовать последние полную и дифференциальную копии.

При инкрементальном копировании дублируются только те файлы, которые были созданы или изменены после последнего полного, дифференциального или инкрементального копирования. Время выполнения такого копирования относительно мало, но в случае утраты информации ее придется восстанавливать, используя последнюю полную и все последующие инкрементальные копии, что является самой длительной процедурой восстановления.

Обычно для достижения компромисса между временем резервного копирования данных и временем их восстановления выбирается схема, согласно которой раз в неделю проводится полное копирования и ежедневно инкрементальное.

Под архивным копированием (archive) следует понимать процесс создания копий файлов, предназначенных для бессрочного или долговременного хранения. Носители, на которых они хранятся, называют архивными. Периодическое проведение архивного копирования позволит иметь копии нескольких разных версий одних и тех же файлов. Как правило, архивируются данные, которые никем не модифицировались 90 или более дней. Впрочем, особо важные файлы иногда помещаются в архив независимо от времени их последней модификации. Обычно считается, что для обеспечения надежности хранения нужно иметь 2 3 архивных копии всех редакций файлов, подлежащих архивированию.

Архивное копирование тоже может быть полным, инкрементальным и дифференциальным. При организации процесса архивирования делаются полные копии, к которым, как правило, раз в месяц добавляются инкрементальные копии. Дифференциальное архивное копирование обычно не выполняется. Как показывает практика, количество архивных носителей на предприятии довольно быстро растет.

Набором носителей информации называется группа резервных или архивных носителей, периодически используемая в процессе копирования. С целью повышения надежности хранения информации не следует помещать более одной копии одного и того же файла на один носитель или набор носителей. Таким образом, чтобы иметь три копии (как это рекомендуется), нужно задействовать три разных набора носителей. При этом для защиты данных от всевозможных катастроф и стихийных бедствий один из наборов следует хранить в удаленном месте.

Смена рабочего набора носителей в процессе копирования называется их ротацией. В настоящее время наиболее широко используются две схемы ротации: "дед отец сын" ("grandfather father son") и "ханойская башня" ("Tower of Hanoi"). Последняя схема обеспечивает более равномерное распределение информации по наборам носителей.

Концепция структурированного хранения подразумевает организацию иерархической структуры устройств хранения информации. На первом (верхнем) уровне находятся жесткие диски, а на других (нижних) уровнях магнитооптические и ленточные накопители. При этом часть жесткого диска и магнитооптические и/или ленточные накопители объединяются в единый логический диск, на котором обычно хранят редко используемую информацию. Система структурированного хранения может включать в себя как устройства оперативного доступа, работающие без вмешательства оператора (жесткие диски и библиотеки магнитооптических дисков или ленточных носителей), так и одиночные накопители, в которых носители заменяются оператором вручную. Назначение структурированного хранения удешевление процесса хранения редко используемых данных.

При физическом перемещении файла между устройствами разных уровней структурированного хранения его логическое местоположение в файловой системе сервера остается неизменным. Приложения обращаются к файлам по их логическому местоположению. В системах структурированного хранения на носители более низких уровней обычно перемещаются файлы, к которым пользователи не обращались в течение определенного времени (как правило, не менее 120 дней). Перемещение файлов в системе структурированного хранения организуется таким образом, чтобы объем свободного пространства на дисках серверов поддерживался на заданном уровне. Не рекомендуется перемещать исполняемые файлы и файлы из системных каталогов.


С чего начать проектирование СХД?

Этот процесс следует начинать со сбора и анализа информации о хранящихся в сети данных. По всем серверам и рабочим станциям с критически важными данными необходимо выяснить следующее:

  • время работы и требования, предъявляемые ко времени их восстановления в случае сбоя;
  • общий объем установленной дисковой памяти, а также ее занятый и свободный объемы;
  • данные о файлах (даты их создания, модификации, последнего обращения к ним).
Сведения о времени работы серверов и рабочих станций и требования ко времени их восстановления должен предоставить системный администратор, а информацию об объеме дисковой памяти серверов получают с помощью соответствующих системных утилит.

Подробно остановимся на третьей группе данных, так как, основываясь на их анализе, можно оценить объемы данных, подлежащих резервному копированию, архивированию и структурированному хранению. Так, имея информацию о дате создания файлов (накопленную за некоторый период времени), можно приблизительно оценить среднегодовой прирост объемов информации, хранящейся на серверах. С помощью информации о дате модификации файлов можно оценить объем информации, подлежащей архивированию, а на основе информации о датах последних обращений к файлам объемы данных, подлежащих резервному копированию и структурированному хранению (рис. 1).


Рис. 1 Примерное распределение данных, хранящихся на серверах и рабочих станциях
 
На рис.2 приведен пример использования специальной утилиты fscan, с помощью которой осуществляется сканирование дисков компьютеров с ОС Novell NetWare, Microsoft Windows NT и Unix (при наличии дополнительных средств NFS) и определяются объемы данных, подлежащих полному или инкрементальному резервному копированию, архивированию и структурированному хранению. Утилита выводит список файлов, рекомендованных к архивации и перемещению на устройства структурированного хранения (миграции), и информирует о пути к ним в файловой системе. Это, в частности, позволяет выявить неиспользуемую информацию, которую можно удалить. ООО "ТопС Интегратор Систем" успешно применяет данную утилиту при проектировании СХД. Впрочем, для этих целей существуют и другие программы.


Рис. 2 Пример использования специальной утилиты для сканирования дисков серверов и рабочих станций
 

Дальнейшие действия

На основе информации, полученной при сканировании дисков серверов и рабочих станций, нужно постараться упорядочить хранящиеся на них данные, поместив файлы, подлежащие резервному копированию, архивированию и структурированному хранению, в отдельные каталоги. Это позволит упростить настройку соответствующего ПО. Желательно также удалить с дисков все заведомо ненужные данные, что сократит время копирования и восстановления хранящейся на них информации.

Зная среднегодовой прирост объемов данных, хранящихся на серверах, можно рассчитать объемы подлежащей копированию информации на 2 3 года вперед. Это нужно для выбора типов устройств хранения.


Выбор типов устройств хранения информации

В России для построения корпоративных систем хранения данных используются в основном ленточные устройства DAT и DLT и накопители на магнитооптических дисках, функционирующие автономно или в составе систем с автоматической сменой носителей (автозагрузчики, библиотеки).

В связи с относительно невысокой надежностью хранения информации накопители и автозагрузчики DAT используются, как правило, для архивирования в нескольких копиях небольших (до 2 Гбайт в день) объемов данных. Как и все устройства последовательного доступа, накопители DAT характеризуются довольно высоким временем доступа к хранящимся данным. Кроме того, их блок магнитных головок периодически приходится очищать. Все это заметно снижает реальную производительность этих устройств. Новейшие накопители формата DAT DDS-4 записывают на один картридж 20 Гбайт несжатых данных и передают их со скоростью до 3 Мбайт/с. А с использованием аппаратно реализованной функции сжатия емкость картриджа этих накопителей и их производительность увеличиваются до 40 Гбайт и 6 Мбайт/с соответственно.

Магнитооптические накопители и библиотеки используются для архивирования и резервного копирования данных, а также для работы в системах структурированного хранения. Обычно с их помощью резервируют не более 10 Гбайт информации в день. Максимальные скорости записи и чтения у таких устройств соответствуют 2,3 и 4,6 Мбайт/с. Они обеспечивают небольшое время доступа к информации и практически нет необходимости очищать их внутренние компоненты. Недостатком магнитооптических устройств является относительно небольшая емкость их дисков до 5,2 Гбайт (на каждую сторону диска можно записать по 2,6 Гбайт данных).

Накопители, автозагрузчики и библиотеки DLT, как правило, используются для быстрого резервного копирования больших объемов информации до 40 80 Гбайт в день. Без применения аппаратно реализованной функции сжатия данных емкость и производительность устройства DLT7000 равны 35 Гбайт и 5 Мбайт/с соответственно. Сжатие увеличивает эти показатели в два раза. Время доступа к информации в накопителе DLT относительно велико и, кроме того, иногда необходима очистка его блока магнитных головок.

Выбрав типы устройств хранения информации и зная производительность их накопителей, можно оценить, какое число этих устройств вам необходимо.


Найдите узкое место

Теперь нужно рассмотреть топологию сети и оценить реальные скорости передачи данных в различных ее сегментах. Если сеть состоит из одного сегмента, то все устройства копирования желательно подключить только к одному серверу. Им, как правило, является сам сервер копирования (компьютер с серверной частью ПО копирования). Если сеть сегментирована, то, распределив серверы копирования и/или устройства копирования по разным ее сегментам, можно существенно увеличить скорость копирования/восстановления данных.

Реальная скорость копирования/восстановления информации будет ограничена пропускной способностью самого медленного устройства в системе "жесткий диск сервера копирования устройство копирования контроллер сервера копирования сеть контроллер сервера с копируемыми данными жесткий диск с копируемыми данными".

Оценив реальную скорость копирования/восстановления информации, можно уточнить необходимое число накопителей в устройствах хранения данных.


Оборудование и ПО

Зная типы накопителей, их уточненное число и объемы информации, подлежащей резервному копированию, архивированию и структурированному хранению, можно выбрать конкретные модели устройств хранения. Кроме того, необходимо выбрать и ПО структурированного хранения, резервного или архивного копирования, которое должно отвечать двум основным требованиям:

  • поддерживать выбранные типы устройств хранения информации;
  • обеспечивать распределение серверов копирования и/или устройств копирования в сегментированной сети по разным ее сегментам.
В односегментных сетях обычно используют продукты компаний Hewlett-Packard (HP OpenView OmniBack II, HP OpenView OmniStorage), Computer Associates (ArcServeIT, HSM for NetWare), Seagate Software (BackupExec, Storage Migrator) и некоторых других производителей.

Что же касается сегментированных сетей, то, на наш взгляд, в них лучше всего использовать ПО HP OpenView OmniBack II.


Заработает или нет?

Наш опыт внедрения СХД показывает, что если при проектировании системы использовалась описанная выше методика, то такая система будет работать нормально. Однако при очень больших объемах информации, подлежащей резервному копированию, архивированию и структурированному хранению, становится неудобно осуществлять мониторинг и администрирование этих процессов непосредственно из программного обеспечения СХД. В этом случае желательно интегрировать его со средствами сетевого управления (например, HP OpenView NNM или HP IT/Operations).


Примеры построения реальных СХД

Крупный банк с филиалами class="link"Банк имеет центральный офис и три филиала (рис. 3). В центральном офисе развернута гетерогенная сеть с несколькими серверами Windows NT 4.0, HP-UX 10.20 и NetWare 4.11. На одном из серверов установлено управляющее приложение HP OpenView IT/Operations. В филиалах имеются локальные сети: в первом и во втором на базе серверов Windows NT 4.0, в третьем на базе серверов NetWare 4.11. Третий филиал связан с центральным офисом высокоскоростным 100-Мбит/с каналом связи, а первый и второй низкоскоростными каналами связи с пропускной способностью 24,4 и 9,6 Кбит/с соответственно.


Рис. 3 Структурная схема СХД крупного банка с филиалами
 
В результате анализа информации о работе серверов и хранящихся в сети данных были сформулированы требования ко времени копирования и восстановления информации, определены объемы информации, подлежащей резервному копированию, архивированию и структурированному хранению, спрогнозирован рост этих объемов на конец второго года эксплуатации системы. На основании этих данных были приняты следующие требования к построению СХД.

Система структурированного хранения реализуется только в центральном офисе, а в качестве устройства хранения в ней используется магнитооптическая библиотека.

Резервное копирование и архивирование данных центрального офиса осуществляется в DLT-библиотеку, расположенную там же.

Резервное копирование и архивирование данных третьего филиала осуществляется в ту же DLT-библиотеку, расположенную в центральном офисе

Резервное копирование и архивирование данных первого и второго филиалов осуществляется в DLT-автозагрузчики, расположенные в этих филиалах.

Такое распределение устройств хранения выбрано с учетом величины пропускной способности каналов связи между филиалами и центральным офисом.

В качестве ПО резервного копирования, архивирования и структурированного хранения решено использовать продукты HP OpenView OmniBack II и HP OpenView OmniStorage. Их интеграция с HP OpenView IT/Operations обеспечивает системному администратору удобные управление СХД и мониторинг ее работы с единой консоли.

Крупное конструкторское бюро
В этом КБ имеются несколько файловых серверов и серверов приложений, реализованных на базе ПК-серверов и Unix-серверов (рис. 4). Основу его информационной системы составляют главный и резервный Unix-серверы CAD/CAM/CAE (система автоматизированного проектирования, производства и поддержки инженерного труда), подключенные к единому дисковому массиву. На рабочих станциях установлены клиентские части ПО CAD/CAM/CAE. Особенностью данного предприятия являлось требование длительного времени хранения информации (до 20 лет).


Рис. 4 Структурная схема СХД крупного конструкторского бюро
 
В результате анализа информации о хранящихся в сети данных было принято решение об организации их резервного копирования, архивирования и структурированного хранения с использованием высокоемких библиотек магнитных лент DLT и магнитооптических дисков. В качестве ПО резервного копирования архивирования и структурированного хранения решено задействовать продукты HP OpenView OmniBack II и HP OpenView OmniStorage.

В разработанной СХД подлежащие резервному копированию и архивированию данные с серверов и рабочих станций копируются на специально выделенные для этого накопители в составе магнитооптической и ленточной библиотек и хранятся в этих библиотеках на соответствующих носителях, отведенных под архивные и резервные копии. Редко используемые данные с серверов перемещаются в те же библиотеки, по совместительству выполняющие роль устройств структурированного хранения. Для этого в них выделены отдельные накопители и носители.

Представительство фармацевтической фирмы
Это предприятие имеет несколько файловых серверов и серверов приложений (Lotus Notes, Microsoft SQL Server), реализованных на базе ПК-серверов (рис. 5). Анализ информации о хранящихся в сети данных позволил определить объемы данных, подлежащих резервному копированию и структурированному хранению. Причем последние были обнаружены только на одном сервере Windows NT. Для резервного копирования и структурированного хранения было решено использовать DLT-автозагрузчик и магнитооптическую библиотеку соответственно. В качестве ПО этих процессов выбраны ARCserveIT 6.6 и Optical Server for Windows NT фирмы Computer Associates.


Рис. 5 Структурная схема СХД представительства фармацевтической фирмы
 
В этой СХД резервируемые данные с файловых серверов и серверов приложений копируются на ленты DLT в автозагрузчике, а редко используемые данные с сервера Windows NT перемещаются в магнитооптическую библиотеку.

Выбор той или иной схемы построения СХД всегда должен основываться на результатах анализа информации о хранящихся в сети данных. При наличии в сети больших объемов данных, подлежащих архивированию и структурированному хранению, организация только резервного копирования значительно увеличит объемы периодически копируемых данных и неоправданно завысит затраты на хранение информации. В то же время внедрение без надлежащих на то оснований системы структурированного хранения вызовет, помимо удорожания всей системы хранения, задержки в работе пользователей, периодически обращающихся к неоправданно перемещенным данным.

Только комплексный подход к организации хранения информации на основе определения объемов данных, подлежащих резервному копированию, архивированию и структурированному хранению, и расчета общего объема создаваемых копий обеспечит построение оптимальной СХД.



Другие статьи раздела:


 


| Новости | Организации | Описания | Форум | Публикации | Регистрация |
Copyright © 2000 - 2001 ГОСНИИСИ. Авторские права охраняются.
Воспроизведение материалов или их частей в любом виде без письменного разрешения запрещено.
 
 
Rambler\'s Top100