WWW.DISSERS.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА

загрузка...
   Добро пожаловать!

Pages:     || 2 | 3 |

УДК 004.451

На правах рукописи

Кинсбурский Станислав Александрович

РАЗРАБОТКА И ИССЛЕДОВАНИЕ МЕТОДОВ ПОВЫШЕНИЯ СКОРОСТИ ДОСТУПА К УДАЛЁННЫМ ДАННЫМ В РАСПРЕДЕЛЁННЫХ ВЫЧИСЛИТЕЛЬНЫХ СИСТЕМАХ

Специальность 05.13.11 – Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей

АВТОРЕФЕРАТ

диссертации на соискание ученой степеникандидата технических наук

Москва – 2008

Работа выполнена в ОАО «ИНЭУМ им. И.С. Брука» и ЗАО "МЦСТ".

Научный руководитель:

доктор технических наук,

старший научный сотрудник

Егоров Геннадий Алексеевич

Официальные оппоненты:

доктор технических наук,

профессор

Семенихин Сергей Владимирович

кандидат технических наук,

старший научный сотрудник

Дубовик Евгений Александрович

Ведущая организация:

Институт точной механики и

вычислительной техники им. С. А. Лебедева РАН

Защита состоится « » 2008 г. в ___ ч. ___ мин. на заседании диссертационного совета Д.409.009.01 при ОАО «Институт электронных управляющих машин имени И. С. Брука» по адресу: 119334, г. Москва,

ул. Вавилова, 24.

С диссертацией можно ознакомиться в учёном совете ОАО «Институт электронных управляющих машин имени И. С. Брука».

Автореферат разослан « » 2008 г.

Ученый секретарь

диссертационного совета

к.т.н., профессор Красовский В.Е.

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность работы. Современные технологии позволяют создавать распределённые вычислительные системы в виде отдельных модулей - одноплатных многомашинных вычислительных комплексов (МВК). При этом организация параллельных вычислений для определенного класса задач может оказаться технически более простой и со сравнительно небольшими потерями на реализацию синхронизирующих действий в виде сообщений. Все это является причиной растущей популярности МВК для распределенной обработки данных.

Под распределенной обработкой данных будем понимать организацию и обработку данных в многомашинных вычислительных комплексах (МВК). МВК представляют собой объединённые в сеть для совместной работы удалённые компьютеры (узлы МВК), которые не имеют доступа к общей памяти, и обладают доступом только к своим собственным ресурсам.

МВК имеют самое широкое распространение. Они нашли применение практически во всех отраслях народного хозяйства, включая оборонно-промышленный комплекс.

Современное развитие микроэлектронных технологий позволяет создавать производительные и при этом компактные многомашинные комплексы, предназначенные для встраиваемых применений и ориентированные на работу в реальном масштабе времени. Компактность многомашинных комплексов достигается путем объединения нескольких узлов на одной материнской плате и за счёт предоставления доступа к периферийным устройствам (в том числе к носителям информации) только одному из узлов многомашинного комплекса.

Примером современного отечественного компактного МВК является вычислительный комплекс, построенный на основе процессорных модулей «МВС/С» разработки ЗАО «МЦСТ». «МВС/С» состоит из четырёх узлов, размещённых на одной плате и соединённых между собой быстрыми каналами связи. При этом доступом к внешним устройствам обладает только один из узлов МВК. Для загрузки всего МВК необходимо обеспечить возможность загрузки и рестарта (перезапуска) бездисковых узлов, которые не имеют прямого доступа к внешним устройствам. Скорость загрузки и рестарта такого МВК является особенно важными параметром с точки зрения обеспечения его функционирования в реальном масштабе времени.

Под временем загрузки и рестарта понимается время, необходимое для приведения МВК в состояние готовности к работе после сигнала сброса. Готовность МВК к работе – это состояние, в котором запуск целевой задачи возможен на любом из его узлов. Сигнал сброса – это аппаратный сигнал, инициирующий старт либо перезапуск вычислительного комплекса.

Загрузка бездисковых узлов многомашинного комплекса предполагает использование программных методов передачи данных от узла, имеющего аппаратный доступ к носителям информации (сервера), к бездисковым узлам (клиентам). Для передачи данных используются каналы связи, объединяющие вычислительные узлы в МВК. Передача данных по каналам связи приводит к дополнительным задержкам в получении данных узлом–клиентом по сравнению с узлом–сервером. Однако эта задержка зависит не только от скорости передачи данных по каналам связи, но и от эффективности программного обеспечения, обеспечивающего доступ к удалённым данным.

Организация доступа к удалённым данным в распределённых вычислительных системах, как правило, обеспечивается с помощью распределённых файловых систем. Как показал проведённый анализ, современные распределённые файловые системы не обеспечивают скорость доступа к данным и скорость загрузки и рестарта, требуемые в вычислительных системах, работающих в реальном масштабе времени.

В этой связи актуальной является задача, связанная с реализацией методов повышения скорости доступа к удалённым данным в МВК с учётом требований работы в реальном масштабе времени.

Цель диссертационной работы. Целью диссертационной работы является разработка и исследование методов доступа к удалённым данным в распределённых вычислительных системах, обеспечивающих повышение производительности, скорости доступа (реактивности) к удалённым данным при обеспечении низкой нагрузки на вычислительные узлы. Для достижения поставленной цели были определены и решены следующие задачи:

  • обзор и анализ существующих методов доступа к удалённым данным в современных распределённых вычислительных системах. Основными параметрами оценки являются время, необходимое для приведения МВК к готовности к работе после рестарта системы, скорость доступа узлов–клиентов к удалённым данным и нагрузка, оказываемая на узел–сервер;
  • разработка методов и алгоритмов доступа к удалённым данным в распределённых вычислительных системах, позволяющих увеличить скорость доступа, уменьшить время загрузки и рестарта, а также снизить нагрузку на узел–сервер по сравнению с известными распределёнными файловыми системами;
  • разработка архитектуры быстрой распределённой файловой системы, отличительными особенностями которой являются реализация программ обслуживания распределённой файловой системы в адресном пространстве ядра операционной системы (ОС) и обмен данными на уровне блоков, а не файлов, как реализовано в большинстве распределённых систем;
  • практическая реализация предложенных методов и алгоритмов в виде быстрой распределённой файловой системы;
  • оценка эффективности предложенных методов на основе имитационного моделирования.

Методы исследования. Для решения поставленных задач в диссертации использовались методы теории алгоритмов, методы и технологии системного программирования, методы математического и имитационного моделирования.

Научная новизна исследования. К составляющим научную новизну диссертационной работы решениям следует отнести:

  • анализ распределённых файловых систем на основе модели взаимодействия открытых систем (OSI), обеспечивающей наглядность архитектуры распределённой файловой системы и методов её реализации и позволяющей оценить её эффективность;
  • разработка метода доступа к удалённым данным на уровне блоков файловой системы, обеспечивающего по сравнению с доступом на уровне файлов меньшее время доступа к данным, уменьшение нагрузки на узел–сервер и уменьшение времени загрузки и рестарта;
  • разработка методов доступа к удалённым данным, размещаемых в адресном пространстве ядра;
  • разработка алгоритмов единого прозрачного доступа к удалённым данным, расположенных на разных носителях.

Практическая ценность и реализация результатов работы. Предложенные методы и алгоритмы реализованы в виде быстрой распределённой файловой системы в составе операционной системы Linux. В частности, на основе исследований, выполненных по теме диссертации, была реализована модель «клиент–сервер» в ядре ОС Linux для процессорного модуля «МВС/С».

Результаты имитационного моделирования показали эффективность разработанных методов и алгоритмов удалённого доступа к распределённым данным по сравнению с наиболее известными современными распределёнными файловыми системами.

Апробация работы. Основные положения и результаты работы докладывались на Международных и других научных конференциях: ХХXII Гагаринские чтения (Москва, 2006 г.); ХХXIII Гагаринские чтения (Москва, 2007 г.); ХХXIV Гагаринские чтения (Москва, 2008 г.); XXIII научно–техническая конференция на тему "Направление развития и применения перспективных вычислительных систем и новых информационных технологий в ВВТ РКО" (Москва, 2007 г.), а также на семинарах НТС ИМВС РАН, ЗАО “МЦСТ” и ОАО “ИНЭУМ”.

Публикации. По теме диссертационной работы опубликованы 7 печатных работ, в том числе в издании, рекомендованном ВАК РФ.

Структура, объём работы. Диссертация состоит из введения, четырёх глав с выводами, заключения. Основная часть работы изложена на 109 страницах, содержит 21 рисунок, 8 таблиц и библиографический список, включающий 37 наименований.

ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ

Во введении определяется область исследования в ряду актуальных проблем компьютерных технологий, обосновывается актуальность диссертационной работы, формулируются цель и научные задачи исследования.

В первой главе приведён общий обзор структуры распределённых вычислительных систем, определены требования к методам доступа к удалённым данным в современных распределённых вычислительных системах, к которым, прежде всего, следует отнести:

  • высокую скорость обмена данными;
  • контроль целостности данных;
  • высокую скорость доступа к данным;
  • предсказуемость времени доступа к данным;
  • высокую скорость инициализации методов доступа после старта/рестарта;
  • снижение нагрузки на узел–сервер.

Необходимо отметить, что последние четыре требования являются особенно актуальными для распределённых вычислительных систем, работающих в реальном масштабе времени.

Анализ распределённых вычислительных систем показывает, что они, как правило, реализуются под управлением Unix–подобных операционных системах. Для обеспечения безопасности, надёжности и стабильности вычислительной системы в Unix–подобных операционных системах программы ядра и пользователя исполняются в разных режимах процессора и размещаются в разных областях адресного пространства. Прямой доступ к данным реализуется обычно на уровне ядра ОС, а обращение к данным осуществляется при помощи служб ядра и системных вызовов.

В современных наиболее распространённых методах удалённого доступа передача данных осуществляется обычно на уровне файлов, поэтому они объединены под общим названием «распределённые файловые системы». Анализ наиболее распространённых распределённых файловых систем позволяет выделить следующие характеризующие их параметры:

  • прозрачность – представление удалённых данных частью локальных данных;
  • масштабируемость – обеспечение присоединения к системе новых узлов;
  • безопасность – обеспечение безопасности связи и гарантирование корректных разрешений на доступ к данным;
  • отказоустойчивость – обеспечение сохранности удалённых данных в стабильном и непротиворечивом состоянии в случае, если на одном из узлов МВК происходит сбой;
  • непротиворечивость – обеспечение отсутствие противоречий в локальных кэшированных копиях файла на узлах–клиентах в случае разделения его на запись.

Для доступа к удалённым данным используются методы, объединённые под общим названием «удалённый вызов процедур». То есть в процессе обмена удалёнными данными узлу–серверу пересылается также служебная информация, позволяющая реализовать вызов необходимой пользователю узла–клиента процедуры (системного вызова). Таким образом, программы, обслуживающие удалённый вызов процедур, реализованы преимущественно в адресном пространстве пользователя, что приводит к двойному увеличению количества операций обмена, необходимых для получения данных, по сравнению с локальным доступом. Для ускорения обмена данные кэшируются на узле–сервере, что позволяет увеличить скорость обмена, но приводит к дополнительной нагрузке на узел–сервер.

Для получения оценки эффективности современных методов доступа к удалённым данным был проведён анализ распределённых файловых систем NFS, AFS, Coda, xFS, GPFS, Lustre и Sprite с помощью модели взаимодействия открытых систем OSI. Каждый уровень модели рассматривается с точки зрения влияния его реализации в современных распределённых файловых системах на время доступа (реактивность) к удалённым данным и на нагрузку на узел–сервер. Результаты анализа показывают общий для современных распределённых файловых систем недостаток, связанный с плохой реактивностью (большим временем доступа к удалённым данным), большим временем инициализации в случае старта и рестарта и высокой нагрузкой на узел–сервер по сравнению с методами доступа к локальным данным. Это является недопустимым в распределённых вычислительных системах, работающих в реальном масштабе времени.

По результатам проведённого анализа сформулированы задачи диссертационного исследований. В связи с тем, что существующие распределённые файловые системы не обеспечивают должной реактивности, скорости загрузки и рестарта и снижения нагрузки на узел–сервер, необходимых в распределённых вычислительных системах, работающих в реальном масштабе времени, необходима разработка принципиально новой архитектуры распределённой файловой системы.

Во второй главе, исходя из анализа требований доступа к удалённым данным в реальном масштабе времени, автором предложена архитектура быстрой распределённой файловой системы (БРФС), представленная на рис.1.

Pages:     || 2 | 3 |






© 2011 www.dissers.ru - «Бесплатная электронная библиотека»