WWW.DISSERS.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА

загрузка...
   Добро пожаловать!

Pages:     | 1 || 3 |

На рис. 7а представлено распределение размеров пакетов оригинальных измерений трафика, в то время как на рис. 7б приведено распределение сетевого трафика, агрегированного с окном 100 мсек.

Видно, что для малых значений величины окна агрегации распределение информационного потока не носит выраженного характера. Однако, при приближении размера окна агрегации к 1 сек (см. рис. 8а), распределение приобретает устойчивую форму, которая не меняет характера при дальнейlg C2(r) N ),..

N ),..

Рис. 5. Распределение потока (нормированного к интервалу [-1, 1]) для: а) исходных данных и б) данных, сгенерированных обученной ИНС 0.4 0.) ) 0.0.0.0.-0.|W| 0.-0.0.-0.0.0.-0.-1 2 4 6 8 10 12 N 800 850 900 950 1000 1050 1100 t, Рис. 6. а) Предсказание временного ряда сетевого трафика (нормированного к интервалу [-1, 1]) с помощью обученной ИНС, б) распределение абсолютных величин весов между выходным нейроном и нейронами второго скрытого слоя шем увеличении окна агрегации: см., например, рис. 8б, соответствующий агрегации с окном 10 сек. Аппроксимирующие кривые, представленные на рисунках 8, отвечают функции логнормального распределения A 1 f(x) = exp - (ln x - µ)2, (1) x где x - переменная, - и µ- параметры логнормального распределения, Aнормировочный множитель.

N N a) ),, Рис. 7. a) Распределение размеров пакетов для исходных данных, б) распределение потока информации для данных, агрегированных с окном 100 мсек N N a) ),, Рис. 8. Распределение потока информации (аппроксимирующая кривая - функция (1)): a) для данных, агрегированных с окном 1 сек, б) для данных, агрегированных с окном сек Следует заметить, что распределения, приведенные на рисунках 8, включают в себя весь набор данных, что соответствует приблизительно 20 часам непрерывных измерений. В то же время, поведение трафика, также как и соответствующее ему статистическое распределение, меняется в зависимости от того, когда делались эти измерения – в течение рабочего дня или в ночное время (смотри также главу 6). В частности, если рассматривать только дневную часть измерений трафика, то соответствующее распределение информационного потока с высокой точностью согласуется с гипотезой (1) – см. рис. 9.

N Рис. 9. Распределение сетевого трафика, агрегированного с окном 1 сек, для фрагмента дневных измерений:

аппроксимация функцией (1), С целью выявления особенностей сетевого трафика, влияющих на формирование логнормального закона, была построена модель, в которой методом Монте-Карло генерировались две случайные величины: размер регистрируемого пакета Ps и временной интервал Tint, разделяющий последовательно приходящие пакеты. Для моделирования величины Ps использовалось эмпирическое распределение для исходных измерений трафика (рис. 7а), а для величины Tint использовались как соответствующее эмпирическое распределение, так и его приближение экспоненциальным распределением (что соответствует пуассоновской модели). При моделировании случайные величины Ps и Tint полагались независимыми, что было предварительно установлено на основании анализа имеющихся данных.

Сгенерированный с помощью этой модели ряд подвергался процедуре агрегации на различных уровнях, а полученные статистические распределения аппроксимировались логнормальным распределением. Результаты аппроксимации (рис. 10а и б) в целом подтверждают предположение о независимости временных интервалов между соседними пакетами от величины этих пакетов.

При этом пуассоновская модель была отброшена, поскольку она не воспроизводит распределение реальных данных.

Четвертая глава посвящена сингулярно-спектральному анализу (ССА) измерений сетевого трафика с помощью подхода ”Гусеница” [13, 14].

Анализируется временной ряд, отвечающий произвольной функции f(t), определенной на равномерной сетке:

xi = f[ti] = f[(i - 1)t], i = 1, 2,..., K, (2) где t– временной интервал (в нашем случае t = 1).

N N a) ),, Рис. 10. Распределение потока информации для модельных данных: a) агрегированных с окном 1 сек, б) агрегированных с окном 10 сек Стандартная схема “Гусеницы”-ССА состоит из четырех этапов:

1. преобразование одномерного ряда к многомерному виду, 2. сингулярное разложение выборочной ковариационной матрицы, 3. анализ этого разложения с помощью метода главных компонент и отбор ведущих компонент, 4. реконструкция одномерного ряда на основе отобранных компонент.

Преобразование ряда (2) к многомерному виду подразумевает его представление в матричной форме:

x1 x2 x3... xL x2 x3 x4... xL+ x3 x4 x5... xL+2, X = (xij)k,L = i,j=....

....

...

....

xk xk+1 xk+2... xK где L < K называется длиной “гусеницы”, а k = K - L + 1.

Затем находятся собственные значения i, i = 1, 2,..., L и собственные вектора Vi, i = 1, 2,..., L ковариационной матрицы C = XXT. Матрица k собственных векторов V используется для перехода к главным компонентам T Y = V X = (Y1, Y2,..., YL), (3) где Yi (i = 1, 2,..., L) – столбцы матрицы, состоящие из k элементов.

L L i Равенство = i = 1 позволяет оценить вклад i i-ой компоненты L i=1 i=в анализируемый ряд.

На рис. 11 показан вклад i главных компонент в разложение исходного ряда трафика (в порядке убывания) при длине “гусеницы” CL = 12 и 20. На основе этой информации можно оценить число ведущих компонент, определяющих характерное поведение трафика.

,%,% a) ) 2 4 6 8 10 12 2.5 5 7.5 10 12.5 15 17.5 i i Рис. 11. Вклад (в процентах) главных компонент в разложение исходного ряда трафика при длине “гусеницы” а) CL = 12 и б) CL = Учитывая результаты, полученные в предыдущей главе, следует ожидать, что распределение информационного потока, восстановленного на основании ведущих компонент, должно описываться логнормальным законом. На рис. 12 представлены результаты аппроксимации распределений информационного потока, соответствующие различному числу N = 1, 2,..., CL ведущих компонент при длине “гусеницы” CL = 20, функцией (1). Здесь 2 – это значение критерия 2, а – число степеней свободы.

Прямые, параллельные оси абсцис, показывают уровни значимости – вероятность 10% соответствует верхней прямой 2/ = 1.247, а вероятность 89.5% – нижней прямой 2/ = 0.732 при проверке нулевой гипотезы с числом степеней свободы = 47. Из этой зависимости видно, что уже при N = достигается достаточно высокий уровень соответствия статистического распределения гипотезе (1). В области больших N наблюдается рост 2, который можно объяснить влиянием остаточных компонент, носящих характер случайного шума.

Для оценки числа компонент, которые можно отбросить без влияния на основную составляющую трафика, весь набор главных компонент был разбит 2.1.1.0.0.1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 N, Рис. 12. Зависимость 2/ от числа главных компонент на две части:

1. ведущие компоненты, формирующие основную составляющую трафика, характеризующуюся логнормальным распределением, 2. остаточные компоненты, отвечающие части трафика с характеристиками случайного шума.

Для отбора остаточных компонент использовался “момент” нарушения симметрии распределения величин временного ряда, восстановленного на основании указанных компонент. Для проверки гипотезы о симметрии распределения был взят критерий знаков:

n µ = (Xi), (3) i=где X1,..., Xn - измерения трафика, n - объем выборки, а - функция Хевисайда:

1, x > (x) = 0, x 0.

Для правильной гипотезы и больших n распределение величин µ имеет вид:

m - np + 0.P {µ m | n, p}, np(1 - p) где - функция распределения нормального распределения (в нашем случае p = 0.5 и n = 2048).

/ На рис. 13 представлена зависимость значений величины µ от числа остаточных компонент (для CL = 12 и 20). Видно, что число остаточных компоa) ) 5 % - 5 % - 825 2 4 6 8 10 2 4 6 8 10 12 14 16 N, N, Рис. 13. Зависимость величин µ критерия знаков от числа остаточных компонент для а) CL = 12 и б) CL = нент, отвечающих 5% – уровню значимости, сооставляет 6 для CL = 12 и для CL = 20.

Для дополнительной проверки этих результатов использовался критерий симметрии на основе статистики n [15]. Данный критерий проверяет симметрию относительно x = 0 функции распределения F (x) измерений X1,..., Xn, т.е. нулевую гипотезу H0: F (x) = 1 - F (x). Соответствующая статистика n имеет вид:

n = n [Fn(x) + Fn(-x) - 1]2 dFn(x), (4) где Fn(x) - эмпирическая функция распределения. Для расчетов статистики (4) удобнее пользоваться формулой:

n n - j + n = Fn(-X(j)) -, n j=где X(1)... X(n) – вариационный ряд, построенный на основе измерений.

На рисунке 14 представлена зависимость n от числа остаточных компонент для CL = 12 и 20.

Число остаточных компонент, отвечающих 5% - уровню значимости критерия, составляет 6 для CL = 12 и 11 для CL = 20, что полностью совпадает 2 a) ) 5 % - 5 % - ----2 4 6 8 10 2 4 6 8 10 12 14 16 N, N, Рис. 14. Зависимость величины n от числа остаточных компонент для а) CL = 12 и б) CL = с результатом, полученным с помощью критерия знаков (рис. 13). Это также согласуется с результатом, полученным с помощью критерия 2 (pис. 12).

Таким образом, статистический анализ измерений трафика, основанный на совместном использовании 2- и 2-критериев, позволил разбить набор главных компонент на две группы. Первая группа включает ведущие компоненты, ответственные за формирование основной составляющей трафика.

Вторая группа, состоящая из остаточных компонент, может быть интерпретирована как шум. Детальный анализ пограничной области между этими двумя группами может дать дополнительную информацию о структуре трафика и упростить понимание его динамики.

В пятой главе сетевой трафик исследуется методами спектрального и вейвлет-анализа.

Для оценки числа вейвлет-коэффициентов, ответственных за формирование высокочастотной (шумовой) составляющей трафика, использовался кри2 терий симметрии на основе n. На рис. 15а представлена зависимость n от числа отброшенных наименьших вейвлет-коэффициентов M. Она имеет минимум при M = 768. Распределение восстановленного информационного потока при M = 768, представленное на рис. 15б, аппроксимируется логнормальной функцией (1) с хорошим уровнем значимости. Из рис. 15а видно, что максимальное число коэффициентов, которые можно отбросить, не превышая 5% - го уровня значимости, равно M = 1408. Это составляет 70% от общего числа коэффициентов (n = 2048).

Для дополнительной проверки данного результата анализировалось повеN 5 % - -a) ) 0 250 500 750 1000 1250 1500 1750 N, Рис. 15. a) Зависимость величины n от числа отброшенных вейвлет-коэффициентов, б) распределение потока информации, отвечающее отобранным коэффициентам после отбрасывания M = 768 наименьших коэффициентов дение автокорреляционной функции [16] K (yi+ - y)(yi - y) K i=C() =, y = yi, (5) K K i=(yi - y) i=как для шумовой, так и регулярной составляющих сетевого трафика. Логично предположить, что элементы временного ряда, соответствующего шумовой составляющей, должны быть некоррелированными.

На рис. 16а представлены автокорреляционные функции для шумовой составляющей, отвечающие разному числу отброшенных коэффициентов M.

Видно, что при M 1408 отбрасываемая составляющая может рассматриваться как шум. На рис. 16б приведены автокорреляционные функции регулярной составляющей для разного числа отбрасываемых коэффициентов.

Видно, что исключение не более, чем 1408 наименьших коэффициентов, практически не влияет на форму автокорреляционной функции.

К отфильтрованным данным была снова применена процедура обработки на основе подхода “Гусеница”, описанная в главе 4. На рис. 17 представлен вклад i (в процентах) главных компонент для данных трафика после исключения 1408 наименьших коэффициентов. Видно, что вклад остаточных компонент значительно уменьшился по сравнению с результатами для исходных измерений, в тоже время вклад ведущих компонент заметно вырос (ср.

рис. 11).

- - - 768 0.- - - 0.- - 1536 - 0.-. -.

0.) ) 0.-0.0 2.5 5 7.5 10 0 5 10 15 20,, Рис. 16. Автокорреляционные функции C() для а) шумовой и б) регулярной составляющих, соответствующих различному числу отброшенных коэффициентов,%,% 35 a) ) 0 2 4 6 8 10 12 2.5 5 7.5 10 12.5 15 17.5 i i Рис. 17. Вклад (в процентах) главных компонент в разложение отфильтрованного ряда трафика при длине “гусеницы” а) CL = 12 и б) CL = На рис. 18 представлены результаты аппроксимации распределения информационного потока для отфильтрованных данных (для разных N = 1, 2,..., CL при CL = 20) функцией (1). Видно, что уже три ведущие компоненты формируют распределение, которое наилучшим образом согласуется с гипотезой (1).

Для оценки числа остаточных компонент, которые можно исключить из измерений трафика без заметного влияния на основную составляющую, вновь использовался критерий симметрии на основе n. На рис. 19 приведена за C ( ) C ( ) 2.1.1.1.1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 N, Рис. 18. Зависимость величины 2/ от числа N главных компонент висимость n от числа остаточных компонент для отфильтрованных данных при длине “гусеницы” CL = 20. Величина n превышает граничное значение, Рис. 19. Зависимость величины n от числа остаточных компонент для 5 % - отфильтрованных данных при длине “гусеницы” CL = -2.5 5 7.5 10 12.5 15 17.5 соответствующее 5% – уровню значимости, при числе остаточных компонент более 17 (для исходных данных – больше 10). Этот результат показывает, что после вейвлет-фильтрации только 3 компоненты формируют основную составляющую трафика, а 17 остаточных компонент могут быть исключены как шумовые (из общего числа CL = 20). Это находится в согласии с результатом, полученным на основе критерия 2 (рис. 18). Также показано, что ряд, восстановленный на основе этих трех компонент, сохраняет основные спектральные характеристики исходного ряда измерений информационного / трафика. Это позволяет предположить, что преобразования, произведенные над исходным рядом, не нарушают основных свойств трафика.

В шестой главе развиты новые методы для определения моментов смены состояния анализируемого временного ряда. В их основу положена гипотеза о том, что в установившемся режиме при определенном уровне агрегации распределение информационного потока отвечает логнормальному закону, а изменение состояния системы, связанное, например, с увеличением активности пользователей, приводит либо к подобному режиму, но с другими параметрами логнормального распределения, либо к переходному режиму, распределение информационного потока в котором не отвечает логнормальному закону (например, при перегрузках, или в случае сетевых атак).

На рис. 20а представлены временные ряды для разных уровней агрегации 0.1, 1 и 10 сек для данных, полученных на входном шлюзе сети университета “Дубна” (32 часа измерений).

Pages:     | 1 || 3 |






© 2011 www.dissers.ru - «Бесплатная электронная библиотека»