Rambler's Top100 II Всероссийская конференция пользователей MATLAB, 25-26 мая 2004 года >>
На первую страницу
Рубрика Matlab&Toolboxes
Российские MATLAB-разработки
Ваш Login: "prodav".
Раздел "Обработка сигналов и изображений\Wavelet Toolbox"

"Вейвлеты, аппроксимация и статистические приложения" (перевод К.А.Алексеева)

В оглавление \ К следующему разделу \ К предыдущему разделу

10. Статистические приложения вейвлет-функций

10.1 Введение.

В главах 3, 5, 6, 7 настоящей книги обсуждались общие правила построения скейлинг- и вейвлет-функций , обеспечивающие разложение (3.5) всякой функции  из . Было также показано, что подобное разложение представляет собой вид ортогонального ряда, специфичность которого состоит в аппроксимировании  как во временной, так и в частотной области. В настоящей главе рассматриваются методы непараметрического статистического оценивания функции  посредством ее разложения в ряд по скейлинг- и вейвлет-функциям. Здесь исследуются также проблемы оценивания плотности и непараметрического регрессионного оценивания с последующим приведением реальных эмпирических результатов сглаживания данных.

Основная идея процедуры оценивания состоит в простой замене неизвестных вейвлет-коэффициентов, необходимых для составления ряда (3.5), оценками, построенными на известных, наблюдаемых данных. Разумеется, введение в разложение оценок подразумевает ограничение числа членов ряда: количество таких оценок является конечным. Однако, ограничение длины ряда и замещение коэффициентов разложения оценками являет собой нелинейную процедуру, в связи с чем в настоящей  и в следующей главах представляется целесообразным обсуждение вопроса о количестве базисных функций, необходимых для составления ряда, а также исследование причин использования нелинейных процедур для приближения к гладким функциям.

Будем полагать, что значения, принимаемые скейлинг- и вейвлет-функциями, являются действительными: примеров таких функций можно привести достаточно  (функции Добеши, симлеты, коифлеты). Убедим также читателя, что эффект нелинейного сглаживания данных станет очевидным после исследования множества примеров: здесь необходимо обратить внимание на то обстоятельство, что гарантией наилучшего приближения является нелинейность процедуры, состоящая в применении к коэффициентам разложения операции пороговой обработки (трешолдинга).


10.2 Линейное оценивание плотности

Положим,  представляет собой множество случайных значений, плотность распределения  которых является неизвестной на R. Тогда вейвлет-оценка данной функции может быть построена посредством проецирования функции на :

, (10.1)

причем здесь . Отметим при этом, что значения коэффициентов аппроксимации и детализации

,    (10.2)

,,    (10.3)

рассчитываются по методу моментов в точках . Очевидно, что , , поскольку коэффициенты  являются несмещенными оценками истинных коэффициентов аппроксимации и детализации.

Положим, что скейлинг- и вейвлет-функции обладают компактным носителем, тогда, согласно утверждению 8.6 п.6,

,

поскольку  и .

Подставляя данные выражения в (10.1), имеем для всех :

. (10.4)

Данная оценка представляет собой линейную вейвлет-оценку плотности распределения – линейную функцию эмпирической меры, определяемую как , в которой  есть масса Дирака в точке . Таким образом, можно сказать, что коэффициенты ,  совместно с выражением (10.1) представляеют собой вейвлет-приближение функции плотности распределения.

В отличие от выражения (3.5), в котором начальным уровнем разложения функции  является уровень , полученное выражение являет собой разложение для всех начальных , в том числе отрицательных. Данное обстоятельство не вступает в противоречие приведенной ранее теорией вейвлет-анализа, поскольку ни коем образом не изменяет аргумент в разложениях, введенных в главах 3, 5–7. Более того, рассмотрение случая  является значительным упрощением записи; в большинстве программных реализаций начальный уровень также полагается равным 0. Между тем, на практике весьма часто начальным уровнем оказывается уровень, отличный от 0. Эмпирический способ определения начального уровня разложения приведен в параграфе 11.5.

Роль уровня  является схожей с ролью верхней границы полосы ядра оценивания плотности. В то же время, функции  могут рассматриваться как некоторые масштабированные ядра, масштаб которых определяется значением уровня разложения, который в свете выражения (10.1) также может быть интервалом .

Вообще говоря, проблемы с реализацией ряда (10.1) по всем  не существует: дело в том, что вейвлеты, используемые в данном разложении имеют компактный носитель (речь идет, прежде всего о вейвлетах Хаара, Добеши, симмлетах и др.). Ясно, что число членов ряда , равно как и число членов ряда  является конечным, поэтому число индексов  базисных функций зависит лишь от числа точек оси абсцисс.

Замечание 10.1. В том случае, если , сумма  содержит индексы  такие, что  . Сказанное означает, что может существовать, по крайней мере,  ненулевых коэффициентов разложения на каждом из уровней . В том случае, если функция плотности  имеет компактный носитель, число ненулевых коэффициентов разложения на уровне  стремится к .

Выбор наивысшего уровня разложения  для приближения функции является весьма важной задачей, в связи с чем представляется целесообразным ее детальное исследование.

Положим, на практике является известной лишь регулярность функции плотности, т.е. имеется предположение о том, что данная функция принадлежит классу Соболева:

,

причем здесь  есть некоторое целое число, определяющее регулярность функции (см. п.8.2),  тогда как  есть константа, представляющая ограничение -нормы функции.

Исследуем квадратический риск поведения оценки, определяемой выражением (10.1), для случая, когда функция . Здесь средняя интегральная ошибка всякой оценки  имеет вид:

.

Как видно, риск представляет собой сумму случайной составляющей , обусловленной случайными процессами, возникающими при наблюдении данных, а также методической погрешности , представляющей собой детерминированную погрешность аппроксимации функции  ее оценкой .

При увеличении глубины разложения две составляющих погрешности начинают вести себя антагонистично; уровень, на котором происходит их взаимное  уравновешивание, есть оптимальный уровень разложения функции.

 

Пути снижения методической погрешности. С целью снижения методической погрешности обратимся к основным положениям главы 8, а именно покажем, что ядро аппроксимации  удовлетворяет условиям ,  для всех целых , если выполняется неравенство  для интегрируемой функции  такой, что  (условие ), и

. (10.5)

где  (условие ).

Применим упомянутые результаты для случая, когда , предполагая при этом, что скейлинг-функция удовлетворяет условию существования -функции и  есть ядро ортогональной проекции (см. определение 8.7). Тогда, как не трудно догадаться, оценка методической погрешности есть ни что иное, как следствие теоремы 8.1 (п.2), поскольку

  (10.6)

что согласуется с (10.4), (10.5).

 

Вывод 10.1. Положим, что скейлинг-функция может порождать ядро , удовлетворяющее условию (10.6). Тогда для всех  существует некоторая постоянная  такая, что

.

 

Пути снижения случайной составляющей.

Утверждение 10.1. Предположим, скейлинг-функция может порождать ядро , удовлетворяющее условию  для . Тогда можно показать, что

.

 

Доказательство. Используя выражение (10.7), имеем:

,

 

причем  есть некоторый случайный процесс с нулевым средним. Отметим здесь также, что

.

Таким образом, можно утверждать, что

Отметим, при выведении выражения использована теорема Фубини и замена переменной.

 

Теорема 10.1. Принимая во внимание положения утверждения 10.1 и вывода 10.1, имеем неравенство

для некоторых констант . При этом выражение, находящееся в правой части неравенства, имеет минимум в случае, когда две составляющие погрешности взаимно компенсируют друг друга, т.е. в случае, когда  и .

Иначе говоря, имеет место неравенство:

   (10.7)

для некоторой константы .

 

Отметим, результат теоремы 10.1 является схожим с классическим результатом -сходимости рядов Фурье [20, 130]. Однако наиболее интересным обстоятельством здесь является то, что вейвлет-оценки обладают асимптотическими свойствами не только в , но также в более общем пространстве  и при этом не только в классах Соболева, но также в функциональных классах Бесова.

Приведем типичный пример такого результата: теорема, следующая далее, является обобщением вывода 10.1 для случая замены нормы в  нормой в смысле , а также случая замены класса  классом . Дело в том, что норма  есть норма функции плотности в пространстве Бесова, введенная в п. 9.2, тогда как  являет собой некоторую константу. При этом  назовем классом Бесова для набора функций плотности в круге радиуса , взятого в пространстве .

 

Теорема 10.2 [85]. В том случае, если ядро  удовлетворяет условию (10.6) для всех , , , , тогда имеет место неравенство:

.

При этом выражение, находящееся в правой части неравенства, имеет минимум в случае, когда две составляющие погрешности взаимно компенсируют друг друга, т.е. в случае, когда  и . Кроме того, имеет место также неравенство:

.

 

Замечание 10.2. Неравенство, приведенное выше, является справедливым также для , если на функцию  накладывается условие ,  причем функция  является симметричной относительно точки  и неубывающей для всех . Замечательным обстоятельством здесь является то, что на уровне , минимизирующем риск, имеет место утверждение . Иначе говоря, выбор такого уровня является робастной процедурой относительно , однако зависящей от регулярности .

 

Доказательство теоремы 10.2 является схожим с доказательством теоремы, приводимом для случая . Здесь также риск может быть представлен в виде двух составляющих, а именно методическую и случайную:

.

Отметим, рассмотрение методической составляющей риска проводится аналогично выводу 10.1 с тем лишь отличием, что в данном случае имеет место результат теоремы 9.5. Случайная составляющая требует введение в рассмотрение неравенства моментов.

Действительно, можно показать, что

,

где  есть центрированный случайный процесс. Кроме того, необходимо отметить, что величина ограничена . Фактически, данное условие подразумевает, что  и, следовательно, .

 

Доказательство следующего утверждения приведено в приложении С.

 

Утверждение 10.2 (неравенство Розенталя). Положим,  представляет собой множество случайных значений таких, что их  и . Тогда можно утверждать, что существует такая зависимость , для которой выполняется неравенство:

.

 

Вывод 10.2. В том случае, если  представляет собой множество случайных значений таких, что их  и , тогда для всех   существует зависимость , для которой выполняется неравенство:

.

Наличие в арсенале данного вывода позволяет утверждать, что

.

Подобно тому, как в доказательстве утверждения 10.1 имело место неравенство

,

можно записать, что

 

,

при условии, что при выводе использовано неравенство (10.8), неравенство Енсена и теорема Фубини.

В заключение, с целью получения основного результата теоремы 10.2 отметим, что наибольшим весом в полученных выражениях обладает член , поскольку при  и  имеет место  неравенство .

Итак, теоремы 10.1, 10.2 отражают тот факт, что методическая погрешность, являясь функцией уровня разложения, уменьшается при увеличении ее дисперсионной оценки. На практике это означает, что с увеличением уровня разложения линейные вейвлет-оценки становятся более грубыми; их поведение можно проиллюстрировать следующим рисунком.

Рис. 10.1. Аддитивная смесь шума (N=500)

и функции плотности. Вейвлет-оценка Хаара при =1.

 

Так, на рис. 10.1 показан график аддитивной смеси функции плотности и шума, а также вейвлет-оценка данной функции, построенной в базисе Хаара при условии, что =1. Видно, что оценка на приведенном уровне разложения не способна аппроксимировать 2 пика функции: в качестве примера здесь нарочно выбрана сложная  композиция функции плотности и шума. Мощь вейвлет-анализа, позволяющего осуществлять локальное сглаживание, станет видна несколько позже, когда будут продемонстрированы эффекты сглаживания на различных уровнях . Пока же ограничимся лишь упоминанием того факта, что в качестве функции плотности принята функция , а также тем обстоятельством, что здесь используется несколько отличная от (10.1) техника оценивания плотности распределения. Покажем, что данная техника подразумевает введение дополнительных интервалов рассмотрения данных, необходимых для обеспечения возможности использования дискретного вейвлет-преобразования (см. гл. 12). Результирующая оценка плотности может быть определена в  сечениях , причем  есть некоторое целое, . Расчет оценки осуществляется в 2 этапа; первый этап состоит в построении гистограммы с интервалами шириной , центрированных в точках .

Положим, значения  представляют собой частоты гистограммы, наблюдаемые в интервалах . Тогда второй этап расчета оценок можно свести к некоторой аппроксимации этих значений, вычисляемой с использованием выражения:

(10.8)

в котором

,

. (10.9)

Таким образом, рассчитываемые приближенно значения функции  можно рассматривать как оценки в точках . Более детальное описание алгоритма вычисления таких оценок, а также эффекта деления на интервалы приведено в главе 12.

Эффективность оценок может быть показана с помощью интегральной квадратичной ошибки . Однако в приведенном примере интегральная ошибка представляет собой разность плотностей и их оценок в точках: . В примере ошибка, рассчитанная для случая , равна 0.856.

Исследуем вопрос изменения уровня  и характер его влияния на погрешность аппроксимации, полагая, что  во всех приводимых далее случаях. Во-первых, увеличим  до 2. Получаемая в данных условиях оценка функции плотности приведена на рис. 10.2. Как ожидалось, оценка аппроксимирует максимумы функции более корректно; ошибка аппроксимации в данном случае составляет 0.661.

 

Рис. 10.2. Функция плотности, показанная на рис. 10.2,

и ее аппроксимация вейвлетами Хаара при =2.

 

Рис. 10.3. Функция плотности, показанная на рис. 10.2,

и ее аппроксимация вейвлетами Хаара при =4.

 

Аппроксимация становится более качественной при увеличении уровня  до 4 (см. рис. 10.3). На рисунке видны отдельные всплески функции; заметно, между тем, присутствие ступеней, обусловленных природой вейвлетов Хаара.

Дальнейшее увеличение уровня  создаёт в оценке шум (на рис. 10.4 показана аппроксимация, в которой =6). Наконец, при =8, рассчитанном как , ситуация вообще не имеет смысла.

Интегральные квадратические ошибки аппроксимации, рассчитанные для различных базисов вейвлет-функций, приведены в таблице 10.1. Как видно, ошибка является неплохой характеристикой поведения аппроксимации на различных уровнях . Эффект достижения глобального минимума ошибки достигается лишь при =4.

Таблица 10.1

1

2

3

4

5

6

7

db2

0.857

0.661

0.290

0.224

0.141

0.191

0.322

db4

0.747

0.498

0.269

0.156

0.125

0.190

0.279

db8

0.698

0.650

0.459

0.147

0.128

0.158

0.260

db16

0.634

0.613

0.465

0.132

0.133

0.186

0.296

sym4

0.700

0.539

0.319

0.146

0.104

0.142

0.275

sym8

0.625

0.574

0.328

0.140

0.135

0.147

0.310

ciof1

0.595

0.558

0.503

0.168

0.136

0.170

0.306

 

Подводя итог всему сказанному, можно заметить, каким образом приведенные примеры иллюстрируется вывод 10.1 и утверждение 10.1. Во-первых, параметр  определяет наличие в аппроксимации выбросов независимо от природы их происхождения. Во-вторых, при увеличении глубины разложения  наблюдается большее число выбросов. Методическая погрешность при этом претерпевает уменьшение, достигая минимума на уровне =4.

 

Рис. 10.4 Оценка функции плотности при =6.

В оглавление \ К следующему разделу \ К предыдущему разделу


О получении локальных копий сайтов
  I Всероссийская научная конференция "Проектирование научных и инженерных приложений в среде MATLAB" (май 2002 г.)
  II Всероссийская научная конференция "Проектирование научных и инженерных приложений в среде MATLAB" (май 2004 г.)
На первую страницу \ Сотрудничество \ MathWorks \ SoftLine \ Exponenta.ru \ Exponenta Pro   
E-mail: info@matlab.ru   
  Информация на сайте была обновлена 16.08.2004 Copyright 2001-2004 SoftLine Co 
Наши баннеры  

 

Rambler's Top100    TopList