рефераты рефераты
Главная страница > Дипломная работа: Разработка программного обеспечения для голосового управления трехмерными моделями функционирования промышленных роботов  
Дипломная работа: Разработка программного обеспечения для голосового управления трехмерными моделями функционирования промышленных роботов
Главная страница
Банковское дело
Безопасность жизнедеятельности
Биология
Биржевое дело
Ботаника и сельское хоз-во
Бухгалтерский учет и аудит
География экономическая география
Геодезия
Геология
Госслужба
Гражданский процесс
Гражданское право
Иностранные языки лингвистика
Искусство
Историческая личность
История
История государства и права
История отечественного государства и права
История политичиских учений
История техники
История экономических учений
Биографии
Биология и химия
Издательское дело и полиграфия
Исторические личности
Краткое содержание произведений
Новейшая история политология
Остальные рефераты
Промышленность производство
психология педагогика
Коммуникации связь цифровые приборы и радиоэлектроника
Краеведение и этнография
Кулинария и продукты питания
Культура и искусство
Литература
Маркетинг реклама и торговля
Математика
Медицина
Реклама
Физика
Финансы
Химия
Экономическая теория
Юриспруденция
Юридическая наука
Компьютерные науки
Финансовые науки
Управленческие науки
Информатика программирование
Экономика
Архитектура
Банковское дело
Биржевое дело
Бухгалтерский учет и аудит
Валютные отношения
География
Кредитование
Инвестиции
Информатика
Кибернетика
Косметология
Наука и техника
Маркетинг
Культура и искусство
Менеджмент
Металлургия
Налогообложение
Предпринимательство
Радиоэлектроника
Страхование
Строительство
Схемотехника
Таможенная система
Сочинения по литературе и русскому языку
Теория организация
Теплотехника
Туризм
Управление
Форма поиска
Авторизация




 
Статистика
рефераты
Последние новости

Дипломная работа: Разработка программного обеспечения для голосового управления трехмерными моделями функционирования промышленных роботов

Кроме граничных условий необходимо задать функцию площади A(x,t). Для протяжных звуков можно предположить, что A(x,t) не изменяется во времени. Однако это предположение неверно для непротяжных звуков. Подробные измерения A(x,t) весьма затруднительны и могут быть выполнены только для протяжных звуков. Одним из методов проведения таких измерений является рентгеновская киносъемка. Фант и Перкелл провели несколько таких экспериментов. Однако подобные измерения могут быть выполнены лишь в ограниченном объеме. Другим методом является вычисление формы голосового тракта по акустическим измерениям. Описав подобный метод, предполагающий возбуждение голосового тракта внешним источником. Оба метода являются полезными для получения сведений о динамике речеобразования. Тем не менее, они не могут быть применены для получения описания речевых сигналов, например, в задачах связи. В работе Атала описаны результаты прямого измерения A(x,t) по сигналу речи, произнесенной в нормальных условиях.

Точное решение уравнений (1.36) является весьма сложным, даже если значение A(x,t) точно известно. Вместе с тем для решения поставленной задачи нет необходимости в точном и общем решениях этих уравнении [1,2].

1.4 Обработка речевого сигнала во временной области

В основе большинства методов обработки речи лежит предположение о том, что свойства речевого сигнала с течением времени медленно изменяются; Это предположение приводит к методам кратковременного анализа, в которых сегменты речевого сигнала выделяются и обрабатываются так, как если бы они были короткими участками отдельных звуков с отличающимися свойствами. Процедура повторяется так часто, как это требуется. Сегменты, которые иногда называют интервалами, (кадрами) анализа обычно пересекаются. Результатом обработки на каждом интервале является число или совокупность чисел. Следовательно, подобная обработка приводит к новой, зависящей от времени последовательности, которая.может служить характеристикой речевого сигнала.

Большинство методов кратковременного анализа, в том числе и кратковременный Фурье-анализ, могут быть описаны выражением

 (1.57)

Речевой сигнал (возможно, после ограничения частотного диапазона в линейном фильтре) подвергается преобразованию Т[·], линейному или нелинейному, которое может зависеть от некоторого управляющего параметра или их совокупности. Результирующая последовательность умножается затем на последовательность значений временного окна (весовой функции), расположенную во времени в соответствии с индексом п. Результаты затем суммируются по всем ненулевым значениям. Обычно, хотя и не всегда, последовательность значений временного окна имеет конечную протяженность. Значение Qn представляет собой, таким образом, «взвешенное» среднее значение последовательности Т [х (m)].

Простым примером, иллюстрирующим изложенное, может служить измерение кратковременной энергии сигнала. Полная энергия сигнала в дискретном времени определяется как

 (1.58)

Вычисление этой величины не имеет особого смысла при обработке речевых сигналов, поскольку она не содержит информации о свойствах сигнала, изменяющихся во времени. Кратковременная энергия определяется выражением

 (1.59)

Таким образом, кратковременная энергия в момент n есть просто сумма квадратов N отсчетов от n-N-1 до n. Из (1.37) видно, что в (1.39) Т [•] есть просто операция возведения в квадрат, а

 (1.60)

Вычисление кратковременной энергии, иллюстрирует рис. 1.6 Окно «скользит» вдоль последовательности квадратов значений сигнала, в общем случае вдоль последовательности Т[х(m)], ограничивая длительность интервала, используемого в вычислениях.

Как отмечалось выше, амплитуда речевого сигнала существенно изменяется во времени.

В частности, амплитуда невокализованных сегментов речевого сигнала значительно меньше амплитуды вокализованных сегментов. Подобные изменения амплитуды хорошо описываются с помощью функции кратковременной энергии сигнала. В общем случае определить функцию энергий можно как

 (1.61)


Это выражение может быть переписано в виде

 (1.62)

где

 (1.63)

Сигнал х2(n) в этом случае фильтруется с помощью линейной системы с импульсной характеристикой h(n).

Выбор импульсной характеристики h(n) или окна составляет основу описания сигнала с помощью функции энергии. Чтобы понять, как влияет выбор окна на функцию кратковременной энергии сигнала, предположим, что h(n) в (1.35) является достаточно длительной и имеет постоянную амплитуду; значение Еn будет при этом изменяться во времени незначительно. Такое окно эквивалентно фильтру нижних частот с узкой полосой пропускания. Полоса фильтра нижних частот не должна быть столь узкой, чтобы выходной сигнал оказался постоянным, иначе говоря, полосу следует выбрать так, чтобы функция энергии отражала изменения амплитуды речевого сигнала.

Описанная ситуация выражает противоречие, которое нередко возникает при изучении кратковременных характеристик речевых сигналов. Суть его состоит в том, что для описания быстрых изменений амплитуды желательно иметь узкое окно (короткую импульсную характеристику), однако слишком малая ширина окна может привести к недостаточному усреднению и, следовательно, к недостаточному сглаживанию функций энергии.

Влияние вида окна на вычисление изменяющейся во времени энергии сигнала можно проиллюстрировать на примере использования двух наиболее распространенных окон: прямоугольного и окна Хэмминга.

Прямоугольное окно, как это видно из (1.39), соответствует случаю, когда всем отсчетам на интервале от (n-N-1) до п приписывается одинаковый вес. Частотная характеристика прямоугольного окна равна

 (1.64)

Для окна с шириной 51 отсчет (N=51) логарифм амплитудно-частотной характеристики представлен на рис. 1.6а.

Первое нулевое значение амплитудно-частотной характеристики (1.64) соответствует частоте

 (1.65)

где  частота дискретизации. Это номинальная частота среза фильтра нижних частот, соответствующего прямоугольному окну.

Амплитудно-частотная характеристика окна Хемминга при N=51 показана на рис. 1.6б. Полоса пропускания фильтра с окном Хемминга при одинаковой ширине примерно вдвое превосходит полосу фильтра с прямоугольным окном. Очевидно также, что окно Хемминга обеспечивает большее затухание вне полосы пропускания по сравнению с прямоугольным окном. Затухание, вносимое вне полосы, несущественно зависит от ширины каждого из окон. Это означает, что увеличение ширины приведет просто к сужению полосы. Если N мало (порядка периода основного тона или менее), то Еn будет изменяться очень быстро, в соответствии с тонкой структурой речевого колебания. Если N велико (порядка нескольких периодов основного тона), то Еn будет изменяться медленно и не будет адекватно описывать изменяющиеся особенности речевого сигнала. Это, к сожалению, означает, что не существует единственного значения М, которое в полной мере удовлетворяло бы перечисленным требованиям, так как период основного тона изменяется от 10 отсчетов (при частоте дискретизации 10 кГц) для высоких женских и детских голосов до 250 отсчетов для очень низких мужских голосов. На практике N выбирают равным 100—200 отсчетов при частоте дискретизации 10 кГц (т. е. длительность порядка 10-20 мс).

Основное назначение Еn состоит в том, что эта величина позволяет отличить вокализованные речевые сегменты от невокализованных. Значения Еn для невокализованных сегментов значительно меньше, чем для вокализованных. Функция кратковременной энергии может быть использована для приближенного определения момента перехода от вокализованного сегмента к невокализованному и наоборот, а в случае высококачественного речевого сигнала (с большим отношением сигнала к шуму) функцию энергии можно использовать и для отделения речи от пауз.

Одним из недостатков функции кратковременной энергии, определяемой выражением (1.35), является ее чувствительность к большим уровням сигнала (поскольку в (1.35) каждый отсчет возводится в квадрат). Вследствие этого значительно искажается соотношение между значениями последовательности х(n). Простым способом устранения этого недостатка является переход к определению функции среднего значения в виде

 (1.66)

где вместо суммы квадратов вычисляется взвешенная сумма абсолютных значений. Исключение операции возведения в квадрат упрощает арифметические вычисления.

При вычислении среднего значения по (1.46) динамический диапазон (отношение максимального значения к минимальному) определяется примерно как квадратный корень из динамического диапазона при обычном вычислении энергии. В данном случае различия в уровнях между вокализованной и невокализованной речью выражены не столь ярко, как при использовании функций энергии.

Поскольку полоса частот при определении как функции энергии, так и среднего значения приближенно совпадает с полосой пропускания используемого фильтра нижних частот, то нет необходимости дискретизировать эти функции столь же часто, как исходный речевой сигнал. Например, для окна длительностью 20 мс достаточна частота дискретизации около 100 Гц. Это означает, что значительная часть информации теряется при использовании подобных кратковременных представлений. Очевидно также, что информация, относящаяся к динамике амплитуд речевого сигнала, сохраняется в весьма удобной форме [1,2].

Страницы: 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21

рефераты
Новости