Автоматический синтез речи

Исследования в области автоматического синтеза речи по тексту на кафедре фонетики начались в конце 80-х годов XX века. Примерно в 1989 г. был изготовлен первый образец компилятивного синтеза русских числительных от 1 до 100 (П.А.Скрелин) и показан в Киеве в институте Кибернетики в лаборатории Т.К.Винцюка. Качество синтеза было отличным, естественность - полной, но и задача, в общем, была достаточно простой. Затем в начале 90-х был сделан синтез всех открытых русских слогов, который в дальнейшем был использован для чтения алфавита в учебном комплексе Зайцева для детей (П.А.Скрелин, В.И.Кузнецов). Результаты работы описаны в БФФ-5 (1994).

С июля 1993 г. начались работы по компилятивному синтезу русского произвольного текста. Это стало возможным благодаря финансовой помощи R.Schmidt'a, которой, впрочем, хватило только на оплату разработки интонационно-акцентного транскриптора Udar 3.7 (И.В.Жарков, С.Л.Слободянюк) и программы модификации частоты основного тона (А.О.Таланов). Эксперименты по формированию звуковых последовательностей проводились на инициативной основе (П.А.Скрелин, К.Б.Шалонова). В результате этой работы был изготовлен рекламный ролик про Петербург с использованием технологии макро-синтеза (судьба ролика неизвестна). В эти годы исследования макро-синтеза проводились Ю.Байдаковой в рамках диссертационного исследования под руководством Л.В.Бондарко.

Достигнутый научный и технологический уровень способствовал заключению в 1994 г. контрактов с CNET (France Telecom) и Центром цифровой обработки сигналов (А.А.Ланнэ) университета телекоммуникаций им. Бонч-Бруевича на создание системы дифонного синтеза русской речи RusVox, и с НТВЦ ЦНИИ "Комета" (Москва, А.Маторин) на создание системы аллофонного синтеза. Работы были закончены к концу 1996 г.

Дифонный синтез. Со стороны центра ЦОС СПГУТ в работе участвовал А.О.Таланов (программная реализация Rus Vox и ее интеграция в многоязычную систему CNET), роль которого в этом проекте трудно переоценить; со стороны кафедры фонетики - Л.В.Бондарко, Н.Б.Вольская, В.И.Кузнецов, Н.Д.Светозарова, П.А.Скрелин, Т.Ю.Шерстинова. В системе была использована первая версия интонационно-акцентного транскриптора Udar 3.7. CNET включил RusVox в состав своей многоязычной системы для телефонных станций Alcatel, в 1996 г. показал на выставке в США, где она получила высокую оценку специалистов. В дальнейшем, партнер CNET фирма Elan Informatique перевела RusVox под Windows и в настоящее время распространяет под маркой Digalo Nicolai.

Аллофонный синтез. В создании системы принимали участие Л.В.Бондарко, Н.Б.Вольская, П.А.Скрелин, модуль высококачественной модификации физических параметров, основанном на PSOLA-подобных, но учитывающих специфику русской сегментики, алгоритмах, выполнили А.Криштоп и С.Шумара. В ходе работы был существенно переработан интонационно-акцентный транскриптор Udar (появилась версия 5), в которой число интонационных моделей было увеличено в два раза и был значительно улучшен контекстный анализ. Первая демонстрация системы прошла в сентябре 1996 г. в рамках SPECOM'96.

К маю 1997 г. было получено высокое качество синтеза, превышающее по естественности RusVox. Недостатком системы была ее разнородная конструкция: блок препроцессинга и интонационно-акцентной транскрипции был выполнен на Паскале, сегментная транскрипция и формирование звукового потока - на C++, модуль модификации частоты основного тона - на Delphi. В 1998 г. по контракту НТВЦ ЦНИИ "Комета" начались работы по переводу всей системы на язык Visual C и под 32-разрядную платформу Windows95. Работы были прерваны в связи с дефолтом, но тем не менее И.В.Жаркову удалось разработать интонационно-акцентный транскриптор Udar 7, коренным образом отличающийся от предыдущих версий тем, что в нем впервые был реализован морфемный синтез словоформ. Однако, версия Udar 7 для синтеза речи оказалась весьма сырой, поскольку работа по проекту была прервана и многочисленные ошибки и недоработки не были устранены. В дальнейшем в проекте автоматической сегментации слитной речи была использована специализированная версия Udar 7.

Субаллофонный синтез. В 1999 г. были начаты работы по созданию экспериментальной системы субаллофонного синтеза речи (П.А.Скрелин). Для обработки текста был использован Udar 7 и была разработана методика модификации частоты основного тона по типу HNM. Система была готова к концу 2000 г. и показала хорошие характеристики как по качеству синтеза, так и по технологии изготовления. Полученные данные, опыт, технология были использованы в системе субаллофонного синтеза речи, изготовленной НПФ "Беркут" (СПб). Система работает с двумя голосами (мужским и женским) и частично реализована аппаратно. От кафедры фонетики в разработке системы принимали участие Н.Б.Вольская, В.И.Кузнецов, П.А.Скрелин, В.А.Смирнов, С.Б.Степанова. Обработка текста (интонационно-акцентная транскрипция, препроцессинг) выполнена под руководством И.В.Жаркова (сотрудником НПФ "Беркут" в настоящее время) и отличается очень высоким качеством, хотя структура мелодических моделей соответ