Разработками в области синтеза и распознавания речи занимаются специалисты из лаборатории анализа и моделирования информационных процессов Комитета науки МОН РК. Этот отдел специализируется на интеллектуальных технологиях, имитирующих деятельность человека. Чтобы научить компьютер воспроизводить и распознавать человеческую речь на казахском языке, учёные обрабатывают и анализируют большие данные.

“Эти технологии можно использовать в роботах, переводчиках, смартфонах, мы можем сделать казахский Siri или аналог “Алисы” для Казахстана, чтобы на казахском разговаривал. С помощью таких технологий можно сделать цифровую копию человека, создать его виртуального аватара. Людям свойственно умирать, но останется его голос, особенности мимики. Что человека делает узнаваемым? Его интонация, внешний вид, мимические возможности, жесты – всему этому компьютер может обучаться”, – отмечает заведующий лабораторией анализа и моделирования информационных процессов Рустам Мусабаев.

Созданная в институте информационных технологий при Академии Наук РК в Алматы технология, по словам Рустама Мусабаева, способна запомнить голос любого человека и воспроизвести его с учётом интонаций, ударений и манеры говорить. Отечественная разработка позволяет клонировать голос, который потом можно использовать как в озвучке видеороликов и программах-помощниках для слабовидящих, так и для создания персонального виртуального аватара.

Читайте также: Технологии, которые 10 лет назад считались выдумкой

Учёные работают над улучшением качества речи. Они обучают компьютер имитировать правильное произношение слов. Для этого базу данных программы пополняют новыми образцами устной речи. В процессе звукозаписи специальные датчики фиксируют колебания голосовых связок диктора, которые формирует восприятие интонаций. Анализируя большой объем голосовых записей, компьютер находит закономерности в произношении разных слов и учится говорить, как человек.


Процесс записи голоса / Фото Informburo.kz

Программа работает по принципу Google-переводчика. Достаточно ввести текст, нажать кнопку, и компьютер воспроизводит нужные слова или фразы на вашем или незнакомом вам языке. При этом частотным диапазоном голоса можно управлять: делать его более низким или высоким, растягивать произношение или наоборот ускорять. В работе программы участвует около 40 сложных алгоритмов, решающих разные задачи, например, правильное прочтение дат, определение начала и конца предложения, постановку ударений.

Вторая функция – распознавание голоса на казахском, русском или английском языках. Принцип работы прост: диктор вводит в программу слова и проговаривает их в микрофон, чтобы компьютер всё запомнил. При повторном произношении тех же слов, сервис распознаёт речь, подавая сигналы на панель управления. По мнению авторов проекта, у технологии синтеза и распознавания речи широкий спектр применения и большое будущее.