Konferencja Naukowa Studentów » 2004 » Elektronika
Strony: « 1 | 2 | 3 | 4 | »

Realizacja wokodera w środowisku Reaktora cd.

Sobota, 21 grudnia

3. REALIZACJA

Skonstruowano dwa typy wokodera pasmowego. Pierwszy z przeznaczeniem typowo muzycznym, drugi do syntezy sygnału mowy.

3.1. ZASTOSOWANIE WOKODERA W MUZYCE

Panel wokodera muzycznego zamieszczony jest na rys. 2. Składa się on z:
- modułu źródła sygnału modulującego (sygnał z mikrofonu lub próbka dźwiękowa wczytana z dysku,
- trzypasmowego korektora z parametrycznym filtrem środkowym (zakres zmian od 100Hz do 8000Hz), który pozwala dostosować brzmienie sygnału wejściowego do własnych potrzeb,
- generatora sygnału nośnego, który jest prostym syntezatorem umożliwiającym uzyskanie przebiegu piłokształtnego z opcją odstrojenia i ustawienie proporcji między tym sygnałem, a szumem białym.

Ponieważ z założenia wokoder ten przeznaczony jest do zastosowań muzycznych, a więc może stanowić dodatkowy instrument muzyczny, to możliwe jest uzyskanie efektu vibrata, którego głębokość i szybkość regulować można odpowiednio potencjometrami vib.amt oraz vib.rate. Należy zaznaczyć, iż do usłyszenia tego efektu niezbędna jest klawiatura sterująca MIDI z kontrolerem modulation.


Rys. 2. Panel wokodera muzycznego

3.2. ZASTOSOWANIE WOKODERA W SYNTEZIE SYGNAŁU MOWY


Konstrukcja wokodera przeznaczonego do syntezy mowy jest nieco inna. Przede wszystkim zrezygnowano z rozbudowanego samplera i korektora. Sygnał wejściowy (sygnał mowy) trafia do układu zbudowanego z filtru dolnoprzepustowego, elementu zamieniającego uzyskany wolnozmienny sygnał w ciąg impulsów oraz miernika odległości między tymi impulsami. Otrzymana odległość zwracana jest w postaci częstotliwości i doprowadzana do generatora impulsów tonu krtaniowego [3]. Potencjometr dry/wet pozwala na odsłuchanie sygnału nieprzetworzonego. Strukturę tego wokodera przedstawiono na rys. 3.


Rys. 3. Struktura wokodera przeznaczonego do syntezy sygnału mowy

3.3. ELEMENTY WSPóLNE

Mimo, iż sygnały źródłowe są dla omawianych wokoderów różne, to istnieją takie układy, które są bardzo podobne. Moduł wykrywania głosek dźwięcznych i bezdźwięcznych jest w obu przypadkach jednakowy. Zasada jego pracy opiera się na podziale sygnału modulującego na dwa pasma i porównaniu wartości skutecznych otrzymanych przebiegów [1]. Istotny jest tutaj właściwy dobór częstotliwości rozdzielającej, bowiem niektóre głoski dźwięczne, jak na przykład głoska „i”, mogą zachodzić na pasmo głosek bezdźwięcznych. Ważny jest też stopień wygładzania sygnałów po rozdzieleniu. Od niego zależy czas reakcji układu, jak i jednoznaczność przypisania analizowanej głoski do kategorii dźwięcznych lub bedźwięcznych. Na rys. 4 przedstawione są przebiegi wyjściowe układu porównania wartości skutecznych dla różnych wartości częstotliwości odcięcia filtru wygładzającego (podanych w nawiasie) w towarzystwie sygnału wejściowego o treści „Sasza”.

Jedną z najważniejszych z punktu widzenia zrozumiałości generowanej syntetycznie mowy jest sekcja filtrów modelujących kanał głosowy. W obu realizacjach zastosowano filtry pasmowoprzepustowe, których częstotliwości środkowe (wyrażone w hercach) zostały dobrane logarytmicznie z zakresu od 100Hz do 6000Hz zgodnie z zależnością:


gdzie n jest numerem pasma i przyjmuje wartości od 1 do N, N określa liczbę pasm, a i są odpowiednio częstotliwościami górną i dolną wyrażonymi w Hz. Dla wokodera muzycznego przyjęto N = 16, natomiast dla wokodera przeznaczonego do syntezy sygnału mowy przyjęto N = 32. Po przejściu przez każdy z filtrów, następuje niezależna detekcja amplitudy otrzymanych sygnałów. Odbywa się to na drodze dwupołówkowego prostowania i wygładzania filtrem dolnoprzepustowym, od którego częstotliwości odcięcia zależy czytelność głoski drżącej „r”. Na rys. 5 pokazano wygładzone przebiegi czasowe dla wybranego filtru przy różnych częstotliwościach odcięcia: odpowiednio 4Hz i 84Hz.


Rys. 4. Przebiegi czasowe na wyjściu układu porównania wartości skutecznych w module detekcji głosek dźwięcznych i bezdźwięcznych: a. zbyt silne wygładzenie przebiegu (18Hz), b. optymalne wygładzenie przebiegu (66Hz), c. zbyt słabe wygładzenie przebiegu (180Hz)


Rys. 5. Przebiegi czasowe sygnałów reprezentujących zmiany amplitudy w wybranym paśmie: a. częstotliwość odcięcia 4Hz, b. częstotliwość odcięcia 84Hz
Czytaj dalej

Artykuły z tej samej kategorii
1. Stałoprądowy model Shichman’a-Hodges’a tranzystora MOS w programie SPICE
2. Wyznaczanie charakterystyk statycznych diod schottky’ego w programie spice
3. Pomiary zrozumiałości mowy w dźwiękowych systemach ostrzegawczych

powrót »

Kategorie


projekt i wykonanie: smetek.biz