Wpływ warunków nagrania na wyniki analizy akustycznej

Testy praktyczne wpływu warunków nagrywania

Autor: dr inż. Marcin Just (DiagNova Technologies)

Po syntetycznym określeniu wpływu zakłóceń na wyniki analiz i wyznaczeniu charakterystyk wybranych konfiguracji sprzętowych przeprowadzony został test w warunkach rzeczywistych. Jego głównym celem było zbadanie wpływu błędów popełnionych w realnym procesie nagrania (głównie zła odległość mikrofonu od ust) na końcowe rezultaty analiz i praktyczne określenie zależności pomiędzy charakterystykami sprzętu a wynikami obliczeń.

Metodologia

W celu uzyskania maksymalnej powtarzalności, jako źródło dźwięku zastosowano monitor studyjny Yamaha HS50M. Zmieniały się jedynie zestawy nagrywające i odległość pomiędzy głośnikami a mikrofonem w zakresie 6–50 cm. Dla każdego zestawu odtwarzane były czterokrotnie dwie wzorcowe próbki głosu zastosowane wcześniej w testach syntetycznych. Pomieszczenie nagraniowe było wyciszoną komorą bezechową. Nie zastosowano ekranowania elektromagnetycznego i nie wyeliminowano wpływu sieci oświetleniowej. Miało to symulować najlepsze warunki nagraniowe osiągalne w zwykłym pomieszczeniu bez zastosowania drogiego ekranowania elektromagnetycznego, bez eliminacji sieci oświetleniowej i innego pracującego w pomieszczeniu sprzętu. We wszystkich przypadkach użyty został ten sam sprzęt co w poprzednich badaniach, dołożone zostały jedynie dodatkowe kombinacje elementów. We wszystkich przypadkach częstotliwość próbkowania wynosiła 22050 Hz, a rozdzielczość 16 bitów.

Wyniki

Na rys. 7 przedstawiono względne zmiany parametrów analizy akustycznej w zależności od zastosowania różnych zestawów sprzętowych. Każde pionowe pasmo wykresu obrazuje wyniki dla poszczególnych kombinacji mikrofonu, wzmacniacza i karty dźwiękowej. Dla każdego zestawu nagrania wykonywane były czterokrotnie dla próbki głosu męskiego i czterokrotnie dla próbki głosu kobiecego, dlatego każde pasmo jest czterokolumnowe. W każdym paśmie kolumna z lewej strony przedstawia wyniki dla nagrania przeprowadzonego przy najmniejszej odległości między mikrofonem a głośnikami (około 6 cm), z optymalnym wysterowaniem. Z prawej strony pasma nagrania przeprowadzonego z odległości około 50 cm bez uzyskania odpowiedniego wysterowania i narażając się na większy wpływ zakłóceń. Kolumny środkowe stanowią etapy pośrednie.

W idealnym przypadku pasmo powinno być w kolorze zielonym, co oznacza brak różnicy w stosunku do parametrów dla przebiegu wzorcowego. Kolory niebieskie przedstawiają obniżenie wartości parametrów, a kolory czerwone – podwyższenie.

Porównanie wpływu błędów podczas procesu nagrywania na wyniki analiz

Rys. 7. Porównanie wpływu błędów podczas procesu nagrywania na wyniki analiz dla sześciu zestawów sprzętowych: kolor czerwony – zawyżenie wyników analiz, niebieski – zaniżenie

Opisy pod rysunkiem dotyczą wszystkich pozostałych wykresów i oznaczają:

  • intbw – wbudowana karta dźwiękowa bez dodatkowego przedwzmacniacza,
  • intwz – wbudowana karta dźwiękowa z dodatkowym przedwzmacniaczem mikrofonowym (Behringer Mic200),
  • sblive – zewnętrzna karta dźwiękowa (USB) Creative External Live!,
  • mpre – zewnętrzny interfejs audio MobilePRE firmy M-Audio,
  • komp – najprostszy elektretowy mikrofon komputerowy,
  • m8500 – średniej klasy wokalny mikrofon dynamiczny,
  • b1 – studyjny mikrofon pojemnościowy Behringer B1.

W przypadku kobiet rodzaj użytego sprzętu ma stosunkowo niewielki wpływ na wyniki analiz, jedynie w przypadku wbudowanej karty dźwiękowej (pasma A i B) należy odnotować nieznaczne podniesienie wartości parametrów z grupy Jitter i U2H dla najmniej prawidłowo przeprowadzonych nagrań (największa odległość). Dla mężczyzn użyty sprzęt ma stosunkowo duże znaczenie. Jedynie nagrania przeprowadzone przy użyciu najlepszego sprzętu (kolumny I oraz L) analizowane były poprawnie, bez względu na jakość samego procesu nagrywania. Zmianie ulegały przede wszystkim parametry z grupy Jitter i U2H, co można tłumaczyć wpływem zakłóceń z sieci oświetleniowej (50 Hz) w połączeniu z niższą częstotliwością podstawową u mężczyzn.

Przykładowe wyniki dla najlepszego użytego zestawu nagrywającego dla nagrania wzorcowego oraz z najmniejszej i największej odległości przedstawiono w formie graficznej w tabeli 1.

Tabela 1. Wykresy przedstawiające zmiany w wyznaczanych wartościach parametrów w zależności od jakości procesu nagraniowego dla najlepszego zestawu nagrywającego – widoczne małe zmiany wartości parametrów przy zachowanym ich wzajemnym stosunku

Odtwarzanie nagranie wzorcowe Nagrania testowe
najlepiej przeprowadzone najgorzej przeprowadzone
Nagrania Nagrania Nagrania
Nagrania Nagrania Nagrania

Wyniki dla najgorszego użytego zestawu nagrywającego dla nagrania wzorcowego oraz nagrań z najmniejszej i największej odległości przedstawiono w formie graficznej w tabeli 2.

Tabela 2. Wykresy przedstawiające zmiany w wyznaczanych wartościach parametrów w zależności od jakości procesu nagraniowego dla najgorszego zestawu nagrywającego – widoczne zarówno znaczne zmiany wartości parametrów, jak i zmiany ich wzajemnego stosunku

Odtwarzanie nagranie wzorcowe Nagrania testowe
najlepiej przeprowadzone najgorzej przeprowadzone
Nagrania Nagrania Nagrania
Nagrania Nagrania Nagrania

Szczegółowo zbadano wpływ użytego w czasie nagrań sprzętu jedynie na wartości kilku wybranych parametrów – najczęściej wykorzystywanych w praktyce klinicznej – z grupy Jittera, Shimmera oraz parametr NHR. Rysunek 8 przedstawia przekrój poziomy przez rys. 7 dla parametru Jitter.

Dla nagrania z największej odległości odnotowano znaczące podniesienie się wartości parametru Jitter – zarówno dla kobiet, jak i dla mężczyzn. Zjawisko to jest zależne od jakości sprzętu nagrywającego. Tylko dla najlepszych zestawów jest praktycznie pomijalne. Dla potencjalnie najlepszego przypadku – nagrania z najmniejszej odległości – mierzone wartości parametru Jitter są nieznacznie zaniżone dla wszystkich zestawów poza jednym, wykorzystującym mikrofon studyjny. Optymalne okazują się nagrania z drugich serii (odległość rzędu 10 cm). Pozostałe parametry z grupy Jittera i Shimmera zachowują się w sposób zbliżony do samego Jittera. Nieco inaczej zachowuje się parametr NHR (przedstawiony na rys. 9). W jego przypadku wartości parametrów przy nagraniach ze zbyt małej odległości są wyraźnie zaniżone. W przypadku najprostszego zestawu (mikrofon komputerowy podłączony do wbudowanej karty) wartości parametru zaniżone są bardzo poważnie i praktycznie niezależnie od odległości między mikrofonem a głośnikami. Wszystkie te zjawiska dobrze wiążą się z parametrami sprzętu.

Zaniżanie parametrów analizy akustycznej (szczególnie NHR) w przypadku zbyt małej odległości, szczególnie widoczne dla mikrofonów dynamicznych, tłumaczą deklarowane przez producentów zmiany charakterystyki przenoszenia tych mikrofonów dla źródeł dźwięku w bliskiej odległości. Przy zastosowaniu tych mikrofonów, w trakcie nagrania głosu, należy zachować większą odległość pomiędzy ustami a mikrofonem. Mikrofony komputerowe mają często ograniczone pasmo przenoszenia w zakresie wysokich częstotliwości, co powoduje stałe zaniżanie wartości parametru NHR, niezależnie od warunków nagrania. Tylko studyjny mikrofon pojemnościowy zapewnia maksymalną stałość uzyskiwanych wyników bez względu na błędy powstałe w czasie procesu nagrywania.

parametr Jitter

Rys. 8. Przekrój poziomy przez rysunek 7 dla parametru Jitter

parametr Jitter

Rys. 9. Przekrój poziomy przez rysunek 7 dla parametru NHR