Analiza akustyczna głosu w praktyce laryngologicznej

Część II: Zastosowanie analizy akustycznej w praktyce

Spektrogramy

Autor: dr inż. Marcin Just (DiagNova Technologies)

Analiza przebiegów akustycznych na podstawie spektrogramów jest typem analizy długoterminowej. Stosuje się ją zwykle dla nagranych wyrazów i zdań, choć możliwe jest też zastosowanie jej do pojedynczych głosek. W przeciwieństwie do analiz parametrycznych jest ona znacznie bardziej subiektywna i wymaga większego doświadczenia. Poprawnie przeprowadzona dostarczyć może dużej ilości użytecznych informacji. W przypadku spektrogramu nie ma możliwości popełnienia błędu „grubego” w czasie jego wyznaczania – jest więc bardzo wiarygodnym narzędziem diagnostycznym. Spektrogramy stanowią też często jedyne narzędzie diagnostyczne w przypadku bardzo dużych patologii, zabiegów operacyjnych i w przypadku głosów „protezowych”.

Interpretacja spektrogramów

W przypadku spektrogramów całkowicie odmiennie interpretuje się spektrogramy wąskopasmowe i szerokopasmowe. Wspólne jest tylko założenie, że ciemniejszy kolor (w przypadku spektrogramów w odcieniach szarości) oznacza większą ilość energii przypadającą na daną częstotliwość w danym momencie.

Interpretacja spektrogramów wąskopasmowych

Przykładowy spektrogram przedstawiony został na rys. 2.

Rys. 2. Spektrogram wąskopasmowy

Podstawową strukturą niosącą informacje są tutaj poziomo biegnące linie oznaczające kolejne (liczone od dołu) składowe harmoniczne. Najniższa linia oznacza przebieg F0. Liczba linii widoczna na spektrogramie określa, do jakiej częstotliwości widoczna jest struktura harmoniczna. Dodatkowo można zaobserwować również strukturę formantową (zaznaczona dodatkowo na rys. 2a).

Rys. 2a. Spektrogram wąskopasmowy z zaznaczoną strukturą formantową

Pomiędzy ciemnymi liniami oznaczającymi składowe harmoniczne uwidaczniają się szumy (wyższe częstotliwości) i zniekształcenia (niższe częstotliwości). Stopień kontrastu jest więc miarą zaburzenia sygnału mowy.

Przy interpretacji spektrogramów zwrócić należy uwagę na często pojawiający się przydźwięk sieciowy (specyficzne zakłócenie związane z polem generowanym przez sieć oświetleniową). Objawia się on na spektrogramach poziomym pasem na częstotliwości 50 Hz (znacznie rzadziej również 100 Hz), rozciągającym się również na okresy czasu bez fonacji. Przykład takich zakłóceń przedstawiono na rys. 2b. Należy zwrócić szczególną uwagę, żeby nie potraktować tego typu zakłócenia jako obniżonej patologicznie wartości częstotliwości podstawowej.

Rys. 2b. Manifestujący się na spektrogramie wąskopasmowym przydźwięk sieciowy

Interpretacja spektrogramów szerokopasmowych

Przykładowy spektrogram szerokopasmowy przedstawiony został na rys. 3.

Rys. 3. Spektrogram szerokopasmowy

Ze względu na szerokie pasmo takiego spektrogramu (240 Hz) nie można na nim zaobserwować poziomych linii związanych z częstotliwościami harmonicznymi.

Podstawową strukturą niosącą informacje są tu poziomo biegnące grube linie oznaczające przebieg formantów (rysunek 3a). Dodatkowo widoczne (choć nie zawsze!) pionowe linie pozwalają na wyznaczenie momentów zamknięcia fałdów głosowych (tuż po zamknięciu struktura harmoniczna jest najbogatsza, a amplituda wszystkich składowych częstotliwości jest największa).

Rys. 3a. Spektrogram szerokopasmowy z zaznaczoną strukturą formantową

Im bardziej wyraziste są pionowe linie, tym więcej energii generowane jest w momencie zamknięcia fałdów, a co za tym idzie, ich praca jest „skuteczniejsza”. Wszelkie przeszkody uniemożliwiające poprawne zamknięcie fałdów pogorszą kontrast na spektrogramie szerokopasmowym.

Rys. 4. Rozciągnięty spektrogram szerokopasmowy z wyraźnie widocznymi liniami pionowymi i rozkładem energii sygnału w obrębie pojedynczych okresów podstawowych