Analiza akustyczna głosu w praktyce laryngologicznej

Część II: Zastosowanie analizy akustycznej w praktyce

Analiza przebiegu F0

Autor: dr inż. Marcin Just (DiagNova Technologies)

Analiza częstotliwość podstawowej jest pierwszą z omawianych analiz, gdzie można mieć do czynienia z poważnym błędem metody obliczeniowej. O ile dla głosów osób zdrowych wyznaczenie częstotliwości podstawowej rzadko kiedy może być nieprawidłowe, to dla głosów „patologicznych” prawdopodobieństwo błędu rośnie z poziomem patologii. Elementy te muszą być brane pod uwagę przy analizie wykresów częstotliwości podstawowej i określaniu jej średniej wartości. Dodatkowo inaczej analizuje się wykresy częstotliwości podstawowej dla jednostajnie fonowanej głoski, a inaczej dla zdania. Istotniejsza z punktu widzenia diagnostyki fałdów głosowych jest analiza dla głoski i ona zostanie tu przedstawiona. Istotny jest też fakt, że częstotliwość podstawowa jest podstawą do wyznaczania wielu parametrów charakteryzujących mowę, więc błędy w wyznaczeniu F0 przekładają się automatycznie na błędne wartości tych parametrów.

Nieprawidłowy kształt wykresów częstotliwości podstawowej może więc być wywołany nieprawidłową pracą fałdów głosowych, jak i błędami w wyznaczeniu samej częstotliwości. Istotne jest, by umieć odróżnić oba powody i ewentualnie wyeliminować błędy poprzez korekcję zakresu poszukiwań częstotliwości.

Geneza błędów w wyznaczaniu F0

Podstawowym problemem przy wyznaczaniu częstotliwości podstawowej jest mylne zakwalifikowanie (zazwyczaj w głosach patologicznych) jako F0 subharmonik (zwykle (1/2)F0) lub nawet w przypadku głosów osób zdrowych – znalezienie jako F0 pierwszego (rzadziej wyższego) formantu. Aby ograniczyć możliwość błędnego wyznaczenia częstotliwości podstawowej, należy jak to tylko możliwe zawęzić zakres poszukiwań. Uwzględnić należy przede wszystkim płeć osoby badanej, jej wiek, zawód, stan zdrowia, przebyte choroby i wykonane zabiegi. Po wstępnym określeniu F0 program precyzyjnie określi jej rzeczywistą wartość.

Błędy związane z istnieniem silnych subharmonik

Na rys. 14 przedstawiono przykładowy oscylogram, dla którego wyznaczenie F0 bez założenia możliwego zakresu jej wartości (na podstawie choćby płci) jest praktycznie niemożliwe. W zależności od tego, od której strony zaczęłaby się w tym przypadku analiza, znaleziona wartość częstotliwości byłaby inna.

Rys. 14. Oscylogram z zaznaczonymi powtarzającymi się fragmentami stanowiącymi hipotetyczny okres podstawowy

W podobnych przypadkach wykres częstotliwości podstawowej wygląda zwykle tak, jak na rys. 15 i charakteryzuje się gwałtownymi skokami dochodzącymi do 100% wartości częstotliwości. Rozwiązaniem problemu jest wtedy oszacowanie, która wartość częstotliwości jest poprawna (poziom 110 Hz lub 220 Hz na rys. 15), i takie ograniczenie zakresu poszukiwań, aby wyeliminować błędy (poprawiony wykres na rys. 16).

Rys. 15. Nieprawidłowy wykres F0 – wpływ subharmonik

Rys. 16. Skorygowany wykres z rys. 15

Błędy związane z mocno nieregularnymi drganiami fałdów

W przypadku wyjątkowo nieregularnych drgań (przykład na rys. 17), drgań wytwarzanych przez różne struktury, znajdowana częstotliwość podstawowa może być błędna. W takim przypadku z jej wyznaczania należy zrezygnować (więc jednocześnie z wyznaczania większości parametrów), lub ograniczyć się tylko do fragmentów regularniejszych.

Rys. 17. Przykład drgań fałdów okresowo mocno nieregularnych

Błędy związane z zakłóceniami

Niekiedy zakłócenia zewnętrzne mogą zostać zinterpretowane jak fonacja (rys. 18, czas od 1700 ms do 2000 ms). Pojawiają się wówczas fragmenty wykresu zazwyczaj w obszarze bez rzeczywistej fonacji lub na „końcówkach” głosek o znacznie odbiegającej wartości częstotliwości. Rozwiązaniem problemu jest zawężenie zakresu poszukiwań częstotliwości, przycięcie próbki głosu lub odpowiednie ustawienie poziomu decyzji „fonacja – brak fonacji”.

a)
b)

Rys. 18. Zakłócenia zinterpretowane jako fonacja: a) przed korekcją; b) po korekcji

Błędy związane z niedopasowaniem zakresu poszukiwań F0

Są to chyba najpoważniejsze błędy. Na szczęście dotyczą właściwie tylko głosów pozabiegowych (laryngektomia), protezowych i śpiewaczych w czasie testowania zakresu głosu. W przypadku głosów bardzo niskich lub skrajnie wysokich zawsze należy skontrolować wartość częstotliwości przy pomocy spektrogramu wąskopasmowego (uwaga na przydźwięk sieciowy – rys. 2b). W podobny sposób objawiać się może próba wyznaczania ekstremalnie niskich wartości częstotliwości podstawowej dla próbek nagranych sprzętem o niewystarczającym paśmie przenoszenia (ograniczone od dołu do np. 70 Hz). Przykład błędnie wyznaczonej częstotliwości dla głosu protezowego przedstawiono na rys. 19. W tym przypadku pomóc może tylko poprawne określenie zakresu.

a)
b)

Rys. 19. Błędnie wyznaczona częstotliwość podstawowa dla bardzo niskiego głosu protezowego: a) przed korekcją; b) po korekcji

Interpretacja wykresów F0

O ile poprawne wyznaczenie częstotliwości podstawowej jest często nieco złożone, to interpretacja wykresów jest prosta (zwłaszcza w przypadku przedłużonej fonacji „a”). Im bardziej gładki jest wykres, tym lepiej. Przykładami mogą być tu wykresy z rys. 16 i 18b.