Medyczna rejestracja obrazu wideo

Część IV: Szybka kamera

Porównanie stroboskopii i szybkiego filmu

Autor: mgr inż. Anna Racino, dr inż. Marcin Just, dr inż. Michał Tyc (DiagNova Technologies)
Data: 2019.07.01

W ocenie stanów chorobowych związanych z pracą fałdów głosowych konieczna jest analiza sekwencji slow-motion ukazująca ich ruch podczas fonacji. W tym celu wykorzystywana jest wideostroboskopia lub obrazowanie z użyciem szybkich kamer.

Podstawową techniką wizualizacji pracy fałdów głosowych jest przedstawianie przekrojów kimograficznych. Pozwalają one na ocenę zarówno na poziomie pojedynczego okresu podstawowego pracy fałdów głosowych, jak i całych grup okresów podstawowych.

Kimografia nie jest jeszcze w pełni analizą danych – w przypadku generacji z całoklatkowych nagrań slow-motion pracy fałdów głosowych to nowa forma prezentacji, która istotnie poprawia czytelność danych. W przypadku nagrań z kamer linijkowych to jedyny sposób na przedstawienie danych.

    Przy analizie pojedynczego okresu ocenie podlegają:
  • asymetria pracy fałdów głosowych (w znaczeniu prawego i lewego), w tym:
    • amplituda,
    • różnica fazy;
  • różnica przebiegu fazy otwierania i zamykania;
  • niedomykalność, z określeniem zakresu długości fałdów głosowych, na jakich występuje i stopnia niedomykalności;
  • współczynnik zamknięcia i otwarcia (z uwagą, że wyznaczanie na podstawie jednego okresu może być obarczone bardzo dużym błędem);
  • parametry dynamiczne (szybkość otwierania i zamykania);
  • występowanie fali śluzówkowej.
    Przy analizie grup okresów dodatkowej ocenie podlega:
  • równomierność pracy fałdów głosowych, w tym poprzez wyznaczenie parametrów jitter i shimmer analogicznie jak przy analizie akustycznej;
  • częstotliwość pracy fałdów głosowych;
  • uśredniony współczynnik zamknięcia i otwarcia i jego rozrzut;
  • początek i koniec fonacji (sposób rozpoczęcia i zakończenia drgań).

W przypadku techniki szybkiego filmu rejestracja pracy fałdów głosowych odbywa się poprzez zapisywanie klatek filmu z bardzo dużą szybkością – przeciętnie 2000 klatek na sekundę:

„Video rates vary from 125 up 10000 f/s. For a clinical exam, typically a 2000 – f/s rate is used. I prefer 2000 f/s rate, although others feels that this rate may not give the ultimate quality for the best possible diagnosis”

K. Izdebski w artykule KayPENTAX Color High-Speed Video 9710 System [8]

„The introduction of high-speed imaging of the larynx into clinical practice has expanded our ability to image vocal fold vibration to include situations that cannot be successfully evaluated using videostroboscopy. High-speed laryngeal imaging uses a high-speed camera to capture real-time images at a minimal rate of 2000 frames per second. This frequency of image capture is fast enough to obtain multiple images from a single cycle of vibration”

Katherine A. Kendall w artykule Clinical Applications for High-Speed Laryngeal Imaging [9]

W celu uzyskania efektu slow-motion, zarejestrowany z dużą prędkością film wystarczy odtwarzać z mniejszą prędkością, np. standardowe 25 klatek na sekundę; w ciągu 1/10 sekundy nagrania uzyskać można zapis do 20 cykli pracy fałdów głosowych. Można dzięki temu zarejestrować drgania nawet podczas bardzo krótkiej fonacji, zapewniając maksymalną wiarygodność obrazu czynności fałdów głosowych, dodatkowo umożliwia badanie zjawisk chwilowych, początku i końca fonacji oraz pozwala na prawidłową weryfikację nierównomierności pracy fałdów głosowych.

W technice stroboskopowej wrażenie slow-motion uzyskuje się poprzez odpowiedni dobór momentów naświetlania poszczególnych klatek, rejestrowanych z szybkością rzędu 25 klatek na sekundę. Jeden obserwowany w stroboskopii cykl pracy fałdów głosowych złożony jest z klatek pochodzących z wielu różnych rzeczywistych cykli odległych od siebie. Przedstawiono to na rys. 10. Konieczną do uzyskania w przypadku stroboskopii synchronizację błysków światła lub migawki kamery z ruchem fałdów głosowych uzyskuje się zwykle na podstawie analizy rejestrowanego równolegle głosu osoby badanej.

Rys. 10. U góry kimogram ukazujący wiele kolejnych ruchów fałdów głosowych. Niżej kimogram ukazujący jeden ruch fałdów głosowych przybliżony z odpowiednio wybranych linii z górnego kimogramu. W ten sposób uzyskuje się wrażenie „slow motion” ruchu fałdów głosowych w stroboskopii – poprzez odpowiedni dobór momentów naświetlania poszczególnych klatek zgodny z częstotliwością pracy fałdów głosowych. Przypadek wyidealizowany zakładający pobieranie kolejnych klatek z kolejnych cykli pracy fałdów głosowych, w normalnym przypadku kolejne klatki pochodzą z cykli odległych od siebie

Aby zarejestrować 10 cykli pracy fałdów głosowych, potrzebne jest zazwyczaj 10 sekund stabilnej fonacji, co zazwyczaj nie jest możliwe do uzyskania w przypadku głosów patologicznych. Prawidłowe sterowanie momentami naświetlania klatek jest możliwe tylko przy dostatecznej regularności drgań fałdów głosowych. W przeciwnym wypadku nie jest możliwe precyzyjne dobranie cyklu pracy tak, aby uzyskać prawidłowy zapis ewentualnej nierównomierności pracy fałdów głosowych, dlatego wszelkie zaburzenia cykliczności pracy fałdów głosowych w stroboskopii obrazowane będą jedynie jako postrzępienie wykonywanych przekrojów kimograficznych, a nie jako realne zmiany długości poszczególnych okresów.

Z tego też powodu, nagrania slow-motion wygenerowane przy użyciu zjawiska stroboskopii pozwalają w ograniczonym stopniu na analizę jedynie pojedynczego okresu drgań. Ze względu na sposób generacji nie jest praktycznie możliwe wykonanie oceny grup okresów. Nagrania z szybkiej kamery mogą być oceniane zarówno pod kątem oceny jednego jak i grup okresów, gdyż w większości przypadków obejmują znacznie więcej okresów ruchu fałdów głosowych (rys. 11). Dla wskazania tych istotnych różnic między kimogramami uzyskanymi dzięki użyciu szybkiej kamery i uzyskanymi z nagrania stroboskopowego, te ostatnie określa się mianem strobokimogramów.

Rys. 11. Kimogram poziomy dla nagrania z szybkiej kamery

Brak wiarygodności przy generacji obrazu slow-motion metodą stroboskopową w przypadku występowania patologii i zaburzeń cykliczności był głównym z powodów, dla którego nawet pomimo niedoskonałości i wysokich kosztów szybkich kamer były one stosowane chętniej w ośrodkach naukowych:

”Since its introduction, videostroboscopy has had tremendous clinical success and is now considered the ‘gold standard’ in laryngeal imaging,” said Dr. Deliyski. “However, due to basic stroboscopic principles and the nature and behavior of human vocal folds, the technology has its limitations, especially for the visual evaluation of human vocal folds. Stroboscopy simply cannot capture the true cycle-to-cycle vibratory behavior of the vocal folds, and as a result, the intra-cycle vibration seen in stroboscopy displays an illusory ‘slow motion.’ Furthermore, stroboscopy has no benefit to persons whose voice disorder causes irregular vocal fold vibration, as the stroboscopic images produced can’t be used to accurately diagnose disorders. This would affect approximately half of patients with voice disorders.”

PHANTOM, Diagnosing Voice Disorders [2]

Na rysunku 12 przedstawiono przykład patologii uniemożliwiającej ocenę pracy fałdów głosowych za pomocą badania stroboskopowego, a przy której ocena za pomocą praktycznie każdej szybkiej kamery jest możliwa.

stroboskopia
(całkowity brak możliwości oceny czynności fonacyjnej)
szybka kamera
(możliwa przybliżona ocena czynności fonacyjnej)

Rys. 12. Przykład patologii fałdów głosowych (tzw. bamboo folds) ilustrujący wyższość nawet historycznego modelu szybkiej kamery w ocenie czynności fałdów głosowych

Światowej klasy specjaliści są zgodni, co do tego, że technika stroboskopowa nie nadaje się do oceny drgań nieregularnych, a właśnie z takimi mamy do czynienia w przypadku chorób narządu głosu:

„Aperiodic vibrations cannot be traced correctly with LVS (laryngovideostroboscopy)”

K. Izdebski w artykule Advantages of high-speed digital phonoscopy [11]

„Despite being the most widely used method in routine clinical practice, videostroboscopy has some limitations. For the strobe light and fundamental frequency to be synchronized, vocal fold vibration must be relatively periodic. In addition, as it represents a subsampling of several vibrational cycles, it is not possible to access the variations between and within cycles. Furthermore, videostroboscopy is not capable of recording the onset and offset of phonation.”

Domingos Hiroshi Tsuji i inni w publikacji Improvement of Vocal Pathologies Diagnosis Using High-Speed Videolaryngoscopy [12]

“It is important to realize that in the case of an aperiodic signal, the near-periodic assumptions do not hold. When the acoustic or EGG signal is aperiodic, the timing of strobe flashes does not correspond with the phases of the glottic cycle in the desired sequence. Even subtle variations in periodicity can produce completely distorted or unrealistic videostroboscopic sequences. Depending on the type of aperiodicity, the distortions may produce random-appearing vibrations, may change the balance between the timing of the opening and closing phases of the glottal cycle, may produce a reverse-appearing motion during a portion of the cycle or through the entire cycle, or may “lock” out of the closed phase, making it appear that the glottis never closes completely.”

Dimitar Deliyski, Laryngeal High-Speed Videoendoscopy [10]

„The stroboscopic flashes need to be synchronized with the VF vibration, which is technically impossible when the vibrations are irregular. Irregular vibrations of the VF, as well as some specific vibratory patterns, such as those related to diplophonia, multiphonia, and vocal fry, cannot be adequately studied stroboscopically.”

H.K. Schutte & F.F.M. de Mul w publikacji Videokymography – The next step: Investigations between 2003-2008 at the Voice Research Laboratory in Groningen, The Netherlands [13]

Przez to, że u podstaw wideostroboskopii leży założenie regularnego cyklu pracy fałdów głosowych, przy drganiach nieregularnych wyniki uzyskane tą techniką są przekłamane. Na rys. 13 przedstawiono kimogramy z szybkiej kamery dla tego samego pacjenta, kimogram z szybkiej kamery ukazuje nieregularną pracę fałdów głosowych – natomiast technika stroboskopowa „gubi” nieregularności między cyklami.

Technika stroboskopowa zawodzi niestety najczęściej w przypadkach, kiedy dokładne obrazowanie pracy fałdów głosowych jest szczególnie pożądane – w przypadku występowania znacznych patologii.

Jednak nawet w przypadku mniejszych patologii ocenę pracy fałdów głosowych trzeba często przeprowadzić na podstawie widoczności jednego, czasem dwóch okresów podstawowych i ograniczyć do analizy jednookresowej. Nie jest możliwa ocena równomierności drgań. Wymaga ona do przeprowadzenia widoczności 10 i więcej okresów ruchu fałdów głosowych. W przypadku stroboskopii jest to co najmniej 10 s fonacji.

    Pojawiają się tu wówczas dwa dodatkowe problemy:
  • rzadko która osoba badana jest w stanie fonować tak długo podczas niewygodnego badania – daje to w efekcie fonację przedzieloną fazami oddechowymi, które „niszczą” synchronizację pomiędzy stroboskopem a fałdami głosowymi,
  • trudno jest osobie badającej podczas tak długiego badania utrzymać stabilnie końcówkę endoskopu – pojawiają się pozorne ruchy fałdów głosowych na ekranie „psujące” wygląd kimogramów i utrudniające analizę.

Na rys. 14 przedstawiono klatki z nagrania stroboskopowego ilustrujące problem stabilnego utrzymania końcówki endoskopu w jednym położeniu nad fałdami głosowymi, zaś na rys. 15 – typowe zniekształcenie kimogramu z długiego nagrania stroboskopowego spowodowane fazami oddechowymi i ruchami końcówki endoskopu. Jakakolwiek analiza jest dla tego przypadku praktycznie niemożliwa.

Rys. 15. Strobokimogram dla próbki, której klatki przedsatwione są na rys. 14

W przypadku, gdy osoba badana wyjątkowo dobrze współpracuje, a osoba badająca ma doświadczenie i „pewną rękę”, możliwe jest uzyskanie i w przypadku stroboskopii dłuższych nagrań, obejmujących nawet 7–10 okresów bez fazy oddechowej i z umiarkowanymi ruchami końcówki endoskopu. Rzadko spotykany przykład przedstawiono na rysunku 16a.

Rys. 16a. Strobokimogram z ośmioma cyklami pracy fałdów głosowych. Widoczne ruchy końcówki endoskopu

W takiej sytuacji niekiedy możliwe jest dodatkowe programowe ustabilizowanie obrazu. Funkcje takie udostępnia oprogramowanie DiagnoScope Specjalista firmy DiagNova Technologies. Dzięki niemu można „poprawić” przekrój kimograficzny do postaci przedstawionej na rys. 16b. Niestety nie jest praktycznie możliwe usunięcie problemów związanych z nieregularnością pracy fałdów głosowych objawiającą się na strobokimogramach jako postrzępienie brzegów fałdów głosowych (rys. 16b). Niemożliwym jest określenie, czy różnice w kształcie okresów na strobokimogramie wywołane są rzeczywistymi różnicami, czy problemami z synchronizacją wywołanymi nierównomiernością cykli pracy fałdów głosowych.

Rys. 16b. Strobokimogram z rys 16a po stabilizacji obrazu. Zaznaczono postrzępienie krawędzi wywołane nierównomiernością pracy fałdów głosowych

Należy podkreślić, że ze względu na fakt, iż kolejne linie kimogramu są w stroboskopii tworzone z klatek obrazu odległych w czasie o 1/25 s, co powoduje powstawanie pomiędzy nimi istotnych różnic. Proces stabilizacji obrazu i wszelkie inne operacje podnoszące czytelność obrazu są wówczas istotnie bardziej skomplikowane z technicznego punktu widzenia i wymagają od użytkownika znacznie więcej zaangażowania, wiedzy i czasu. Uzyskanie obrazów takich jak przedstawione na rysunku 17 kimogramy pochodzące z szybkiej kamery jest w przypadku stroboskopii praktycznie niemożliwe.

Rys. 17. Przykłady kimogramów z szybkiej kamery ALI Cam HS1 dla różnych zaburzeń pracy fałdów głosowych (od góry – asymetria okresów, różne częstości drgania obu fałdów głosowych wywołane m.in. znaczną niedomykalnością, niewielka niedomykalność, asymetria i różnica fazy drgań obu fałdów głosowych, nierównomierność pracy – tworzenie się konglomeratów okresów podstawowych

W zastępstwie otrzymuje się przekroje kimograficzne obejmujace zwykle jeden – dwa cykle. Praca w warunkach klinicznych lub przyjęć w przychodni uniemożliwia przeprowadzenie stabilizacji obrazu (ze względu na jej czasochłonność i jakość efektu końcowego zależną od perfekcyjnej ostrości obrazu fałdów głosowych). W efekcie otrzymuje się zwykle obrazy jak na rys. 18a.

Rys. 18a. Przykłady strobokimogramów bez dodatkowej czasochłonnej stabilizacji obrazu. Ilość przedstawionych okresów odpowiada maksymalnej możliwej do uzyskania ilości okresów z danego nagrania

Film 2. Nagrania bez stabilizacji, za pomocą stroboskopii i szybkiej kamery, odpowiadające powyższym kimogramom 2

W przypadku, gdy analiza przekrojów kimograficznych nawet ze stroboskopowej sekwencji slow-motion jest jednak konieczna ze względu na wymogi postępowania na potrzeby medycyny pracy, jak było wspomniane, można wykonać stabilizację obrazu. W zależności od jakości obrazu poprawne przeprowadzenie stabilizacji może zająć nawet pół godziny i nie w każdym przypadku przynosi to zadowalające efekty, gdyż nie rozwiązuje to problemu nierównomierności drgań i spowodowanego tym braku synchronizacji efektu stroboskopowego z drganiem fałdów głosowych.

Stroboskopia Stroboskopia Szybka kamera Szybka kamera

Rys. 18b. Przykłady przekrojów kimograficznych dla czterech osob badanych uzyskane ze stroboskopu i szybkiej kamery. Nagranie wideo ze stroboskopu dodatkowo było poddane stabilizacji. Ilość przedstawionych okresów na strobokimogramach odpowiada maksymalnej możliwej do uzyskania ilości okresów z danego nagrania, ilość okresów na przekrojach kimograficznych z szybkiej kamery zostala dobrana w celu uzyskania dobrej widocznosci 3

  • Wykonanie odpowiedniego nagrania wideostroboskopowego wymaga od użytkownika pewnej wprawy. Nawet doświadczony użytkownik nie jest w stanie ustrzec się przed ograniczeniami tej technologii.
  • Bardzo istotnym atutem techniki szybkiego filmu jest szybkość i łatwość wykonania dodatkowych analiz obrazu – wiarygodne analizy kimograficzne obrazu uzyskuje się błyskawicznie i dla każdego nagrania.
  • W przypadku stroboskopii wygenerowanie strobokimogramów możliwe jest jedynie w wybranych przypadkach oraz jest czasochłonne. Wykonanie badania tak, aby można było przeprowadzić analizę kimogramów jest trudne a często niemożliwe.
  • Bez wygenerowania kimogramów nie jest zazwyczaj możliwe wiarygodne udokumentowanie zaburzeń czynnościowych.

Dodatkowym atutem badania szybką kamerą jest możliwość przeprowadzenia pełnej parametryzacji ruchu fałdów głosowych. W przypadku stroboskopii jest to ograniczone tylko do przypadków, w których udało się wygenerować przekroje kimograficzne, i tylko do wyznaczania parametrów z pojedynczych okresów. W przypadku szybkiego filmu dla większości przypadków przeprowadzić można sprawnie parametryzowanie zarówno w zakresie pojedynczego okresu pracy fałdów głosowych (asymetria, współczynnik otwarcia, amplituda itp.), jak i – ze względu na znacznie większą ilość rejestrowanych cykli pracy fałdów głosowych – wielookresowe. Możliwa jest wówczas ocena cykliczności pracy fałdów głosowych poprzez określanie, tak jak dla analizy akustycznej, częstotliwości podstawowej, a następnie jittera oraz shimmera, z tym, że można robić to dla obu fałdów głosowych łącznie, lub rozdzielnie dla każdego.

Na rysunkach 19a-19e przedstawiono przykłady przekrojów kimograficznych z blisko sekundowych fonacji, oraz wykresy szpary głośni i częstotliwości podstawowej drgania fałdów głosowych. Uzyskane w ten sposób dane są łatwiejsze do analizy od danych audio i pozwalają na precyzyjniejsze wykrywanie dużych nierównomierności długości okresów podstawowych ze względu na brak zaburzeń sygnału (wpływ formantów) charakterystycznych dla danych audio. Dzięki temu możliwe było wyznaczenie jittera i shimmera, co dodano pod rysunkami.


Periods = 326
F0Avg = 425,4Hz
Jitter = 0,51%
Shimmer = 9,09%

Rys. 19a. Przykład kimogramu, wykresu częstotliwości podstawowej i parametryzacji wielookresowej z fonacji trwajacej około 1 s. Kobieta. Brak zaburzeń


Periods = 175
F0Avg = 290,9Hz
Jitter = 4,70%
Shimmer = 6,89%

Rys. 19b. Przykład kimogramu, wykresu częstotliwości podstawowej i parametryzacji wielookresowej z fonacji trwajacej około 1 s. Mężczyzna. Brak zaburzeń


Periods = 18
F0Avg = 176,6Hz
Jitter = 5,10%
Shimmer = 55,11%

Rys. 19c. Przykład kimogramu, wykresu częstotliwości podstawowej i parametryzacji wielookresowej. Koniec fonacji, widoczne zaburzenia okresowości


Periods = 48
F0Avg = 132,3Hz
Jitter = 3,87%
Shimmer = 9,11%

Rys. 19d. Przykład kimogramu, wykresu częstotliwości podstawowej i parametryzacji wielookresowej.
Ta sama osoba badana co na rys 19c. Koniec fonacji, widoczne podobne zaburzenia okresowości na samym końcu fonacji


Periods = 114
F0Avg = 220,2Hz
Jitter = 4,21%
Shimmer = 4,08%

Rys. 19e. Przykład kimogramu, wykresu częstotliwości podstawowej i parametryzacji wielookresowej z fonacji trwajacej około 1 s. Kobieta. Brak zaburzeń

Określanie nierównomierności pracy fałdów głosowych wydaje się być jednym z najistotniejszych przyszłych kierunków analizy obrazowej pracy fałdów głosowych. Związane jest to ze znacznie częstszym występowaniem takich zjawisk niż to do tej pory szacowano. Ze względu na to, że ich obserwacja praktycznie nie jest możliwa w stroboskopii (a ocena nie jest możliwa w żadnym wypadku), zjawiska te zasadniczo pozostawały niezauważone. Tymczasem idealnie tłumaczą one zaburzenia rejestrowane w analizie akustycznej. Wprowadzić można zupełnie nowe pojęcia „nadcyklu” łączącego kilka cykli pracy fałdów głosowych w powtarzające się konglomeraty, tak jak to przedstawiono na rysunku 20.

Rys. 20. Konglomeraty okresów podstawowych tworzące charakterystyczne „nadcykle” . Zjawisko to obserwować można jedynie w przypadku rejestracji szybką kamerą 4

Ze względu na możliwość rejestracji dowolnie nieregularnych drgań oraz wielu drgań współistniejących, szybka kamera jest też jedynym narzędziem umożliwiającym ocenę pracy pseudogłośni. W wielu przypadkach regularność pracy struktur wytwarzających drgania fonacyjne jest zaskakująca (rys. 21).

Rys. 21. Obraz pseudogłośni oraz przekrój kimograficzny drgań ukazujący ich zaskakującą regularność 5

Film 3. Praca powyżej zobrazowanej pseudogłośni