O przepisywaniu treści z nagrania

Sporządzanie stenogramów polega na mniej lub bardziej precyzyjnym przepisywaniu treści wypowiedzi, które wcześniej zostały zarejestrowane w postaci nagrań audio. Doświadczenie wskazuje, iż na standardową stronę tekstu zawierającą 1800 znaków (wraz ze spacjami) przypada około dwóch minut nagrania wypowiedzi ciągłych w średnim tempie (np. odczyt tekstu przez prelegenta). Inaczej przedstawia się sprawa spisywania treści wypowiedzi osób rozmawiających. W tym przypadku nie można w prosty sposób przeliczyć ilości spisanych wypowiedzi przypadających na standardową stronę tekstu, bowiem spisanie treści dialogu/rozmowy wymaga zastosowania formatowania tekstu w czasie tworzenia stenogramu (zazwyczaj poszczególne wypowiedzi rozmówców umieszczane są w nowych akapitach). W tej sytuacji w obrębie standardowej strony tekstu zmieści się mniej wypowiedzi, niż miałoby to miejsce podczas przepisywania wypowiedzi ciągłych – monologów. Praktyka wykonywania stenogramów każe więc podzielić obrabiane nagrania audio na kategorie odpowiadające bezpośrednio rodzajowi wypowiedzi (monolog, dialog) oraz skali trudności wykonywanych prac stenograficznych. Kategorie te są następujące:

a) nagranie wysokiej jakości typu „monolog” – to nagranie z wypowiedziami jednej osoby (np. odczyt, wykład monograficzny), charakteryzuje się ono dobrą jakością techniczną dźwięku (SNR[1] > 40dB, zakres częstotliwości dźwięku: 70 Hz – 8 kHz), nagranie rejestrowane przy użyciu mikrofonu umieszczonego w niedużej (ok. 30 cm) odległości od osoby wypowiadającej się;

b) nagranie wysokiej jakości typu „dialog” – to nagranie z wypowiedziami więcej niż jednej osoby (np. dyskusja, rozmowa dwóch osób), charakteryzuje się ono dobrą jakością techniczną dźwięku (por. pkt a)), nagranie rejestrowane przy użyciu mikrofonów umieszczonych w niedużej (ok. 30 cm) odległości od osób wypowiadających się;

c) nagranie średniej jakości typu „monolog” – to nagranie z wypowiedziami jednej osoby, charakteryzujące się średnią jakością techniczną dźwięku (SNR w zakresie 30dB – 15dB, zakres częstotliwości dźwięku: 100 Hz – 6 kHz), nagranie rejestrowane przy użyciu mikrofonu umieszczonego w większej (ok. 1 m) odległości od osoby wypowiadającej się;

d) nagranie średniej jakości typu „dialog” – to nagranie z wypowiedziami więcej niż jednej osoby, charakteryzujące się średnią jakością techniczną dźwięku (por. pkt c)), nagranie rejestrowane przy użyciu wspólnego mikrofonu dla wszystkich uczestników dyskusji/rozmowy umieszczonego w większej (ok. 1 m) odległości od osób wypowiadających się;

e) nagranie niskiej jakości typu „monolog” – to nagranie z wypowiedziami jednej osoby, charakteryzujące się złą jakością techniczną dźwięku (SNR < 15dB, zakres częstotliwości dźwięku: 300 Hz – 4 kHz), nagranie rejestrowane przy użyciu mikrofonu umieszczonego w znacznej (większej niż 1 m) odległości od osoby wypowiadającej się, bądź nagranie rejestrowane dyktafonem z sali;

f) nagranie niskiej jakości typu „dialog” – to nagranie z wypowiedziami więcej niż jednej osoby, charakteryzujące się złą jakością techniczną dźwięku (por. pkt e)), nagranie rejestrowane przy użyciu pojedynczego mikrofonu umieszczonego w znacznej (większej niż 1 m) odległości od osób wypowiadających się, bądź rejestrowane dyktafonem z sali.

Uściślając, pod pojęciem „stenogram” należy rozumieć spisywanie treści wypowiedzi osoby lub osób z „dokładnością do zdania”. Oznacza to, że z danego zdania lub frazy (w przypadku zdań wielokrotnie złożonych) spisywane będą te słowa lub grupy słów, które pozwalają na jednoznaczne oddanie sensu danej wypowiedzi mówcy. Pomijane natomiast są wszelkie powtórzenia, zająknięcia, dygresje „ad hoc” i wszelkie „myśli niedokończone”, czyli te części danej wypowiedzi (zdania/frazy), których sens nie wiąże się w żaden sposób z sensem analizowanej wypowiedzi głównej. Innymi słowy, tak sporządzony stenogram będzie zawierał stylistycznie „wygładzone” i semantycznie „zaokrąglone” wypowiedzi mówcy zawierające niezbędne środki wyrazu do oddania danego sensu.

Inną formą przepisywania tekstu mówionego praktykowaną w przez firmę ArsDigita jest tzw. „notatka”. Pod tym pojęciem należy rozumieć takie spisywanie treści wypowiedzi mówcy, które będzie stanowiło syntezę jego wypowiedzi w analizowanym nagraniu lub wskazanej części nagrania (np. wypowiedzi mówcy do przerwy kawowej). W tym przypadku spisana treść wypowiedzi mówcy nie będzie zachowywała oryginalnej struktury tychże wypowiedzi, lecz jedynie ich przetworzenie zgodne z założonymi regułami. Reguły tworzenia notatek – syntez mogą być określane na wiele sposobów i tak na przykład tworzenie notatki może być podporządkowane zachowaniu określonej objętości tekstu notatki, co oznacza że: „zawrzyj kluczowe myśli mówcy w tekście nie przekraczającym N słów”. Inną regułą tworzenia notatki może być na przykład „filtrowanie” informacji, polegające na syntetycznym streszczaniu sensu tylko tych wypowiedzi mówcy, które pasują do zadanego kryterium informacyjnego. Czyli jeśli dla przykładu kryterium informacyjne ma postać „zbierz informacje o wędlinach, a w szczególności o parówkach”, to należy odnotować to, co mówca miał do powiedzenia na temat wędlin, a w szczególności na temat parówek. W odróżnieniu od stenogramów (zob. opis powyżej), sporządzanie syntetycznych notatek jest czynnością bardziej złożoną, która wymaga nie tylko umiejętności słuchania i spisywania poszczególnych wypowiedzi mówcy, ale przede wszystkim właściwego i pełnego rozumienia całości wystąpienia danego mówcy, a potem jego syntetycznego streszczenia zgodnie z założonymi regułami. Jest to więc proces bardziej pracochłonny i wymagający wyższych kwalifikacji od osoby sporządzającej notatkę.

Jeśli po przeczytaniu powyższego tekstu mają Państwo jakieś pytania, to prosimy odwiedzić serwis pytań i odpowiedzi FAQ


[1] Parametr SNR (Sound to Nosie Ratio) określa stosunek poziomu sygnału mowy do poziomu szumu tła.