MacWhisper. Łatwa, dokładna i szybka transkrypcja mowy na tekst

Rozpoznawanie mowy nie jest nową technologią. Jeśli korzystacie ze smartfona, to na pewno chociaż raz zdarzyło się wam skorzystać z funkcji dyktowania wbudowanej w jego system. prawdopodobnie zauważyliście też, że nie jest ona idealna. Czasem robi błędy i przynajmniej w przypadku systemów Apple znaki przestankowe musimy wstawić ręcznie, wypowiadając je na głos. Do dyktowania krótkich wiadomości może wystarczyć, ale jeśli chcemy np. przepisać dłuższe nagranie, to może to nam zwyczajnie przysporzyć więcej pracy. Na szczęście istnieje na to rozwiązanie. Jest nim Whisper — model do transkrypcji mowy na tekst od Open AI. Cechuje się bardzo wysoką jakością transkrypcji, jest w stanie automatycznie wstawić odpowiednią interpunkcję, a przekład odbywa się całkowicie na naszym urządzeniu, zachowując prywatność naszych danych. Największą wadą Whispera jest jego złożony proces instalacji. Jest dostępny w kilku wariantach zoptymalizowanych pod konkretne podzespoły.

Na komputerach PC Whisper wymaga mocnej karty graficznej od Nvidii, żeby działać najszybciej. W przypadku komputerów Mac jest nieco prościej. Współczesne komputery Mac są wyposażone w dedykowane procesory do zadań związanych ze sztuczną inteligencją i powstało kilka aplikacji, które pozwalają zainstalować i korzystać z Whispera w bardzo łatwy sposób. Jedną z nich jest MacWhisper, o którym będzie ten tekst.

Oferowane funkcje

MacWhisper znajdziecie na stronie MacWhisper.com. Aplikacja jest dostępna w wersji darmowej oraz Pro (60 € w momencie pisania). W darmowej wersji aplikacja oferuje następujące funkcje:

transkrypcja dowolnego pliku audio czy video na komputerze lub dźwięku nagranego przez mikrofon Maca,
- globalna funkcja dyktowania (możemy dyktować w dowolnym polu),
możliwość edycji transkryptu (w tym ręczne oznaczenie do trzech różnych mówców),

transkrypt możemy wyeksportować jako napisy w formacie SRT oraz VTT lub jako dokument (txt, docx, pdf, html czy markdown).

Jeśli zdecydujemy się na wersje pro, to możliwości aplikacji znacznie się poszerzą i oferują:

automatyczne rozróżnianie mówców (lokalnie na Macach z procesorami Apple lub zewnętrznie przez Eleven Labs),
integrację z różnymi modelami AI jak ChatGPT, które mogą być wykorzystane do dalszej korekty, streszczenia tekstu czy dowolnego innego zadania,
wsadową transkrypcję kilku plików jednocześnie oraz automatyczna transkrypcja plików skopiowanych do wskazanego przez nas folderu,
wsparcie dla modeli Whisperkit (działają znacznie szybciej i zużywają mniej energii),
transkrypcję filmów z YouTube,

transkrypcję w chmurze używając usług OpenAI, Eleven Labs i innych,

nagrywanie i transkrypcja dźwięku z dowolnej aplikacji na komputerze,
tłumaczenie transkryptów na inne języki (używając samego Whispera lub DeepL).

Pierwsze uruchomienie i dostępne modele

Podczas pierwszego uruchomienia, zostaniemy zapytani, czy chcemy wprowadzić klucz aktywujący wersję pro lub przejść na stronę zakupu. Jeśli nie zdecydujemy się na to teraz, skrót do ekranu aktywacji znajdziemy na ekranie głównym programu. Zostaniemy zapytani jaki model Whisper chcemy zainstalować. W każdej chwili możemy wrócić do tego ekranu, wybierając polecenie “Manage Models” z menu MacWhisper. Aplikacja automatycznie wyświetli nam najlepsze dostępne modele, jakie możemy uruchomić na podstawie dostępnej pamięci RAM oraz informację czy wykupiliśmy wersję Pro. Dostępne modele możemy filtrować, używając przycisków na górze ekranu. Wersja Pro oferuje nam najszybsze modele oznaczone jako WhisperKit, które wspierają również wykrywanie mówców. W wersji darmowej dostajemy dostęp do starszej technologii Whisper C.

Główne okno aplikacji

Główne okno aplikacji dzieli się na trzy części. Na górze znajdziemy pasek narzędzi — zawierający wybór języka, używanego modelu oraz skrót do ustawień aplikacji. Następnie napotkamy dwa obszary przewijania — pierwszy wyświetla historię transkryptów, a drugi przyciski dające dostęp do uruchomienia transkrypcji z różnych źródeł. Tutaj zatrzymamy się chwilę dłużej.

Jeśli nie posiadamy wersji Pro, to znajdziemy tutaj reklamę proponującą jej zakup, a funkcje niedostępne w niej będą ukryte. Oprócz tej informacji obszar dzieli się na trzy elementy:

Pole edycji do wpisania adresu URL. Może to być film z YouTube czy adres do pliku audio/video. Podany przez nas film zostanie pobrany i ztranskrybowany.
Siatka wszystkich pozostałych źródeł transkrypcji. Są to:

Open Files — dowolny plik audio/video na komputerze,

New Recording — nagranie z mikrofonu czy innego urządzenia wejściowego,

Record Meeting — włącza automatyczne nagrywanie spotkań (wspierane są wszystkie najbardziej popularne aplikacje do konferencji oraz ich przeglądarkowe wersje),

Batch Transcription — wsadowa transkrypcja kilku plików jednocześnie,

Record App Audio — nagrywanie dźwięku z dowolnej aplikacji lub całego dźwięku w systemie. Możemy również dodatkowo nagrać nasz głos, który zostanie dołączony do transkryptu,

Dictation — pozwala skonfigurować skrót do dyktowania w dowolnym polu edycji na komputerze,

Transcribe Podcast — pozwala transkrybować podcast podzielony na kilka ścieżek (gdzie jeden plik reprezentuje jednego mówce);

Global — pozwala z dowolnego miejsca szybko uruchomić nagrywanie z transkrypcją, która może zostać automatycznie skopiowana;

Cloud Transcription — transkrypcja, używająca usług w chmurze (np. Elevenlabs);

Siatka ze skrótami do zarządzania modelami, dostępem do kalendarza (w celu automatycznego nazywania transkryptów spotkań) oraz skrótami do wsparcia technicznego i aplikacji Whisper na iOS.

Tworzenie i edycja transkryptu

Po wskazaniu interesującego nas pliku lub zakończeniu nagrywania znajdziemy się na ekranie edycji transkryptu, a aplikacja rozpocznie przetwarzanie materiału. To okno możemy podzielić na trzy części.

Na górze tradycyjnie znajdziemy pasek narzędzi. Podczas przetwarzania zobaczymy tu informację, ile czasu pozostało do zakończenia oraz przycisk anuluj, a kiedy transkrypcja się zakończy, na pasku znajdziemy pole wyszukiwania, przycisk kopiuj oraz eksportuj.

Z lewej strony okna znajdziemy nasz transkrypt, który może być wyświetlony w jednym z dwóch widoków — transkryptu, czyli w polu tylko do odczytu, lub segmentów, czyli listy, która pozwala również na edycję poszczególnych zdań i oznaczanie mówców.

Pod transkryptem znajdują się kontrolki sterujące odtwarzaczem nagrania. Odtwarzaniem możemy również sterować z klawiatury. Spacja działa jako play-pauza, a skrótami shift+kropka i shift+przecinek możemy zmieniać szybkość odtwarzania.

Pozostałą część okna zajmuje tzw. pasek boczny, który składa się z pięciu zakładek zawierających różne narzędzia i ustawienia:

Transkrypt (Command+1)

Ta zakładka zawiera ustawienia wyglądu transkryptu, opcje zarządzania mówcami oraz narzędzia pomagające w oczyszczeniu tekstu. Dzieli się na kilka sekcji:

Tryb wyświetlania (Display Modę) — pozwala wybrać widok tekstowy lub listę segmentów,
Mówcy (Speakers) — pozwala zarządzać mówcami. Jeśli użyliśmy modelu wspierającego automatyczne wykrywanie, to aplikacja sama ich doda, a nam pozostaje tylko ich nazwać. Jeśli sprowadzimy myszkę do jednego z mówców skrótem VO+Command+F5, to obok niego pojawi się przycisk Play pozwalający usłyszeć próbkę, a menu kontekstowe pozwala nam połączyć kilku mówców, jeśli wykrywanie nie zadziałało prawidłowo,
Opcje (Options) — pozwala zmienić rozmiar czcionki, włączyć/wyłączyć wyświetlanie czasu i imiona mówców przy segmentach, pokazać tylko ulubione segmenty oraz ustawić własny czas początkowy,
Oczyszczanie (Cleanup) — Pozwala oczyścić segmenty tak, aby zawsze kończyły się na końcu zdania.

AI (Command+2)

Pozwala wykorzystać skonfigurowany przez nas model sztucznej inteligencji do przetworzenia tekstu. Domyślnie dostajemy przyciski do streszczenia, stworzenia podpunktów i poprawy gramatyki, ale w ustawieniach możemy również dodać własne polecenia. Możemy również „porozmawiać” z naszym transkryptem.

Tłumaczenie (Command+3)

Pozwala przetłumaczyć transkrypt na inny język. Możemy użyć wbudowanego w system tłumacza Apple lub usługi DeepL, jeśli w ustawieniach ją skonfigurowaliśmy.

Info (Command+4)

Wyświetla informacje o transkrypcie, takie jak jego długość, jak szybko został przygotowany, oraz który model i język został wybrany. Model i język możemy z tego miejsca zmienić, co spowoduje ponowne przetworzenie pliku.

Eksport (Command+5)

W tym miejscu możemy zapisać nasz transkrypt do jednego z wielu dostępnych formatów. Możemy zapisać cały tekst lub tylko segmenty, które oznaczyliśmy jako ulubione. Transkrypt możemy zapisać do prostych plików tekstowych, dokumentu PDF czy Word, strony HTML, lub w formie pliku z napisami SRT, lub VTT. Możemy również dostosować wygląd eksportu (np. Czy zawiera informacje o czasie i mówcach).

Kilka słów o edycji segmentów

Po liście segmentów możemy poruszać się strzałkami. Jeśli chcemy wprowadzić poprawkę, wystarczy nacisnąć Enter, dokonać zmian i Escape, żeby wrócić do listy. Każdy segment posiada również menu kontekstowe, w którym możemy m.in. rozpocząć odtwarzanie od danego miejsca, ręcznie przypisać mówcę czy oznaczyć dany segment jako ulubiony. Niektóre z tych opcji mają również skróty klawiszowe — cyframi oznaczamy mówcę, Command+C kopiuje segment, Backspace usuwa, a F oznacza jako ulubiony.

Dyktowanie

MacWhisper zawiera własną funkcję dyktowania, która działa bardzo podobnie do tej wbudowanej w system, tyle że znacznie dokładniej. W ustawieniach aplikacji możemy wybrać skrót klawiszowy do wywołania dyktowania (może to być FN, Lewy lub prawy Command/Option albo dowolny inny skrót). Skrót może działać w trybie naciśnij i mów (gdzie dyktowanie działa tak długo, jak trzymamy klawisz), lub jako przełącznik (naciśnięcie uruchamia/zatrzymuje dyktowanie). Sama funkcja działa bardzo prosto — naciskamy lub trzymamy ustawiony klawisz, czekamy na dźwięk i mówimy. Po puszczeniu lub ponownym naciśnięciu skrótu wypowiedziany przez nas tekst zostanie wpisany do pola edycji, w którym jesteśmy. W ustawieniach możemy dodać własne słowa do słownika oraz skonfigurować dodatkowe przetworzenie tekstu przez AI (np. w celu poprawy gramatyki czy przetłumaczenia tekstu).

Globalne okno

Tzw. tryb globalny pozwala na szybkie nagrywanie notatek. To małe, pływające okno, które możemy wywołać z Menu statusu lub skrótem klawiszowym konfigurowalnym w ustawieniach. Okno jest bardzo proste i zawiera tylko Menu wyboru mikrofonu oraz przycisk nagraj. Po zakończeniu nagrywania tekst jest automatycznie transkrybowany do pola edycji, w którym możemy wprowadzić szybkie poprawki. Następnie jego zawartość może być skopiowana do schowka lub otwarta w pełnym edytorze transkryptu.

Ustawienia

MacWhisper jest programem bardzo konfigurowalnym i posiada rozbudowane okno ustawień podzielone na kilkanaście kategorii. W tym miejscu krótko podsumuje najbardziej istotne ustawienia, ale dla zainteresowanych polecam rozejrzeć się po wszystkich kategoriach. Większość ustawień, nawet tych zaawansowanych, jest opatrzonych szczegółowymi opisami.

Ogólne (General) — czy aplikacja ma pracować w tle i uruchamiać się z systemem, gdzie mają domyślnie zapisywać się nagrania itd. Możemy tu również włączyć sygnał dźwiękowy na zakończenie generowania transkryptu;
Global — ustawienia okna globalnego. Skrót klawiszowy, czy nagrywanie ma uruchomić się automatycznie po otwarciu, czy transkrypt ma automatycznie skopiować się do schowka po zakończeniu nagrywania oraz, czy nagrywane notatki mają trafić do historii;
Watched Folders (obserwowane foldery) — MacWhisper może obserwować wskazane przez nas katalogi, a jeśli wklejamy do jednego z nich plik audio lub video, może automatycznie wygenerować transkrypt. W tym miejscu możemy dodać foldery do obserwacji i skonfigurować format eksportowanych transkryptów;
Record Meetings — konfiguracja automatycznego nagrywania spotkań. Po włączeniu dostaniemy informacje, kiedy MacWhisper wykryje trwające spotkanie z możliwością szybkiego rozpoczęcia nagrywania;
Microphone — Jaki mikrofon ma być domyślnie używany do nagrań. Może to być domyślny mikrofon w systemie, wybrany przez nas z listy lub automatycznie ustawiony na podstawie listy priorytetów;
Dictation — ustawienia dyktowania. Skrót klawiszowy, czy mają być odtwarzane dźwięki, konfiguracja usług AI itd. Co ciekawe, jeśli zdecydujemy się na funkcje AI, to każda aplikacja może mieć własny prompt;
YouTube — czy podczas pobierania filmów z YouTube MacWhisper ma pobrać cały film lub tylko dźwięk, a jeśli tak to w jakiej jakości;
Speakers (mówcy) — ustawienia transkrypcji. Możemy włączyć automatyczne wykrywanie mówców lub ręcznie ich dodać;
Translation (tłumaczenie) — w tym miejscu możemy wprowadzić klucz API do usługi DeepL;
Ignore unwanted segments (ignoruj niechciane segmenty) — możemy skonfigurować automatyczne usuwanie niechcianych fraz (np. Automatycznie usuwać zająknięcia);
Find and Replace (znajdź i zastąp) — jeśli aplikacja notorycznie źle transkrybuje dane słowo czy zdanie, możemy automatycznie je naprawić;
Batch Transcription — ustawienia transkrypcji wsadowej. Możemy tutaj skonfigurować, w jakim formacie mają być zapisane transkrypty;
Services — konfiguracja usług AI oraz transkrypcji w chmurze. Wspierane są wszystkie najbardziej popularne modele takie jak GPT, Gemini czy Claude, oraz modele lokalne działające w środowiskach Ollama i LMStudio. W tym miejscu możemy również dodać własne promety, czyli zadania, jakie AI ma wykonać na naszych transkryptach;
Advanced — zaawansowane ustawienia modeli Whisper;
Pro — w tym miejscu możemy wprowadzić klucz licencyjny do wersji pro lub przejść na stronę zakupu.

Podsumowanie

Whisper zrewolucjonizował technologie rozpoznawania mowy, a MacWhisper daje nam do niej dostęp w stosunkowo prostej, ale jednocześnie potężnej aplikacji. Może się przydać w wielu sytuacjach — od oczywistych jak transkrybowanie notatek głosowych czy nagrań spotkań i wykładów, do bardziej niekonwencjonalnych — interesuje nas jakiś podcast lub film, ale jest w obcym języku, albo wolimy po prostu mieć jego zawartość w formie tekstowej. Nic prostszego, wystarczy przetworzyć go MacWhisperem, który może nawet go dla nas przetłumaczyć.

Piotr Machacz