Logo Tyfloświat

O tym, jaką rewolucją było udostępnienie modelu do rozpoznawania mowy Whisper przez OpenAI, pisałem niedawno przy okazji omawiania aplikacji MacWhisper. Jest bardzo dokładny, wspiera mnóstwo języków w tym Polski, i potrafi inteligentnie wstawiać odpowiednie znaki przystankowe. Działa nieporównywalnie lepiej od mechanizmów dyktowania wbudowanych w systemy operacyjne. A wszystko to działa całkowicie Offline — nasz głos jest przetwarzany na komputerze, a transkrypcja nie wymaga dostępu do Internetu.

Wspomniany wcześniej MacWhisper jest programem umiejącym wszystko. Transkrypcja plików audio, filmów czy spotkań oraz dyktowanie w każdej aplikacji na komputerze. Wszystko to pod warunkiem, że mamy Maca, i jeśli chcemy korzystać ze wszystkich funkcji i najdokładniejszych modeli, zdecydujemy się na zakup wersji Premium. A co jeśli mamy komputer z Windowsem, nie chcemy płacić albo szukamy prostszej aplikacji służącej stricte do dyktowania? W takim wypadku świetnie sprawdzi się Handy. To darmowy i prosty program pozwalający na dyktowanie w każdej aplikacji, który jest dostępny na wszystkie systemy operacyjne. Co dokładnie nam oferuje?

  • Dyktowanie przez naciśnięcie skrótu lub w trybie naciśnij i mów
  • Automatyczne wykrywanie i usuwanie ciszy
  • Transkrybuje mowę, używając modeli Whisper oraz Parakeet
  • Wkleja tekst bezpośrednio do programu, w którym pracujemy
  • Działa całkowicie na naszym urządzeniu ze wsparciem dla akceleracji sprzętowej na karcie graficznej
  • Dostępny jest na systemy Mac, Windows i Linux

Instalacja i konfiguracja

Program możemy pobrać ze strony handy.computer. Strona automatycznie wykrywa, z jakiego systemu korzystamy, wystarczy tylko nacisnąć przycisk “Download Handy for Windows/Mac/Linux.” Wersja na system Windows przychodzi do nas jako instalator, na Macu jako plik dmg zawierający aplikację, a pod Linuxa mamy kilka różnych wersji dla najpopularniejszych dystrybucji. Skoro o Linuxie mowa, program testowałem pod Windowsem i MacOS’em, i na tych systemach skupię się w dalszej części. Jednak biorąc pod uwagę fakt, że aplikacja na Windowsie i Macu wygląda identycznie, prawdopodobnie będzie działać tak samo na Linuxie.

Przy pierwszym uruchomieniu użytkownicy Maców zostaną poproszeni o przyznanie dostępu do mikrofonu oraz funkcji dostępności. Następnie już na obu systemach zostaniemy zapytani, z jakiego modelu chcemy korzystać do rozpoznawania mowy. Dla języka polskiego polecam Parakeet V3, Whisper Turbo lub Whisper large. Parakeet to nowy model cechujący się bardzo szybkim działaniem i dobrą jakością rozpoznawania w języku Polskim, chociaż odnoszę wrażenie, że robi więcej błędów niż modele Whisper. Whisper Turbo jest większy i nieco wolniejszy od Parakeeta, ale cechuje się lepszą dokładnością. Jeśli pracujesz na Macu lub twój komputer posiada dedykowaną kartę z serii RTX, to polecam właśnie ten model. Natomiast Whisper Large jest największym i najdokładniejszym modelem, ale przez to działa odczuwalnie wolniej. Dla porównania Whisper Turbo zwraca wyniki po około 2/3 sekundach zarówno na procesorze M4 Pro, jak i karcie RTX 5070, a Whisper Large po pięciu do nawet ośmiu w zależności od długości tekstu. Po wybraniu modelu zostaniemy przeniesieni do głównego okna ustawień i możemy już korzystać z programu.

Jak dyktować przy użyciu Handy?

Handy jest banalnie prosty w obsłudze i od razu gotowy do pracy po wstępnej konfiguracji. Aby podyktować tekst:

  • W systemie Windows naciskamy i trzymamy CTRL+Spacja, na Macu Option+Spacja.
  • Cały czas trzymając klawisze, mówimy to, co chcemy wpisać.
  • Kiedy skończymy mówić, puszczamy skrót, a po kilku sekundach podyktowany przez nas tekst zostanie wklejony do pola edycji, w którym się znajdujemy.

O tym, czy zostaniemy poinformowani o wklejeniu tekstu, zależy od naszego systemu operacyjnego i czytnika ekranu. Domyślnie handy działa przez wklejanie podyktowanego przez nas tekstu, tzn.: Zawartość schowka jest chwilowo zastąpiona przez podyktowany tekst, Handy symuluje naciśnięcie CTRL+V/Command+V, a następnie nasz schowek jest przywracany. Na Macu VoiceOver poinformuje nas o wklejeniu tekstu, w systemie Windows zależy to od ustawień naszego czytnika ekranu. To jakiego skrótu używamy, jak odbywa się wstawianie podyktowanego tekstu i wiele innych rzeczy, możemy skonfigurować w głównym oknie handy, o którym przeczytacie więcej w następnej sekcji.

Konfiguracja Handy

Domyślnie okno konfiguracyjne Handy wyświetla się po jego uruchomieniu, ale możemy je zminimalizować do paska menu Mac slash zasobnika systemowego Windows. W tym celu po prostu je zamykamy standardowymi skrótami Alt+F4/Command+W. W tym miejscu warto zwrócić uwagę, że ikona Handy na pasku menu MacOS jest prawidłowo czytana przez voiceOvera, ale w systemie Windows jest widoczna w zasobniku jako niezaetykietowany przycisk. Po kliknięciu ikony wyświetli się menu z trzema opcjami:

  • Settings (Ustawienia) — otwiera okno konfiguracji
  • Check for Updates (sprawdź, czy są dostępne aktualizację)
  • Quit (Wyjście)

Ustawienia Handy

Samo okno konfiguracji jest wyświetlane jako strona internetowa, a więc mamy do dyspozycji wszystkie skróty nawigacyjne po internecie, jakie znamy z naszych czytników ekranu. Każde ustawienie jest wyświetlane w formie nagłówka, poniżej którego znajdziemy odpowiedni przycisk czy pole wyboru służące do jego zmiany. Obok większości ustawień znajdziemy również przycisk More Info, który wyświetla krótki opis danej opcji. Okno jest podzielone na kilka zakładek czytanych przez czytniki ekranu jako elementy klikalne.

General — Ogólne

Ta sekcja jest podzielona na dwie grupy, ustawienia ogólne i ustawienia dźwięku. Pierwsze ustawienie w grupie ogólnej — Handy Shortcut, pozwala na zmianę skrótu klawiszowego do uruchomienia dyktowania. Aby to zrobić, uaktywniamy element klikalny wyświetlający bieżący skrót. Potem na Macu możemy od razu nacisnąć nową kombinację, którą chcemy ustawić. Pod Windowsem musimy jeszcze przepuścić skrót przez nasz czytnik ekranu (w NVDA robimy to skrótem NVDA+F2, w JAWS-ie jest to JAWS+3.) Następnie naciskamy nową kombinację.

W grupie ogólnych ustawień znajdziemy jeszcze dwie opcje:

  • Language (Język) — pozwala ustawić konkretny język dyktowania. Domyślnie opcja jest ustawiona na auto wykrywanie. Jeśli planujemy dyktować tylko w jednym języku, to wybranie go tutaj może poprawić dokładność. Opcja pojawi się tylko, jeżeli używamy jednego z modeli Whisper — model Parakeet pracuje tylko w trybie automatycznego wykrywania języka.
  • Push To Talk — Jak ma działać skrót dyktowania. Jeśli pole jest zaznaczone, dyktujemy, trzymając ustawiony skrót do momentu, kiedy skończymy mówić. Jeśli je odznaczymy, to skrót działa jak przełącznik — pierwsze naciśnięcie rozpoczyna nagrywanie, drugie je zatrzymuje i wpisuje podyktowany tekst.

Natomiast ustawienia dźwięku są następujące:

  • Microphone — jakiego mikrofonu ma słuchać Handy? Domyślnie będzie to mikrofon ustawiony w systemie.
  • Audio Feedback — Jeśli zaznaczymy to pole, będziemy słyszeć krótkie dźwięki informujące nas o rozpoczęciu i zakończeniu dyktowania. Następne dwa ustawienia pozwalają nam zdecydować, gdzie mają być odtwarzane (Output Device) oraz z jaką głośnością (Volume)

Advanced (Zaawansowane)

  • Start Hidden — czy aplikacja ma uruchamiać się od razu do zasobnika/paska menu. Jeśli planujemy często korzystać z Handy, warto zaznaczyć tę opcję.
  • Launch On Startup — Czy Handy ma uruchamiać się z systemem
  • Overlay Position — Podczas dyktowania Handy wyświetla małe okienko informujące nas o statusie oraz rozpoznanym tekście. Może się wyświetlać na górze (Top), dole (Bottom) lub w ogóle nie wyświetlać (None.) To okno może być przydatne dla osób słabowidzących, ale jeśli korzystasz z czytnika ekranu lepiej je wyłączyć, bo może generować niepotrzebne komunikaty.
  • Paste Method — jak ma być wprowadzany podyktowany tekst:
    • Clipboard (Command+V/CTRL+V) — wkleja podyktowany tekst przez schowek, symulując naciśnięcie CTRL/Command+V.
      • Clipboard (Shift+Insert) — jak wyżej, ale symulując skrót Shift+Insert, który jest bardziej kompatybilny np. Z terminalami. Na Macu ta opcja jest niedostępna.
      • Direct — wstawia tekst bezpośrednio, używając mechanizmów dostępności w systemie lub symulując wpisywanie z klawiatury. Opcja może być przydatna np. Jeśli korzystamy z menadżera schowka i nie chcemy go zaśmiecać dyktowaniem, chcemy dyktować do maszyny wirtualnej uruchomionej w Parallels lub kiedy metoda przez schowek nie działa z jakimś programem.
    • Clipboard Handling — Co ma stać się z zawartością schowka po wklejeniu dyktowanego tekstu. Domyślnie Handy automatycznie przywraca jego zawartość (opcja Don’t Modify Clipboard), ale możemy również ustawić go tak, aby podyktowany tekst pozostawał w schowku (opcja copy to clipboard)
    • Translate to English — dostępne tylko dla modelu Whisper Large, czy podyktowany tekst ma być automatycznie przetłumaczony na język Angielski.
    • Unload Model — jak szybko model rozpoznawania mowy ma zostać rozładowany z pamięci komputera/karty graficznej. Domyślnie opcja jest ustawiona na nigdy, ale może to się stać od razu po zakończeniu dyktowania (immediately), po 2/5/10/15 minutach lub po godzinie. Jeśli planujemy często dyktować i dysponujemy dużą ilością pamięci, to warto pozostawić model w pamięci jak najdłużej, bo jego załadowanie może chwilę potrwać. Parakeet zużywa około 1.2 GB pamięci, Whisper Turbo 1.5, a Whisper Large 1.8.
    • Custom Words — jeśli system regularnie nie radzi sobie z jakimiś słowami, możemy je tutaj wpisać, aby były rozpoznawane lepiej.

History (Historia)

Tutaj znajdziemy historie pięciu ostatnio podyktowanych zdań. Mamy dostęp zarówno do nagrania dźwiękowego, jak i transkrybowanego tekstu z opcjami, aby go skopiować, zapisać na stałe lub usunąć z historii. Znajdziemy tu również przycisk otwierający katalog zawierający nagrania.

About

Tutaj znajdziemy informacje o wersji programu i towarzyszących bibliotek oraz linki do kodu źródłowego, oraz wsparcia projektu finansowo.

Zarządzanie modelami

Na dole okna niezależnie od zakładki znajdziemy jeszcze dwa przyciski. Check for Updates pozwala sprawdzić, czy są aktualizacje, a jeśli tak to je automatycznie zainstalować. Natomiast drugi przycisk zawierający nazwę modelu, z jakiego korzystamy, pozwala nam nimi zarządzać. Z tego miejsca możemy pobrać i przełączyć się na inny model oraz usunąć te, których już nie potrzebujemy.

Podsumowanie

Handy to jeden z tych programów, który ma robić jedną rzecz, ale robi ją dobrze. Jest bardzo prosty w konfiguracji, działa praktycznie wszędzie, a wyniki, które możemy za jego pomocą uzyskać, są fenomenalne. Jeśli zawsze chcieliście mówić do swojego komputera, ale zniechęciliście się jakością dyktowania istniejących mechanizmów, to Handy może być tym, czego szukaliście.

Piotr Machacz

Partnerzy

 Fundacja Instytut Rozwoju Regionalnego                     Państwowy Fundusz Rehabilitacji Osób Niepełnosprawnych

Back to top