W zeszłym roku na łamach Tyfloświata przedstawiłem kilka aplikacji pozwalających na łatwe opisywanie zdjęć, używając różnych usług AI. Programy, które wtedy wymieniłem to wierzchołek góry lodowej — góry, która cały czas staje się coraz wyższa. Zarówno korporacje stojące nad tworzeniem modeli, jak i producenci tworzący aplikacje z nich korzystający nie śpią i co kilka miesięcy pojawiają się jakieś ciekawe nowości. Właśnie dlatego postanowiłem powrócić do tematu, ale tym razem skupiając się na aplikacjach ogólnie służących do rozmowy ze wszystkimi popularnymi modelami, oraz integrującymi je w innych aplikacjach. I już dzisiaj mogę powiedzieć, że to nie będzie ostatni tekst o tej tematyce. Do wątku stricte opisywania zdjęć, a nawet również filmów powrócę w osobnym artykule, bo innowacji w tej sferze było tak dużo, że zasługują na dedykowany materiał.
Dla tych, którzy nie przeczytali mojego pierwszego tekstu o aplikacjach korzystających z AI, gorąco polecam od niego zacząć. Opisałem tam ogólne informacje, jak działają tego typu usługi, o których warto wiedzieć, oraz jak pozyskać własne klucze API, których często wymagają programy korzystające z AI. Uczestniczyłem również w obszernej audycji o sztucznej inteligencji na łamach tyflopodcastu, w której podzieliliśmy się poradami jak efektywnie rozmawiać z tymi narzędziami, oraz które modele radzą sobie lepiej z konkretnymi zadaniami.
Na dzisiaj przygotowałem dla was opisy trzech aplikacji — dwóch na Maca i jednej pod system Windows.
MacGPT
MacGPT, jak może sugerować nazwa, daje nam dostęp do Chata GPT z każdego miejsca na komputerze, i to na kilka sposobów. Sam program jest darmowy i do niektórych trybów pracy nie wymaga nawet klucza API, chociaż najciekawsze funkcje go potrzebują. Procedura pobrania oraz wstępna konfiguracja została już opisana przez Piotra Witka w tym artykule, więc ja skupie się na poszczególnych trybach pracy. Każdy z nich ma dedykowaną zakładkę w ustawieniach, na których można również skonfigurować skrót klawiszowy do wywołania danego trybu, co gorąco polecam zrobić.

Przy pierwszym otwarciu programu natkniemy się na widok tzw. Paska bocznego (Sidebar), który wyświetla po prostu internetową wersje Chata GPT. Interfejs ten jest w pełni funkcjonalny — możemy się do niego zalogować i korzystać z zapisanych konwersacji na naszym koncie. Jeśli wolicie interfejs przeglądarkowe od natywnej aplikacji ChatGPT na Maca i chcecie mieć do niego dostęp jednym klawiszem, to jest tryb dla was.
Kolejnym dostępnym dla nas trybem jest Menu Bar, czyli małe okienko pokazujące się pod paskiem Menu. Również tutaj możemy korzystać z przeglądarkowego interfejsu lub jeśli wpiszemy klucz API, możemy przełączyć się na widok natywny (Native.) Widok ten jest znacznie prostszy i łatwiejszy w obsłudze. Składa się z pola edycji do wpisywania naszej wiadomości, przycisku mikrofonu do jej podyktowania oraz listy, w której będą pojawiać się odpowiedzi
asystenta. W oknie znajdziemy również przycisk do skopiowania ostatniej odpowiedzi, wyczyszczenia rozmowy i przejścia do ekranu ustawień aplikacji. 
Kolejnym trybem wymagającym klucza API jest tak zwany tryb globalny. Jest on w działaniu podobny do natywnego widoku paska menu, ale dostosowany pod szybkie rozmowy głosowe. W ustawieniach możemy skonfigurować, czy aplikacja domyślnie ma uruchomić tryb globalny z włączonym mikrofonem, oraz czy odpowiedzi mają być przeczytane na głos. Okno trybu globalnego również zawiera pole edycji do wpisywania wiadomości oraz przycisk do dyktowania, ale zamiast listy pełnej rozmowy zobaczymy tylko ostatnią odpowiedź.
Ostatnim trybem oferowanym przez MacGPT jest tzw. Inline, czyli dostęp do GPT z każdego pola edycji. Tryb ten wymaga przyznania aplikacji uprawnień dostępności, co możemy uczynić w ustawieniach. Kiedy to zrobimy, uzyskujemy do niego dostęp, wpisując “+gpt” oraz nasze polecenie w dowolnym polu edycji, i zatwierdzamy skrótem Shift+Enter. Odpowiedź zostanie automatycznie wpisana do pola, z którego wydaliśmy polecenie. Jeśli często korzystamy z GPT do pomocy w redagowaniu tekstów, to ten tryb może być bardzo przydatny.
MacGPT jest programem bardzo prostym w obsłudze, chociaż jego prostota jest zarówno zaletą, jak i wadą, bo nie posiada wielu funkcji. Wspiera tylko model GPT do wersji 4O, nie pozwala na dołączanie zdjęć czy innych załączników, ani na łatwe zapisywanie kilku promptów do różnych zadań — chyba że korzystamy z niego w widoku przeglądarkowym.
BoltAI
Jeśli oferowana funkcjonalność w MacGPT to dla was za mało, to prawdopodobnie BoltAI zadowoli was z nadwyżką. To najbardziej rozbudowany program do korzystania z AI, z jakim się spotkałem. Pozwala na rozmowę z praktycznie wszystkimi popularnymi modelami (GPT, Gemini, Claude, lokalne modele i wiele innych), wspiera dołączanie zdjęć czy innych dokumentów, możemy zapisywać parametry rozmowy (model, prompt itd.) i wywołać je jednym poleceniem. Program można rozszerzać wtyczkami dającymi AI dostęp do przeglądania internetu, środowisk programowania czy innych usług. A to tylko ułamek wszystkich oferowanych funkcji.
Aplikacje możemy pobrać ze strony boltai.com. Jest dostępna w dwóch wariantach — Essential za około 70 USD, dająca dostęp do wszystkich podstawowych funkcji i wbudowanych wtyczek, oraz premium za 99 USD, dodająca zaawansowany tryb głosowy, wsparcie zewnętrznych wtyczek opartych o protokół MCP, projekty oraz analizę dokumentów. Developer oferuje również 50-procentową zniżkę dla studentów, jeśli skontaktujemy się z nim pod adresem hello@boltaisupport.com z uczelnianego adresu Email. Obie wersje możemy przetestować za darmo. BoltAI w wersji premium jest również oferowany w ramach abonamentu Setapp, o którym powstał osobny artykuł. Warto przy tym zwrócić uwagę, że Setapp oferuje nam ograniczony dostęp do kilku najbardziej popularnych modeli GPT w ramach naszego abonamentu, jeśli nie chcemy korzystać z własnych kluczy API. Szczegółowe informacje o limitach tej usługi znajdziesz na stronie Setapp.
Przy pierwszym uruchomieniu BoltAI zobaczymy ekran powitalny, na którym możemy skonfigurować modele AI, z których chcemy korzystać — wprowadzenie kluczy API, włączenie integracji z Setapp itd. Następnie znajdziemy się w głównym oknie aplikacji.
Wygląd BoltAI jest inspirowany komunikatorami typu wiadomości czy WhatsApp. Używając menu lub skrótem command+N tworzymy nową konwersację, która pojawi się na pasku bocznym. Z poziomu menu możemy również tworzyć tymczasowe konwersacje, które nie będą zapisane na liście, sortować czaty do folderów, oraz tworzyć projekty — czyli zestawy konwersacji dzielące te same ustawienia oraz załączniki, do których ma się odwoływać AI. Z menu możemy również zaimportować istniejące konwersacje z przeglądarkowych wersji Chata GPT lub Claude’a. Oprócz wspomnianego już paska bocznego na górze okna znajdziemy pole wyszukiwania w konwersacjach, pasek narzędzi zawierający przycisk do utworzenia nowego czatu oraz zmiany ustawień bieżącego, a także przyciski sterujące odtwarzaczem audio, jeśli wywołaliśmy funkcje TTS.
Za paskiem bocznym znajdziemy 3 przyciski — Nowy Projekt, Zrób Kopie Zapasową oraz Ustawienia. Za nimi znajdziemy tabele zawierającą naszą rozmowę, pogrupowaną w sekcje, z którymi musimy wejść w interakcje. Domyślnie, każda odpowiedź AI jest osadzona w osobnym widoku www. Jeśli w menu widok odznaczymy opcję “Markdown & Codę Syntax”, to odpowiedzi wyświetlą się w formie bardziej dostępnego zwykłego tekstu.
Następnie napotkamy opcje do tworzenia wiadomości:
- Przycisk dodaj do załączania zdjęć i dokumentów (możemy je również po prostu wklejać do pola edycji)
- Bibliotekę promptów (dostępną pod skrótem Command+Shift+P)
- Pole edycji na naszą wiadomość
- Ikonę mikrofonu — uruchamiającą dyktowanie
- Ikonę fal dźwiękowych — uruchamiającą zaawansowany tryb głosowy
Pod tymi kontrolkami znajdziemy jeszcze dwie sekcje, które możemy wyświetlić lub schować skrótami. Na pasku statusu (Command+slesz) znajdziemy podstawowe opcje, takie jak wybór modelu i asystenta, z jakim rozmawiamy oraz przycisk do zarządzania wtyczkami aktywnymi w czacie. Natomiast inspektor (Command+I) zawiera wszystkie zaawansowane ustawienia danego modelu (wielkość kontekstu, filtry bezpieczeństwa itd.)
Czym są asystenci? Co jeszcze oferuje nam BoltAI? Na te pytania odpowiem przy okazji krótkiego omówienia obszernego okna ustawień składającego się z dziesięciu kategorii:
- Ogólne (General) — podstawowe opcje, takie jak start z systemem, minimalizowanie do paska menu, automatyczne nazywanie czatów, czy Enter ma wysyłać wiadomości itd.
- Dostawcy (Providers) — zarządzanie i konfigurowanie wspieranych modeli. W tym miejscu możemy wpisać klucze API, zdecydować jaki model ma być używany domyślnie i zmienić szczegółowe ustawienia oferowane przez danego dostawcę.
- Wygląd (Appearance) — ustawienia kolorów i czcionki oraz układu zarówno paska bocznego, historii, jak i pola do wprowadzania wiadomości
- Polecenia (Commands) — wywoływane skonfigurowanym przez nas skrótem (domyślnie CTRL+Spacja) polecenia działają na zaznaczonym tekście w dowolnym miejscu i wykonują na nim wpisane przez nas zadanie (podsumowanie, przepisanie, tłumaczenie, wyjaśnienie itd.) Odpowiedź może być wyświetlona w nowym oknie, skopiowana do schowka, lub wpisana do aplikacji, z której wywołaliśmy polecenie, zastępując zaznaczony tekst lub dodając do niego odpowiedź.
- Asystenci (Assistants) — jaką rolę ma odgrywać model podczas rozmowy i z jakiej usługi ma korzystać. Możemy np. Stworzyć jednego asystenta do tłumaczenia działającego przez Gemini oraz innego do pomocy przy programowaniu używającego Claude’a. Asystenta możemy wybrać z okna rozmowy, wywołać skonfigurowanym przez nas skrótem lub poleceniem w trybie inline.
- Prompty — zarządzanie biblioteką promptów
- Wtyczki (Plugins) — konfiguracja wtyczek. W tym miejscu możemy dodać własne wtyczki MCP oraz skonfigurować klucze API dla wtyczek, które ich potrzebują.
- Skróty klawiszowe (Shortcuts) — Aplikacja oferuje mnóstwo skrótów, od globalnych dostępnych wszędzie, po skróty do często używanych poleceń w oknie rozmowy. Wszystkie możemy dostosować do własnych potrzeb.
- Licencja (License) — wprowadzenie klucza licencyjnego do odblokowania pełnej wersji
- Zaawansowane (Advanced) — ustawienia trybu głosowego, konfiguracji sieci i wiele więcej. W tym miejscu możemy również skonfigurować tryb Inline, działający podobnie jak w MacGPT. Wpisujemy nazwę asystenta oraz nasze pytanie w dowolnym polu edycji, naciskamy skonfigurowany skrót (domyślnie Command+Shift+Enter) a program automatycznie wpisze odpowiedź na nasze polecenie do tego samego pola.
BasiliskLLM
W moim pierwszym artykule szczegółowo opisałem dodatek dla NVDA nazywający się po prostu OpenAI. To dodatek oferujący nie tylko funkcje opisywania zdjęć, ale także rozbudowany interfejs pozwalający na rozmowę ze wszystkimi modelami GPT. BasiliskLLM jest ewolucją tego dodatku do osobnej aplikacji kompatybilnej ze wszystkimi czytnikami ekranu oraz popularnymi modelami AI.
Najnowszą wersję basilisca zawsze znajdziesz tutaj. Program jest dostępny zarówno w wersji przenośnej, jak i instalacyjnej, w wariantach 32 i 64-bitowych. Przy pierwszym uruchomieniu aplikacji zostaniemy poproszeni o wprowadzenie kluczy API do kont, z których chcemy korzystać. Możemy oczywiście mieć skonfigurowane kilku dostawców i przełączać się między nimi. Następnie znajdziemy się w oknie rozmowy. Ponieważ program powstał z myślą o potrzebach osób niewidomych, jest ono bardzo proste i posiada mnóstwo skrótów klawiszowych, a najważniejsze ustawienia są łatwo dostępne. Znajdziemy w nim takie opcje, jak:
- Listy wyboru konta i modelu, z jakim chcemy porozmawiać.
- Pole Web Search Mode (Alt+W) — dla modeli, które to wspierają jak np. Gemini, czy mają mieć dostęp do szukania w internecie
- Pola na Prompt Systemowy (Alt+Y), naszą wiadomość (Alt+P) i historie rozmowy (Alt+M).
- Lista załączników (Alt+a) — do wiadomości możemy dołączać pliki skrótem CTRL+F, podając adres URL skrótem CTRL+U lub po prostu wklejając je do pola wiadomości.
- Profile (CTRL+P) pełnią podobną funkcje co asystenci w BoltAI, możemy zapisać konkretny model i prompt systemowy jako profil
- Pasek kart — możemy mieć otwarte kilka rozmów jednocześnie i przełączać się między nimi jak w przeglądarce internetowej. Czaty możemy również zapisać do pliku, który możemy później ponownie wczytać i kontynuować rozmowę.
- Zminimalizowanie aplikacji do zasobnika (CTRL+Alt+Shift+B). Ten sam skrót z dowolnego miejsca wywołuje okno programu.
Zatrzymam się na moment przy dołączaniu plików. Zależnie od modelu będą wspierane różne formaty — GPT wspiera tylko obrazki, Claude pozwala również na dołączanie dokumentów, a Gemini nawet plików audio i video. Aplikacja potrafi również generować transkrypty Whisperem, ale tylko do 25 MB. Oprócz wklejenia pliku do pola edycji mamy jeszcze dwa globalne skróty — CTRL+Alt+Shift+F zrobi i dołączy zdjęcie całego ekranu, a CTRL+Alt+Shift+W bieżącego okna. A dla użytkowników NVDA przygotowano specjalny dodatek, do zainstalowania z menu Tools, który dodaje jeszcze dwa skróty — NVDA+Shift+K, dołączający zdjęcie obiektu pod nawigatorem, oraz NVDA+Shift+L wysyłający adres URL danego obrazka ze strony internetowej.

Po wysłaniu wiadomości o postępie tworzenia odpowiedzi jesteśmy informowani dźwiękami, a odpowiedzi będą czytane automatycznie w trakcie ich generowania. W polu historii wiadomości program oferuje kolejne przydatne skróty pomagające w nawigacji i kopiowaniu wiadomości (pełną listę możemy uzyskać, otwierając menu kontekstowe). Program pozwala M. In: Nawigować między wiadomościami (J/K), skopiować (C), przeszukiwać (CTRL+F), wyświetlić w widoku HTML (H) i wiele więcej.
Program posiada również ekran ustawień, w którym znajdziemy kilka przydatnych opcji. Możemy np. Zdecydować czy Basilisc ma się minimalizować do zasobnika, czy klawisz enter ma tworzyć nowy akapit lub wysłać wiadomość, wyłączyć automatyczne czytanie wiadomości, oraz pokazać zaawansowane ustawienia modelu na ekranie rozmowy.
Podsumowanie
Nie każdy lubi korzystać z przeglądarkowych interfejsów albo przełączać się między różnymi narzędziami. W takich sytuacjach pokazane tutaj aplikacje są bardzo praktyczne. Posiadają natywne, dostępne i jednolite interfejsy, nie musimy myśleć, na jaką stronę wejść tylko skupiamy się na tym, co chcemy osiągnąć, a efekt możemy łatwo wykorzystać w innej aplikacji
Piotr Machacz
.


