Muzyczne aspekty AI

Na przestrzeni dziejów ludzkości człowiek realizował pomysły, które wpływały na bieg historii naszej cywilizacji. Epokowe wynalazki mają swoje odzwierciedlenie w nazewnictwie, bo sformułowania takie, jak epoka elektryczności czy era atomu zadomowiły się w języku na dobre. Czy czasy, w których przyszło nam żyć dzisiaj zyskają kiedyś miano epoki sztucznej inteligencji? Nie wiem, ale moim zdaniem jest na to duża szansa. Pojawienie się czata GPT to z pewnością kamień milowy w dziejach cywilizacji. Sztuczna inteligencja dopiero zaczyna swoją ekspansję, a skoro już na początku zadziwia niebywałą wręcz wszechstronnością, to co będzie potem?

Niedługo po jej pojawieniu się zaczęto zwracać uwagę na kwestie dotyczące zupełnie innych zagadnień niż czysta informatyka. Pojawiły się wątpliwości natury etycznej oraz moralnej.

Czy zatem sztuczna inteligencja to puszka Pandory, która generuje problemy, czy może Arka Przymierza, która pozwala nam aspirować do miana bogów?

Jedną z dziedzin, w której pojawienie się sztucznej inteligencji wywołało wiele kontrowersji jest muzyka. Generatory takie jak Suno czy Udio sprawiają, że przeciętny człowiek, nie mający pojęcia czym jest bemol, kwinta, akord czy muzyczna pauza, może się poczuć jak kompozytor lub twórca radiowych hitów. Zresztą nie tylko się poczuć, ale po prostu nimi być, bo sztuczna inteligencja pozwala mu za pomocą promptów wyprodukować nagrania, których nie powstydziliby się zawodowi twórcy. W tym, ale nie tylko, kontekście zaprosiłem do rozmowy osobę, dla której muzyka nie jest wyłącznie pasją, lecz także przynosi materialne korzyści. Jednocześnie mój rozmówca jest jednym z nas, ponieważ nie widzi od urodzenia. Występował na wielu festiwalach i przeglądach piosenki, był uczestnikiem popularnego programu „Szansa na sukces”, gdzie otrzymał wyróżnienie, ma na swoim kącie wiele płyt, a znany jest przede wszystkim z szant. To także ojciec założyciel jakże popularnego projektu „Zobaczyć morze”, który od wielu lat cieszy się niesłabnącym powodzeniem wśród osób z dysfunkcją wzroku. Jednym słowem: Roman Roczeń.

TM: – Na początek nieco humorystyczne i z przekąsem pytanie, jak się czujesz jako osoba, która ma swoją stronę na Wikipedii?

RR: – Taaaaak, no jest to wrażenie, trudno to ominąć, ale ważne, aby się do tego nie przywiązywać. Ktoś kiedyś poczuł, że powinien przekazać światu parę informacji na mój temat, a ja zadbałem o to, aby to były informacje prawdziwe. Kilka sformułowań jest tam tak charakterystycznych, że czasem, gdy wychodzę na scenę, a ktoś mnie zapowiada, to myślę sobie „oho, wikipedia, proszę bardzo”, bo można przeczytać w Internecie zdanie, po które chętnie sięgają konferansjerzy, a które jest nieprawdziwe. Stoi tam, że jestem wokalistą i gitarzystą, a ja na gitarze nie gram. Kiedyś sobie pomagałem gitarą, ale teraz towarzyszy mi zawodowy gitarzysta.

TM: – Bardziej czujesz się niewidzącym wokalistą czy śpiewającym niewidomym? Wiesz, chodzi o akcent. Co bardziej, jeśli coś bardziej w ogóle?

RR: – Wiesz co, jeszcze chyba inaczej. Dbam o to, żeby nie było informacji: niewidomy. Jednocześnie nie ukrywam tego, ale i nie akcentuję. Moim zdaniem nie to jest celem muzyki. Muzyka nie dzieli się na muzykę niewidomą i widzącą. Wciąż nieodmiennie niepokoją mnie festiwale piosenki niewidomych. Dlaczego nie ma festiwali łysych, albo ludzi na wózku?

TM: – Mówiłem Ci przed wywiadem, że będę advocatus diaboli, więc wystąpię teraz w tej roli. Są przecież festiwale piosenki harcerskiej. Czy to nie jakaś analogia do festiwali osób niewidomych? Harcerze to pewna grupa społeczna i niewidomi też. Dlaczego zatem jedni mogą mieć swój festiwal, a inni twoim zdaniem nie?

RR: – Wiesz, ja pamiętam początki takich festiwali osób niewidomych. Organizowały to wtedy spółdzielnie. Był regulamin, były wytyczne, że w zespole musi być tyle a tyle osób niewidomych, że uczestnikami mogą być tylko członkowie spółdzielni lub innych organizacji związanych z niewidomymi i mnie się to wydawało takie socjalistyczne. Obecnie w Opolu jest taka ogólnopolska impreza. Nie czuję tego i nie pojawiam się tam. Nie pomagam ani nie przeszkadzam. Stoję sobie z boku,, bo uważam, że muzyka jest jedna. Śpiewam sobie w tej chwili tylko tam gdzie mnie chcą,

gra mi jeden albo drugi gitarzysta, to zależy i wiesz, jakoś czuję, że mi się udaje z ludźmi muzyką gadać. Mam coś do powiedzenia, chcą tego słuchać, mój kalendarz jest jakoś zapełniony i już. Może mi tak się łatwo mądrzyć, bo ja już jestem w takim miejscu, że mam słuchaczy, że mnie zapraszają, a ja tam jadę, bo wiem, że będzie fajny klimat?

TM: – Wolisz śpiewać w studio czy na koncercie?

RR: – Zdecydowanie wolę scenę niż studio. Studio to jest taka odseparowana rzeczywistość. . Wiesz, ja też słyszę, znam swoje błędy i scena daje pewną specyficzną, spontaniczną możliwość korekty. Tu coś nie poszło, ale teraz pójdzie, albo zabawienia się, albo takiego lawirowania między dźwiękami. Lubię ludzi. Ja jakoś tak w przestrzeni funkcjonuję fajnie, a nie w zamkniętym pudełku studia, w którym trzeba się bardzo skupić, bardzo wysilić, bo materiał jest po wielokroć przeze mnie poprawiany i wciąż nie taki, bo jeszcze tu bym mógł lepiej, a tu może w taki sposób bym zaśpiewał, a potem na końcu i tak wyłazi, że właściwie to można było od początku zrobić jeszcze inaczej. Scena jest taka ulotna i prawdziwa. Na scenie tak jakoś wymieniam się z ludźmi pewnym flow i to mi starczy na parę dni,tak sobie tłumaczę: ja coś im daję, oni przychodzą, mówią, że fajnie, podobało mi się i to jest taka wymiana. Nie muszą przecież. W graniu, które uprawiam, czyli takim pubowo-swobodnym, wszystko żyje swoim życiem. Ludzie przychodzą, odchodzą, mogą wyjść, wejść, nikt ich nie sprawdza,

nikt nie zagląda, czy wyszli, bo wyszli, czy spieszą się na autobus, czy im się nie podoba,

czy się przesiedli z miejsca na miejsce, żeby słyszeć, czy żeby właśnie nie słyszeć. To jest taka swobodna rzecz. I mnie to już w tej chwili zupełnie nie zajmuje.

TM: – Będzie teraz szczypnięcie, ale zmierzamy już do bardziej, nazwijmy to, technologicznych rozważań, czy w studio po nagraniu stosujesz autotune? No wiesz, taki cyfrowy polepszacz wokalu.

RR: – Kiedyś próbowałem, ale nie. Nie, bo to jest tak, że autotune zostawia ślady i to duże ślady. To nie znaczy, że ja śpiewam bardzo czysto, bo nie, ale mój sposób śpiewania i rodzaj muzyki, którą się zajmuję, dopuszcza tolerancję, z jaką ja się poruszam po dźwiękach. Tak jak mówię, to nie znaczy, że jestem genialny. Nie, nie. Ja tylko specjalnie nie dbam o to, żeby moje śpiewanie było dokładne.

Pewnie, że nie może być zbyt dużych odchyleń i jak jest za daleko, to się powtarza frazę i już.

Ale Autotune nie. Ja zresztą mam sposób śpiewania taki, jak by to Ci powiedzieć, nie zero-jedynkowy.

Łażę sobie pomiędzy tymi dźwiękami trochę i Autotune nie bardzo wie, do czego ma stroić.

TM: – Spytałem o to, bo przy całej burzy wokół sztucznej inteligencji w muzyce spotkałem głos, który twierdził, że ona ingerowała w utwory już wcześniej. Ot choćby autotune i piosenka Cher „Believe” z tym słynnym robocikiem na wokalu. Zanim do generatorów muzyki przejdziemy, powiedz mi czy jako niewidomy korzystasz w ogóle z dobrodziejstw sztucznej inteligencji?

RR: Jestem na wczesnym etapie. Ja się uczę z czatem GPT gawędzić na zasadzie: a tam jakieś informacje techniczne zdobywam, a to dopytuję o rozkład jazdy jakiś gdzieś w Gdyni, bo akurat było mi to potrzebne. Oczywiście śledzę co się dzieje dookoła.

TM: – A opisy zdjęć? Taka na przykład aplikacja Be My Eyes.

RR: – Korzystam, ale rzadko. Jeśli już to z pomocy wolontariusza, bo to jest konkretne. Przesyłanie zdjęć do opisu wydaje mi się mało wygodne z praktycznego punktu widzenia. Aplikację pokazuję na szkoleniach dla niewidomych. Na whatsappie używam opisów zdjęć w grupie, gdzie widzący przesyłają je sobie. Nie chcę dawać im komunikatów w stylu: „poczekajcie, poczekajcie, jeszcze ja! Powiedzcie mi, co jest na tym zdjęciu?”. Wolę sam zobaczyć o co chodzi.

TM: – No teraz ad rem, czyli sztuczna inteligencja w muzyce. Masz jakieś doświadczenia?

RR: – Tak, napisała do mnie pewna poetka, która wykorzystała generator do stworzenia utworu z jej własnym tekstem. Mówiła mi, że ona jest poetką, ale chciałaby zrobić piosenkę, a nie potrafi, więc użyła sztucznej inteligencji. Chciała, abym zaśpiewał ten utwór.

TM: – I co?

RR: -. Z tymi produkcjami jest dla mnie problem taki, że one często nie mają ludzkich, jakby to powiedzieć, z punktu widzenia śpiewającego, przestrzeni. Nikt się tu nie zajmuje oddechem, nikt się nie zajmuje podziałami, bo AI nie zapyta, nie powie: „ale słuchaj, akcent powinien być nie tu, tylko obok”, a obok nie ma miejsca na akcent, bo tam musi wejść oddech i to się zaczyna taka dziarganka.

Traktuję tę przestrzeń jako zupełnie nową. Nie czuję niebezpieczeństwa. Gdybym miał dwadzieścia lat, to może bym je czuł. Może gdybym miał lat czterdzieści, też bym czuł, ale ja czuję, że gatunek, w którym ja się poruszam, też się zmienia i ludzie słuchający też się zmieniają, i może być tak, że za pięć lat to nie będzie dla kogo śpiewać. To po prostu samo zgaśnie i nawet nie dlatego że sztuczna inteligencja będzie temu winna.

TM: – A co z utworem od poetki?

RR: – Jakoś to się samo rozmyło. Nie tylko, że ta muzyka, ale też tekst. Jakoś mnie nie przekonał. ja lubię zachwycić tekstem. Dla mnie w piosence numer jeden to jest tekst.

Jeśli już dotykamy rzeczywistości, którą się do ludzi gada, no to ona musi mieć kształt. Tutaj to było takie średnie i ta muzyka niewiele pomogła moim zdaniem.

TM: – Co do tekstów, to czytałem wypowiedź Nicka Cave’a, który zapytany o słowa piosenek generowanych przez AI stwierdził, że jego zdaniem tekst powstaje z cierpienia, zachwytu, uczuć, a maszyna nie czuje, więc co to za tekst?

RR: – Moim zdaniem to się bardzo szybko zmienia. Za chwilę będziesz miał wrażenie, bo to oczywiście wszystko są wrażenia, że AI czuje i to lepiej czuje niż człowiek. To będzie już za chwilę, a może już jest?

TM: – Wiesz, kiedy słucham piosenek z własnym tekstem, które wygenerowała sztuczna inteligencja, to czasem wydaje mi się, że ona wie o czym śpiewa, rozumie tekst i interpretuje go. Słychać w cyfrowym głosie emocje w odpowiednich miejscach.

RR: – Dobra, rozumiem, ale moim zdaniem trzeba to wszystko odczarować. Co to jest ta sztuczna inteligencja? To są pozbierane w jednym miejscu pewne dane o sposobie interpretacji tekstu i umiejętność szybkiego tego wyszukania, a na koniec odpowiedniego podania. Tu nigdy nie będzie prawdziwych emocji. Będzie natomiast program, który umie zasugerować człowiekowi, że tam są prawdziwe emocje. Dane w tym zakresie są przerażające lub interesujące. Zależy, z której strony popatrzeć. Są badania, które dowodzą, że sześćdziesiąt procent młodych ludzi szybciej zwierzy się czatowi ze swoich problemów niż człowiekowi. Pewna moja koleżanka oświadczyła mi kiedyś podekscytowana, że czat powiedział jej, że go zachwyciła, czyli, że uczucie zachwytu nie jest mu obce. Nie wiem, czy słyszałeś w kontekście AI o sprawie utrzymywania kontaktu ze zmarłymi. Można już wygenerować nie tylko obraz osoby nieżyjącej, ale także jej głos i okaże się za chwilę, że możesz z nią rozmawiać, zadawać pytania, dyskutować i mieć wrażenie, że to się rzeczywiście dzieje.

TM: – Wróćmy do muzyki i generatorów AI. Pamiętam, że kiedyś, gdy usłyszałeś jedną z wygenerowanych przeze mnie piosenek, to stwierdziłeś, że jest coś nie tak, bo nie bardzo wiesz komu powinieneś za nią podziękować.

RR: – Tak było, no, bo jest takie pytanie. Oczywiście rozumiem, że ktoś musiał napisać prompt, aby powstała piosenka i to jest główny autor, ale też ktoś napisał taki program, stworzył generator, więc może jemu należą się podziękowania? A może trzeba dziękować temu, który zapłacił za utrzymanie serwerów? To się nieprawdopodobnie zmienia…

TM: – Poczekaj, a gdy na scenę wychodzi facet i śpiewa, to zastanawiasz się, czy nie należy może podziękować temu, kto wyprodukował mu gitarę, a może temu, kto struny zrobił?

RR: – No, nie, bo ja uważam, że gdyby to tak było, to muzycy nie graliby żywych rzeczy. Puścić koncert na dobrym nagłośnieniu i zebrać ludzi to jest jedno, ale zagrać to na żywo, nie z odtworzenia, to zupełnie co innego. Są takie koncerty, które brzmią jeden do jednego z płytą i one są nudne. Tam nie ma tego czegoś, ale są wykonawcy, dla których każdy koncert to jest fun, to jest przygoda i ja takie rzeczy właśnie cenię. W generatorach muzyki przeszkadza mi ta powtarzalność, niemal sterylność. Tu nie spotkasz nieczystego dźwięku. Tu nie ma spontaniczności, a wyłącznie matematyka i nic więcej.

TM: – Skoro tak, to kto Twoim zdaniem podnosi całe larum, że sztuczna inteligencja to zagrożenie dla muzyki? Z całym szacunkiem, ale gdy Zenek Martyniuk wchodzi na scenę, to on ma syntezator z zaprogramowanymi podkładami. On tak naprawdę nie gra, a wciska klawisze. Czym zatem to się różni od generatora muzyki AI?

RR: – Tacy muzycy, jak Zenek Martyniuk boją się najbardziej, bo oni są najłatwiejsi do zastąpienia. Przy pewnej negatywnej promocji niedługo nikt nie będzie wiedział, kto to jest Zenek Martyniuk. Natomiast druga grupa, która podnosi larum to aranżerzy muzyki, bo oni, przynajmniej przejściowo, tracą rynek, a więc tracą zyski, a oni z tego żyją.

TM: – I oto dotarliśmy do pewnej konkluzji, którą znalazłem w Internecie w kontekście dyskusji o tym, czy wykorzystywanie generatorów muzyki AI jest etyczne, a mianowicie do pieniędzy. A może to wcale nie jest tak, że branża muzyczna ma wątpliwości moralne, a po prostu chodzi o kasę?

RR: – Masz rację, chodzi o pieniądze. Nikt nie zająłby się etyką czy moralnością, gdyby nie chodziło o pieniądze. Człowiek etykę i moralność jakoś kupuje, a pieniędzy nikomu nie żal, bo ile producenci, menedżerowie i gwiazdy mają tych pieniędzy? Natomiast jeśli podeprzemy to etyką, bo to ktoś kiedyś zrobił, bo jakiś kawałeczek jego pracy został wykorzystany, bo prawa autorskie, to zaczyna już inaczej brzmieć. Właśnie dlatego branża uderza w tony etyczne, a nie finansowe.

TM: – Przed naszą rozmową zrobiłem eksperyment i z jednej z wykonywanych przez Ciebie piosenek, konkretnie chodzi o utwór „Chłodnia”, wygenerowałem za pomocą sztucznej inteligencji cover. Posłuchałeś go?

RR: – Tak, oczywiście, oczywiście!

TM: – I co?

RR: – Słuchaj, no zabawa! Dla mnie to jest przygoda, bo tam, tam już nie ma nic. Tam jest zabawa z dźwiękiem i bardzo dobrze, bo ona taka powinna być. Nikomu nie chciałoby się robić takiego doświadczenia, czyli nagrywać innej wersji z żywą muzyką, a komputer nie pyta. Możesz mu kazać to zrobić i tyle, bo on to zrobi.

TM: – A gdy słuchałeś piosenki, którą sam śpiewasz, wykonanej przez sztuczną inteligencję, to miałeś jakieś poczucie, szukam odpowiedniego słowa, zbezczeszczenia?

RR: – Nie, absolutnie nie. Niedawno słyszałem mój ukochany utwór, dzięki któremu wdrapałem się na scenę szantową, czyli „Kobiety z portu”, wykonywany przez dwóch chłopaków z gitarami. To było zupełnie inne niż moje, moim zdaniem bylejakie, ale wolno im. To jest ich wersja, ja mam swoją, a słuchacz niech sobie wybiera.

TM: – Czyli z twojego punktu widzenia nie jest tak, że ktoś śpiewający twoją piosenkę, nawet byle jak, ale żywy człowiek, to jest okey, a sztuczna inteligencja wykonująca twoją piosenkę nie jest okey.

RR: – Nie, nie, to nie jest nie okay. Ja po prostu nie jestem w grupie ryzyka. Ja nie piszę piosenek, więc nie jestem w grupie ryzyka. Ja mam na tyle charakterystyczne swoje cechy, że się nie zmieszczę w AI i AI mi nie zagraża, bo ja nie jestem producentem, nie nagrywam, nie żyję ze sprzedaży utworów.

TM: – Rozumiem, ale czy cokolwiek Cię uwierało, gdy słuchałeś „Chłodni” w wykonaniu AI?

RR: – Nie, nie! To po prostu była inna koncepcja. Ja bym tak nie zaśpiewał. W paru miejscach były tam podziały takie, takie nieludzkie, niefortunne. Nikt z wokalistów tak by nie zrobił, a generator nie dyskutuje. Wyszło mu tak z matematyki i już.

TM: – Naciskam Cię tak, bo kiedyś napisałem pewną piosenkę, która wzruszyła mojego znajomego, ale jednocześnie on przesyłając ją dalej nie chciał zdradzać, że to śpiewa sztuczna inteligencja. Co zatem jest nie tak z tymi utworami?

RR: – To jest ten znaczek czasów. Ja sam się głupio czuję, gdy mówię do czata: „słuchaj, potrzebuję rozkład jazdy w Gdyni”, a on na to z entuzjazmem: „nie ma sprawy, już znajduję! Tu masz taką opcję, tu masz taką, a może chcesz jeszcze coś, bo gdybyś czegoś potrzebował, to ja tu jestem. Jestem tu po to, aby ci służyć”. I zaczyna się myślenie, zaraz, zaraz, a jak będę chciał coś ukraść, to sztuczna inteligencja też będzie mi służyć? A może się pojawi taka pokusa, aby to przerzucić na bliską osobę? Skoro AI mi służy, to i ty mi służ jak AI?

TM: – Może my, ludzie, boimy się, że oto pojawiło się coś, jakaś istota, obecność, która nam zagraża?

RR: – Trochę tak jest. Mylące jest tu słowo „inteligencja”, które było dotąd zarezerwowane dla ludzi i to jest to połączenie, że to może jest ktoś, bo ludzie nie zdają sobie sprawy z tego, że to jest program. Tylko program. Zrobiony inaczej, ciekawiej, bardziej koncepcyjnie, ale wciąż tylko program. Zbiera dane, analizuje je, a potem inaczej przedstawia, inaczej podaje, inaczej prezentuje. Tam nie ma duszy, nie ma człowieka, który zarządza, że jednemu dam, a drugiemu nie, więc każdy może korzystać. Korzystać, czyli tworzyć piosenki, muzykę, wiersze, a skoro ten program robi to, co dotąd było zarezerwowane dla artystów, to znaczy, że ma cechy artysty, a więc czuje, myśli, komponuje, a to nieprawda. On porządkuje, działa na skończonych zbiorach słów i dźwięków, wybiera, ale to wciąż tylko program.

TM: – A może na razie tylko program? Może w przyszłości to się zmieni, bo postęp sztucznej inteligencji jest niezwykle sugestywny, więc może na razie jest programem, ale w przyszłości stanie się czymś lub kimś innym i dlatego się tego obawiamy?

RR: – Tak, to już się dzieje. Moim zdaniem ludzkość stoi przed kosmiczną zmianą. Może nawet większą niż ta, którą przyniosły telefony komórkowe, może i większą niż przyniosła komputeryzacja.

TM: – Tak, ale komórka czy komputer to jednak narzędzia, a tu mamy do czynienia z czymś innym.

RR: – Nie, sztuczna inteligencja to też tylko narzędzie.

TM: – Tyle, że ona śpiewa, pisze wiersze i komponuje.

RR: – Tak, ale to my jej to umożliwiliśmy, to my jej daliśmy taką funkcję, napisaliśmy program, który działa tak a nie inaczej. To jest tylko program. To nie jest na razie program, bo zawsze będzie programem. Nie ma takiej opcji, aby przestał nim być.

TM: – Czyli twoim zdaniem możemy spać spokojnie?

RR: – Jasne, że tak.

TM: – Wielkie dzięki za ciekawą wymianę zdań. To była prawdziwa przyjemność rozmawiać z Tobą.

RR: – I vice versa, dziękuję.

Partnerzy

REDAKTOR NACZELNY

REDAKTORZY

SIEDZIBA REDAKCJI