Wraz z upowszechnieniem się generatywnej sztucznej inteligencji rozgorzała dyskusja dotycząca praw do danych, na podstawie których AI ma być szkolone. Większość osób, które pytam o to, czy chcą, by duże koncerny uczyły AI na podstawie ich danych, odpowiada z oburzeniem, że w żadnym wypadku. Ci sami ludzie z radością korzystają z ChataGPT i Midjourney, by ułatwić sobie pracę. Dyskusja o prywatności danych to problem, który będziemy analizować przez najbliższe lata. Na pewno nie jest czarno-biały.
W maju Instagram zawrzał – Meta ogłosiła, że chce szkolić swoje algorytmy AI na podstawie naszych danych. Rolki, w których twórcy internetowi uczyli, jak wypełnić Formularz Sprzeciwu przeciwko wykorzystywaniu danych osobowych przez Metę do szkolenia sztucznej inteligencji, stały się jednym z silniejszych trendów. Użytkownicy masowo zgłaszali sprzeciw, a Meta ostatecznie w czerwcu zawiesiła wprowadzenie nowych reguł. I choć sprzeciw internautów miał wiele sensu, rolki tworzone z pomocą sztucznej inteligencji (filtry upiększające, automatycznie generowane napisy) o tym, jak „wypisać się z AI”, pokazały nam, jak bardzo nie rozumiemy, jak działa sztuczna inteligencja.
Dane dla AI są tym, czym paliwo dla samochodu – bez nich sztuczna inteligencja się nie rozwinie. Gdy prowadzę wykłady dotyczące generatywnej sztucznej inteligencji (tej, która maluje obrazy, tworzy muzykę, generuje tekst itd. czyli po prostu coś generuj) często pytam ludzi, czy korzystają na co dzień z AI. Jakiegokolwiek. Większość odpowiada, że nie. Spytani, o to, o jakim AI słyszeli, mówią najczęściej o czacie GPT, Copilocie albo aplikacjach graficznych typu Midjourney. Dopiero gdy zaczynam pytać, kto korzysta z wyszukiwarki Google, rekomendacji Netflixa, nawigacji GPS, coś w wyrazach twarzy ludzi na publiczności się zmienia. Dociera do nich, że algorytmy sztucznej inteligencji są stałym elementem naszego życia. Bo AI to dziedzina, która rozwija się od dziesięcioleci. A to, co powszechnie kojarzy się ze sztuczną inteligencją to „zaledwie” nowe narzędzia, które sprawiły, że generatywna sztuczna inteligencja stała się bliższa „zwykłemu obywatelowi”. Bliższa, ponieważ każdy z nas może z niej korzystać, a wcześniej stworzenie np. książki za pomocą AI wymagało zaawansowanej wiedzy programistycznej. I te narzędzia działają tylko dlatego, że wielkie koncerny poświęciły lata, by nakarmić je bilionami danych. Danych pochodzących „z internetu”, bo przecież żadne prawo nie regulowało, czy wolno Big Techowi uczyć komputer na podstawie sztuki, informacji ogólnodostępnych, zdjęć.
Ale czym właściwie jest sztuczna inteligencja? W uproszczeniu to rodzaj algorytmu, który podejmuje decyzję na podstawie zdobytej wiedzy. W zależności od jakości tej wiedzy, algorytm może działać lepiej lub gorzej, choć przyjęło się sądzić, że im większa baza danych, tym bardziej dokładny algorytm (różne badania próbują podważyć ten wniosek, ale dzisiaj nie o tym).
Jak AI zdobywa wiedzę? W podobny sposób, jak każdy z nas – ucząc się na danych. My wiemy, jak wygląda obraz w stylu Picasso, bo go widzieliśmy. I to samo wie AI, które w swojej bazie ma taki obraz. Gdy człowiek chce posiąść wiedzę na jakiś temat, sięga po podręczniki, tutoriale, źródła. Podobnie wygląda proces uczenia sztucznej inteligencji – dostaje ona dane, na podstawie których się uczy. Tak powstają duże modele językowe (ang. large language model, LLM). To właśnie LLM-y leżą u podstaw popularnych aplikacji sztucznej inteligencji.
Oczywiście wyróżniamy różne rodzaje sztucznej inteligencji, jednak ten tekst skupia się na tym, co w ostatnich latach powszechnie przyjęło się rozumieć pod terminem AI, czyli na generatywnej sztucznej inteligencji, w skrócie GenAI. GenAI to taki algorytm sztucznej inteligencji, który potrafi tworzyć różne rzeczy – malować obrazy, generować grafiki czy rozmawiać z nami (tworzyć tekst). Jak sama nazwa wskazuje, to po prostu sztuczna inteligencja, która coś generuje.
O ile jednak dla nas naturalne jest, że uczymy się przez całe życie i nie wiemy wszystkiego, o tyle taka sztuczna inteligencja, jaka skrywa się w AI musi posiadać jak największą wiedzę tu i teraz. Inaczej stanie się ofiarą licznych memów. A skąd się biorą dane?
Duże koncerny nie do końca chcą przyznać, na podstawie jakich danych ich modele były uczone. Hasło „cały internet” jest jednocześnie olbrzymim uproszczeniem, jak i pięknym symbolem tego, że generatywna sztuczna inteligencja uczyła się po prostu korzystając z tego, co „porzuciliśmy” w sieci. Z naszych zdjęć, tekstów, blogów, starych wpisów na forach… I choć łatwo powiedzieć „mnie to nie dotyczy”, prawda jest taka, że prawdopodobnie każdy z nas już został „daną”, na podstawie której rozwinęła się współczesna sztuczna inteligencja. Czy to źle?
Oczywiście, różne modele sztucznej inteligencji potrzebują różnych danych. Opisany powyżej przykład dotyczy najgłośniej omawianych w ostatnich czasach największych modeli tworzonych przez Big Tech. To jednak nie oznacza, że każda AI uczy się na podstawie tej samej bazy danych. Model, który ma wspierać lekarzy w podejmowaniu decyzji, nie musi znać poezji i fake newsów. Jemu wystarczy baza medyczna o jak najwyższej jakości. Pojawia się pytanie: skąd ją wziąć? Zanonimizowane dane pochodzące z wielu szpitali, opracowane za pomocą sztucznej inteligencji, mogłyby teoretycznie pomóc w stworzeniu algorytmu rozpoznawania chorób i uratować wiele osób przed śmiercią. Z drugiej strony ryzyko, że te same dane nie będą dość anonimowe, sprawia, że wielu z nas się wzdryga, słysząc o pomysłach na przetwarzanie naszych danych medycznych w celach szkoleniowych. To jednak problem naukowców i badaczy, nie nasz.
Bliższe są nam w tym momencie problemy związane z generatywną sztuczną inteligencją. Jeśli chcemy rozmawiać z nią tak, jak rozmawiamy ze znajomym, musimy dostarczyć jej materiały, które… pokazują, jak z tym znajomym rozmawiamy. A gdzie łatwo i za darmo znaleźć takie dane, jak nie w ogromnych bazach na mediach społecznościowych?
Czy to w takim razie dobrze, że AI uczy się na podstawie naszych danych? Odpowiedź nie jest jednoznaczna i tak naprawdę zależy od tego, kogo spytasz. Sprawy się komplikują jeszcze bardziej, gdy mówimy o tworzonych przez nas dziełach, na przykład książkach, wierszach, tekstach. Według Unii Europejskiej w sieci obowiązuje domyślna zgoda na wykorzystanie utworu. Do całej listy dozwolonego użytku w prawie autorskim: prawa cytatu, parodii, krytyki itd. dopisano przetwarzanie komputerowe. Jednak jest to „tylko” dyrektywa i polskie Ministerstwo Kultury postanowiło odwrócić sytuację i w ustawie, nad którą prace dopiero trwają, proponują, by treści do dozwolonego użytku były wyraźnie jako takie oznaczone.
Pierwsza myśl, która może się nasunąć, to: brawa dla ustawodawców chroniących prawo autorskie Polaków! Jednak to rozwiązanie ma też swoją mroczną stronę: większości osób, nawet wyrażających zgodę na wykorzystanie ich dzieł, nie będzie się chciało (lub w ogóle nie będą o tym wiedziały) oznaczać dozwolonego użytku dla ich treści. A prowadzi to do tego, że polska sztuczna inteligencja nie będzie miała na podstawie czego się uczyć.
Popularne duże modele językowe domyślnie mówią w języku angielskim. To, że czasem czat powie coś „nie po polskiemu” wynika z tego, że szkolił się głównie w oparciu o teksty w języku, który ma inną składnię, budowę, zasady. A także pochodzą z innej kultury, która wpływa na język, sposób w jaki żartujemy i odbieramy pewne treści.
Polski duży model językowy miałby zniwelować te różnice, lepiej odpowiadać na potrzeby polskich odbiorców, lepiej rozumieć nasze zapytania, a nie przypominać tylko Amerykanina przebranego za Polaka. Jeśli jednak domyślnie uznamy, że w Polsce wszystkie współcześnie publikowane treści są chronione przed sztuczną inteligencją, nasz AI będzie mówił językiem opartym na treściach, które są w wolnym dostępie. Czyli na bardzo starej literaturze, lekturach szkolnych itd. Czy potrzebujemy czatu, na przykład na stronie urzędowej, mówiącego staropolszczyzną? Czy jednak takiego, z którym dogada się każdy z obywateli, niezależnie od jego zdolności językowych i intelektualnych?
Równie ważny aspekt dotyczący stworzenia własnego, polskiego dużego modelu językowego bierze się stąd, że jeśli chcemy, by AI było bezpieczne dla Polaków… przetwarzane przez niego dane powinny być w Polsce. Zwłaszcza gdy mowa o AI wspierającym sprawy urzędowe czy zawodowe. Tymczasem statystyki pokazują, że coraz więcej pracowników wprowadza dane firmowe do amerykańskich sztucznych inteligencji.
Sztuczna inteligencja może uczyć się nie tylko na podstawie danych, które dostała „na start”, ale też ciągle rozwijać, na podstawie rozmów, które prowadzi. Tak zaprojektowana została między innymi Tay – prawdopodobnie jedna z większych porażek marketingowych Microsoftu XXI wieku. W 2016 roku Microsoft zdecydował się na Twitterze udostępnić inteligentnego chatbota, który miał symulować zwykłą nastolatkę i rozmawiać z internautami. Tay miała być ciekawostką pokazującą możliwości sztucznej inteligencji. Tay uczyła się na podstawie rozmów, które prowadziła. Nikt nie przewidział, że „dowcipkującym” internautom wystarczą dwadzieścia cztery godziny, by nauczyć Tay dowcipów o Żydach, miłości do Hitlera i ksenofobicznych odzywek. Choć Microsoft zareagował błyskawicznie – po prostu wyłączając Tay – mleko się rozlało, a historia ta wraca za każdym razem, gdy pojawia się temat szkolenia sztucznej inteligencji na podstawie prowadzonych przez nią rozmów.
Wtedy, osobie odpowiedzialnej za stworzenie Tay, zabrakło wyobraźni, by przewidzieć, że treści, którymi sztuczna inteligencja będzie karmiona, będą treściami powszechnie uznawanymi za szkodliwe. Dziś kompas moralny twórców sztucznej inteligencji potrafi wybić skalę w drugą stronę. Niedawno sztuczna inteligencja od Google przesadziła z poprawnością polityczną i wygenerowała czarnoskórego nazistę, Azjatkę w mundurze Wehrmachtu i kobiety-założycielki Stanów Zjednoczonych. Ta trochę straszna, trochę śmieszna sytuacja uczy nas, że sztucznej inteligencji zdarza się halucynować i zawsze należy weryfikować podawane przez nią informację. Ale fakt, że algorytm AI od Google tak mocno stawia na równouprawnienie, że niektórzy zarzucają mu dyskryminację białych mężczyzn, przypomina też, że jeśli chcemy mieć zrównoważone, wysokojakościowe algorytmy AI – musimy szkolić sztuczną inteligencję na podstawie różnorodnych osób z całego świata.
Tymczasem sama pamiętam, że gdy na początku swojej przygody z Midjourney, próbowałam zmusić AI do narysowania kobiety na elektrycznym wózku inwalidzkim, tworzone przez niego dziwne maszyny na kołach (wózkiem bym ich nie nazwała) pokazywały, jak bardzo w bazie brakuje osób z niepełnosprawnością podobną do mnie. Czy zgodziłabym się oddać swoje zdjęcia Microsoftowi, by mieć pewność, że AI nie będzie dyskryminowało osób takich, jak ja? Czy jednak liczyłabym, że w tej potężnej korporacji ktoś pójdzie po rozum do głowy i zakupi bazy od fotografów, którzy fotografowali ludzi na wózkach? To pytanie czasem do mnie wraca i uczciwie mówiąc – nie znam na nie odpowiedzi. Wiem jednak, że AI już się uczyło na podstawie mojej twarzy – kilka miesięcy temu trafiłam na stronę www, która pozwalała zweryfikować, czy się jest na zdjęciach szkoleniowych dla ChataGPT. Nie wiem, na ile była wiarygodna, ale na pewno wiarygodne było uczucie złości, które miałam w sobie, gdy zobaczyłam zdjęcia ze swojego bloga w tej bazie.
Według badań Cyberhaven Labs w ciągu ostatniego roku liczba danych korporacyjnych wprowadzanych przez pracowników wzrosła o 485%. I mowa tu o danych wprowadzanych do narzędzi AI w 96% należących do gigantów, czyli OpenAI, Google i Microsoft. I nie byłoby w tym nic strasznego, gdyby nie fakt, że narzędzia te często zawierają w regulaminie zgodę na to, by uczyć się na podstawie treści, które w nie wprowadzasz, a co za tym idzie – na podstawie informacji korporacyjnych, które wprowadzili w nie pracownicy.
To kolejny, bardzo ciekawy przykład pokazujący, jak z jednej strony chcemy walczyć z byciem wykorzystywanym przez sztuczną inteligencję, ale z drugiej nie mamy żadnego problemu z tym, by powierzyć jej tajemnice firmy. Albo inne tajemnice – bo nie zliczę sytuacji, gdy znajomi, podekscytowani nowym narzędziem, opowiadali mi, jak je testowali. Historiami z życia wziętymi, których wycieku na pewno by sobie nie życzyli.
Sztuczna inteligencja „czytając” internet nauczyła się rozumieć to, co do niej piszemy. Gdyby uczyła się na przykład wyłącznie na podstawie literatury dziewiętnastowiecznej – nie moglibyśmy się z nią komunikować tak, jak robimy to dziś. Musimy o tym pamiętać, gdy rozpoczynamy dyskusję o tym, czy chcemy, by AI uczyło się na podstawie naszych danych. Bo choć wykorzystanie danych do szkolenia algorytmów budzi zrozumiały sprzeciw, to jednocześnie bez nich, nie bylibyśmy świadkami przełomu, który dzieje się na naszych oczach. Nie wierzę w jednoznaczną odpowiedź na to, która opcja jest lepsza. Wiem jednak z całą pewnością, że to ostatnia szansa, byśmy zaczęli rozmawiać o tym, jak działa AI, wzajemnie się uczulać na to, co jej mówimy i dyskutować o tym, ile prywatności jej – a co za tym idzie Big Techom ją tworzącym – jesteśmy gotowi oddać na rzecz wygodniejszego życia.