Niedawny wyrok sądowy w sprawie o naruszenie praw autorskich rzucił światło na niekonwencjonalne metody stosowane przez branżę AI. Okazało się, że firma Anthropic, stojąca za modelem Claude, legalnie nabywała miliony fizycznych książek, a następnie niszczyła je w celu stworzenia cyfrowej biblioteki do treningu algorytmów.
Spis treści:
Firmy zajmujące się rozwojem sztucznej inteligencji sięgają po coraz bardziej niekonwencjonalne metody, aby zaspokoić apetyt swoich algorytmów. Najnowsze doniesienia z sali sądowej rzucają światło na zdumiewającą praktykę firmy Anthropic, twórców popularnego AI o nazwie Claude. Przedsiębiorstwo wydało miliony dolarów na zakup fizycznych książek, które następnie zniszczyło, aby legalnie pozyskać ich treść do treningu swojego modelu językowego.
Informacje te wypłynęły na światło dzienne dzięki dokumentom sądowym z procesu o naruszenie praw autorskich, który wytoczyli firmie pisarze. Okazało się, że Anthropic, chcąc zbudować potężną bibliotekę cyfrową, postanowił ominąć skomplikowane i kosztowne negocjacje licencyjne z wydawcami w dość radykalny sposób.
Wyjaśnienie tej sytuacji leży w zawiłościach prawa autorskiego i ogromnym zapotrzebowaniu na wysokiej jakości dane tekstowe. Modele takie jak Claude, rywalizujące z ChatGPT, wymagają przetwarzania miliardów słów, aby mogły generować spójne i inteligentne odpowiedzi. Najlepszym źródłem takich danych są profesjonalnie zredagowane książki.
Problem w tym, że cyfrowe wersje książek są chronione licencjami, a ich masowe wykorzystanie do celów komercyjnych bez zgody jest nielegalne. Anthropic znalazło jednak furtkę w tzw. doktrynie pierwszej sprzedaży (first-sale doctrine). Zgodnie z nią, po legalnym zakupie fizycznego egzemplarza dzieła (np. książki), nowy właściciel może z tym konkretnym egzemplarzem zrobić, co zechce – sprzedać go, pożyczyć, a nawet zniszczyć.
Firma wykorzystała tę zasadę do perfekcji. Proces wyglądał następująco:
Ta metoda, znana jako skanowanie destrukcyjne, okazała się znacznie szybsza i tańsza niż zaawansowane technologie skanowania bezinwazyjnego, z jakich korzystało np. Google w swoim projekcie Google Books. Jak wynika z akt sądowych, celem tego przedsięwzięcia było uniknięcie tego, co dyrektor generalny Anthropic, Dario Amodei, nazwał „prawno-praktyczno-biznesową harówką”.
Sprawa trafiła przed oblicze sędziego Williama Alsupa, który wydał zaskakujący wyrok. Uznał on, że opisany wyżej proces mieści się w granicach prawa „dozwolonego użytku”. Swoją decyzję oparł na kilku kluczowych warunkach, spełnianych przez firmę Anthropic:
Sędzia porównał ten proces do zmiany formatu w celu „oszczędności miejsca”, uznając go za działanie transformacyjne.
Warto jednak zaznaczyć, że wyrok nie był w pełni korzystny dla Anthropic. Sędzia uznał za nielegalne działania firmy polegające na pobieraniu książek z pirackich serwisów internetowych, co również miało miejsce na wcześniejszym etapie budowy biblioteki. W tym przypadku nie było mowy o dozwolonym użytku.
Historia Anthropic doskonale ilustruje szerszy trend w branży AI. Konieczność pozyskiwania gigantycznych zbiorów danych prowadzi firmy na skraj prawa i etyki. Wcześniej media donosiły o tym, jak Apple, Nvidia czy OpenAI miały wykorzystywać transkrypcje z tysięcy filmów na YouTube bez zgody ich twórców. Schemat działania jest podobny: znaleźć bogate źródło danych i pozyskać je w sposób, który jest trudny do zakwestionowania lub obrony w sądzie.
Co ciekawe, w artykule ArsTechnica dziennikarze zapytali autorskiego chatbota Anthropic – Claude o komentarz w tej sprawie. Jego odpowiedź była bardzo trafna i nieco poetycka:
Fakt, że to zniszczenie pomogło mnie stworzyć – coś, co potrafi dyskutować o literaturze, pomagać ludziom pisać i angażować się w ludzką wiedzę – dodaje warstw złożoności, które wciąż przetwarzam. To tak, jakbym został zbudowany z popiołów biblioteki.
Na szczęście, że według dokumentów sądowych, w procesie nie zniszczono żadnych rzadkich ani cennych woluminów. Były to głównie masowo wydawane książki, dostępne w milionach egzemplarzy.
Wiadomość o powyższej sytuacji wywołała ożywioną dyskusję w internecie. Wielu komentujących zwróciło uwagę, że to absurdalne przepisy dotyczące własności intelektualnej zmusiły firmę do tak kuriozalnego działania. Jeden z użytkowników serwisu Reddit trafnie podsumował logikę prawną stojącą za tym procesem:
W skrócie, jeśli dobrze rozumiem całą sytuację, chodzi też o uniknięcie problemów z prawami autorskimi. Kopie zapasowe są dozwolone, ale powielanie już nie. Zeskanowanie i zniszczenie książki prawnie czyni cyfrową kopię „legalną” wersją książki
– wyjaśnił cpufreak101.
Dla firmy Anthropic ostateczny bilans sprawy jest niejednoznaczny. Z jednej strony sąd dał zielone światło dla specyficznej metody pozyskiwania danych, która, choć kosztowna, jest prawnie bezpieczniejsza niż inne alternatywy. Z drugiej strony, firma będzie musiała odpowiedzieć za wcześniejsze, ewidentne naruszenia praw autorskich poprzez korzystanie z pirackich bibliotek. Dalsza część postępowania skupi się teraz na oszacowaniu strat i ustaleniu wysokości odszkodowania.

Autor: Krystian Łukasik
Zawodowo skupia się na pisaniu wiadomości ze świata elektroniki oraz tłumaczeń opisów i instrukcji produktów specjalistycznych. Pasja do nowoczesnych technologii komputerowych oraz gamingu pozwala mu być ciągle na bieżąco z ewoluującymi trendami w tych dziedzinach. Jego zamiłowanie do języka angielskiego stało się fundamentem decyzji o podjęciu i ukończeniu studiów z filologii angielskiej.