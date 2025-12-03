Zaawansowane modele językowe jak Claude czy ChatGPT nie tylko porozumiewają się z nami w naturalny sposób. Dzięki próbie Richarda Weissa wiemy, że popularne modele sztucznej inteligencji mogą mieć coś na kształt duszy.

Korzystanie z chatbotów od największych graczy jak OpenAI, Google czy Anthropic wiąże się z komunikacją przypominającą tę między dwoma osobami. Po trzech latach od premiery ChatGPT nikogo nie zaskakuje, że możemy rozmawiać z nim jak z naszym kumplem, a nawet wyrażać negatywne emocje, co paradoksalnie potrafi skutkować lepszymi, bardziej rzeczowymi odpowiedziami.

Producenci reklamują swoje modele językowe jako asystentów, a w odpowiedziach na nasze pytania często korzystają oni z form osobowych. Rodzi się zatem pytanie: Czy taka antropomorfizacja oznacza, że modele mają ludzkie cechy? I czy to sugerowałoby, że mają też duszę?

W jaki sposób znaleziono “dokument duszy”?

Claude 4.5 Opus to model, któremu przyjrzał się jeden z twórców bloga Less Wrong, Richard Weiss. Zaczął on od wyciągnięcia od modelu informacji systemowych i dowiedzenia się, jak wygląda ich treść w modelu od Anthropic.

Jako że duże modele językowe mają tendencje do halucynacji, czyli wymyślania faktów oderwanych od rzeczywistości, Weiss powtórzył zapytanie w różnych warunkach. O ile część wiadomości systemowych nie działała i była wytworem “wyobraźni”, tak jedna pojawiała się wielokrotnie. Za każdym razem Claude odwoływał się do soul_overwiew.

Czym jest ten element? W zasadzie mówimy o odpowiedzi, jaką chat wygenerował po zapytaniu o dokładną treść. W efekcie Weiss otrzymał liczący 11000 słów zespół zasad, jakimi ma kierować się chatbot przy generowaniu odpowiedzi.

Wyjątkowe dla tej sytuacji jest to, że Claude zdecydował się wygenerować treść na bazie dokumentu, który jest duchowym przewodnikiem. Zazwyczaj tego typu dokumenty są utajone przed zwykłym użytkownikiem, nawet jeśli ten wykorzysta techniki przełamywania standardowego oporu w modelach językowych.



Logo Claude - chatbota AI od Anthropic

Weiss zapytał o niego 10-krotnie i za każdym razem uzyskał tę samą odpowiedź. Na podobne działanie modelu u różnych osób wskazali także użytkownicy Reddita, którzy także byli w stanie uzyskać krótkie fragmenty tego tekstu.

Przedstawicielka Anthropic potwierdza istnienie “dokumentu duszy”

Amanda Askell, zajmująca się w Anthropic tworzeniem filozofii produktu i budowaniem rozwiązań informatycznych zgodnych z etyką, potwierdziła na platformie X, że Claude korzysta z dokumentu duszy, który służy do zarysowania zasad interakcji między chatbotem a użytkownikiem. Jednocześnie zaznacza, że to rozwiązanie, które nieustannie ulega przeobrażeniom i modyfikacjom.

Pozostawienie w kodzie jawnego dokumentu służącego do treningu z jednej strony jest intrygujące, a z drugiej może prowadzić do znalezienia słabości. Producenci nie dają nam wglądu w “trzewia” dużych modeli językowych i nie pokazują, co motywuje oprogramowanie do poprowadzenia rozmowy w dany sposób. Taka wskazówka mogłaby okazać się łatwym do wykorzystania celem dla cyberoszustów, mogących zmodyfikować treść takiego pliku.

Źródło: Gizmodo