Nowy Grok już jest. Ma być lepszy niż ChatGPT

Nowy Grok już jest. Programiści dopracowali empatię, kreatywność oraz precyzyjną wiedzę faktograficzną, co ma stawiać ulepszoną wersję Groka w ścisłej czołówce światowych modeli językowych. Przynajmniej tak deklarują twórcy.

Paweł Maziarz

18 listopada 2025, 11:13

Firma xAI zaprezentowała Grok 4.1 - najnowszą generację modelu sztucznej inteligencji, która znacząco rozszerza jego praktyczne możliwości. To nie tylko aktualizacja, ale jakościowy skok, który stawia Groka w ścisłej czołówce światowych modeli językowych. W nowej wersji wprowadzono ulepszenia obejmujące styl i osobowość, kreatywność, zdolności emocjonalne oraz niższy poziom halucynacji, a także precyzyjne dostrojenie dzięki nowatorskim technikom treningowym.

Co nowego w Grok 4.1?

Grok 4.1 został zaprojektowany tak, aby rozmowa z nim była bardziej naturalna, zniuansowana i emocjonalnie trafna. Twórcy chwalą się, że Grok 4.1 względem Grok 4 z lipca 2025:

lepiej rozpoznaje intencje użytkownika,
odpowiada w sposób bardziej wyrazisty i empatyczny,
utrzymuje spójną, wiarygodną osobowość,
zachowuje jednocześnie precyzję i „ostrość intelektualną” poprzednich wersji.

Wszystko to osiągnięto dzięki potężnej infrastrukturze RL (reinforcement learning) z Grok 4 oraz nowym metodom optymalizacji stylu, osobowości i wyrównania modelu z ludzkimi preferencjami.

Ulepszona skuteczność - Grok 4.1 wygrywa w testach porównawczych

W rankingu LMArena dotyczącym testów tekstowych (Arena Tekstowa), najnowsza wersja modelu Grok 4.1 Thinking zajmuje pierwsze miejsce w klasyfikacji generalnej z wynikiem 1483 punktów ELO. Oznacza to przewagę 31 punktów nad najlepszym modelem, który nie korzysta z technologii xAI.

Ciekawostką jest, że Grok 4.1 w trybie bezrozumowym (kodowa nazwa: tensor) również osiąga bardzo wysoki wynik – 1465 punktów ELO, co daje mu drugie miejsce. W tym trybie model nie używa tokenów myślenia i odpowiada natychmiastowo. Mimo braku „pełnego rozumowania” przewyższa on wszystkie inne modele, które w publicznym rankingu używają pełnego trybu rozumowania.

Dla porównania, poprzednia wersja Grok 4 osiągnęła dopiero 33. miejsce, co podkreśla znaczny wzrost jakości i możliwości w wersji 4.1.

Podczas dwutygodniowego silent rollout (1–14 listopada 2025) Grok 4.1 został przetestowany podczas realnego użytkowania. Wyniki mówią same za siebie – nowy model był wybierany w 64,78 proc. przypadków.

Inteligencja emocjonalna na nowym poziomie

Aby ocenić postępy modelu Grok 4.1 w zakresie osobowości i umiejętności interpersonalnych, przeprowadzono test EQ-Bench3. EQ-Bench to benchmark oceniany przez modele językowe (LLM), który mierzy aktywną inteligencję emocjonalną, zdolność rozumienia, wnikliwość, empatię oraz kompetencje interpersonalne.

Zestaw testowy składa się z 45 wymagających scenariuszy odgrywania ról, z których większość zawiera trzy tury predefiniowanych promptów. Benchmark ocenia wyniki modeli, porównując odpowiedzi według kilku kryteriów jakości. Dodatkowo, stosuje porównania parami, aby obliczyć normalizowany wynik Elo dla każdego modelu w rankingu.

Nowy Grok 4.1 wykazuje znacznie większą głębię empatii – odnosi się do szczegółów, wizualizuje sytuacje, waliduje emocje użytkownika i w bardziej osobisty oraz realistyczny sposób zachęca do dzielenia się wspomnieniami. W efekcie Grok 4.1 znacząco poprawił swoje zdolności interpersonalne i emocjonalne w porównaniu do poprzedniej wersji, co znajduje odzwierciedlenie w wyższych wynikach w benchmarku.

Grok imponuje też kreatywnością

W benchmarku Creative Writing v3, badającym literacką jakość i twórczość Grok 4.1 Thinking zdobył 1721.9 Elo, zajmując #2 miejsce tuż za wczesną wersją GPT 5.1. Standardowy Grok 4.1 również znalazł się w ścisłej czołówce. Wyniki pokazują, że nowy model nie tylko rozumie emocje i fakty — potrafi też tworzyć prawdziwie angażujące, oryginalne treści.

Mniej halucynacji i lepsza wiedza faktograficzna

Modele szybkie, działające w trybie bez rozumowania, potrafią dostarczać odpowiedzi bardzo szybko i korzystać z narzędzi wyszukiwania, jednak są bardziej podatne na błędy faktualne. Wynika to z ograniczonej głębokości rozumowania oraz limitów w wywoływaniu narzędzi.

W Grok 4.1 po treningu skoncentrowano się na zmniejszeniu liczby halucynacji faktualnych w odpowiedziach na zapytania informacyjne. W efekcie zaobserwowano znaczące spadki liczby błędów faktualnych w próbkach rzeczywistych zapytań z produkcji. Podsumowując, nowa wersja Grok 4.1 jest bardziej precyzyjna w podawaniu faktów i mniej podatna na tworzenie nieprawdziwych informacji.

Zainteresowani już mogą sprawdzić testową wersję Grok 4.1 (Grok 4.1 Beta). Dostęp do testów jest możliwy tylko przez określony czas.