Ciekawostki

Nowy Grok już jest. Ma być lepszy niż ChatGPT

przeczytasz w 2 min.

Nowy Grok już jest. Programiści dopracowali empatię, kreatywność oraz precyzyjną wiedzę faktograficzną, co ma stawiać ulepszoną wersję Groka w ścisłej czołówce światowych modeli językowych. Przynajmniej tak deklarują twórcy.

Firma xAI zaprezentowała Grok 4.1 - najnowszą generację modelu sztucznej inteligencji, która znacząco rozszerza jego praktyczne możliwości. To nie tylko aktualizacja, ale jakościowy skok, który stawia Groka w ścisłej czołówce światowych modeli językowych. W nowej wersji wprowadzono ulepszenia obejmujące styl i osobowość, kreatywność, zdolności emocjonalne oraz niższy poziom halucynacji, a także precyzyjne dostrojenie dzięki nowatorskim technikom treningowym.

Co nowego w Grok 4.1?

Grok 4.1 został zaprojektowany tak, aby rozmowa z nim była bardziej naturalna, zniuansowana i emocjonalnie trafna. Twórcy chwalą się, że Grok 4.1 względem Grok 4 z lipca 2025: 

  • lepiej rozpoznaje intencje użytkownika,
  • odpowiada w sposób bardziej wyrazisty i empatyczny,
  • utrzymuje spójną, wiarygodną osobowość,
  • zachowuje jednocześnie precyzję i „ostrość intelektualną” poprzednich wersji. 

Wszystko to osiągnięto dzięki potężnej infrastrukturze RL (reinforcement learning) z Grok 4 oraz nowym metodom optymalizacji stylu, osobowości i wyrównania modelu z ludzkimi preferencjami.

Ulepszona skuteczność - Grok 4.1 wygrywa w testach porównawczych 

W rankingu LMArena dotyczącym testów tekstowych (Arena Tekstowa), najnowsza wersja modelu Grok 4.1 Thinking zajmuje pierwsze miejsce w klasyfikacji generalnej z wynikiem 1483 punktów ELO. Oznacza to przewagę 31 punktów nad najlepszym modelem, który nie korzysta z technologii xAI. 

Ciekawostką jest, że Grok 4.1 w trybie bezrozumowym (kodowa nazwa: tensor) również osiąga bardzo wysoki wynik – 1465 punktów ELO, co daje mu drugie miejsce. W tym trybie model nie używa tokenów myślenia i odpowiada natychmiastowo. Mimo braku „pełnego rozumowania” przewyższa on wszystkie inne modele, które w publicznym rankingu używają pełnego trybu rozumowania. 

Dla porównania, poprzednia wersja Grok 4 osiągnęła dopiero 33. miejsce, co podkreśla znaczny wzrost jakości i możliwości w wersji 4.1.

Grok 4.1 test

Podczas dwutygodniowego silent rollout (1–14 listopada 2025) Grok 4.1 został przetestowany podczas realnego użytkowania. Wyniki mówią same za siebie – nowy model był wybierany w 64,78 proc. przypadków. 

Inteligencja emocjonalna na nowym poziomie 

Aby ocenić postępy modelu Grok 4.1 w zakresie osobowości i umiejętności interpersonalnych, przeprowadzono test EQ-Bench3. EQ-Bench to benchmark oceniany przez modele językowe (LLM), który mierzy aktywną inteligencję emocjonalną, zdolność rozumienia, wnikliwość, empatię oraz kompetencje interpersonalne. 

Zestaw testowy składa się z 45 wymagających scenariuszy odgrywania ról, z których większość zawiera trzy tury predefiniowanych promptów. Benchmark ocenia wyniki modeli, porównując odpowiedzi według kilku kryteriów jakości. Dodatkowo, stosuje porównania parami, aby obliczyć normalizowany wynik Elo dla każdego modelu w rankingu.

Grok 4.1 test

Nowy Grok 4.1 wykazuje znacznie większą głębię empatii – odnosi się do szczegółów, wizualizuje sytuacje, waliduje emocje użytkownika i w bardziej osobisty oraz realistyczny sposób zachęca do dzielenia się wspomnieniami. W efekcie Grok 4.1 znacząco poprawił swoje zdolności interpersonalne i emocjonalne w porównaniu do poprzedniej wersji, co znajduje odzwierciedlenie w wyższych wynikach w benchmarku. 

Grok imponuje też kreatywnością

W benchmarku Creative Writing v3, badającym literacką jakość i twórczość Grok 4.1 Thinking zdobył 1721.9 Elo, zajmując #2 miejsce tuż za wczesną wersją GPT 5.1. Standardowy Grok 4.1 również znalazł się w ścisłej czołówce.  Wyniki pokazują, że nowy model nie tylko rozumie emocje i fakty — potrafi też tworzyć prawdziwie angażujące, oryginalne treści.

Grok 4.1 test

Mniej halucynacji i lepsza wiedza faktograficzna 

Modele szybkie, działające w trybie bez rozumowania, potrafią dostarczać odpowiedzi bardzo szybko i korzystać z narzędzi wyszukiwania, jednak są bardziej podatne na błędy faktualne. Wynika to z ograniczonej głębokości rozumowania oraz limitów w wywoływaniu narzędzi.

Grok 4.1 test

W Grok 4.1 po treningu skoncentrowano się na zmniejszeniu liczby halucynacji faktualnych w odpowiedziach na zapytania informacyjne. W efekcie zaobserwowano znaczące spadki liczby błędów faktualnych w próbkach rzeczywistych zapytań z produkcji. Podsumowując, nowa wersja Grok 4.1 jest bardziej precyzyjna w podawaniu faktów i mniej podatna na tworzenie nieprawdziwych informacji.

Zainteresowani już mogą sprawdzić testową wersję Grok 4.1 (Grok 4.1 Beta). Dostęp do testów jest możliwy tylko przez określony czas.

Grok 4.1

Komentarze

0
Zaloguj się, aby skomentować
avatar
Komentowanie dostępne jest tylko dla zarejestrowanych użytkowników serwisu.

    Nie dodano jeszcze komentarzy. Bądź pierwszy!

Witaj!

Niedługo wyłaczymy stare logowanie.
Logowanie będzie możliwe tylko przez 1Login.

Połącz konto już teraz.

Zaloguj przez 1Login