Na topie

Nvidia Titan V - karta za 3000 dolarów ma problem z przeprowadzaniem obliczeń [AKT.]

Autor:

więcej artykułów ze strefy:
Karty graficzne

Kategoria: Komputery Podzespoły Karty graficzne Karty graficzne Tematyka: Nvidia Volta Producenci: Nvidia

Najnowsza karta graficzna Nvidii nie nadaje się do profesjonalnych zastosowań? W sieci pojawiły się zaskakujące doniesienia, które mogą niekorzystnie wpłynąć na wizerunek Nvidii.

  • Nvidia Titan V - karta za 3000 dolarów ma problem z przeprowadzaniem obliczeń [AKT.]
A A

Nvidia Titan V to karta graficzna zaprojektowana głównie z myślą o profesjonalnych zastosowaniach. Wygląda jednak na to, że akcelerator może tutaj nie być najlepszym wyborem, bo… ma problemy powtarzalnością przy przeprowadzaniu skomplikowanych obliczeń.

Sprawę naświetlił serwis The Register, z którym skontaktował się anonimowy naukowiec - próbował on przeprowadzić obliczenia związane z interakcją między białkami i enzymami, które zawsze powinny dawać takie same rezultaty. W czasie obliczeń pojawiły się jednak pewne problemy. Na cztery karty Titan V, dwa modele zawsze wskazywały takie same wyniki, ale dwa pozostałe nie dawały poprawnych rezultatów mniej więcej w 10% prób obliczeniowych.

Co prawda Nvidia odmówiła komentarza w tej sprawie, ale pojawiły się teorie wyjaśniające sytuację. Można podejrzewać, że problem wynika z niestabilnej pracy pamięci wideo (na pokładzie znajdziemy kości HBM2, które pracują z wyjątkowo wysokim zegarem 1700 MHz). W takim przypadku wprowadzenie poprawek może być dosyć skomplikowane, bo wymagałoby albo zmniejszenia zegarów pamięci i obniżenia wydajności akceleratora albo zwiększenia ich napięcia zasilającego i równocześnie zwiększenia zapotrzebowania na energię elektryczną.

Nie można jednak wykluczyć innego scenariusza - niedopracowanego oprogramowania, na którym przeprowadzane są obliczenia. Druga teoria zakłada, że wykorzystane oprogramowanie nie potrafi poprawnie wykorzystać nowych akceleratorów, co może skutkować generowaniem błędnych wyników. W takim przypadku najprawdopodobniej wystarczyłaby odpowiednia aktualizacja.

Nvidia Titan V

Jakby nie było, sytuacja nie wpływa pozytywnie na wizerunek Nvidii. Jak twierdzi The Register, część naukowców nawet zaleca zrezygnowanie z wykorzystywania kart Titan V aż do momentu wyjaśnienia sprawy i wprowadzenia odpowiednich poprawek.

Aktualizacja 26.03.2018 9:50

Nvidia nie przyznaje się do problemów z działaniem karty - serwis The Register opublikował oświadczenie w sprawie problemów:

„Wszystkie nasze procesory graficzne pracują poprawnie. Nasza linia kart Tesla, która wykorzystuje kod korekcji błędów ECC, jest przeznaczona dla tego typu dużych i wysokowydajnych symulacji. Każdy, kto zauważył problemy z działaniem karty, powinien skontaktować się z działem pomocy technicznej: support@nvidia.com."

Źródło podaje również, że Titan V ma problemy z przeprowadzaniem obliczeń tylko w jednej aplikacji - jest to pakiet Amber, który służy m.in. do przeprowadzania symulacji dynamiki molekularnej. Twórcy aplikacji nie potwierdzają jednak doniesień o problemach z działaniem nowego GPU.

Źródło: The Register, Computer Base, Amber

Odsłon: 10665 Skomentuj newsa
Komentarze

45

Udostępnij
  1. chotnik2
    Oceń komentarz:

    19    

    Opublikowano: 2018-03-23 12:04

    A taki ładny był... złoty...

    Skomentuj

  2. chrisplbw
    Oceń komentarz:

    19    

    Opublikowano: 2018-03-23 12:18

    Bo to tombak jest :) Poczekaj chwilę zjawi się naczelny komentator i będzie usilnie przekonywał, że to żaden problem i pewnie jest to wina AMD.

    Skomentuj

  3. franiux
    Oceń komentarz:

    14    

    Opublikowano: 2018-03-23 12:29

    2+2=3,99999999939495939543265
    Gdzieś już to widziałem dawno temu.

    Skomentuj

    1. pablo11
      Oceń komentarz:

      -7    

      Opublikowano: 2018-03-23 13:44

      Przy niektórych liczbach niestety takich błędów nie unikniemy. W kartach graficznych to jest normalne, że np. licząc 1,9-1,8 nie uzyskamy super dokładnego wyniku, za to możemy policzyć takich liczba bardzo dużo.
      Znaczy może to akurat zły przykład, bo 2 i 4 jest wielokrotnością 2 i taki błąd to może być już to co opisane w artykule.
      Ale tutaj bardziej chodzi o to, że 2+2=4 lub 2+2=3,99999999939495939543265 zależnie od modelu.

      Skomentuj

      1. pablo11
        Oceń komentarz:

        2    

        Opublikowano: 2018-03-23 13:47

        egzemplarza*

        Skomentuj

      2. Eternal1
        Oceń komentarz:

        -3    

        Opublikowano: 2018-03-23 14:06

        Czekaj, czekaj... sugerujesz że kalkulator z biedronki za 12zł jest bardziej dokładny z obliczeniach niż "profesjonalna" karta grafiki za grube tysiące... dolarów?
        Mój drogi, tak łatwo tego pod dywan nie zamieciesz. Układy PRO mają być PRO, skoro różnica na poziomie 10-tej części po przecinku sprawiała że lab zrezygnował z użytkowania tych kart, to już mówi samo za siebie. W sektorze PRO nie ma miejsca na takie rzeczy.

        Skomentuj

          1. Eternal1
            Oceń komentarz:

            -3    

            Opublikowano: 2018-03-23 15:59

            Zakładasz że laboratoria kupują "w ciemno" dziesiątki/setki piróńsko drogich kart po kilka tysięcy dolarów za sztukę po to żeby potem stwierdzić: "ooo... nie nadają się". (?)
            Przecież jeśli Lab wydaje dziesiątki/setki tysięcy dolarów na układy obliczeniowe to chyba wiedzą co robią i co kupują.
            Brawo Ty.

            Skomentuj

          2. kitamo
            Oceń komentarz:

            1    

            Opublikowano: 2018-03-23 16:06

            po to masz karty z ECC takie chocby jak Tesla. dokształc sie.

            problem jest z jednym jedynym programem ktory potrafi na zasadzie porównania wyrzucic błąd. Sa to bardzo skomplikowane obliczenia i do takich jest dedykowana tesla z ECC. Poza tym jest to jedyny program w ktorym pojawil sie blad a wiec pradopodobnie moze to byc wina samego programu ktory bedzie zpatchowany. proste.

            Skomentuj

          3. Eternal1
            Oceń komentarz:

            2    

            Opublikowano: 2018-03-23 17:04

            Zdecydujcie się, bo już tutaj różne czytałem teorie:
            - autor był anonimowy (więc może ściemnia?)
            - karty mają określoną precyzję obliczeń i nie jest ona nieskończona
            - program źle pracuje z tymi kartami

            A to soft jest pisany pod konkretne modele kart czy pod konkretne API, zbiory funkcji w zakresie których działają karty?
            Gdyby chodziło o domniemany błąd w Amber, wyniki były by błędne na każdej karcie TitanV, a są błędne jedynie na jakimś ich procencie. Czyli co? Amber z niektórymi kartami TitanV działa OK a niektórymi źle?
            Tak działa kod "zero-jedynkowy"?

            Na innym portalu, ktoś ma problem z TitanV, w grach miewa przekłamania tekstur co może być powodowane BIOS-em niezoptymalizowanym pod gamming-owe API, lecz równie dobrze przetaktowanym VRAM-em.

            Skomentuj

          4. Eternal1
            Oceń komentarz:

            1    

            Opublikowano: 2018-03-23 17:22

            Może to wada kilku kart, przecież nie twierdzę że wszystkich.
            Źródło informacji też podało że na części kart TitanV Amber działa stabilnie.
            Wygląda to na błąd sprzętowy, albo po stronie RAM-u platform, albo VRAM-u kart grafiki.

            Skomentuj

          5. kitamo
            Oceń komentarz:

            2    

            Opublikowano: 2018-03-23 17:37

            ar 2018: Titan-V reliability concerns. We have received conflicting reports about Titan-V cards failing the validation tests. Early reports suggested problems, but many subsequent tests have failed to reproduce this. You should probably treat Titan-V cards with care, making sure that repeated runs give identical results; but this is also good advice for all GPU cards: we know of examples where brand new cards failed, and also of cases where failures began to show up after years of use.

            Skomentuj

        1. kitamo
          Oceń komentarz:

          -2    

          Opublikowano: 2018-03-23 15:05

          wez chlopie poczytaj o niskopoziomowych operacjach na liczbach zmiennoprzecinkowych zanim zaczniesz sie wypowiadac i udowadniac ludziom jakieś fakty których nie ma.
          Kazdy kto choć raz programował w C++ wie dobrze jak losowe i niedokładne wyniki moga być na floatach.
          Nie ma jeszcze zadnych faktów w temacie tego anonimowego rzekomego błedu a ty juz piszesz o zamiataniu faktów pod dywan.

          Skomentuj

          1. Eternal1
            Oceń komentarz:

            -1    

            Opublikowano: 2018-03-23 15:55

            Chcesz zaczekać na rozwój sytuacji? OK, zaczekajmy więc.

            Jednak chyba zapominasz że mówimy o sektorze PRO, myślisz że ktoś brałby naście/set drogich karty po kilka tysięcy dolarów każda nie znając ich możliwości/specyfikacji?

            Skomentuj

          2. kitamo
            Oceń komentarz:

            -1    

            Opublikowano: 2018-03-23 16:04

            juz jest info na ten temat.
            Patchowany będzie Amber. Dziekuje. dobranoc.

            Finear daj spokoj, nie warto z tym dnem intelektualnym dyskutowac. Tworzy sobie fakty na własne potrzeby i teraz nie wie jak z tego wyjsc oczywiscie wiec klepie zdartą płytę.

            Skomentuj Historia edycji

          3. Eternal1
            Oceń komentarz:

            2    

            Opublikowano: 2018-03-23 17:05

            Aha, czyli program Amber z niektórymi sztukami kart TitanV działa poprawnie a z niektórymi sztukami źle?
            Chcesz powiedzieć że tak działają programy "zero-jedynkowe"?
            Tutaj błąd leży po stronie hardware, albo RAM-u platformy na których wykonuje się te obliczenia - albo po stronie kart grafiki. Na 95% - jedno z dwóch.

            Skomentuj Historia edycji

          4. sambaverde
            Oceń komentarz:

            0    

            Opublikowano: 2018-03-23 17:28

            A może nie warto wykorzystywać do precyzyjnych obliczeń kart serii GeForce? Titan to żadna "profesjonalna" karta. Taki sam "profesjonalizm" jak SSD Samsung z dopiskiem "Pro" :P

            Skomentuj

          5. kitamo
            Oceń komentarz:

            1    

            Opublikowano: 2018-03-23 17:36

            ar 2018: Titan-V reliability concerns. We have received conflicting reports about Titan-V cards failing the validation tests. Early reports suggested problems, but many subsequent tests have failed to reproduce this. You should probably treat Titan-V cards with care, making sure that repeated runs give identical results; but this is also good advice for all GPU cards: we know of examples where brand new cards failed, and also of cases where failures began to show up after years of use.

            dziekuje i do widzenia.

            Skomentuj

      3. beem85
        Oceń komentarz:

        0    

        Opublikowano: 2018-04-08 20:44

        To raczej nie zależy od egzemplarza, bo zapis i obliczenia na liczbach zmiennoprzecinkowych są ustandaryzowane(IEEE 754). Dzięki temu taki sam wynik otrzymamy zarówno na kartach graficznych, procesorach CPU jak i komórkowych FPU. Problem pewnie polega na zbyt wysokich częstotliwościach pamięci. Mi też zaczęło sypać błędnymi wynikami jak testowałem CPU w PrimeTest, a za bardzo wykręciłem procka.

        Skomentuj

    2. rrrrrr
      Oceń komentarz:

      0    

      Opublikowano: 2018-03-25 21:03

      Ale tu chodzi o brak powtarzalności wyników na TAKICH SAMYCH obliczeniach.

      Na float/double jak powtarzasz, możesz mieć taki błąd, ale jak robisz dokładnie te same obliczenia, błąd będzie też taki sam.

      Brak powtarzalności to potencjalnie cholernie duży problem.

      Skomentuj

  4. Blejd
    Oceń komentarz:

    1    

    Opublikowano: 2018-03-23 12:33

    E co tam to tylko 3k $ :D

    Skomentuj

    1. Smuga
      Oceń komentarz:

      1    

      Opublikowano: 2018-03-23 13:12

      Zobacz ile kosztują Quadro to stwierdzisz, że to taniocha.

      Skomentuj

      1. Blejd
        Oceń komentarz:

        -1    

        Opublikowano: 2018-03-23 14:44

        To sobie kup Quadro skoro takie tanie :)

        Skomentuj

        1. Smuga
          Oceń komentarz:

          1    

          Opublikowano: 2018-03-23 15:44

          Nie wiem czy załapałeś... ale chodziło o to, że Tytany w porównaniu do Quadro to właśnie taniocha. Tak czy inaczej ani jedne ani drugie nie są przeznaczone dla graczy, od tego są GeForce'y.

          Skomentuj

          1. kitamo
            Oceń komentarz:

            0    

            Opublikowano: 2018-03-23 16:08

            Quadro tez ma innej natury przeznaczenie niz obliczenia białek itp, od tego jest Tesla

            Skomentuj

          2. Ciekawski_
            Oceń komentarz:

            2    

            Opublikowano: 2018-03-23 20:47

            JESZCZE DROŻSZA :)

            Skomentuj

          3. kitamo
            Oceń komentarz:

            1    

            Opublikowano: 2018-03-23 21:01

            no tak ale tez wydajniejsza i lepiej spisująca sie w tych zdaniach.

            Skomentuj

  5. kitamo
    Oceń komentarz:

    0    

    Opublikowano: 2018-03-23 13:33

    Fajnie to wyglada - najpierw Intel ma problemy, pozniej AMD ma problemy, teraz NVidia ma problemy.

    Mi najbardzie jpodoba sie zdanie "The Register, z którym skontaktował się anonimowy naukowiec"

    to brzmi prawie tak jak by Nvidia to był jakis Putin i wszyscy bali sie gułagu.
    Wcześniej byli anonimowi producenci ktorych to gryzło sumienie że umowy sa jakies nielegalne, teraz anonimowi naukowcy.

    Kiedys programikiem próbowali wykazać ze pamiec w GTX970 zapycha sie bo te 512MB robi problem. Niestety realnie nie udało sie poza tym programikiem problemu uswiadczyc.
    Zobaczymy jak i tu bedzie :)

    Skomentuj

  6. kitamo
    Oceń komentarz:

    -2    

    Opublikowano: 2018-03-23 15:13

    Updated to add

    A spokesperson for Nvidia has been in touch to say people should drop the chip designer a note if they have any problems. The biz acknowledged it is aware of at least one scientific application – a molecular dynamics package called Amber – that reportedly is affected by the Titan V weirdness.
    "All of our GPUs add correctly," the rep told us. "Our Tesla line, which has ECC [error-correcting code memory], is designed for these types of large scale, high performance simulations. Anyone who does experience issues should contact support@nvidia.com."

    czyli patchowac beda Amber i tyle.

    Skomentuj

    1. owatanka
      Oceń komentarz:

      2    

      Opublikowano: 2018-03-23 16:43

      A co to da skoro pamiec karty wywala bledy , pamiec tam zastosowana powinna byc z ECC albo karta nie powinna byc stosowana do tego tyu obliczen.

      Skomentuj

      1. kitamo
        Oceń komentarz:

        -1    

        Opublikowano: 2018-03-23 16:56

        Nie wiadomo czy to pamiec wywala, nic nie wadomo jeszcze.
        To sa tylko pomysły i przypuszczenia na to co może być nie tak.
        Na chwile obecną jest jeden program który poza tym że działa tez poprawnie na 2 sztukach kart wykryto ze 10% wyników jest różnych a nie takich samych.

        inne programy do obliczeń działają jakos poprawnie.
        Z resztą Titany to nie są karty do tego typu obliczen choc mozna je uzywac. Do tak skomplikowanych obliczen są tesle a te mają juz ecc.

        kiedys byly juz podobne problemy z kilkoma programami przy poprzednich titanach gdzie programy załatano patchem.

        Skomentuj Historia edycji

  7. Gatts-25
    Oceń komentarz:

    1    

    Opublikowano: 2018-03-23 15:24

    Trzeba być bezczelnym ,żeby narzekać na tak tanią kartę do obliczeń.
    A może karta w momencie gdy nie liczy to co zostało jej zadane zaczyna sama hakować system bo w końcu jest tak zaawansowana.

    Skomentuj

  8. Eternal1
    Oceń komentarz:

    -2    

    Opublikowano: 2018-03-23 17:07

    Na innym portalu, ktoś ma problem z TitanV. W grach miewa przekłamania tekstur co MOŻE być powodowane BIOS-em niezoptymalizowanym pod gamming-owe API, lecz równie dobrze zbyt wysoko taktowanym VRAM-em.
    Dziwna zbieżność sytuacji.

    Skomentuj

  9. lkozierowski
    Oceń komentarz:

    -1    

    Opublikowano: 2018-03-23 17:24

    Panowie, Panowie, coś tu czuję zwykły rozwój "wojny" 2 królów od kart graficznych.......po prostu:)

    Skomentuj

    1. sambaverde
      Oceń komentarz:

      0    

      Opublikowano: 2018-03-23 17:29

      Gra o tron :)

      Skomentuj

  10. kitamo
    Oceń komentarz:

    0    

    Opublikowano: 2018-03-23 17:38

    http://ambermd.org/gpus/

    i tyle w temacie.
    znany anonim wywołał bład na titanie v którego nikomu nie udało sie powtórzyć.

    Skomentuj

  11. mjwhite
    Oceń komentarz:

    2    

    Opublikowano: 2018-03-23 19:08

    Skoro karta powinna wypluć taki sam wynik, to każdy może łatwo sprawdzić swój egzemplarz a nie od razu
    "część naukowców nawet zaleca zrezygnowanie z wykorzystywania kart Titan V"

    Słabo amd musicie się bardziej postarać....

    Skomentuj

    1. lkozierowski
      Oceń komentarz:

      -1    

      Opublikowano: 2018-03-23 19:42

      naukowcy są od obliczeń, a nie sprawdzania kart graficznych

      Skomentuj

      1. mjwhite
        Oceń komentarz:

        2    

        Opublikowano: 2018-03-23 20:41

        Nikt im nie każde sprawdzać kart tylko wyniki obliczeń. Jeśli nie są powtarzalne a mają być to chyba nie jest to trudne?
        Zresztą co to za naukowiec który nie weryfikuje wyników swoich obliczeń!

        Skomentuj

      2. kitamo
        Oceń komentarz:

        3    

        Opublikowano: 2018-03-23 21:09

        Przeciez na stronie Amber mozesz nawet przeczytac o tym jak wyglada proces validacji wynikow na każdej karcie osobno. To czesc procesu związanego z obliczeniami tych białek i enzymów.
        Wyniki sa sprawdzane wielokrotnie w celu przeprowadzenia validacji własnie i to tutaj ktoś anonimowy miał na 2 kartach na 100 prób 10 różniących się wyników.

        Skomentuj

        1. r_e_s_e_t
          Oceń komentarz:

          -4    

          Opublikowano: 2018-03-26 11:07

          OŁ Dżizys, co to jest "validacja" i po jakiemu?

          Skomentuj

  12. vegasnight9
    Oceń komentarz:

    1    

    Opublikowano: 2018-03-24 00:10

    Wykopie koślawego bitcoina

    Skomentuj

  13. lysycoprobo
    Oceń komentarz:

    0    

    Opublikowano: 2018-03-24 07:48

    pójdzie mi na tym portal 2 ???

    Skomentuj

    1. r_e_s_e_t
      Oceń komentarz:

      -1    

      Opublikowano: 2018-03-26 11:06

      Duzo ;) Wcześniej wynajmowaliśmy(fizycznie) dodatkowe serwery do obliczeń i średnio wychodziło 5k€/tydzień za 256 rdzeni(8 rack'ów 4U), ale to były czasy pomiędzy Xeon'ami Harpertown i Westmere-EP.

      Skomentuj

  14. Marucins
    Oceń komentarz:

    0    

    Opublikowano: 2018-03-26 15:26

    "Nvidia Titan V to karta graficzna zaprojektowana głównie z myślą o profesjonalnych zastosowaniach."

    Profesjonalna... taaa. Jak będziecie powtarzać takie głupoty to tak będzie.

    Skomentuj

  15. kitamo
    Oceń komentarz:

    0    

    Opublikowano: 2018-03-26 22:03

    Aktualizacja to mogla by byc jak byscie podali chociaz informacje prosto od developerów Amber z ich strony gdzie wyraznie podkreslili ze nie udało im sie powtórzyc tych błędów.
    Lepiej napisac bez sensu ze nvidia sie nie przyznaje.

    Skomentuj

Dodaj komentarz

Przy komentowaniu prosimy o przestrzeganie netykiety i regulaminu.

Aby dodać komentarz musisz być zalogowany!