Komputery

IBM przeszuka miliardy plików w niecałą godzinę

Superkomputer IBM, wykorzystująca zmodyfikowany system plików General Parallel File System (GPFS), została skonstruowana w celu przekopywania się przez ogromne ilości danych w jak najkrótszym czasie. Nowy rekord to 10 miliardów przeskanowanych plików w ciągu 43 minut.

Wynik robi wrażenie, zwłaszcza gdy porównamy go z poprzednim, również rekordowym rezultatem - 1 miliard przeanalizowanych plików w 3 godziny. A ile plików znajdziemy w naszych komputerach? Świeży system to najprawdopodobniej co najwyżej dziesiątki lub setki tysięcy.

IBM pokazuje, że pamięci Flash jak i ich następcy, np. pamięci przemiany fazowej, są przyszłością w systemach obciążonych bardzo dużą liczbą operacji zapisu/odczytu na miliardach plików. 
 

IBM superkomputer
 

Systemy zdolne obsłużyć 10 miliardów plików w rozsądnym czasie będą w przyszłości coraz bardziej potrzebne. Pod koniec 2011 roku liczba przechowywanych danych online ma sięgnąć 1800 eksabajtów i rosnąć dalej w tempie około 50% rocznie.

Trudno jednak wyobrazić sobie, choćby ze względu na koszty, aby w najbliższym czasie centra danych w 100% polegały na pamięciach Flash. Dlatego kluczem do osiągnięcia tak wysokiej wydajności przeszukiwania danych jest wykorzystanie metadanych (jeden z elementów GPFS), które opisują dokładnie przechowywane pliki. Metadane przechowywane są w szybkiej pamięci Flash. To znacznie skraca czas przeszukiwania, odciążając komputer od sprawdzania zawartości plików, które zgromadzone są często na znacznie mniej wydajnych pamięciach dyskowych, a nawet taśmowych.

Violin 3205 macierz pamięci Flash

Klaster IBM, który osiągnął rekordowy wynik, zbudowano z 10 serwerów (każdy składający się z dwóch czterordzeniowych procesorów 2,8 GHz, 12 MB cache i 32 GB RAM), które mają do dyspozycji 6,8 terabajta pamięci Flash. Zastosowane macierze pamięci, Violin 3205, charakteryzuje prędkość odczytu około 5 GB/s i współczynnik IOPS (4 kB pliki) wynoszący ponad milion. Jako system plików wykorzystano wspomniany GPFS (w tym przypadku była to jego zmodyfikowana wersja). Pozwala on na jednoczesny dostęp do plików (odczyt i zapis) przez wiele procesów. GPFS to jeden z systemów plików wykorzystywanych w superkomputerach. Pozwala na efektywną obsługę dużych woluminów (co najmniej 4 petabajty) i umożliwia skalowalność na rozbudowane systemy obliczeniowe.
 

Więcej o technologiach superkomputerowych i superszybkich pamięciach:

Źródło: IBM
 

Komentarze

13
Zaloguj się, aby skomentować
avatar
Komentowanie dostępne jest tylko dla zarejestrowanych użytkowników serwisu.
  • avatar
    Baleryon
    0
    Zabrakło drobnej, ale kluczowej informacji - jak duże średnio te pliki były.
    • avatar
      Konto usunięte
      0
      Ten klaster IMB ma mało pamięci. (Tylko 6,8 tb)
      • avatar
        michal_229
        0
        Czyli przerobienie wszystkich plików z siódemki zajęłoby mu ok. 1/4s. Nieźle ;)
        • avatar
          Almuric
          0
          To kolejne narzędzie do kontrolowania ludzi i nic więcej. Pod egidą super osiągów kryje się właśnie drugie dno i będzie ono używane w tym celu, jeśli już nie jest... Praktyczne zastosowanie biorąc pod uwagę koszty systemu, energii, która musi być dostarczona nie ma większego innego sensu. Przyjdzie czas, że nikt już nie zobaczy podobnego komentarza czy innego niewygodnego rządzącym korporacjom...
          • avatar
            Konto usunięte
            0
            "(co najmniej 4 petabajty)" nie masz 4 petabajtów - nie dotykaj go nawet kijem, coraz niższy poziom językowy reprezentują niusmeni