Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Rihard Jarc
Inwestor i pisarz w UncoverAlpha. Tweety to tylko opinie. Szczegółowe badanie i dzielenie się wynikami sektora technologicznego (+14 tys. subskrybentów).
Moje zdanie na temat GPU mających realną użyteczność przez 1-2 lata zamiast +4 lata rodzi wiele pytań, więc pozwól, że wyjaśnię to bardziej szczegółowo:
Po pierwsze, wszystkie kontrargumenty brzmią następująco: "ale H100, A100 są nadal używane i mają 3-5 lat", "klienci będą używać starych GPU do obliczeń inferencyjnych", "wielkie firmy technologiczne używają starych GPU do wewnętrznych obciążeń"
Oto dlaczego to myślenie jest błędne:
1. Ludzie zapominają, że $NVDA przeszedł na roczny cykl produktowy w 2024 roku (nie wcześniej!), więc Blackwell jest nadal produktem dwuletniego cyklu produktowego. Przed Blackwell Hopper - H100, H200 był produktem, a przed tym A100 był produktem. Więc przede wszystkim H100 nie jest produktem trzyletnim; jest produktem rocznym w kontekście cyklu produktowego (tuż po Blackwell). Nvidia również zaczęła dostarczać H100 w poważnych ilościach na początku 2023 roku. Idąc naprzód od dzisiaj, co roku będziemy otrzymywać nowy produkt, który będzie znacznie bardziej wydajny (10x-30x) i efektywny niż poprzednia generacja, więc nie co dwa lata, ale co roku.
2. Przechodzimy z świata, w którym każde dodatkowe wdrożenie GPU/akceleratora jest inkrementalne, do świata, w którym większość wdrożeń to wymiana (nie inkrementalne), ponieważ jesteśmy ograniczeni. Jesteśmy ograniczeni przez moc i dostępne centra danych. Więc oczywiście, gdy masz nadmiar miejsca w centrach danych i mocy, będziesz również używać "starych" GPU, ponieważ masz wystarczająco dużo miejsca, aby je wdrożyć. Ale gdy skończysz z tym miejscem do wdrożenia i jesteś ograniczony, twoim ograniczającym czynnikiem jest moc, więc szukasz, ile tokenów generujesz na wat, który masz. Jeśli nowa generacja GPU daje ci 10x więcej tokenów/wat niż poprzednia, jeśli chcesz się rozwijać i obsługiwać więcej klientów, będziesz musiał wymienić to na nową generację, a nie możesz "używać" "starego" GPU, ponieważ nie masz miejsca na jego wdrożenie. Ponownie, rzecz, którą należy zrozumieć, to to, że przechodzimy z niedoboru GPU do niedoboru MOCY, a to zmienia sytuację.
3. Malowanie obrazu "och, ale stare GPU będą używane do wewnętrznych obciążeń" jest błędne. Jest tylko garstka firm, które mają luksus posiadania własnego biznesu chmurowego, a także dużego biznesu konsumenckiego lub przedsiębiorstw, które mogą przyjąć niektóre z tych starszych GPU (ponownie, nawet te przypadki użycia będą drastycznie ograniczone, gdy wejdziemy w fazę opisaną w argumencie 2). Dostawcy chmur nie będą mieli wystarczającego popytu i dobrych marż, aby uruchomić "stare" generacje GPU dla klientów chmurowych, ponieważ te GPU nie są aktywami, które po prostu zarabiają pieniądze po ich zakupie; one również kosztują. Kosztują moc (ceny energii elektrycznej rosną), kosztują w chłodzeniu i kosztują w utrzymaniu.
4. Obliczenia inferencyjne z modelami myślenia i rozumowania zmieniły się drastycznie. Teraz mniejszy, mniej wydajny model pod względem parametrów może działać lepiej niż większy model, jeśli dasz mu więcej mocy obliczeniowej po stronie inferencji "do myślenia". Obliczenia inferencyjne to również nowy paradygmat skalowania. Co to oznacza, to to, że różnica, jeśli uruchomisz inferencję na H100, B300 lub B200, jest ogromna. Przechodzimy również z rynku obciążeń treningowych do obciążeń inferencyjnych. W przypadku treningu najważniejszym wskaźnikiem w laboratoriach badawczych AI była wydajność i szybkość, z jaką mogły trenować nowe modele. Ponieważ teraz wchodzimy w erę inferencji, najważniejszym wskaźnikiem są koszty, więc jeśli B300 daje ci 10x-30x więcej tokenów za te same koszty co starszy GPU, wymienisz go, ponieważ chcesz obsługiwać jak najwięcej klientów i chcesz zarobić jakiś zysk. Zgodnie z ostatnimi raportami, OAI traci 3 dolary na każdy 1 dolar, który zarabia. To nie potrwa wiecznie, a jedną z najważniejszych rzeczy do zmiany jest uruchamianie inferencji na nowych i wydajnych GPU/akceleratorach.
325,15K
TPU $GOOGL w dłuższej perspektywie prawdopodobnie okażą się jedną z najlepszych inwestycji w historii.
- $GOOGL przetwarza ponad 1,3 kwadryliona tokenów/miesiąc
- API OpenAI przetwarza 260 bilionów/miesiąc
$GOOGL z przeglądami AI i Gemini już pokazuje, jak efektywnie można uruchomić GenAI z pomocą TPU na ogromną skalę.
106,56K
Najlepsze
Ranking
Ulubione