Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Rihard Jarc
Investisseur et rédacteur chez UncoverAlpha. Les tweets ne sont que des opinions. Recherche et partage en détail des résultats du secteur technologique (+14k abonnés).
Mon avis sur le fait que les GPU ont une réelle utilité de 1 à 2 ans au lieu de plus de 4 ans soulève de nombreuses questions, alors laissez-moi expliquer plus en détail :
Tout d'abord, tous les arguments contraires sont les suivants : "mais les H100, A100 sont toujours utilisés et ils ont 3 à 5 ans", "les clients utiliseront des GPU anciens pour des charges de travail d'inférence", "les grandes entreprises utilisent des GPU anciens pour des charges de travail internes".
Voici pourquoi c'est une mauvaise façon de penser :
1. Les gens oublient que $NVDA est passé à un cycle de produit d'un an en 2024 (pas avant !), donc Blackwell est toujours le produit d'un cycle de produit de 2 ans. Avant Blackwell, Hopper -H100, H200 était le produit, et avant cela, le A100 était le produit. Donc, tout d'abord, le H100 n'est pas un produit vieux de 3 ans ; c'est un produit vieux d'un an en termes de cycle de produit (juste après Blackwell). Nvidia a également commencé à expédier le H100 avec des volumes sérieux au début de 2023. À partir d'aujourd'hui, chaque année, nous aurons un nouveau produit qui sera significativement plus performant (10x-30x) et efficace que la génération précédente, donc pas tous les 2 ans mais chaque année.
2. Nous passons d'un monde où chaque déploiement supplémentaire de GPU/accélérateur est incrémental à un monde où la plupart des déploiements sont des remplacements (pas incrémentaux), car nous sommes limités. Nous sommes limités par l'énergie et les centres de données disponibles. Donc, bien sûr, lorsque vous avez une abondance d'espace et d'énergie dans les centres de données, vous allez également utiliser les GPU "anciens", car vous avez suffisamment d'espace pour les déployer. Mais une fois que vous manquez d'espace de déploiement et que vous êtes limité, votre facteur limitant est l'énergie, et donc vous cherchez combien de jetons vous générez par watt que vous avez. Si la nouvelle génération de GPU vous donne 10x les jetons/watt par rapport à la précédente, si vous voulez croître et servir plus de clients, vous devrez le remplacer par la nouvelle génération, et vous ne pouvez pas "utiliser" le GPU "ancien", car vous n'avez pas d'endroit pour le déployer. Encore une fois, la chose à comprendre est que nous passons d'une pénurie de GPU à une pénurie d'ÉNERGIE, et cela change la donne.
3. Peindre un tableau de "oh, mais les anciens GPU seront utilisés pour des charges de travail internes" est faux. Il n'y a qu'une poignée d'entreprises qui ont le luxe d'avoir leur propre activité cloud, en plus d'avoir également une grande activité de consommation ou d'entreprise, qui peut prendre en charge certains de ces anciens GPU (encore une fois, même ces cas d'utilisation seront drastiquement réduits à mesure que nous entrons dans la phase décrite dans l'argument 2). Les fournisseurs de cloud n'auront pas suffisamment de demande et de bonnes marges pour faire fonctionner la génération "ancienne" de GPU pour les clients cloud, car ces GPU ne sont pas des actifs qui rapportent de l'argent une fois que vous les avez achetés ; ils ont aussi un coût. Ils coûtent de l'énergie (les prix de l'électricité augmentent), ils coûtent en refroidissement, et ils coûtent en maintenance.
4. L'inférence avec des modèles de pensée et de raisonnement a changé de manière drastique. Maintenant, un modèle plus petit, moins performant en termes de paramètres, peut mieux performer qu'un modèle plus grand, si vous lui donnez plus de puissance de calcul sur le côté de l'inférence "pour réfléchir". Le calcul d'inférence est également un nouveau paradigme de mise à l'échelle. Ce que cela signifie, c'est que la différence si vous exécutez l'inférence sur un H100, ou un B300, ou un B200 est énorme. Nous déplaçons également le marché des charges de travail d'entraînement vers l'inférence. Avec l'entraînement, le critère le plus important pour les laboratoires de recherche en IA était la performance et la vitesse à laquelle ils pouvaient entraîner de nouveaux modèles. Alors que nous entrons maintenant dans l'ère de l'inférence, le critère le plus important est le coût, donc si le B300 vous donne 10x-30x le nombre de jetons pour les mêmes coûts qu'un GPU ancien, vous le remplacerez, car vous voulez servir autant de clients que possible, et vous voulez réaliser un profit. Selon des rapports récents, OAI perd 3 $ pour chaque 1 $ qu'il gagne. Cela ne durera pas éternellement, et l'une des choses les plus importantes à changer est d'exécuter l'inférence sur les nouveaux GPU/accélérateurs efficaces.
325,15K
Les TPU de $GOOGL seront, à long terme, probablement l'un de leurs meilleurs investissements de l'histoire.
- $GOOGL traite plus de 1,3 quadrillion de tokens par mois
- L'API d'OpenAI traite 260 trillions par mois
$GOOGL avec des aperçus d'IA et Gemini vous montre déjà à quel point vous pouvez faire fonctionner GenAI de manière rentable avec l'aide des TPU à une échelle énorme.
106,56K
Meilleurs
Classement
Favoris