A suposição que todos parecem ter hoje é que, neste momento, os custos de inferência são fortemente subsidiados e, em um futuro próximo, eles vão aumentar drasticamente. Acho que isso é possivelmente um modelo mental quebrado ao olhar para negócios subsidiados do passado com custo marginal extremamente alto.
Muitos desses modelos nem operam com prejuízo em unidades de modelo até hoje (especialmente se você olhar o custo de treinamento como CapEx, o que, na verdade, é verdade). Acho que o resultado provável é que eles fiquem muito mais baratos por token e o número de tokens consumidos cresce exponencialmente.
21