A veces veo documentos con barridos de hiperparámetros sobre 0.001, 0.003, 0.006, 0.01, etc. Muchos hiperparámetros se expresan mejor en logaritmo integral negativo en base 2. Valores pequeños como las tasas de aprendizaje directamente, y valores cercanos a 1 como los factores EMA y TD lambda / gamma con 1-2**val. Es interesante cuántos parámetros son relativamente insensibles a duplicar o reducir a la mitad, y necesitan cambios más grandes para mover los resultados de manera confiable.