Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Jeffrey Emanuel
Нова модель зображення Gemini (також відома як «нано-банан») працює досить добре і дуже весело використовувати її з вашими дітьми (я зробила одну королевою, іншу Blippi, на їхнє прохання).
Однак він має деякі досить дивні обмеження. Іноді, він дуже точно отримує подобу. В інших випадках обличчя виглядають абсолютно невпізнанними. Здається, немає особливої закономірності, яку я можу помітити з точки зору того, коли це працює і коли виходить з ладу.
У Google вже є досить непогана технологія розпізнавання облич, оскільки роблять це в Google Images.
Я дивуюся, чому вони не додають крок автоматичного контролю якості, який перевіряє, чи добре збігається обличчя на згенерованому зображенні з обличчям на оригінальному зображенні, і автоматично повторюють ті, що випадають. Невідповідність робить продукт набагато менш чарівним.
Більша проблема полягає в тому, що виправлення зображення, яке пішло не так, буквально ніколи не працюють. Він абсолютно не в змозі відновитися, коли йде поганим шляхом. Навіть якщо правки досить чіткі і скромні. Майже схоже на якесь «отруєння контекстом».
Це здається набагато серйознішою проблемою, оскільки це інструмент для підвищення продуктивності, який конкурує з Photoshop. Але також, мабуть, можна було б вирішити, завжди роблячи кілька поколінь за лаштунками і оцінюючи їх, показуючи лише найкраще.
Вони також не дозволяють вам відновити («перекрутити») зображення, тому вам доведеться щоразу починати нову розмову. Це дратує і забруднює історію розмов.
Але з огляду на все сказане, він працює досить добре, і, безумовно, набагато краще, ніж аналогічний функціонал у Facebook Messenger.
Adobe обов'язково повинна мати відповідь на це питання, якщо хоче залишатися актуальною.


1,39K
Я трохи загубився у всіх абревіатурах і жаргоні тут, тому я попросив Клода пояснити це без використання будь-яких абревіатур, і тепер все це має сенс (tldr; пропускна здатність ⟹ простота):
Це захоплююча технічна дискусія про навчання великих мовних моделей у масштабі.
Суть розмови
Цзін'юань Лю висловлює здивування, виявивши, що вам не потрібні певні складні методи оптимізації при використанні TPU (тензорні процесори - спеціалізовані чіпи штучного інтелекту Google) у порівнянні з графічними процесорами (графічними процесорами - зазвичай чіпами NVIDIA).
Пояснення ключових технічних понять:
Типи фурнітури:
•Графічний процесор (графічний процесор): спочатку розроблений для графіки, а зараз активно використовується для штучного інтелекту. NVIDIA домінує на цьому ринку.
•TPU (тензорний процесор): спеціально розроблені чіпи Google спеціально для машинного навчання.
Стратегії паралелізму:
Під час навчання масивних моделей штучного інтелекту вам потрібно розділити роботу на багато чіпів. Для цього є кілька способів:
1) Паралелізм даних (DP): кожен чіп обробляє різні пакети даних з однією і тією ж копією моделі
2) Тензорний паралелізм (ТП): математичні операції моделі розподілені між мікросхемами
3) Паралельність трубопроводу (PP): різні шари моделі розміщуються на різних чіпах, створюючи конвеєр
Технічна задача, що обговорюється:
Проблема допоміжних втрат: при навчанні дуже великих моделей ви часто додаєте «допоміжні втрати» (додаткові тренувальні цілі) на проміжних рівнях, щоб допомогти градієнтам краще протікати через мережу. За обмежень PPVP (Pipeline Parallelism with Variable Partitioning) це стає складним, оскільки:
•Вам потрібно зробити "all f all b" (всі проходи вперед, потім всі проходи назад)
•Це складно для пікового використання пам'яті, оскільки вам потрібно зберігати проміжні результати
Інновація DeepSeek: вони розробили дизайн «допоміжного зміщення», який, очевидно, уникає потреби в цих допоміжних втратах, але при цьому ефективно тренується.
Несподіване одкровення:
Старший експерт розповів Jingyuan, що за допомогою TPU в масштабі K2 або DSV3 (це кластерні конфігурації з сотнями або тисячами чіпів) ви можете досягти відмінного MFU (Model FLOPs Utilization - в основному того, наскільки ефективно ви використовуєте обладнання) БЕЗ використання Pipeline Parallelism.
Чому це дивно?
• Паралелізм трубопроводів зазвичай вважається важливим для великомасштабного навчання
•Це складна техніка, яка потребує ретельної оптимізації
•Можливість уникнути цього значно спрощує все
Пояснення Горація:
Він пояснює, ЧОМУ це можливо за допомогою ТПУ:
Перевага в пропускній здатності: TPU та високоякісні кластери NVIDIA (наприклад, NVL72 - остання конфігурація NVIDIA з 72 графічними процесорами та з'єднаннями NVLink) мають настільки високу пропускну здатність між чіпами, що вони можуть впоратися з вимогами до зв'язку без Pipeline Parallelism.
Ключовий інсайт:
•Паралелізм конвеєра насамперед потрібен, коли ви «вузьке місце в комунікаціях DP» (обмежене швидкістю зв'язку під час паралельного навчання даних)
•Якщо у вас достатньо пропускної здатності в достатньо великому домені (взаємопов'язаному кластері), ви можете просто використовувати простіші стратегії паралелізму
• Це працює «дуже довго» - це означає, що ви можете тренувати навіть дуже великі моделі, не перевищуючи межі можливостей
Інтуїція:
Думайте про це як про систему автомагістралей:
• Традиційні кластери графічних процесорів схожі на вузькі дороги між містами, тому вам потрібна складна маршрутизація (Pipeline Parallelism), щоб уникнути заторів
• Кластери TPU або графічні процесори, підключені до NVLink, схожі на величезні супермагістралі – ви можете просто надсилати все напряму без вигадливої маршрутизації
Це дуже важливо, тому що Pipeline Parallelism складний у впровадженні, налагодженні та оптимізації. Можливість уникнути його, досягнувши при цьому високої ефективності, робить весь тренувальний процес набагато простішим і надійнішим.
Дискусія підкреслює, як прогрес у технології апаратного з'єднання («дороги» між чіпами) може докорінно змінити програмні стратегії, необхідні для ефективного навчання ШІ.

25,71K
Я трохи загубився у всіх абревіатурах і жаргоні тут, тому я попросив Клода пояснити це без використання будь-яких абревіатур, і тепер все це має сенс (tldr; пропускна здатність ⟹ простота):
Це захоплююча технічна дискусія про навчання великих мовних моделей у масштабі.
Суть розмови
Цзін'юань Лю висловлює здивування, виявивши, що вам не потрібні певні складні методи оптимізації при використанні TPU (тензорні процесори - спеціалізовані чіпи штучного інтелекту Google) у порівнянні з графічними процесорами (графічними процесорами - зазвичай чіпами NVIDIA).
Пояснення ключових технічних понять:
Типи фурнітури:
•Графічний процесор (графічний процесор): спочатку розроблений для графіки, а зараз активно використовується для штучного інтелекту. NVIDIA домінує на цьому ринку.
•TPU (тензорний процесор): спеціально розроблені чіпи Google спеціально для машинного навчання.
Стратегії паралелізму:
Під час навчання масивних моделей штучного інтелекту вам потрібно розділити роботу на багато чіпів. Для цього є кілька способів:
1Паралелізм даних (DP): кожен чіп обробляє різні пакети даних з однією і тією ж копією моделі
2Тензорний паралелізм (TP): математичні операції моделі розподілені між мікросхемами
3Pipeline Parallelism (PP): різні шари моделі розміщуються на різних мікросхемах, створюючи конвеєр
Технічна задача, що обговорюється:
Проблема допоміжних втрат: при навчанні дуже великих моделей ви часто додаєте «допоміжні втрати» (додаткові тренувальні цілі) на проміжних рівнях, щоб допомогти градієнтам краще протікати через мережу. За обмежень PPVP (Pipeline Parallelism with Variable Partitioning) це стає складним, оскільки:
•Вам потрібно зробити "all f all b" (всі проходи вперед, потім всі проходи назад)
•Це складно для пікового використання пам'яті, оскільки вам потрібно зберігати проміжні результати
Інновація DeepSeek: вони розробили дизайн «допоміжного зміщення», який, очевидно, уникає потреби в цих допоміжних втратах, але при цьому ефективно тренується.
Несподіване одкровення:
Старший експерт розповів Jingyuan, що за допомогою TPU в масштабі K2 або DSV3 (це кластерні конфігурації з сотнями або тисячами чіпів) ви можете досягти відмінного MFU (Model FLOPs Utilization - в основному того, наскільки ефективно ви використовуєте обладнання) БЕЗ використання Pipeline Parallelism.
Чому це дивно?
• Паралелізм трубопроводів зазвичай вважається важливим для великомасштабного навчання
•Це складна техніка, яка потребує ретельної оптимізації
•Можливість уникнути цього значно спрощує все
Пояснення Горація:
Він пояснює, ЧОМУ це можливо за допомогою ТПУ:
Перевага в пропускній здатності: TPU та високоякісні кластери NVIDIA (наприклад, NVL72 - остання конфігурація NVIDIA з 72 графічними процесорами та з'єднаннями NVLink) мають настільки високу пропускну здатність між чіпами, що вони можуть впоратися з вимогами до зв'язку без Pipeline Parallelism.
Ключовий інсайт:
•Паралелізм конвеєра насамперед потрібен, коли ви «вузьке місце в комунікаціях DP» (обмежене швидкістю зв'язку під час паралельного навчання даних)
•Якщо у вас достатньо пропускної здатності в достатньо великому домені (взаємопов'язаному кластері), ви можете просто використовувати простіші стратегії паралелізму
• Це працює «дуже довго» - це означає, що ви можете тренувати навіть дуже великі моделі, не перевищуючи межі можливостей
Інтуїція:
Думайте про це як про систему автомагістралей:
• Традиційні кластери графічних процесорів схожі на вузькі дороги між містами, тому вам потрібна складна маршрутизація (Pipeline Parallelism), щоб уникнути заторів
• Кластери TPU або графічні процесори, підключені до NVLink, схожі на величезні супермагістралі – ви можете просто надсилати все напряму без вигадливої маршрутизації
Це дуже важливо, тому що Pipeline Parallelism складний у впровадженні, налагодженні та оптимізації. Можливість уникнути його, досягнувши при цьому високої ефективності, робить весь тренувальний процес набагато простішим і надійнішим.
Дискусія підкреслює, як прогрес у технології апаратного з'єднання («дороги» між чіпами) може докорінно змінити програмні стратегії, необхідні для ефективного навчання ШІ.

3,99K
Я трохи здивований, що ніхто досі не створив MCP-сервер Dwarf Fortress, який міг би дозволити агенту на кшталт Codex або Claude Code ефективно контролювати гру та стежити за станом і прогресом.
Я ніколи не грав у неї сам, просто завантажив її і коротко перевірив близько 10 років тому, але мені сподобалося читати про неї.
Здається, що це було б дуже хорошим тестом LLM, щоб побачити, як довго він зможе підтримувати гномів живими та процвітаючими.
Оскільки кожна гра врешті-решт призводить до якоїсь каскадної катастрофи, що призводить до загибелі всіх гномів, у неї має бути природна точка зупинки, що робить її хорошим кандидатом на орієнтир. Принаймні так я це розумію (девіз гравців – «Програвати – це весело»).
Хороша робота з цими іграми залежатиме від точності виклику інструментів і стійкої узгодженості довгострокових завдань, а також здатності відстежувати та розуміти динаміку складної системи та робити своєчасні втручання, які передбачають і протидіють проблемам.
А оскільки вона є рідною для терміналу, її можна ефективно передавати та обробляти за допомогою звичайних токенів без необхідності мультимодальної обробки зображень, що зробило б її набагато ефективнішою, ніж інші ігри.
Крім того, ви знаєте, що жодна лабораторія штучного інтелекту не тренувалася для цього (поки що!), тому він не заплямований «benchmaxxing».

4,39K
Цікава річ, яку можна зробити, коли вам потрібно почекати кілька хвилин, - це використовувати свій телефон, щоб задати Клоду Опусу наступне питання про якусь випадкову дисципліну або поле:
«Що, на вашу думку, є основним розумінням або аналітичним трюком кристалографії?»
Замініть кристалографію на все, що вам спаде на думку. Поки що я спробував:
КЕД; стандартна модель; Біохімія; Імовірність; Еволюційна теорія; та багато іншого.
Є щось у тому, щоб змусити модель зробити неможливе, стиснути величезне, складне поле в «один дивний трюк», що змушує її дійсно шукати найкращий глибокий, об'єднуючий принцип у цій галузі, а потім сформулювати його лаконічно.
Це, як правило, є очевидним для практиків, але дуже ймовірно, що воно невідоме більшості людей, які мають лише побіжний інтерес до цієї теми.
Цікаво, що ви також можете багаторазово натискати кнопку «повторити» з однією і тією ж підказкою і іноді отримувати дуже різні, але зазвичай дуже цікаві пояснення.
Я вже багато чому навчився, роблячи це, і, можливо, це просто найвище «розуміння за хвилину», з яким я стикався в будь-якому самостійному навчанні.
Тому що це не просто цікаві факти чи круті ласі шматочки. Вони, за своєю конструкцією, проникають і об'єднують ідеї, які пов'язують воєдино величезну кількість теорій і спостережуваних явищ у світі.
Це, безумовно, набагато вища пропускна здатність, ніж перегляд чергового пояснювального відео на YouTube з анімацією та рекламою Brilliant/KiwiCo! Не те, щоб з ними було щось погане.




8,29K
Ідея про те, що останнім часом відбувся такий «відтік талантів» з OpenAI, що вони більше не позиціонуються як лідер у цій галузі, приблизно така ж помилкова та неправильна, як ідея про те, що GPT-5 «був великим провалом, а модель не така вже й чудова та дуже поступова».
Мало того, що GPT-5 Pro зараз є найрозумнішою моделлю у світі в значній мірі для найскладніших завдань реального світу (особливо завдань з кодування, які зараз мають найбільше економічне значення), але й новий інструмент codex cli від OpenAI неймовірно добре виконаний.
Вони пройшли шлях від далекого 3-го місця в інструментах кодування CLI до того, що, можливо, є найкращим зараз (зауважте, що я все ще люблю і використовую Claude Code, це не або/або!), з безумовно найкращою продуктивністю, найнижчою затримкою тощо, тому що він запрограмований на rust.
І тепер цей CLI-інструмент поєднується з найкращою моделлю кодування, яка має найкращу надійність виклику інструментів і найкращу когерентність тривалого завдання, з найменшою кількістю галюцинацій.
І зайве говорити, що їхній додаток для iOS також значно кращий за всі інші програми зі штучним інтелектом з точки зору досконалості та функцій. Додаток Claude – це просто веб-додаток у пісочниці Safari! І їхній веб-додаток також залишається найкращим. Такі речі, як пошук, працюють краще, ніж в інших додатках. Базове блокування та підкат.
Отже, так. Деякі дуже розумні люди, такі як Ілля та Джон Шульмани, пішли в інші компанії. Але у них все ще є абсолютно приголомшлива технічна команда з неймовірно хорошими людьми з продукту та чудовими інженерними відбивними.
Не дозволяйте своїй неприязні до Альтмана засліпити вас до очевидного. Щоразу, коли я бачу, як ще одна людина говорить про те, наскільки поганий GPT-5, я здригаюся, тому що ця людина показує, що вона не може думати самостійно, ґрунтуючись на доказах і розумі, і змушує мене думати (і поширювати її в Інтернеті), тому що вона думає, що це змушує її звучати розумно.
34,25K
Як оновлення моїх двох нещодавніх тредів про використання GPT-5 Pro для ініціювання процесу виявлення проривних теорій, які поєднують нові застосування передової математики та випадки використання штучного інтелекту, я попросив модель створити демонстраційні реалізації на Python за допомогою Jax і Numpy для кожної з 11 ідей.
Потім я об'єднав їх у проект і додав гарний CLI для їх запуску, а також серію наскрізних тестів, які вимірювали, чи є код математично правильним, перевіряли, чи має код потрібні нам математичні властивості, і, нарешті, чи робить він щось корисне в порівнянні з поточними стандартними підходами.
Я використовував codex CLI з GPT-5, щоб інтегрувати все та виправляти та виправляти помилки. Я дам посилання на репозиторій, який містить детальну документацію для всього проекту, а потім записи для кожної з 11 демонстрацій, які містять всі результати, згенеровані моделлю в процесі роботи.
4,05K
Найкращі
Рейтинг
Вибране
Актуальне ончейн
Популярні в X
Нещодавнє найкраще фінансування
Найбільш варте уваги