Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Jeffrey Emanuel
Tôi đã hơi lạc trong tất cả các từ viết tắt và thuật ngữ ở đây, vì vậy tôi đã nhờ Claude giải thích mà không sử dụng bất kỳ từ viết tắt nào và bây giờ mọi thứ đều có ý nghĩa hoàn hảo (tóm tắt; băng thông ⟹ sự đơn giản):
Đây là một cuộc thảo luận kỹ thuật thú vị về việc đào tạo các mô hình ngôn ngữ lớn quy mô lớn.
Cuộc trò chuyện chính
Jingyuan Liu đang bày tỏ sự ngạc nhiên khi phát hiện ra rằng bạn không cần một số kỹ thuật tối ưu hóa phức tạp khi sử dụng TPU (Bộ xử lý Tensor - chip AI chuyên dụng của Google) so với GPU (Bộ xử lý Đồ họa - thường là chip của NVIDIA).
Các khái niệm kỹ thuật chính được giải thích:
Các loại phần cứng:
• GPU (Bộ xử lý Đồ họa): Ban đầu được thiết kế cho đồ họa, giờ đây được sử dụng nhiều cho AI. NVIDIA thống trị thị trường này.
• TPU (Bộ xử lý Tensor): Chip được thiết kế riêng của Google dành riêng cho học máy.
Chiến lược song song:
Khi đào tạo các mô hình AI khổng lồ, bạn cần chia công việc giữa nhiều chip. Có một số cách để làm điều này:
1) Song song dữ liệu (DP): Mỗi chip xử lý các lô dữ liệu khác nhau với cùng một bản sao mô hình
2) Song song tensor (TP): Các phép toán toán học của mô hình được chia sẻ giữa các chip
3) Song song ống dẫn (PP): Các lớp khác nhau của mô hình được đặt trên các chip khác nhau, tạo thành một ống dẫn
Thách thức kỹ thuật đang được thảo luận:
Vấn đề mất mát phụ: Khi đào tạo các mô hình rất lớn, bạn thường thêm "mất mát phụ" (các mục tiêu đào tạo bổ sung) ở các lớp trung gian để giúp các gradient chảy tốt hơn qua mạng. Dưới các ràng buộc PPVP (Song song ống dẫn với phân vùng biến đổi), điều này trở nên phức tạp vì:
• Bạn cần thực hiện "tất cả f tất cả b" (tất cả các bước tiến, sau đó tất cả các bước lùi)
• Điều này gây khó khăn cho việc sử dụng bộ nhớ tối đa vì bạn phải lưu trữ các kết quả trung gian
Sáng tạo của DeepSeek: Họ đã phát triển một thiết kế "auxfree bias" mà dường như không cần những mất mát phụ này trong khi vẫn đào tạo hiệu quả.
Khám phá bất ngờ:
Chuyên gia cao cấp đã nói với Jingyuan rằng với TPU ở quy mô K2 hoặc DSV3 (đây là các cấu hình cụm với hàng trăm hoặc hàng nghìn chip), bạn có thể đạt được MFU (Sử dụng Model FLOPs - về cơ bản là cách bạn sử dụng phần cứng một cách hiệu quả) mà KHÔNG cần sử dụng Song song ống dẫn.
Tại sao điều này lại bất ngờ?
• Song song ống dẫn thường được coi là cần thiết cho đào tạo quy mô lớn
• Đây là một kỹ thuật phức tạp cần tối ưu hóa cẩn thận
• Việc có thể tránh nó làm đơn giản hóa mọi thứ một cách đáng kể
Giải thích của Horace He:
Ông giải thích TẠI SAO điều này có thể xảy ra với TPU:
Lợi thế băng thông: TPU và các cụm NVIDIA cao cấp (như NVL72 - cấu hình 72-GPU mới nhất của NVIDIA với các kết nối NVLink) có băng thông cao giữa các chip đến mức họ có thể xử lý các yêu cầu giao tiếp mà không cần Song song ống dẫn.
Nhận thức chính:
• Song song ống dẫn chủ yếu cần thiết khi bạn "bị tắc nghẽn trên DP comms" (bị giới hạn bởi tốc độ giao tiếp trong đào tạo song song dữ liệu)
• Nếu bạn có đủ băng thông trên một miền đủ lớn (cụm liên kết), bạn có thể chỉ cần sử dụng các chiến lược song song đơn giản hơn
• Điều này hoạt động "trong một thời gian rất dài" - có nghĩa là bạn có thể đào tạo ngay cả các mô hình rất lớn mà không gặp phải giới hạn
Trực giác:
Hãy nghĩ về nó như một hệ thống đường cao tốc:
• Các cụm GPU truyền thống giống như có những con đường hẹp giữa các thành phố, vì vậy bạn cần định tuyến phức tạp (Song song ống dẫn) để tránh tắc nghẽn giao thông
• Các cụm TPU hoặc GPU kết nối NVLink giống như có những con đường cao tốc khổng lồ - bạn có thể chỉ cần gửi mọi thứ trực tiếp mà không cần định tuyến phức tạp
Điều này rất quan trọng vì Song song ống dẫn rất phức tạp để triển khai, gỡ lỗi và tối ưu hóa. Việc có thể tránh nó trong khi vẫn đạt được hiệu quả cao làm cho toàn bộ quá trình đào tạo trở nên đơn giản hơn và đáng tin cậy hơn.
Cuộc thảo luận nhấn mạnh cách mà những tiến bộ trong công nghệ kết nối phần cứng (các "con đường" giữa các chip) có thể thay đổi cơ bản các chiến lược phần mềm cần thiết cho việc đào tạo AI hiệu quả.

25,48K
Tôi đã hơi lạc trong tất cả các từ viết tắt và thuật ngữ ở đây, vì vậy tôi đã nhờ Claude giải thích mà không sử dụng bất kỳ từ viết tắt nào và bây giờ mọi thứ đều rất rõ ràng (tóm tắt; băng thông ⟹ sự đơn giản):
Đây là một cuộc thảo luận kỹ thuật thú vị về việc đào tạo các mô hình ngôn ngữ lớn quy mô lớn.
Cuộc trò chuyện chính
Jingyuan Liu đang bày tỏ sự ngạc nhiên khi phát hiện ra rằng bạn không cần một số kỹ thuật tối ưu hóa phức tạp khi sử dụng TPU (Bộ xử lý Tensor - chip AI chuyên dụng của Google) so với GPU (Bộ xử lý Đồ họa - thường là chip của NVIDIA).
Các khái niệm kỹ thuật chính được giải thích:
Các loại phần cứng:
• GPU (Bộ xử lý Đồ họa): Ban đầu được thiết kế cho đồ họa, giờ đây được sử dụng nhiều cho AI. NVIDIA thống trị thị trường này.
• TPU (Bộ xử lý Tensor): Chip được thiết kế riêng của Google dành riêng cho học máy.
Các chiến lược song song:
Khi đào tạo các mô hình AI khổng lồ, bạn cần chia công việc giữa nhiều chip. Có một số cách để làm điều này:
1. Đối xứng dữ liệu (DP): Mỗi chip xử lý các lô dữ liệu khác nhau với cùng một bản sao mô hình.
2. Đối xứng tensor (TP): Các phép toán toán học của mô hình được chia sẻ giữa các chip.
3. Đối xứng ống dẫn (PP): Các lớp khác nhau của mô hình được đặt trên các chip khác nhau, tạo thành một ống dẫn.
Thách thức kỹ thuật đang được thảo luận:
Vấn đề mất mát phụ: Khi đào tạo các mô hình rất lớn, bạn thường thêm "mất mát phụ" (các mục tiêu đào tạo bổ sung) ở các lớp trung gian để giúp các gradient chảy tốt hơn qua mạng. Dưới các ràng buộc PPVP (Đối xứng ống dẫn với phân vùng biến đổi), điều này trở nên phức tạp vì:
• Bạn cần thực hiện "tất cả f tất cả b" (tất cả các bước tiến, sau đó tất cả các bước lùi).
• Điều này gây khó khăn cho việc sử dụng bộ nhớ tối đa vì bạn phải lưu trữ các kết quả trung gian.
Sáng tạo của DeepSeek: Họ đã phát triển một thiết kế "auxfree bias" mà dường như tránh cần những mất mát phụ này trong khi vẫn đào tạo hiệu quả.
Khám phá bất ngờ:
Chuyên gia cao cấp đã nói với Jingyuan rằng với TPU ở quy mô K2 hoặc DSV3 (đây là các cấu hình cụm với hàng trăm hoặc hàng nghìn chip), bạn có thể đạt được MFU (Mô hình FLOPs Utilization - về cơ bản là cách bạn sử dụng phần cứng một cách hiệu quả) mà KHÔNG cần sử dụng Đối xứng ống dẫn.
Tại sao điều này lại bất ngờ?
• Đối xứng ống dẫn thường được coi là cần thiết cho đào tạo quy mô lớn.
• Đây là một kỹ thuật phức tạp cần tối ưu hóa cẩn thận.
• Việc có thể tránh nó làm đơn giản hóa mọi thứ một cách đáng kể.
Giải thích của Horace He:
Ông giải thích TẠI SAO điều này có thể xảy ra với TPU:
Lợi thế băng thông: TPU và các cụm NVIDIA cao cấp (như NVL72 - cấu hình 72-GPU mới nhất của NVIDIA với các kết nối NVLink) có băng thông cao giữa các chip đến mức họ có thể xử lý các yêu cầu giao tiếp mà không cần Đối xứng ống dẫn.
Nhận thức chính:
• Đối xứng ống dẫn chủ yếu cần thiết khi bạn "bị tắc nghẽn trên DP comms" (bị giới hạn bởi tốc độ giao tiếp trong quá trình đào tạo song song dữ liệu).
• Nếu bạn có đủ băng thông trên một miền đủ lớn (cụm liên kết), bạn có thể chỉ cần sử dụng các chiến lược song song đơn giản hơn.
• Điều này hoạt động "trong một thời gian rất dài" - có nghĩa là bạn có thể đào tạo ngay cả các mô hình rất lớn mà không gặp phải giới hạn.
Trực giác:
Hãy nghĩ về nó như một hệ thống đường cao tốc:
• Các cụm GPU truyền thống giống như có những con đường hẹp giữa các thành phố, vì vậy bạn cần định tuyến phức tạp (Đối xứng ống dẫn) để tránh tắc nghẽn giao thông.
• Các cụm TPU hoặc GPU kết nối NVLink giống như có những đường cao tốc khổng lồ - bạn có thể chỉ cần gửi mọi thứ trực tiếp mà không cần định tuyến phức tạp.
Điều này rất quan trọng vì Đối xứng ống dẫn rất phức tạp để triển khai, gỡ lỗi và tối ưu hóa. Việc có thể tránh nó trong khi vẫn đạt được hiệu suất cao làm cho toàn bộ quá trình đào tạo trở nên đơn giản hơn và đáng tin cậy hơn.
Cuộc thảo luận nhấn mạnh cách mà những tiến bộ trong công nghệ kết nối phần cứng (các "con đường" giữa các chip) có thể thay đổi cơ bản các chiến lược phần mềm cần thiết cho việc đào tạo AI hiệu quả.

3,83K
Tôi hơi ngạc nhiên khi không ai đã tạo ra một máy chủ Dwarf Fortress MCP cho phép một tác nhân như Codex hoặc Claude Code điều khiển trò chơi một cách hiệu quả và theo dõi trạng thái cũng như tiến trình.
Tôi chưa bao giờ thực sự chơi nó, chỉ tải về và xem qua một chút khoảng 10 năm trước, nhưng tôi thích đọc về nó.
Có vẻ như đây sẽ là một bài kiểm tra rất tốt cho một LLM để xem nó có thể giữ cho những người lùn sống sót và phát triển trong bao lâu.
Bởi vì mỗi trò chơi cuối cùng đều dẫn đến một thảm họa dây chuyền khiến tất cả những người lùn chết, nên sẽ có một điểm dừng tự nhiên cho nó, điều này khiến nó trở thành một ứng cử viên tốt cho việc đánh giá. Ít nhất đó là hiểu biết của tôi về nó (khẩu hiệu của người chơi là "Thua là vui").
Thực hiện tốt công việc với trò chơi này sẽ phụ thuộc vào độ chính xác trong việc gọi công cụ và khả năng duy trì sự nhất quán trong các nhiệm vụ dài hạn, cộng với khả năng theo dõi và hiểu động lực của một hệ thống phức tạp và thực hiện các can thiệp kịp thời để dự đoán và chống lại các vấn đề.
Và vì nó là bản gốc của terminal, nó có thể được truyền tải và xử lý một cách hiệu quả bằng cách sử dụng các token thông thường mà không cần xử lý hình ảnh đa phương thức, điều này sẽ khiến nó hiệu quả hơn nhiều so với các trò chơi khác.
Hơn nữa, bạn biết rằng không có phòng thí nghiệm AI nào đã được đào tạo cho điều này (chưa!), vì vậy nó chưa bị ảnh hưởng bởi "benchmaxxing."

4,28K
Một điều thú vị để làm khi bạn cần chờ đợi trong vài phút là sử dụng điện thoại của bạn để hỏi Claude Opus câu hỏi sau về một lĩnh vực hoặc ngành nghề ngẫu nhiên:
"Bạn sẽ nói rằng cái nhìn sâu sắc hoặc mẹo phân tích cốt lõi của tinh thể học là gì?"
Thay thế tinh thể học bằng bất cứ điều gì bạn có thể nghĩ đến. Cho đến nay, tôi đã thử:
QED; Mô hình chuẩn; Sinh hóa học; Xác suất; Thuyết tiến hóa; và nhiều hơn nữa.
Có điều gì đó về việc buộc mô hình làm điều không thể, để cô đọng một lĩnh vực rộng lớn, phức tạp thành "một mẹo kỳ lạ", khiến nó thực sự tìm kiếm nguyên tắc sâu sắc, thống nhất nhất trong lĩnh vực và sau đó diễn đạt nó một cách ngắn gọn.
Điều này thường là điều hiển nhiên đối với những người thực hành nhưng rất có thể không được biết đến bởi hầu hết mọi người chỉ có một mối quan tâm thoáng qua về chủ đề này.
Thú vị là, bạn cũng có thể nhấn nút "thử lại" nhiều lần với cùng một lời nhắc và đôi khi nhận được những giải thích rất khác nhau, nhưng thường thì rất hấp dẫn.
Tôi đã học được RẤT NHIỀU từ việc làm này, và có thể đây là "sự hiểu biết trên mỗi phút" cao nhất mà tôi đã gặp trong bất kỳ hình thức học tự định hướng nào.
Bởi vì chúng không chỉ là những sự thật thú vị hay những mẩu thông tin hay ho. Chúng, theo cấu trúc, là những ý tưởng thâm nhập và thống nhất liên kết một lượng lớn lý thuyết và hiện tượng quan sát được trong thế giới.
Chắc chắn là nó có băng thông cao hơn nhiều so với việc xem một video giải thích trên YouTube khác với hoạt hình và quảng cáo cho Brilliant/KiwiCo! Không phải là có gì sai với những điều đó.




8,18K
Ý tưởng rằng đã có một "cuộc di cư tài năng" từ OpenAI gần đây đến mức họ không còn vị thế để trở thành một nhà lãnh đạo trong lĩnh vực này là sai lầm và không chính xác như ý tưởng rằng GPT-5 "là một thất bại lớn và mô hình không tuyệt vời và rất tạm thời."
Không chỉ GPT-5 Pro là mô hình thông minh nhất thế giới hiện nay với một khoảng cách rất lớn trong hầu hết các nhiệm vụ thực tế khó khăn (đặc biệt là các nhiệm vụ lập trình, có tầm quan trọng kinh tế nhất hiện nay), mà công cụ codex cli mới từ OpenAI cũng được thực hiện một cách xuất sắc.
Họ đã từ vị trí thứ 3 xa xôi trong các công cụ cli lập trình trở thành công cụ tốt nhất hiện nay (lưu ý rằng tôi vẫn thích và sử dụng Claude Code, không phải là cái này hoặc cái kia!), với hiệu suất tốt nhất, độ trễ thấp nhất, v.v. vì nó được lập trình bằng rust.
Và bây giờ công cụ cli này được kết hợp với mô hình lập trình tốt nhất có độ tin cậy gọi công cụ tốt nhất và độ mạch lạc trong các nhiệm vụ dài nhất, với ít ảo giác nhất.
Và không cần phải nói, ứng dụng iOS của họ cũng tốt hơn rất nhiều so với tất cả các ứng dụng AI khác về độ hoàn thiện và tính năng. Ứng dụng Claude chỉ là ứng dụng web trong một sandbox Safari! Và ứng dụng web của họ cũng vẫn là tốt nhất. Những thứ như tìm kiếm hoạt động tốt hơn so với các ứng dụng khác. Những điều cơ bản.
Vì vậy, vâng. Một số người rất thông minh như Ilya và John Schulman đã rời đi để đến các công ty khác. Nhưng họ vẫn có một đội ngũ kỹ thuật tuyệt vời với những người sản phẩm cực kỳ giỏi và kỹ năng kỹ thuật tuyệt vời.
Đừng để sự không thích của bạn đối với Altman làm mờ mắt bạn trước điều hiển nhiên. Mỗi khi tôi thấy một người khác nói về việc GPT-5 tệ như thế nào, tôi cảm thấy khó chịu, vì người đó đang cho thấy rằng họ không thể tự suy nghĩ dựa trên bằng chứng và lý trí, và đã bị ảnh hưởng bởi một ý kiến (và phát biểu nó trực tuyến) vì họ nghĩ điều đó làm cho họ nghe có vẻ thông minh.
34,15K
Thật tuyệt vời khi mỗi con chip nhỏ đó có 8 terabyte dung lượng lưu trữ siêu nhanh? Và bạn có thể cắm cả hai vào cái vỏ màu xanh đó và có được 20 Gbps qua USB 3.3 (tôi không có cổng USB 4 và tất cả các khe pci-e của tôi đều bị chiếm bởi GPU)
Chúng ta đang sống trong một thời đại của sự phong phú như vậy.

3,35K
Cập nhật cho hai chủ đề gần đây của tôi về việc sử dụng GPT-5 Pro để khởi động một quá trình khám phá các lý thuyết đột phá kết hợp các ứng dụng mới của toán học tiên tiến trong các trường hợp sử dụng AI, tôi đã yêu cầu mô hình tạo ra các triển khai demo bằng Python sử dụng Jax và Numpy cho mỗi trong số 11 ý tưởng.
Sau đó, tôi đã kết hợp chúng lại trong một dự án và thêm một CLI đẹp để chạy chúng, cùng với một loạt các bài kiểm tra end to end đo lường xem mã có chính xác về mặt toán học hay không, kiểm tra xem mã có các thuộc tính toán học mà chúng tôi muốn hay không, và cuối cùng, liệu nó có làm được điều gì hữu ích so với các phương pháp tiêu chuẩn hiện tại hay không.
Tôi đã sử dụng codex CLI với GPT-5 để tích hợp mọi thứ và sửa các lỗi. Tôi sẽ liên kết đến repo, nơi chứa tài liệu chi tiết cho toàn bộ dự án và sau đó là các bài viết cho mỗi trong số 11 demo chứa tất cả đầu ra được tạo ra bởi mô hình trong quá trình này.
3,93K
Wow, cuối cùng tôi cũng đã thử phiên bản mới của CLI codex của OpenAI (đáp án của họ cho Claude Code).
Lần trước tôi thử sử dụng codex (lưu ý rằng điều này khác với tác nhân lập trình được lưu trữ của họ cũng gọi là codex, điều này thật sự gây nhầm lẫn; tôi đang nói về công cụ bạn chạy cục bộ trên máy của bạn trong terminal), nó được viết dưới dạng ứng dụng Nodejs/Typescript, và thực sự khá tệ:
- chỉ có thể truy cập các mô hình yếu hơn như o4-mini hoặc biến thể của chúng cho codex, cũng gây nhầm lẫn khi cũng gọi là codex (thật sự?)
- giao diện người dùng/trải nghiệm người dùng tệ hơn nhiều so với Claude Code
- kém hơn nhiều trong việc lập trình do mô hình tệ hơn, công cụ tệ hơn, quy trình tác nhân tệ hơn.
- nó phiền phức khi buộc bạn phải cho phép mọi thứ nên bạn phải theo dõi nó mọi lúc, làm cho nó ít hữu ích hơn vì bạn không thể chạy một đống chúng song song một cách dễ dàng.
- có thể đó là điều tốt, vì vấn đề lớn nhất là nó thực hiện những việc cực kỳ liều lĩnh, phá hoại; nó liều lĩnh hơn nhiều so với CC.
Đó là lý do tại sao tôi ngay lập tức ngừng sử dụng nó, vì nó quyết định thực hiện "git reset --hard HEAD" mà không lưu trữ trước, và tôi đã mất một số công việc. Không bao giờ nữa, tôi đã nghĩ.
Chà, cuối cùng tôi cũng đã thử phiên bản rust hoàn toàn mới sử dụng GPT-5 và có thể sử dụng đăng ký GPT Pro hiện có của bạn thay vì khóa API, và điều này tốt hơn nhiều đến mức gây sốc.
Trước hết, không có gì thay thế cho mã biên dịch nhanh khi nói đến các công cụ tương tác như thế này.
Thực tế là nó được viết bằng rust có nghĩa là không có độ trễ nào với đầu vào từ bàn phím, và cũng không có hiện tượng kỳ lạ như bạn có trong CC nơi phím backspace không hoạt động đúng và đầu vào thì chậm chạp và lag vì nó được viết bằng một ngôn ngữ thông dịch chậm gấp trăm lần cho những thứ như thế này.
Đối phó với độ trễ và sự chậm chạp liên tục không chỉ chậm hơn, mà còn gây căng thẳng về tinh thần và có thể cả cảm xúc, ít nhất là đối với tôi khi tôi sử dụng những thứ này trong nhiều giờ. Thật là một cảm giác khủng khiếp khi ghét và oán trách công cụ của bạn ngay cả khi bạn phụ thuộc vào chúng để làm việc.
Tôi thực sự hy vọng điều này nâng cao tiêu chuẩn cho tất cả những công cụ này và thuyết phục Anthropic và Google và những người khác cũng sử dụng rust (hoặc C++, Zig, bất cứ thứ gì).
Nhưng sự cải thiện lớn nhất rõ ràng là mô hình; với một mô hình tệ hơn không đáng tin cậy trong việc gọi công cụ và mất tính nhất quán trong các nhiệm vụ dài hơn, thì không có sự nhanh nhẹn của Rust nào đáng giá cả.
Nhưng nếu bạn theo dõi tôi ở đây, thì bạn sẽ biết rằng tôi đã rất ngưỡng mộ khả năng lập trình và khả năng gọi công cụ của GPT-5 Thinking từ khoảng 15 phút sau khi nó ra mắt, mặc dù tôi chủ yếu sử dụng nó từ tab tác nhân của Cursor.
Điểm mấu chốt là codex rust mới này đã đột nhiên trở thành một đối thủ thực sự đáng gờm với CC, và bạn nên thử ngay.
Tôi sẽ cần xem họ cho phép tôi sử dụng bao nhiêu trên đăng ký GPT Pro 200 đô la/tháng của tôi, nhưng nếu tôi phải lấy thêm một vài cái nữa, thì điều đó sẽ rất đáng giá.
Lưu ý rằng tôi chưa ngừng sử dụng CC. Tôi thích sử dụng cả hai cùng nhau. Và tin hay không, tôi vẫn sử dụng Cursor.
Mọi người nên ngừng tìm kiếm một công cụ duy nhất thay thế tất cả các công cụ khác và chấp nhận rằng các công cụ khác nhau có những điểm mạnh và điểm yếu khác nhau, và bạn sẽ có được kết quả tốt nhất bằng cách học tất cả điều đó một cách trực quan từ việc sử dụng liên tục.
Dù sao, hãy làm cho bản thân bạn một ân huệ và lấy nó ngay bây giờ. Cách dễ nhất là thực hiện lệnh này (lưu ý rằng điều này sẽ giúp bạn có phiên bản rust, mặc dù thật khó hiểu khi sử dụng bun/npm cho điều này):
bun i -g @openai/codex
8,7K
Wow, cuối cùng tôi cũng đã thử phiên bản mới của CLI codex của OpenAI (đáp án của họ cho Claude Code).
Lần trước tôi thử sử dụng codex (lưu ý rằng điều này khác với tác nhân lập trình được lưu trữ của họ cũng gọi là codex, điều này thật sự gây nhầm lẫn; tôi đang nói về công cụ bạn chạy cục bộ trên máy của mình trong terminal), nó được viết dưới dạng ứng dụng Nodejs/Typescript, và thực sự khá tệ:
- chỉ có thể truy cập các mô hình yếu hơn như o4-mini hoặc biến thể của chúng cho codex, cũng gây nhầm lẫn khi cũng gọi là codex (thật sự?)
- giao diện người dùng/trải nghiệm người dùng tệ hơn nhiều so với Claude Code
- kém hơn nhiều trong việc lập trình do mô hình tệ hơn, công cụ tệ hơn, quy trình tác nhân tệ hơn.
- nó khó chịu khi buộc bạn phải cho phép mọi thứ nên bạn phải trông chừng nó mọi lúc, làm cho nó ít hữu ích hơn vì bạn không thể chạy nhiều cái cùng một lúc một cách dễ dàng.
- có thể đó là điều tốt, vì vấn đề lớn nhất là nó thực hiện những việc cực kỳ liều lĩnh, phá hoại; nó thậm chí còn liều lĩnh hơn CC. Đó là lý do tại sao tôi ngay lập tức ngừng sử dụng nó, vì nó quyết định thực hiện "reset --hard HEAD" mà không lưu lại trước, và tôi đã mất một số công việc. Không bao giờ nữa, tôi đã nghĩ.
Chà, cuối cùng tôi cũng đã thử phiên bản rust hoàn toàn mới sử dụng GPT-5 và có thể sử dụng đăng ký GPT Pro hiện tại của bạn thay vì khóa API, và điều này tốt hơn rất nhiều đến mức gây sốc.
Trước hết, không có gì thay thế cho mã biên dịch nhanh khi nói đến các công cụ tương tác như thế này.
Thực tế là nó được viết bằng rust có nghĩa là không có độ trễ nào với đầu vào từ bàn phím, và cũng không có những hiện tượng kỳ lạ như bạn có trong CC, nơi phím backspace không hoạt động đúng và đầu vào thì chậm chạp và lag vì nó được viết bằng một ngôn ngữ thông dịch chậm gấp trăm lần cho những thứ như thế này.
Đối phó với độ trễ và sự chậm chạp liên tục không chỉ chậm hơn, mà còn có thể gây căng thẳng về tinh thần và thậm chí cảm xúc, ít nhất là đối với tôi khi tôi sử dụng những thứ này trong nhiều giờ. Thật là một cảm giác khủng khiếp khi ghét và oán trách công cụ của bạn ngay cả khi bạn phụ thuộc vào chúng để làm việc.
Tôi thực sự hy vọng điều này nâng cao tiêu chuẩn cho tất cả những công cụ này và thuyết phục Anthropic và Google và những người khác cũng sử dụng rust (hoặc C++, Zig, bất cứ thứ gì).
Nhưng sự cải thiện lớn nhất rõ ràng là mô hình; với một mô hình tệ hơn không đáng tin cậy trong việc gọi công cụ và mất tính nhất quán trong các nhiệm vụ dài hơn, thì không có sự nhanh nhẹn của Rust nào đáng giá cả.
Nhưng nếu bạn theo dõi tôi ở đây, thì bạn sẽ biết rằng tôi đã rất ấn tượng với khả năng lập trình và khả năng gọi công cụ của GPT-5 Thinking từ khoảng 15 phút sau khi nó ra mắt, mặc dù tôi chủ yếu sử dụng nó từ tab tác nhân của Cursor.
Điểm mấu chốt là codex rust mới này đã đột nhiên trở thành một đối thủ thực sự đáng gờm với CC, và bạn nên thử ngay.
Tôi sẽ cần xem họ cho phép tôi sử dụng bao nhiêu trên đăng ký GPT Pro 200 đô la/tháng của mình, nhưng nếu tôi phải lấy thêm một vài cái, thì điều đó sẽ rất đáng giá.
Lưu ý rằng tôi chưa ngừng sử dụng CC. Tôi thích sử dụng cả hai cùng nhau. Và tin hay không, tôi vẫn cũng sử dụng Cursor.
Mọi người nên ngừng tìm kiếm một công cụ duy nhất thay thế tất cả các công cụ khác và chấp nhận rằng các công cụ khác nhau có những điểm mạnh và điểm yếu khác nhau, và bạn sẽ có được kết quả tốt nhất bằng cách học tất cả điều đó một cách trực quan từ việc sử dụng liên tục.
Dù sao, hãy làm cho bản thân bạn một ân huệ và lấy nó ngay bây giờ. Cách dễ nhất là thực hiện lệnh này (lưu ý rằng điều này sẽ giúp bạn có phiên bản rust, mặc dù thật khó hiểu khi sử dụng bun/npm cho điều này):
bun i -g @openai/codex
832
Hàng đầu
Thứ hạng
Yêu thích
Onchain thịnh hành
Thịnh hành trên X
Ví funding hàng đầu gần đây
Được chú ý nhất