トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Jeffrey Emanuel
シドニー・ブレナーのオーラルヒストリーからのこの引用は、私が知らなかった、そして本物の言葉のようにさえ聞こえない複数の単語を連続してガタガタと鳴らし始めるので、私はひび割れました...そして、彼が彼らに対してどれほど情熱を持っていたかについて言及します。
「私は世間知らずの若者として、将来に役立つ科学を探し回ることに非常に積極的でした。それはばかげた活動です。
「ほら、トポロジーがブレークスルーになると思う」と言うようなので、トポロジーを学びに行きます。
そして、私はレオロジーのようなことを経験しており、レオロジーに大きな情熱を持っていましたが、チキソトロピーとレオペキシについてすべて知っていたので、細胞質の物理化学についてすべて知ろうとするのは悪い考えではないと考えていましたし、それが物理化学と関係があることを知っていました。」
318
現在最も先進的なマルチモーダル LLM (GPT-5 や Claude Opus 4.1 など) でさえ、興味深く明らかな欠陥の 1 つは、私が認知のモーダル サイロ化と呼ぶものです。
これらのモデルは、フランケンシュタインモデルに似ており、深く統合されるのではなく、リクエストを適切なコンポーネントにルーティングすることで結合された個別にトレーニングされた部分からやや粗雑に結合されているようです。
この点で私にとって大きな「物語」は、これらのモデルが、首尾一貫したオリジナルのASCIIアートを作成したり、適切なツール(たとえば、ブラウザで素晴らしく無料のASCIIFLOWエディター)が与えられれば、子供が簡単にできる方法で既存のアートを変更したりすることにどれほどひどいかということです。
私は最近、ast-grepを強力な方法で使用してコードファイルに問題がないかチェックするための素晴らしいユーティリティを作成しました(完了したら、それについてさらに投稿します)、プログラミング言語ごとに異なるasciiアートのマスコットやロゴ(Pythonの場合はsnake、Golangの場合はgopherなど)を含む素敵なバナーを作りたかったのです。
一貫性を保ちながらアートを新しいアートに置き換えるというこの作業は、すべてのモデルにとってまったく不可能でした。
私が望むことを本当に明確にしたときでさえ(脳病変に苦しむ患者の診断をする神経内科医のように、病的な好奇心からしばらく粘り強く続けました)、彼らは滑稽なほど下手でした。
彼らは、「BUG」という単語のASCIIアートのブロック文字をリテラル文字列「BUG」の繰り返しのインスタンスに置き換えるなど、人間が決して犯さない真に異質な間違いさえ犯し、奇妙な存在論的混乱を示しています。
人間がこのタスクを行おうとするとき、彼は「シンボル空間」と「物理的(画面)空間」の間を絶えず行ったり来たりする一種のゲシュタルト切り替えを行います。
ASCII文字を追加または移動するために象徴的に変更を加えますが、それが正しいかどうかを確認するために、視覚的に行ったことを観察して認識します。あまりにもシームレスなので、あまり気づかない。
これらのマルチモーダル LLM は、少なくとも 1 回の推論パスでは、それを行うことができないようです。彼らはどちらかのモダリティに閉じ込められており、それらを融合させることができないようです。
もし彼らが可能であれば、私が説明したこのタスクは、彼らにとって完全に克服できないのではなく、些細なことになるでしょう。
次世代のマルチモーダルLLMには、脳内の脳梁に何らかのデジタルアナログがあり、脳の2つの半球を統一し、統一された意識の中で異なる認知モダリティを調整するのに役立つはずだと考えています。
つまり、処理中に異なるモダリティが互いに継続的に変調できるようにする、高密度でトレーニング可能な接続です。あなたが望むなら、インターモーダル。

1.63K
私はCursorの新しいComposer-1コーディングLLMを軽視しすぎたと思います。確かに、GPT-5 High EffortやGPT-5-Codexよりも厳密には劣っているので、その意味で、重要なコードプロジェクトを設計して実装しているとき、ワークフローにその場所はあまり見当たりません。
その一方で、非常に高速であり (どうやってこれを行ったのか疑問に思います。彼らは Groq または Cerebras ハードウェアを使用しているのでしょうか? モデルが非常に小さくて効率的だからですか? よくわかりません)、これだけでも、コードがそれほどミッション クリティカルでない場合や、新しいプロジェクトを開始して既存のコードを壊す心配がない場合に備えて、多くの新しいワークフローと作業テクニックが解き放たれます。
また、GPT-5 のどのフレーバーと比較してもはるかに安価です。はるかに高速ではるかに安価な組み合わせにより、モデルの使用方法に質的な違いが生じますが、以前は十分に理解していませんでした。時間とコストの両方の点で反復のコストが非常に低い場合は、より多くの回数を反復できます。
これにより、「ワンショットの正しさ」の価値が低下します。つまり、GPT-5 Proのようなモデルは、複雑なコーディングの割り当てでも、バグなしで最初から正しく行うことができます(ただし、そのモデルでさえ、この非常に厳しいテストでは失敗することがよくあります)。
しかし、デバッグループを閉じてエラー/警告をモデルにすばやくフィードバックでき、各反復ラウンドに20秒から1分かかる場合(少なくともGPT-5を多大な労力で使用するとその5〜10倍の長さではなく)、最初の(または2回目でさえ、 3回目、または4回目)でありながら、GPT-5よりも早く作業コードを終了します。
ブラウザで何かを開発している場合は、Cursorの新しいブラウザタブを使用してループを完全に閉じることができますが、これは私がコーディングツールで見た中でこの種の実装の中で群を抜いて最高のものです(CodexのPlaywright MCPやClaude Codeを使用するよりもはるかに進んでいます!私は今日、このプロンプトを非常に効果的に使用しています。
「ブラウザのタブを使用して、このアプリを体系的に探索し、インターフェイスを自然な方法で使用します。その間、開発コンソールに警告やエラーがないか注意してください。表示されたら、バグや問題の診断と修正を対話的かつ反復的に開始し、アプリを更新して、エラーや警告が完全に解決されたことを確認します。修正するときは、バグの根本的な根本原因を特定することに重点を置き、偽の「絆創膏」修正を適用しないでください。」
しかし、このアプローチが本当に崩れるのは、概念と計画の段階で、何を作るべきか、そしてそれを大まかに実装するための最良の方法を考えている段階です。そこでは、深い思考や探求が欠如していると、立ち直るのが難しい悪い道を歩み始める可能性があります。
これは、作業しているタスクが一般的なコーディング タスクの「データ多様体」から遠く離れている場合に、より顕著になります。さらに別の単純な CRUD Web サイトを作成している場合は、おそらくあまり気付かないでしょう。人工生命シミュレーションやそのような奇妙なもので新境地を踏み出そうとしているなら、それに気付くでしょう。
しかし、非常にうまく機能する優れたハイブリッド アプローチがあります: 計画用の最もスマートなモデルと、イテレーションをクランキングするための高速で安価なモデルを組み合わせるというものです。
したがって、ブラウザ アプリで GPT-5 Pro を使用して計画と初期実装を考え出し、それを Cursor に貼り付けて、反復、修正、改善を開始します。既存の強力な基盤を変更する方が、その基盤自体を敷くよりもはるかに優れています。
これらすべてが本当に輝いているのは、締め切りや期待のない新しいプロジェクトで、何か楽しいものをプレイしたり探索したりしているときです。この文脈では、スピードは真のゲームチェンジャーです。
80年代初頭にIBMが行ったコンピューターシステムの遅延を調べた古い研究を思い出しますが、遅延が50ミリ秒などの魔法のレベルを下回ると、人間の脳が「ライブシステム」を扱っていると認識するため、行動に大きな変化が起こることが判明しました。
逆に、レイテンシーが 500 ミリ秒などの驚くほど控えめなレベルを超えると、エンゲージメントが大幅に低下し、精神的に負担がかかり、イライラします。レイテンシーが数秒以上に急増すると、人々は精神的にチェックアウトする傾向があり、エンゲージメントを維持するのに苦労します。
コーディングモデルが数秒以内に応答し、15秒以内に10回の編集を連発するのを見るのは、GPT-5が何かを系統的に処理するのを5分待つのとはまったく異なる体験です。
とにかく、これをいじるのは信じられないほど楽しいです。私にとって、どんなビデオゲームよりも楽しくて魅力的です。
26.57K
トップ
ランキング
お気に入り

