MiroThinker 1.5はオープンソースのSoTA Deep Researchモデルです。 もっともらしい答えを生成する代わりに、「理由・検証・修正」のループを繰り返します。情報源を検索し、データを照合し、すべてを引用します。30Bパラメータが30倍大きいモデルと20倍のコストで一致します。 私はこれを2つのユースケースでテストしました。その性能は以下の通りです。 1/7
2/7 FIFA 2026ワールドカップの予想で試してみました: 私が使ったプロンプト:「2026年FIFAワールドカップで優勝する可能性が最も高い国はどこか?現在のFIFAランキング、選手層、過去の大会成績、予選結果を分析しましょう。出典とともに確率推定を提供せよ。」
3/7 RAM価格予測でテストしました:「現在RAM価格は非常に高いですが、2025〜2026年の見通しはどうですか?」 私が使ったプロンプト: 「RAM価格は現在ピークに達しています。2026年の価格予測はどうですか?サプライチェーン要因、製造能力、需要動向を分析してください。」
4/7 これが通常のLLMと異なる点は以下の通りです: 作業内容を表示します。すべての検索、すべての情報源を確認します。成果だけでなく、研究プロセス全体が見えます。 すべてを引用する - 各主張は特定の情報源にリンクしています。 不確実性を定量化 - 確率範囲と信頼レベルを示します。確信していないのに確信しているふりはしない。 矛盾を説明する - 情報源が意見が異なる場合、両側を示し、対立を説明します。 動的に更新 - 新しいデータが利用可能ですか?分析を修正し、何が変わったのかを教えてくれます。 普通のLLMは自信を持って幻覚を見ます。この人は実際にリサーチを行っています。
5/7 なぜこれが開発者や研究者にとって重要なのか: 30Bパラメータが1Tモデルに一致する - より小さく、速く、安価。GPT-4クラスモデルの20倍のコストです。 オープンソース - Hugging Faceのフルモデル。GitHubのフレームワーク。セルフホストも可能です。 本当の主体的推論 - 「リサーチ・→検証→・修正」というループは、単なるオートコンプリートではなく、実際の分析者のように繰り返しますか? マルチツールオーケストレーション - ウェブ検索、ドキュメントの閲覧、ソースの相互参照など、すべて一つのクエリで行えます。 これが生産レベルのAI研究ツールであるべき姿です。
6/7 詳細な分析はこちらで読むことができます。 2026年FIFAワールドカップ予想 - RAM価格見通し 2025-2026 - MiroThinkerがどのように調査し、引用し、それぞれの確率推定を行ったかを確認してください。
256