メインコンテンツへスキップ
マーケット
Meme Pump
トラッカー
シグナル
リーダーボード
スワップ
ポートフォリオ
紹介
さらに見る
商品
DeFi
マケプレ
セキュリティ
開発者向け
X Layer
X Layer について学ぶ
X Layer エクスプローラー
チェーン間取引
開発者向けテクニカルドキュメント
テストネットフォーセット
GitHub
ウォレット API
ウォレット API を発見する
API ドキュメント
API キーを管理する
ブロックチェーンエクスプローラー
DAppでウォレットを連携する
Boost
X Launch
参加してトークンを獲得しよう
X キャンペーン
参加して報酬を獲得しよう
報酬センター
ボーナスとエアドロップを受け取る
アラート
言語
通貨
色の好み
OKX ウォレットをダウンロード
Web3 の詳細
お知らせ
戻る
日本語
简体中文
繁體中文
English
Tiếng Việt
Русский
Español (Latinoamérica)
Bahasa Indonesia
Français
Deutsch
Italiano
Polski
Čeština
Română
Português (Portugal)
Português (Brasil)
Українська
Español (España)
Nederlands
العربية
Norsk (bokmål)
Suomi
Svenska
Türkçe
戻る
戻る
詳しく知る
サポートセンター
トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
Hosico
+3.4%
USELESS
-2.54%
IKUN
+3.54%
gib
+4.95%
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
Bonk
-0.5%
ALON
-9.18%
LAUNCHCOIN
-5.37%
GOONC
-0.92%
KLED
-6.78%
#
Boop.Fun leading the way with a new launchpad on Solana.
BOOP
-0.02%
Boopa
-4.04%
PORK
-1.7%
Profile
elie
elie
13時間前
LFGは、DeepSeekの最新論文のアブレーションセットアップでMuonを使用しています
16
elie
1月12日 03:21
このスパーな注意がこれほどうまく機能しているのはかなり驚きです。LongCat-FlashベースのMLAレイヤーの50%をミッドトレーニングでスパーズ化しているだけで、元のモデルとほぼ同じ結果が得られます キャリブレーションは、どのMLAレイヤーをスパース化するかを選択します。LongCat-Flashは「変わった」(悪い意味ではない)レイヤー構造で、1つのレイヤーに2つの注意レイヤーがあり、それぞれの異なる処理についての記述がないので、同じプロセスを両方に適用しているのだと思います。キャリブレーションの手順は以下の通りです: 出力 = 4 a_i ·output_dense + (1 - a_i) ·output_sparse そして、彼らはa_i(注意層ごとに)で勾配降下を行います。a_iが高い場合 => この層は密度が高くなければなりません。そうでなければスパーリファイできます。こうすることで、レイヤーの50%をスパース化します(残念ながらスパーシファイドレイヤーの分布は分かっていません)。このキャリブレーションのステップはロングエバルに大きな影響を与えます スパースアテンションも非常にシンプルで、Deepseek DSA/NSAやMiniCPM InfiLLMv2のようなコンテキスト認識ではなく、スライディングウィンドウで、128トークンの8ブロック(ウィンドウサイズ1024)、最初の128トークンと最後の896トークンで構成されています 将来の@Meituan_LongCatモデルが本番環境でこれを使うのか、また強化学習(RL)に対して堅牢なのか気になります!
55
elie
1月11日 03:13
(非常に)資源の少ない言語のウェブデータのほとんどは聖書とウィキペディアです。残りは?データチームはGemma3 27Bを3か月間実行し、英語への翻訳、翻訳モデルの改善、そして500+言語コミュニティの文化的文脈を英語のトレーニングデータに取り込むために行いました。@huggingfaceこちらがパイプライン全体の詳細です
Guilherme Penedo
1月10日 01:22
大規模な合成データセット「💬FineTranslations」を公開します。 私たちは多言語の事前学習データセットであるFineWeb2をGemma3 🥂 27Bで英語に翻訳しました。 その結果、1兆以上のトークンを持つ巨大な並列コーパスが誕生しました!
55
トップ
ランキング
お気に入り