Meta幹部、Llama 4のベンチマーク操作を否定

Metaの高層は月曜日に、同社が新しいAIモデルを特定のベンチマークで良好なパフォーマンスを発揮させるために訓練し、同時にモデルの弱点を隠しているという噂を否定しました。

この高層、Metaの生成AI副社長Ahmad Al-Dahleは、Twitterの投稿でこの主張は「全くの嘘だ」と述べました。彼は、Metaが「テストセット」でLlama 4 MaverickとLlama 4 Scoutモデルを訓練していないことを指摘しました。AIベンチマークにおいて、テストセットはモデルの訓練後の性能を評価するためのデータセットです。テストセットで訓練を行うと、モデルのベンチマークスコアが誤って引き上げられ、実際よりも能力が高く見える可能性があります。

週末には、Metaが新しいモデルのベンチマーク結果を人為的に引き上げているという根拠のない噂がTwitterやRedditで広まり始めました。この噂は、中国のソーシャルメディアに投稿したユーザーから始まったようで、そのユーザーは会社のベンチマーク実践に抗議して辞職したと主張しています。

報道によれば、MaverickとScoutは特定のタスクでのパフォーマンスが不十分であり、これが噂の広まりを助長しました。さらに、Metaは実験的で未発表のMaverickバージョンを使用して、ベンチマークLM Arenaでより良いスコアを得ることを決定しました。研究者たちは、一般にダウンロード可能なMaverickとLM Arenaでホストされているモデルとの間に明らかな行動の違いがあることを観察しました。

Al-Dahleは、一部のユーザーが異なるクラウドサービスプロバイダーでMaverickとScoutを使用する際に、「品質にばらつき」が見られたことを認めました。

彼は、「モデルが準備でき次第すぐにリリースするため、すべての公共実装が整うまでには数日かかると予想しています。私たちは問題を解決し、パートナーとともに立ち上げを続けていきます。」と述べました。

台湾電話カード推介 / 韓国電話カード推介

一㩒即做：香港網速測試 SpeedTest HK

Stein Yep