そのため、MirhoseiniがAIチップを最適化するためにAIを使用しています。 2021年に、彼女とGoogleの彼女の協力者は 非llm AIシステム これにより、効率を最適化するために、コンピューターチップにさまざまなコンポーネントを配置する場所を決定できます。他の研究者もいますが 複製に失敗しました 研究の結果、ミルホセニはそれを言います 自然 論文を調査し、作業の妥当性を支持しました。彼女は、Googleが複数世代のカスタムAIチップにシステムの設計を使用していることに注目しています。
より最近では、MirhoseiniはLLMSを、マトリックスの乗算などのさまざまな操作がチップで実行される方法を制御する低レベル関数、カーネルを作成する問題に適用しました。彼女は、汎用のLLMでさえ、場合によっては、カーネルを書くことができることを発見しました。 より速く実行します 人間が設計したバージョンよりも。
Googleの他の場所では、科学者は会社のLLMインフラストラクチャのさまざまな部分を最適化するために使用したシステムを構築しました。呼び出されたシステム Alphaevolve、GoogleのGemini LLMに、いくつかの問題を解決するためのアルゴリズムを記述し、それらのアルゴリズムを評価し、Geminiに最も成功したものを改善するように求め、数回処理する繰り返しを求めます。 Alphaevolveは、Googleの計算リソースの0.7%を節約し、Googleのカスタムチップ設計をさらに改善し、Geminiのトレーニングを1%スピードアップする新しいカーネルを設計したデータセンターを実行するための新しいアプローチを設計しました。
それはわずかな改善のように聞こえるかもしれませんが、Googleのような巨大な会社では、時間、お金、エネルギーを大幅に節約することに相当します。そして、Google Deepmindのスタッフ研究科学者であるMatej Balogは、Alphaevolveプロジェクトを率いていたと言います。彼と彼のチームは、Geminiの全体的なトレーニングパイプラインの小さなコンポーネントのみでシステムをテストしたと言います。より広くそれを適用することは、より多くの節約につながる可能性があると彼は言います。
3。トレーニングの自動
LLMは有名なデータを飢えており、トレーニングはあらゆる段階で費用がかかります。いくつかの特定のドメインでは、たとえば、珍しいプログラミング言語など、現実世界のデータは、LLMSを効果的に訓練するにはあまりにも少ないです。人間のフィードバックによる強化学習、人間がプロンプトとLLMに対するLLM応答を採点する手法であるテクニックは、それらのスコアを使用してトレーニングされ、人間の基準と好みに合わせて動作するモデルを作成するための鍵となりますが、人間のフィードバックを得ることは遅くて高価です。
ますます、LLMはギャップを埋めるために使用されています。多くの例でプロンプトされた場合、LLMはトレーニングを受けていないドメインでもっともらしい合成データを生成でき、その合成データはトレーニングに使用できます。 LLMSは、強化学習にも効果的に使用できます。「裁判官としてのLLM」と呼ばれるアプローチでは、人間ではなくLLMSを使用して、訓練されているモデルの出力を獲得します。このアプローチは、2022年に人類研究者によって提案された影響力のある「憲法AI」フレームワークの鍵であり、1つのLLMは、別のLLMからのフィードバックに基づいて有害ではないように訓練されています。
データ不足は、AIエージェントにとって特に深刻な問題です。効果的なエージェントは、特定のタスクを達成するためにマルチステッププランを実行できる必要がありますが、ステップバイステップのタスク完了の例はオンラインで不足しており、人間を使用して新しい例を生成するのは高価です。この制限を克服するために、スタンフォードのミルホセイニと彼女の同僚は最近パイロットしました 技術 LLMエージェントが特定の問題に対して段階的な段階的なアプローチを生成する可能性があるため、LLM裁判官は各ステップが有効かどうかを評価し、新しいLLMエージェントがそれらのステップでトレーニングされます。 「モデルはますます多くの経験を任意に生成できるため、データに限定されなくなりました」とMirhoseini氏は言います。
4。完璧なエージェントの設計
LLMがまだ大きな貢献をしていない領域の1つは、LLMS自身の設計にあります。今日のLLMはすべて、2017年に人間の研究者によって提案されたトランスと呼ばれるニューラルネットワーク構造に基づいており、その後アーキテクチャに加えられた顕著な改善も人間が設計しました。