LATAM-GPTは新しいです ラテンアメリカで開発されている大規模な言語モデル。非営利のチリ国立人工知能センター(CENIA)が率いるこのプロジェクトは、ラテンアメリカの言語とコンテキストで訓練されたオープンソースAIモデルを開発することにより、地域が技術の独立性を達成するのを支援することを目指しています。
「この作業は、ラテンアメリカの1つのグループまたは1つの国だけで行われることはできません。これは、すべての人の参加を必要とする課題です」と、Wired EnEspañolとのインタビューでCeniaのディレクターであるAlvaro Soto氏は言います。 「LATAM-GPTは、オープンで無料で、そして何よりも協調的なAIモデルを作成しようとするプロジェクトです。私たちは非常にボトムアッププロセスで2年間働いており、最近、より多くのトップダウンのイニシアチブを集め、政府が関心を持ち、プロジェクトに参加し始めています。」
このプロジェクトは、その共同精神で際立っています。 「私たちはOpenai、Deepseek、またはGoogleと競争しようとはしていません。ラテンアメリカとカリブ海に固有のモデルが必要です。これは、さまざまな方言、地域の歴史、ユニークな文化的側面を理解するなど、これに伴う文化的要件と課題を認識しています」とSoto氏は説明します。
ラテンアメリカとカリブ海の機関との33の戦略的パートナーシップのおかげで、このプロジェクトは、数百万の本に相当する8テラバイトのテラバイトを超えるデータのコーパスを集めました。この情報ベースにより、GPT-3.5に匹敵するスケールである500億パラメーターを備えた言語モデルの開発が可能になり、推論、翻訳、関連性などの複雑なタスクを実行するための媒体から大容量を提供します。
LATAM-GPTは、ラテンアメリカの20諸国とスペインから情報をまとめる地域データベースで訓練されており、印象的な合計2,645,500の文書があります。データの分布は、この地域の大規模な国で大きな集中を示しており、ブラジルは685,000の文書を持つリーダーであり、385,000のメキシコが385,000、スペインは325,000のスペイン、220,000のコロンビア、210,000の文書を持つアルゼンチンが続きます。数字は、これらの市場の規模、デジタル開発、構造化されたコンテンツの可用性を反映しています。
「最初は言語モデルを開始します。一般的なタスクでのパフォーマンスは、大規模な商業モデルのパフォーマンスに近いものになると予想していますが、ラテンアメリカに固有のトピックの優れたパフォーマンスを備えています。アイデアは、私たちの地域に関連するトピックについて尋ねると、その知識がより深くなるということです」とSoto氏は説明します。
最初のモデルは、画像やビデオのあるものを含む、より高度なテクノロジーのファミリーを将来的に開発し、より大きなモデルに拡大するための出発点です。 「これはオープンプロジェクトであるため、他の機関がそれを使用できることを望んでいます。コロンビアのグループは、学校教育システムに適応できます。ブラジルのグループは、ヘルスセクターに適応できます。アイデアは、さまざまな組織が農業、文化などの特定の分野に特定のモデルを生成するための扉を開くことです。