ネットワークのエッジにある AI が推論のみを意味することはほとんどありません。実際の展開には通常、高速入出力 (I/O)、信号調整、およびリアルタイム制御ループが含まれ、これらすべてが同時に実行されます。これらの多機能ワークロードには緊密な調整と高い確実性が必要ですが、設計者は主流の AI ハードウェアを使用してこれらの要件を満たすのは難しいと感じています。
2 つの要因がこの問題をさらに複雑にしています。まず、AI モデルは驚くべきペースで開発されており、設計者はアルゴリズムの迅速な更新をサポートするプラットフォームを採用するようになっています。一方、多くのエッジ システムは最長 10 年以上にわたって現場で使用されており、長期的な適応性を確保することが困難です。第 2 に、十分にトレーニングされたモデルからシステムの展開と実装に至るまでの経路が依然として断片化されています。データ サイエンティストは PyTorch と TensorFlow を使用しますが、組み込みチームはまったく異なるツールチェーンを使用するため、引き継ぎプロセス中に摩擦が生じ、生産速度が低下します。
これらの課題に対処するために、プラットフォームは、高スループットの AI 処理と決定論的な動作、柔軟な I/O、および長期的な適応性を組み合わせることができる必要があり、これらはすべて、限られたエッジ展開の一般的な消費電力範囲内で達成されなければなりません。
この記事では、設計者が新しいエッジ AI アーキテクチャを探求する上での課題となるアプリケーション シナリオと関連要件に焦点を当てます。次に、エッジ AI をサポートするアルテラのフィールド・プログラマブル・ゲート・アレイ (FPGA) デバイスとソフトウェア・ツールを紹介し、これらのアプリケーションの多様なパフォーマンスと電力要件を満たすためにそれらを活用する方法を示しました。
エッジ AI の進化にはアーキテクチャの革新が必要
エッジ システムでは、異常検出のための古典的機械学習 (ML)、認識のための畳み込みニューラル ネットワーク (CNN)、大規模言語モデル (LLM) のためのコンバーターなど、多様な AI テクノロジーの採用が増えています。これらの計算集約型アルゴリズムは、信号処理、ネットワーク通信、リアルタイム制御などの要求の厳しい非 AI 機能と共存することがよくあります。
自律システムが良い例です。通常、ビデオ、オーディオ、レーダー、LiDAR、モーション/位置フィードバックなどの複数のセンサー モダリティからデータをキャプチャし、高スループットでこれらのデータ ストリームを前処理し、複雑な AI を使用して結果を分析し、高精度の制御ループを管理する必要がありますが、これらすべてに信頼性の高い決定性が必要です。
産業オートメーション、医療画像処理、防衛、電気通信のアプリケーションにも同様の例が多数あります。彼らが直面する共通の課題は、従来のアーキテクチャが絶えず収束するワークロードに適応するのが難しいことです。
FPGA がエッジ AI に特に適している理由
対照的に、これらの要件は FPGA の機能と完全に互換性があります。 FPGA の中核は、タイミング動作が実行時に変動するのではなく設計時に組み込まれ、真の並列方式で演算を実行するための構成可能なロジックを提供することです。このアーキテクチャは、エッジ AI にとって重要な低遅延の決定性を実現できます。柔軟なロジックでは強力な I/O も利用できます。通常、FPGA は豊富な高速 I/O を提供し、さまざまなセンサーやアクチュエーターに接続して AI 処理との緊密な結合を実現できます。
FPGA には分散内部メモリも含まれており、その上で動作するロジックからデータにアクセスできます。これにより、複数の処理ステージが共有メモリ バスにアクセスするために競合する必要がある場合に発生するボトルネックが軽減されます。これは、プロセッサ ベースのアーキテクチャで一般的な制限です。
多くの FPGA には、専用のデジタル信号処理 (DSP) ハードウェアも統合されています。従来の構造と比較して、これらの強化された回路は、信号処理ワークロードのパフォーマンスとエネルギー効率を向上させます。一部の FPGA には、標準ソフトウェア スタック (Linux を含む) を実行できる有線プロセッサ システムも統合されており、ネットワーキング、デバイス管理、ユーザー インターフェイスなどのタスク用の従来のソフトウェア開発が可能になります。
つまり、単一の FPGA は、別個の I/O チップ、AI アクセラレータ、DSP、およびコントロール プレーン プロセッサを必要とする機能を統合できます。これにより、エッジ AI アプリケーションに必要な低遅延と確実性を維持しながら、部品表 (BOM) を削減し、回路基板面積を縮小し、消費電力を削減できます。
AI テンソル ブロックの追加で新たな可能性を開く方法
従来の FPGA DSP ハードウェアはすでに多くのエッジ ワークロードに非常に適していますが、AI 推論は多くの場合、高密度ではあるが精度の低い乗算演算に依存します。この問題に対処するために、アルテラの Agilex 3 および Agilex 5 デバイスは、AI テンソル ブロックを備えた強化された DSP を使用しています。 AIの計算グラフで繰り返し登場する行列行列とベクトル行列の乗算に特化したハードウェアです。
このメソッドの中核は、スカラー積と加算器/アキュムレータ エンジンです (図 1)。テンソル モードでは、ハードワイヤード ポイント エンジンは 8 ビット入力とプリロードされた 8 ビット重みを使用して 10 要素のドット積を実行します。ダイナミック レンジを拡大するために、データ パスはブロック浮動小数点スケーリングに共有の「共通インデックス」を使用して、AI 推論が一般に高いダイナミック レンジを必要とするが精度が低いという一般的なシナリオに対処することもできます。

