Diary/2018-8-26
FPL2018の論文読みの準備
http://kalman.mee.tcd.ie/fpl2018/program/
あとで読むために,ざっとアブストやらイントロの最後やらまとめやらだけを眺めるなど.
(内容は正誤は保証できません)
Design Tools
- Fast Adjustable NPN Classification Using Generalized Symmetries
- ブール関数のNPN分類は、FPGA設計フローで論理合成とテクノロジマッピングツールで使用される手法
- 関数の正準形式を計算することが,ブール関数分類の最も一般的なアプローチ
- NPN正規形を計算するための新しいアルゴリズムを提案
- A SAT-based timing driven Place and Route flow for critical soft IP
- SATを使ったtiming-drivenな配置配線方法の提案
- FPGAのI/Oのバンド幅を有効利用できるように
- Placement Strategies for 2.5D FPGA Fabric Architectures
- 2.5DFPGA向けのツール.分割して配置する
- Deterministic Parallel Routing for FPGAs based on Galois Parallel Execution Model
- 決定的で並列なFPGA向けのVPRの実装
- 複数のネットを並列にルーティング
- Maze Expansionステップを並列化しながら、一度に1つのネットをルーティング
- Hierarchical Force-Based Block Spreading for Analytical FPGA Placement
- 配置配線の高速化の話
- 有望な配置問題の高速化のトレンドは反復分析配置技法の利用.
- CLBの合法化を改善する階層的な押し込み力ベースのブロックスプレッダを提案
- ブロックが重力の影響を受けてお互いを押し進め,重なり合った水滴が表面を流れるようにすると,
重なりが減少.
- 並列性がありGPUアクセラレーションに適している
- 階層的なFPGA CADツールフローの上に構築
- ソースコードはGitHubのFPGA CADフレームワークで公開されている
- Automatic Topology Optimization for FPGA Interconnect Synthesis
- FPGAインタコンテクタの自動生成
- http://www.eecg.toronto.edu/~jayar/software/GENIE/
ML Architectures
- Embracing Diversity: Enhanced DSP Blocks for Low-Precision Deep Learning on FPGAs
- 低精度なDeep Learning推論はアクセラレータ性能の大幅向上とモデルメモリフットプリントと外部メモリバンド幅を大幅削減
- FPGAのメリットは好きなビット幅のデータパスが作れること
- IntelとXilinxのFPGAのDSPはネイティブでは18-bit以下の精度はサポートしていない
- 9-bit x2,4-bit x4として使えるenhanced DSPブロックを考えてみた
- Arria-10似のDSPブロックに12%のオーバヘッド
- AlexNet,VGG-16,ResNet-50の8-bitと4-bitのアクセラレータで,チップ利用率を15%と30%削減しつつ性能を1.32xと1.6xに向上
- Activation Function Architectures for FPGAs
- 活性化関数(tanhやsigmoid)の面積とレイテンシがRNNの性能に与える影響を調査
- 半精度,単精度で評価.
- FBNA: A Fully Binarized Neural Network Accelerator
- すべての畳み込み演算がbinarizedまたはunifiedな完全なbinarized CNNアクセラレータ
- State-of-the-ArtなBNNアクセラレータと比べて,CIFER-10で,3.1x性能向上,5.4x使用効率向上,4.9x電力効率向上
- ClosNets: Batchless DNN Training with On-Chip A Priori Sparse Neural Topologies
- オンチップメモリでのDNNのトレーニングの問題に挑戦
- 全結合だけど疎なレイヤを提案
- RNA: An Accurate Residual Network Accelerator for Quantized and Reconstructed Deep Neural Networks
- quantized and reconstructed deep neural network (QR-DNN)を提案
- トレーニングの間batch normalizationレイヤを挿入しておいて,あとで取り除く
- QR-DNNに基づく,residual entwork accelerator (RNA)を提案
- シストリックアレイなアーキテクチャ
- A Novel Low-Communication Energy-Efficient Reconfigurable CNN Acceleration Architecture
- Winogradアルゴリズムは、CNNの計算負担を軽減する効率的なアプローチ
- Winogradアルゴリズムで計算の高速化 + オフチップ通信の高速化
- 設計スペースの定量的評価.
- ZC706を使って,AlexNet,VGGNet16,ResNet50で685.6GOP/s,1250GOP/s,507GOP/sを達成
Runtime Methods
- Automatic BRAM Testing for Robust Dynamic Voltage Scaling for FPGAs
- FPGAのためのDynamic Voltage Scaling(DVS)が提案されている
- FPGAのソフトファブリックだけが対象で,BRAMみたいなハードブロックを使うアプリには適用できない
- offline calibration-based DVSアプローチをBRAM付きのFPGAに使えるよう拡張
- BRAMテスタ付きのキャリブレーションデザインの自動生成できるようCADツール FRoCを拡張.
- 離散フーリエ変換コアで23%の電力削減,あるいは46%のクロック周波数を下げられた
- DESSERT: Debugging RTL Effectively with State Snapshotting for Error Replays across Trillions of cycles
- シミュレーションベースのRTL検証をFPGAで加速
- Enabling Low Impact, Rapid Debug for Highly Utilized FPGA Designs
- LUTベースの分散RAMによるトレースバッファでFPGA内アナライザを実現
- Fault Characterization Through FPGA Undervolting
- FPGAの電力とエネルギー効率はASICと比べて20倍よくない
- 電圧下げるといいけど,タイミング関連のfaultに影響
- 調査したよ
Machine Learning Architectures
- FINN-L: Library Extensions and Design Trade-off Analysis for Variable Precision LSTM Networks on FPGAs
- BiLSTMニューラルネットワークの精度と設計空間について
- FINNの最初のオープンソースHLSライブラリ拡張を提供
- Customizing Low-Precision Deep Neural Networks For FPGAs
- FPGA向けにCNNを最適化実装するためのpuriningフィルタを通してネットワークを変更する完全自動化ツール
- Medusa: A Scalable Interconnect for Many-Port DNN Accelerators and Wide DRAM Controller Interfaces
- DNNのFPGA実装は効率的なレイヤプロセッサをどう作るかの研究はたくさんある
- レイヤプロセッサとFPGAのDRAMコントローラの間のオンチップインタコネクタへは注意がはらわれてない
- DNNアクセラレータI/FとFPGA DRAMコントローラI/Fの不一致
- DNNアクセラレータI/Fは狭いポートを多数含む
- FPGA DRAMコントローラI/Fはワイド・バスになる傾向
- 最適化インタコネクタな Medusa を提案
- LUTとFFの使用を4.7倍と6.0倍に減らし,周波数を1.8倍向上
- In-Package Domain-Specific ASICs for Intel® Stratix® 10 FPGAs: A Case Study of Accelerating Deep Learning Using TensorTile ASIC
- EMIBを使った2.5Dでヘテロジニアスなシングルパッケージ
- FPGAファブリックは変えない
- ASICの設計(面積/動作周波数/プロセス など)は自由にできる
- Stratix10向けのTensorTile ASICを提案
Cloud/Databases
- Resource Elastic Virtualization for FPGAs using OpenCL
- resource elasticなFPGA環境
- OpenCLアクセラレーション環境でFPGA利用率を2.3倍,49%の性能向上を達成
- Providing Multi-tenant Services with FPGAs: Case Study on a Key-Value Store
- データセンタでのFPGAのマルチテナント化について
- 課題は,ハードウェアの効率的な共有とテナント間の厳密なデータとパフォーマンスの分離
- 単一パイプライン設計の原則に従って,ネットワーク帯域幅と計算リソースの各テナントのシェアを制御
- Accelerating database systems using FPGAs: A survey
- FPGAによるデータベース高速化のサーベイ
- A Survey on FPGA Virtualization
- FPGAの仮想化重要
- 種々の手法を リソースレベル,ノードレベル,マルチノードレベル で 仕分け
Machine Learning Frameworks
- A Collaborative Framework for FPGA-based CNN Design Modeling and Optimization
- CNNの特徴とデバイス制約に従ってCNNアプリ向けのOpenCLベースのFPGAデザインをモデル化・最適化する協調フレームワーク
- Towards Efficient Convolutional Neural Network for Domain-Specific Applications on FPGA
- FPGA向けのend-to-end CNNアクセラレーションフレームワーク TuRF
- 訓練を受けたモデルを特定のドメインに適応
- 標準畳み込みレイヤーを効率的な畳み込みブロックに置換
- 転移学習
- CascadeCNN: Pushing the Performance Limits of Quantisation in Convolutional Neural Networks
- 与えられたhCNNの量子化の限界を自動的に求めるツールフロー CascadeCNN を提案
- 任意のCNNに対して,カスケード内の低精度および高精度のユニットで構成される2ステージアーキテクチャを生成
- 信頼性評価ユニットで,低精度のユニットで誤分類されたケースを識別し,高精度のユニットに転送して再処理
- モデルの再学習やトレーニングデータへのアクセスを必要とせず,VGG-16で最大55%,AlexNetで最大48%の性能向上
- Design Flow of Accelerating Hybrid Extremely Low Bit-width Neural Network in Embedded FPGA
- エッジコンピューティング向けの低レイテンシで低エネルギーなニューラルネットワークアクセラレタ
- extremely low ビット幅なニューラルネットワーク (ELB-NN)を高速化するためのデザインフローを提案
- 10.3TOPS, 325.3 images/s/wattを達成.
Networking and Connectivity
- FastPath: Towards Wire-speed NVMe SSDs
- 内蔵FPGAを持つヘテロジニアスSoCでのNVMeパフォーマンスを高速化
- NVMeドライブへのアクセスを高速化するFPGAベースのfast pathを導入
- ベースラインのZYNQボードに対して,71%にレインテンシを短縮,I/O性能を5x向上
- FlueNT10G: A Programmable FPGA-based Network Tester for Multi-10-Gigabit Ethernet
- FPGAベースネットワークテスタ
- NetFGA上に実装
- A Smart Network Interface Approach for Distributed Applications on Xilinx Zynq SoCs
- 標準イーサネット内で,データパスを拡張
- Accelerating MPI Message Matching Through FPGA Offload
- MPIで超低遅延通信の実現は困難.キューの再設計か,ハードウェアアクセラレータで対処
- 最先端のソフトウェアアプローチではCPUを「不幸から解放する」ことはできない
- ハードウェアのアプローチはスケーラビリティに欠けるか,改善の余地がある
- 密結合のCPU-FPGAアーキテクチャではMPIのユーザー制御をハードウェアにオフロードできるようになった
- MPIキュー処理オフロードを設計 - 2レベルメッセージキュー設計を提案
- リソース節約ハードウェアリンクリスト
- CAM
- 待ち行列が長い場合に高速性を維持する最適化
- Stratix-Vで,既存の設計より1〜2桁高速です
- High Performance Communication on Reconfigurable Clusters
- 通信バウンドなアプリケーションに対してMGT(Multi-Gigabit Tranceivers)で接続されたFPGAクラスタは有用
- 通信インフラは一般にふたつのどちらか
- nearest neigborだけ - 高速だけど使い勝手に制約
- プロセッサベース - 比較すると遅い
- 、密接に結合されたFPGAのクラスタの特性とルータの設計空間の関係を調べた
- ルーティングアルゴリズム,アービトレーションポリシー,仮想チャネル(VC)によるパラメータ化で一般化
- 512 FPGAクラスタに対してアプリケーションを考慮することで性能向上と面積削減を実現
High Performance Applications
- Median filtering with very large windows: SKA algorithms for FPGAs
- Square Kilometre Array pulsar searchで,大規模Median filterが必要
- OpenCLで実装
- Accelerated Inference of Positive Selection on Whole Genomes
- ゲノム解析向けのアクセラレータ
- SMEM++: A Pipelined and Time-Multiplexed SMEM Seeding Accelerator for Genome Sequencing
- FPGAでgenome sequecing algorithmを高速化するSMEM+
- HARPv2に実装,オリジナルのソフトウェアより24x高速,state-of-the-artより6.3倍高速で43%少ないサイズ.
- Performance-driven System Generation for Distributed Vertex-Centric Graph Processing on Multi-FPGA Systems
- マルチFPGAなグラフ処理フレームワークと,性能モデルを示す
- フレームワークはアルゴリズムの特性と問題のサイズに基づいてシステムの性能を予測,最適な構成を自動的に選択する
Dynamic Reconfiguration
- CIDPro: Custom Instructions for Dynamic Program Diversification
- Timing side-channelアタックを防ぐために,プログラムを動的にダイバシティ化するフレームワーク CIDPro を提案
- LLVMとRISC-Vを利用
- Time-Shared Execution of Realtime Computer Vision Pipelines by Dynamic Partial Reconfiguration
- FPGAを時分割するための動的再構成を使ったFPGA実行フレームワーク
- Case for Fast FPGA Compilation using Partial Reconfiguration
- コンパイル時間削減のために,パケットスイッチなFat-Treeネットワークと部分再構成を使った,divide-and-conquerアプローチを利用
- 30分かかってたコンパイル時間が7分に
- A Configuration Data Multicasting Method for Coarse-Grained Reconfigurable Architectures
- CGRA向けのコンフィギュレーションデータの圧縮手法を提案
- RoMultiCと呼ぶ マルチキャストな構成手法がベース
Architecture
- Modular Block-RAM-Based Longest-Prefix Match Ternary Content-Addressable Memories
- Longest-Prefix MatchなTCAMのFPGA実装
- TCAMs are used in a wide variety of applications,...
- Weighted Group Decision Making Using Multi-identity Physical Unclonable Functions
- Mi-PUFでデバイスの認証,識別
- FPGAs with Reconfigurable Threshold Logic Gates for Improved Performance, Power and Area
- threashold logic cell(TLC)に,3つの従来のLUTを組み合わせて構成したFPGAタイル構造の提案
- 28nm FDSOIプロセスで実装
- Everyone’s a Critic: A Tool for Exploring RISC-V Projects
- RISC-Vいいよ
High Level Synthesis
- ILP-based Modulo Scheduling and Binding for Register Minimization
- レジスタ数を削減するようにILPベースのモジュロスケジューリングを拡張
- Multi-Fidelity Optimization for High-Level Synthesis Directives
- HLS向けの設計空間自動探索
- Dependence Graph Preprocessing for Faster Exact Modulo Scheduling in High-level Synthesis
- HLSでもModule Schedulingはスループット最適化の鍵
- HLSの場合は,問題が大きくて密な依存グラフになり,たくさんの単純な演算を含むかも
- complexity-reductionアプローチを提案
- non-crticalな演算のサブグラフを単一エッジで抽象化することで問題の依存グラフを簡単化する
- ciriticalな演算だけをスケジュール
- 21の大きな例に対して,4.37xの高速化
- 新たな強みと弱みも
Machine Learning
- Reconfigurable Acceleration of 3D-CNNs for Human Action Recognition with Block Floating-Point Representation
- glock floating-point演算に基づく3D-CNN向けのカスタム可能アーキテクチャ
- ZC706で評価.Intel i7-950の8.2倍高速化
- Application Partitioning on FPGA Clusters: Inference over Decision Tree Ensembles
- マルチFPGAクラスタが必要
- アプリケーションロジックをFPGAリソースのプールにマッピングすることは簡単ではない
- アプリケーションを複数のFPGAに分割すること
- 複数のデータストリームクラスのFPGA間通信管理
- 通信計算帯域のバランス
- リソースインテンシブな機械学習アプリケーション(decision tree ensembles上の推論)をFPGAクラスタに実装
- FPGAクラスタは,20個のMicrosoft Catapult-FPGAボードで構築されている
- 軽量なFPGA間通信プロトコルとルーティング層を開発
- Resource Reduction of BFGS Quasi-Newton Implementation on FPGA using Fixed-Point Matrix Updating
- Quasi-Newton法は,NNトレーニングに広く使われている
- ソフトウェアで実装されたQNメソッドの反復プロセスはしばしば非常に時間がかかる
- 高速化のために,浮動小数点BFGS-QNの実装がFPGA上で実現されている
- 近似ヘッセ行列Bの逆行列の更新が最も計算量が多くメモリを消費する
- B行列更新の固定小数点数ハードウェア設計を提案
- オーバフローおよびアンダーフローが,トレーニングプロセスのコンバージェンスパフォーマンスを低下させる可能性がある
- マトリクスプロパティチェックと精度スケーリングスキームを提案.
- 単精度浮動小数点BFGS-QNと比較して、混合精度BFGS-QNが、10.9%のLUT、20.2%のFF、18.1%のBRAM削減を達成
Arithmetic
- BISMO: A Scalable Bit-Serial Matrix Multiplication Overlay for Reconfigurable Computing
- BISMOは,ベクトル化ビットシリアル掛け算
- PYNQ-Z1上で6.5TOPS
- A DSL-Based FFT Hardware Generator in Scala
- ScalaによるFFTジェネレータ
- 入力: FFTアルゴリズムの高位記述
- 出力: トークンベースなRTL-Verilogな合成されたデザイン
- いくつかのレイヤーのDSLを使用して,さまざまなレベルの抽象度で表現し,RAMと領域効率の高いハードウェア実装を生成する
- 最先端のストリーミング順列の使用およびドメイン特有の最適化を可能にする
- ストリーミングハードウェアデータフローの自動パイプライン化およびそのデータ独立制御信号の同期化
- 型安全性を保証しながら,固定小数点演算とFloPoCo生成IEEE浮動小数点演算子をシームレスに切り替える
- Revisiting FPGA Implementation of Montgomery Multiplier in Redundant Number System for Efficient ECC Applications in GF(p)
- specialized prime filedを使って,GF(p)での高速なECCの実装を実現.
- An Efficient Exact Fused Dot Product Processor in FPGA
- 正確なオペランド算術を用いてサイクル毎に部分結果を出力できるFused Dot Productプロセッサ
- Efficient Multiple Constant Multiplication Using DSP Blocks in FPGA
- Xilinx FPGAのDSPを使ったMCM(入力に定数を掛け算)の効率的な実装
Computer Vision and Graphics
- A FPGA Accelerator for Real-Time 3D Non-Rigid Registration Using Tree Reweighted Message Passing and Dynamic Markov Random Field Generation
- Tree Reweighted Message Passing (TRW-S)に基づいたリアルタイム 3D非剛体レジストレーションのためのFPGA+CPUアクセラレータの実装
- メモリバウンドの問題とマルコフ確率場の動的生成による従来の従来のTRW-Sのとのスケジューリング制約を克服
- ベースラインと比べて600xの性能向上,ソフトウェアより81倍までの電力を削減
- 20 scan/secを達成
- An Efficient FPGA-based Axis-Aligned Box Tool for Embedded Computer Graphics
- レイトレのAxis-Aligned Bounding Box向けアーキテクチャ
- A Runtime Configurable Hardware Architecture for Computing Histogram-based Feature Descriptors
- 異なるタイプのヒストグラムベースの特徴記述子を計算可能なソフトウェアで構成できるアーキテクチャ
- SIFTとHOGで評価.
- 専用ハードウェアと比べて,3x,5xの高速化.
- リソース利用量は,LUT/FF/DSPが,1.1x/15x/1.6x,6.4x/7x/32x.
- Submicrosecond Latency Video Compression in a Low-End FPGA-based System-on-Chip
- Logarighmic Hop Encodingアルゴリズムを使った超低レイテンシなビデオエンコーダを実装
- 最大出力マージンサイクル数23
- 省スペース
- ローエンドのFPGA(ZynqBerry)で95M piesl/sec (FHDのビデオストリームができる)
- オンザフライでのコンフィギュレーション
- スケーラブルなアーキテクチャ
Design Approaches
- Latency Insensitive Design Styles for FPGAs
- レイテンシ重視の設計(LID)
- パイプライン化されたインタコネクトな最近のFPGA(Stratix10では)は従来のLIDが適用しづらい
- よりFPGA向きのLIDを2つ提案
- A Flexible K-Means Operator for Hybrid Databases
- メモリバンド幅を共有するCPU-FPGAデータベースでのK-meansのアクセラレーション
- 頻繁な再プログラミングを避ける
- 計算とメモリバンド幅をバランスするための並行利用
- Lynq: A Lightweight Software Layer for Rapid SoC FPGA Prototyping
- Zynq向けのLuaを使ったFPGAのライピッドプロトタイピング
- PYNQより,3.2x-4.9倍のスピードアップと2.5xから4.8xの電力効率向上
- システムの起動時間は10ms未満
- Workload Partitioning Strategy for Improved Parallelism on FPGA-CPU Heterogeneous Chips
- CPU+FPGAなエテロジニアス環境向けのスケジューラ
- UltraScale+ ZCU102で評価
Machine Learning - Tools
- f-CNNx: A Toolflow for Mapping Multiple Convolutional Neural Networks on FPGAs
- 複数のCNNを一つのFPGAに実装する
- 自動ツールのf-CNN^xを提案
- f-CNNxは,メモリアクセス衝突をスケジューリングして高い稼働率を保つ
- CRRS: Custom Regression and Regularisation Solver for Large-scale Linear Systems
- 機械学習などの大規模データセットのためのFPGAによる回帰と正則化手法
- リジッド回帰,リッジ回帰,アダプティブ/ラッソ回帰,弾性ネット正規化などから選択・カスタマイズ
- 8-FPGAなシステムと12コアCPUの比較で,158倍の速度向上と114倍の電力効率向上を達成
- A Framework for Acceleration of CNN Training on Deeply-Pipelined FPGA Clusters with Work and Weight Load Balancing
- CNNトレーニングロジックを複数のFPGAに割り付けるスケーラブルなフレームワーク FPDeep
- 複数FPGAに渡ってのDSPスライスの有効活用
- CONVレイヤでオンチップメモリだけを利用
- 6トランシーバ/FPGAな環境で,83FPGAまでリニアな性能向上
- GPUサーバに比べて,電力利用効率が平均で6.36xの高くなった
- Lite-CNN: A High-Performance Architecture to Execute CNNs in Low Density FPGAs
- 低密度なFPGAで高い性能を達成するCNNインファレンス Lite-CNNを提案
- 8bit fixed-point版をZYNQ7020に実装,410GOPsを達成
Overlays/CGRAs
- An FPGA Overlay Architecture Supporting Rapid Implementation of Functional Changes during On-Chip Debug
- FPGA開発のデバッグ効率を向上させるためのオーバーレイ技術
- DLA: Compiler and FPGA Overlay for Neural Network Inference Acceleration
- オーバーレイは,FPGAの高速開発サイクルを可能にし設計フローの課題の多くを除去
- パフォーマンス上の負担がある
- 特定のアプリケーションドメインに対するオーバーレイを調整,オーバーレイに関連する従来のパフォーマンスオーバーヘッドを犠牲にせず,完全なプログラマビリティを維持する方法を提案
- 軽量VLIWネットワークを使用した制御
- 1%のオーバヘッドで再プログラミングロジックをサポート
- CaffeやTensorflowなどのディープラーニング言語をコンパイルして,オーバーレイを簡単に生成
- An Effective Architecture for Trace-Driven Emulation of Networks-on-Chip on FPGAs
- NoCは大事だけど,NoCの評価手法はシステムの複雑さに対してスケーラブルではない
- 大規模NoCのFPGAエミュレーションはFPGAの規模の制約により挑戦的な課題である
- trace-drivenのエミュレーションのサポートはtrivialではない(トレースデータはFPGAの外におかれるから)
- FPGA上でのNoCのtrace-drivenエミュレータを提案
- 大規模なNoCをスケールさせる手法
- オフチップメモリへのアクセスレイテンシを隠蔽
Machine Learning and Model Checking
- Machine-Learning Based Congestion Estimation for Modern FPGAs
- FPGAの配置での混雑さを機械学習でみつもり
- FPGASwarm: High Throughput Model Checking on FPGAs
- 最新のシステムの広大な状態空間は、モデル検査プロセスの計算がとても複雑
- 通常のソフトウェア開発プロセスの一部としてモデル検査を使用することは現実的ではない
- FPGAJdeモデル検査の性能を向上
- Swarm検証の概念に基づいたFPGAモデルチェッカーFPGASwarmを設計
- ザイリンクスのVirtex-7 FPGAに実装して,約3倍のスピードアップを達成
PhD Forum
- Lightweight secure processor prototype on FPGA
- セキュアアーキテクチャをRISC-V上に実装.S-RISC-V
- Zedboardに実装
- An Application-Specific Field-Programmable Tree Ensemble Architecture
- データ分類のための教師付き学習の話
- アプリケーション特化アーキテクチャで,trained modelのアップデートができるように
- Facilitating Easier Access to FPGAs in the Heterogeneous Cloud Ecosystems
- FPGAとGPUをOpenCLを使って評価
- 再構成アプローチを比較
- Cycle-Accurate and Cycle-Reproducible Debugging of Embedded Designs using Artificial Intelligence
- AIを使ったデバッグ方法
PhD Forum and Demo night
- A Demo of FPGA Aggressive Voltage Downscaling: Power and Reliability Tradeoffs
- Voltage downscalingのデモ.
- Digital Pre-Distortion Implemented Using FPGA
ZYNQをトランシーバボード(FMCOMMS2)と併用してDPDシステムを実装するデモ
- Accelerated Wire-Speed Packet Capture at 200 Gbps
- 200Gbpsを扱うFPGAカード NFB-200G2QLのデモ
- A Demonstration of FPGA-based You Only Look Once version2 (YOLOv2)
- YOLOをZCU102に実装した話
- binary精度なCNNを特徴抽出に,半精度CNNを分類とlocalizeationに利用.
- 35.71FPSを達成.GPUと比べて高い電力効率を達成
- viciLogic2.0 Online learning and prototyping using PYNQ
- PYNQを使ったオンライントレーニング
- Demonstration of Object Detection for Event-driven Cameras on FPGAs and GPUs
- 撮影画像の変化を検出したときに減算されたフレームを出力するイベントドリブンカメラにスライディングウィンドウ法を用いた物体検出システム
- 提案システムをFPGAとGPUに実装して比較
- Towards in the field fast pathogens detection using FPGAs
- pathogens(病原体)の検出
- 高速な病原体検出の組み込み向けアクセラレータ(75x50mm未満)
- DNAシケースを250Mnt/s以上で解析
- ADAS and Video Surveillance Analytics System using Deep Learning Algorithms on FPGA
- 複数のリアルタイム コンピュータビジョン パイプラインによってFPGAをDRPを使って時分割で利用
- ZC706