リンクレイヤプロトコル MAPOS 準拠の高速スイッチ COREswitch

小倉  $arta^{\dagger}$  川野 哲生 $^{\dagger}$  清水 健司 $^{\dagger}$  丸山 充 $^{\dagger}$ 高橋 直久 $^{\dagger\dagger}$ 

COREswitch : A High-Speed Link-Layer Switch Compliant with MAPOS

Tsuyoshi OGURA<sup>†</sup>, Tetsuo KAWANO<sup>†</sup>, Kenji SHIMIZU<sup>†</sup>, Mitsuru MARUYAMA<sup>†</sup>, and Naohisa TAKAHASHI<sup>††</sup>

あらまし 本論文では,筆者らが提案するリンクレイヤプロトコル MAPOS に準拠した高速スイッチ COREswitch について述べる.COREswitch は,OC-3c (155 Mbps),OC-12c (622 Mbps),OC-48c (2.4 Gbps) の3種類の回線を最大16回線まで混在して収容でき,87.04 Gbpsの内部転送容量をもつ.高速ストリーム処理 向きのデータパスや高効率の可変長フレーム転送アービタ等により,ハードウェアの簡略化による開発期間の短 縮と高速性を両立した.想定する主なアプリケーションとして,広帯域映像 IP 転送システム及びインターネッ トバックボーンスイッチを取り上げ,それぞれの性能評価を行った.その結果,広帯域映像 IP 転送システムと して約 1.5 Gbpsの映像業界向け非圧縮 HDTV 映像をスイッチングするのに十分な性能をもつことを明らかに した.また,インターネットバックボーンスイッチの構成の一例として,14本の OC-12c 回線,2本の OC-48c 回線の構成を用いて,同時競合転送試験を行った結果,フレームサイズが 512 byte 以上であればワイヤレートの スイッチングが達成できることを明らかにした.

- キーワード - インターネット , リンクレイヤプロトコル , MAPOS , スイッチ , 広帯域映像 IP 転送システム

# 1. まえがき

論

Υ.

インターネットにおいては,近年のアクセス系に おけるブロードバンドの普及や映像配信サービスな どへの需要増加に象徴されるように,高速化への要 求が高まる一方である.このようななか,現時点で IP のデータ通信における1回線当りの通信速度は数 百 Mbps ~数 Gbps が技術的,経済的制約のもとで の解となっており,このクラスをターゲットとするい くつかの IP パケット転送のためのリンクレイヤプロ トコルが開発,利用されている.例えば,ATM,ギ ガビットイーサネット,10 ギガビットイーサネット, PPP-over-SONET/SDH [1](以下,PPP と略記)な どが代表的である.

しかし, ATM については, Cell Tax と呼ばれる IP

<sup>††</sup> 名古屋工業大学電気情報工学科,名古屋市 Electrical & Computer Engineering, Nagoya Institute of Technology, Gokiso-cho, Showa-ku, Nagoya-shi, 466-8555 Japan パケットの細分化によるペイロードの減少,セル欠落 によるパケット(フレーム)転送効率低下の問題に対 処するためのアルゴリズムの複雑さ,コネクション設 定のオーバヘッド,異なる装置間での相互接続性,な どの問題がある.ギガビットイーサネットについては, WAN 接続時における保守,監視機能の不足が問題と なり,キャリヤクラスの WAN 接続品質を提供するた めには,SONET/SDH への再マッピングが必要とな る.また,速度の改定のたびに仕様策定作業が必要であ る.PPP については,HDLC (High-level Data Link Control) フレームを単位として転送するためオーバ ヘッドは低いが,point-to-point の接続形態に限定さ れる.

筆者らは,既存のプロトコルがもつこれらの問題を解 決するため,リンクレイヤプロトコル MAPOS (メイ ポス:Multiple Access Protocol over SONET/SDH) [2],[3]を提案している.MAPOS は PPP と同じく,専 用線の標準である SONET/SDH [4],[5] 上で HDLC 互換のフレームを転送する.SONET/SDH による速 度,距離のスケーラビリティを備えながら,ATM に 比べて低オーバヘッドな通信環境を提供する.更に

<sup>&</sup>lt;sup>†</sup>日本電信電話株式会社 NTT 未来ねっと研究所,武蔵野市 NTT Network Innovation Laboratories, NTT Corporation, 3-9-11, Midori-cho, Musashino-shi, 180-8585 Japan

MAPOS ではスイッチング機能(MAPOS スイッチ) の導入により多対多の接続が可能で, PPPに比べより 柔軟な接続形態が構成できる.仕様の詳細は, IETF (Internet Engineering Task Force)の標準化文書で ある RFC (Request for Comments) 2171~2176 と して公開している.

本論文では,筆者らが開発を行った MAPOS 準拠の リンクレイヤスイッチ COREswitch(コアスイッチ)に ついて述べる.COREswitchは,MAPOS に完全準拠 したスイッチプロダクトで,OC-48c(2,488.32 Gbps), OC-12c(622.08 Mbps),OC-3c(155.52 Mbps)の3 種類の回線を最大16回線まで混在して収容できる. 回線ボードを相互接続するバックプレーンは,双方 向87.04 Gbpsの転送容量をもつ.MAPOSの可変長 フレームを内部で固定長のセルに分割せずそのまま スイッチングすることで回線インタフェースのハード ウェアを簡略化し,更に,高速ストリーム処理向きの データパスや高効率の可変長フレーム転送アービタを 実現することで,開発期間の短縮と高速性を両立した.

以下,2. では MAPOS の概要を説明し,3. では筆 者らが開発した COREswitch のアーキテクチャの詳 細を述べる.4. では COREswitch のアプリケーショ ン例として,広帯域映像 IP 転送システム,及びイン ターネットバックボーンスイッチへの適用例を紹介し, 5. ではそれらのアプリケーションへの適用性の観点か ら行った性能評価の結果を述べる.そして,6. で関連 研究との比較検討を行い,最後に7. でまとめる.

# 2. MAPOS の概要

MAPOS は,前述の従来プロトコルの問題点を解 決するために,筆者らが提案しているプロトコルであ る.図1にMAPOS ネットワークの基本的な構成を 示す.MAPOS スイッチは全二重アクセス可能な複数 のSONET/SDH ポートをもち,複数のノード(ホス トやIP ルータ)がスイッチを経由して接続される.

MAPOS は, PPP と同じく, SONET/SDH 上で HDLC 互換のフレームを転送する.図2に, PPP 及 び MAPOS のフレームフォーマットを示す. MAPOS では, PPP で固定値(0xff)とされている Address フィールドにフレームの送信先を示すあて先アドレス を挿入し, MAPOS スイッチでこの値を用いたフレー ムスイッチを行うことにより多対多の通信を実現する (送信元アドレスを格納するフィールドはない).ス イッチどうしが多段接続されているときは各スイッチ



| Flag<br>01111110 | Destination<br>Address<br>8 bits | Control<br>00000011 | Protocol<br>16 bits | Information | FCS<br>16/32 bits |
|------------------|----------------------------------|---------------------|---------------------|-------------|-------------------|
|------------------|----------------------------------|---------------------|---------------------|-------------|-------------------|

(b) MAPOS Version 1

| Flag<br>01111110 | Destination<br>Address<br>16 bits | Protocol<br>16 bits | Information | FCS<br>16/32 bits |  |  |
|------------------|-----------------------------------|---------------------|-------------|-------------------|--|--|
| (c) MAPOS 16     |                                   |                     |             |                   |  |  |

図 2 PPP 及び MAPOS のフレームフォーマット Fig. 2 Frame formats of PPP and MAPOS.

が中継動作を行い,最終的にあて先のノードへフレー ムが転送される.なお,MAPOSには,HDLC互換 フレームの8ビットのAddressフィールドだけを使用 する MAPOS Version 1 [2],及びAddressフィール ドと Controlフィールドの計16ビットをアドレスと して使用する MAPOS 16 [3]の二つのモードがある. MAPOS は以下のような特長をもつ.

• シンプルさと転送効率の高さ

コネクションレスのため,コネクション管理のオーバ ヘッドがなく,IPv4やIPv6との親和性[6]も高い<sup>(注1)</sup>. 更に,フレームを転送単位とするため,ATMより帯 域利用率が高い.また,最大64kbyteの長大フレー ムをサポートし,IPパケットを分割せずに転送できる ので,フラグメントに伴うホスト側でのヘッダ処理の オーバヘッドが少ない.

<sup>(</sup>注1): MAPOS 上での IPv6 パケットの転送方法については, 2002 年11月現在, インターネットドラフトとして公開中.

## シームレス性

LAN から WAN に至るまで SONET/SDH による 継ぎ目のないネットワークが構成できる.

### 速度と距離のスケーラビリティ

SONET/SDH の速度体系がそのまま利用でき,ス ケーラビリティに優れる.また,SONET/SDH 伝送 装置の利用によりセグメントの延長が可能である.

• PPP フレーム, SONET/SDH との互換性

PPP フレームとの互換性により, PPP のハード ウェアの多くがそのまま利用可能であり, また, ソフ トウェアも若干の修正で利用できるので,開発コスト や期間が節約できる.また, SONET/SDH の部品も そのまま利用できる.

• プラグアンドプレイ

MAPOS のプロトコル群の一部である NSP (Node Switch Protocol) [7] によるアドレス自動設定や, SSP (Switch Switch Protocol) [8] による最適経路設定機 能により,ユーザの負荷の低減や経路設定ミスによる 障害の防止を図っている.

# 3. COREswitch のアーキテクチャ

## 3.1 特 徵

COREswitch は, MAPOS の提案当初, プロトコ ル検証用のリファレンスマシンとして開発を始めた. 一般の高速 IP ルータやスイッチでは, データ転送パ スの使用効率の向上やデータ転送のスケジューリング の簡易化のために,転送データを固定長に分割してス イッチングする方式が多くみられるが, COREswitch では, MAPOS の可変長フレームをそのままスイッ チングする.これにより,高速に動作する回線インタ フェースにフレーム分割や再構成のための複雑なハー ドウェアをもたせず,この部分のハードウェアを簡略 化している.そして,更に以下の方式を実現すること により,開発期間の短縮と高速性の両立を達成した.

(1) 高速ストリーム処理向きデータパス

SONET/SDH 回線制御,HDLC フレーム制御,ク ロスバスイッチ,単一の送受信 FIFO からなる簡潔な データパス上に,異速度回線の効率的な収容,タグ制 御情報の付加によるハンドシェイクの削減,FIFO 状 態の先行監視による HOL (Head of Line) ブロッキン グ抑制機能等を実現し,可変長フレームを高速処理 する.

(2) 高効率な可変長フレーム転送アービタ クロスバスイッチへの転送競合に対し,スロット間 の並列処理,フレーム転送要求のパイプライン処理, ユニキャスト/マルチキャスト転送の統合的扱い等によ り,可変長フレーム転送における複雑なアービトレー ションを効率的に行う.

## 3.2 システム構成

COREswitch の外観を図 3 に,構成を図 4 に示す. 複数の回線インタフェースカード (CIF: Cut-through Interface),及びシステム全体の監視/制御用プロセッ サ (IFP: Interface Processor)がバックプレーン (BP) で接続されている.BP上では CIF, IFP 間をデータ 転送用のクロスバスイッチ (XSW) と制御用のバス (Control Bus)で接続している.また,CIF や IFP か らの XSW の使用要求を調停するためのアービトレー ションモジュール (ABT)が搭載されている.回線速 度は,現在,OC-3c,OC-12c及び OC-48cの3種類 に対応しており,OC-48c及び OC-12c/OC-3c 切換型 の2種類の CIF が利用可能である.COREswitchの 主要諸元を表1に示す.



図 3 COREswitch の外観 Fig. 3 COREswitch.



図 4 COREswitch の構成 Fig. 4 Block diagram of the COREswitch.

| 項目        | 機能/諸元                                                        |
|-----------|--------------------------------------------------------------|
| システムサイズ   | $430\mathrm{mm}{\times}386\mathrm{mm}{\times}500\mathrm{mm}$ |
| スロット数     | 17 <b>スロット</b>                                               |
| 回線ボードサイズ  | $233\mathrm{mm}\!\times\!160\mathrm{mm}$                     |
| BP        | クロスバスイッチ (XSW)/制御用バス                                         |
| • XSW     | 17×17 1 段 36 bit 幅パラレル伝送                                     |
| ・制御用バス    | 64 bit <b>非同期バス , 最大</b> 40 Mbyte/s                          |
| CIF       | SONET/SDH , リンク制御                                            |
|           | アドレス検索,転送制御                                                  |
| ・接続回線     | OC-48c , OC-12c/OC-3c                                        |
| ・入出力 FIFO | 各 512 kbyte                                                  |
| ・回線制御     | 汎用 SONET/SDH LSI (OC-12c/                                    |
|           | OC-3c), ASIC (OC-48c)                                        |
| ・HDLC 制御  | FPGA (OC-12c/OC-3c),                                         |
|           | ASIC (OC-48c)                                                |
| ・検索転送制御   | FPGA                                                         |
| ・スロット実装   | 活線挿抜対応                                                       |
| IFP       | NSP , SSP <b>プロトコル制御</b> ,                                   |
|           | CLI (Command Line Interface) ,                               |
|           | システム管理制御,L3 フォワード機能                                          |
| ・プロセッサ    | Intel 960HD $33/66 \mathrm{MHz}$                             |
| ・メモリ      | RAM $128\mathrm{Mbyte}$ , ROM $16\mathrm{Mbyte}$             |
| ・検索転送制御   | FPGA                                                         |
| ・インタフェース  | シリアル/Ethernet                                                |
| ABT       | クロスバスイッチ制御                                                   |
| ・主要ロジック   | FPGA                                                         |
| ・接続要求     | 17 スロット対応                                                    |
| ・要求信号     | 各スロット 4 bit 幅                                                |
| EMC       | VCCI クラス A 準拠                                                |
| 雷源        | AC 100 V                                                     |

表 1 COREswitch の主要諸元 Table 1 Specifications of the COREswitch.

3.3 高速ストリーム処理向きデータパス

スイッチ内では,図5に示すパスに沿って回線受 信側 CIF (Ingress CIF)から回線送信側 CIF (Egress CIF) ヘフレームが転送される.実際には,各 CIF は 図6に示すように送受信各方向のパスを備えているが, 図5では省略して単方向のみを示している.Ingress CIF で受信したフレームを Egress CIF へ転送するま での手順は次のとおりである.

 (1) SONET/SDH 処理部で SONET/SDH の オーバヘッド処理と HDLC フレームの抽出を行い, HDLC 処理部にわたす.

(2) HDLC 処理部は、フレーム内のあて先アド レス値を抽出し、フレームデータとは別に ReqFIFO (Request FIFO) に格納する.また、残りのフレーム データを SONET/SDH 処理部から受信しながら Rx-FIFO へ書き込んでいき、そのバイト数をカウントし ていく.

(3) ReqFIFO にあて先アドレス値が書き込まれ ると,RSE (Route Search Engine) は,その値を読 出しアドレスとしてルートテーブルが格納されたサー



図 5 内部データ転送パス Fig 5 Data transmission path





図 6 CIF のブロック構成 Fig. 6 Block diagram of the CIF.

チ RAM にリードアクセスし,フレームの転送先となる Egress CIF の番号等の情報を得る<sup>(注2)</sup>.

(4) HDLC 処理部はフレームの全データの Rx-FIFO 内への受信が完了すると,バイトカウントによっ て得られたフレーム長を ReqFIFO に書き込む.

(5) フレーム長の ReqFIFO への書込みを検出し たRSE は, XSW 設定要求を ABT へ送る. ABT から XSW 設定完了通知を受け取ると, RSE は, RxFIFO の読出し信号,及び Egress CIF の TxFIFO への書込 み信号を発行する.

以上の処理により, RxFIFO からの出力であるフ レームデータと書込み信号が XSW を介して Egress CIF へ転送される.RSE はフレーム長情報をもとに, フレームデータがすべて転送されるまで信号の発行を 繰り返す.Egress CIF 側では,フレームの全データ の TxFIFO への受信を待たずに外部回線へ出力する カットスルー動作を行う.

XSW は 36 bit 幅 17×17 の1 段の構成で, 16 枚の CIF と1 枚の IFP 間をスイッチングする.各 CIF 及び

<sup>(</sup>注2): 各スイッチは経路交換プロトコル SSP により,他のスイッチ の番号とそこへのネクストホップへ接続された自身の CIF 番号を知る ことができる. 一般に MAPOS アドレスはスイッチ番号と CIF 番号 の組合せで構成されているため,この情報をもとにサーチ RAM 内に MAPOS アドレスに対する転送先情報を格納することができる.

IFP と XSW の間は,送受信それぞれにおいて,32 bit 幅のデータと 4 bit の制御情報とを BP 上の 80 MHz クロックに同期して伝送する.したがって,1 スロッ ト当り 2.56 Gbps の送受信が同時に行える.また,ユ ニキャストのほかに,マルチキャスト,プロードキャ スト,ループバック転送も可能である.

スイッチ内のデータパスは送受信各方向について単 一の FIFO からなるシンプルなものであるが,以下の 機能により高速なストリーム処理を実現している.

異速度回線の効率的収容

Ingress CIF では,フレーム全体のデータが Rx-FIFO にそろってから XSW への転送を行う storeand-forward 方式を採用している.XSW 上では回線 速度に関係なく 2.56 Gbps で転送が行われるので,低 速度の CIF からの転送により XSW が長時間占有さ れることがなく,3 種類の速度の回線を効率良く収容 できる.

タグ情報によるハンドシェイクの削減

XSW 転送において, Egress CIF の TxFIFO への 書込み信号, 及びフレーム終了, バイトアライメント, エラーの有無を示す4 ビットのタグ情報がフレーム データと一緒に転送される.データの流れる方向が1 方向のみになるので, CIF 間のハンドシェイクが必要 なく,オーバヘッドを削減できる.

• HOL (Head of Line) ブロッキングの抑制

RxFIFO と TxFIFO は論理的には 2 段のキュー として動作し, ABT による XSW の調停が完了し, TxFIFO に十分な空きがあることを確認してから, RxFIFO の先頭フレームが TxFIFO にキューイング される.このとき Ingress CIF 側の RSE は, TxFIFO の空き待ち時間と ABT からの転送許可待ち時間を個 別に監視し, どちらかが上限値を超えた場合にはこ の先頭フレームを積極的に廃棄する<sup>(注3)</sup>.この機能は, HOL ブロッキングによるシステムのトータルのフォ ワーディング性能の低下を軽減する.

3.4 高効率な可変長フレーム転送アービタ

各 CIF や IFP から XSW へのデータ転送要求発生 時には,他の CIF からのデータ転送要求と転送先の XSW ポートが競合することがある.ABT では,この 競合の調停(アービトレーション)を行う.

COREswitch では, CIFのハードウェアの簡略化 のため,回線から受信した可変長フレームを固定長 セルに分割せず,可変長のまま内部転送する.このた め,各 CIF (IFP)から XSW への転送要求の発生/終 了のタイミングは全く任意であり,ABT には固定長 セルの場合より複雑な処理が要求される.本 ABT で は(1)各 CIF (IFP)からの転送要求の発生/終了時の 処理の並列化(2)転送要求の受信から転送許可まで の処理のオーバヘッドをいんぺいするためのパイプラ イン処理(3)各 CIF (IFP)からの転送要求の有無の 時系列サンプリングによるユニキャスト/マルチキャ スト処理の統合などにより,転送要求のアービトレー ションの高速化を実現した.これらすべての機能を ABT カード上の1チップの FPGA(60万ゲート相 当)内に実装している.詳細は文献[9]を参照されたい.

3.5 自動構成制御のためのプロトコル処理

IFP では、制御用バスを介したシステムデバイス制 御, CLI (Command Line Interface)の提供, IP ア ドレスを付与した CIF 間での IP パケット転送の実 現などのほか, MAPOS の自動構成制御機能を実現 する NSP (Node Switch Protocol) や SSP (Switch Switch Protocol) の処理を行う.

NSP は, アドレス自動割当てのためのプロトコル で, PC や IP ルータなどのノードが COREswitch に 接続されると, ノードからの MAPOS アドレス要求 が IFP へ転送され, IFP からノードへ MAPOS アド レスがセグメント内で重複なく割り当てられる.SSP は RIP などと同様の Distance Vector 型の経路情報 交換プロトコルで, MAPOS スイッチ間で自動的にフ レーム転送の経路情報を交換し経路表を作成する.

NSP については、ノードが受信する必要のあるマル チキャストフレームのあて先アドレスのリストを MA-POS アドレス要求と一緒に送信し、MAPOS スイッ チがそれに基づいてマルチキャストアドレスと転送先 CIF の対応表を作成し、ノードへの不要なマルチキャ ストフレーム転送を抑制する機能拡張も行った<sup>(注4)</sup>.従 来の IGMP snooping [10] や Cisco CGMP [10] など と同様の機能を簡単な方式で実現している.

## 4. COREswitch のアプリケーション

COREswitch は,既に動作検証まで終了したプロ ダクトであり,いくつかのシステムへの適用事例も存 在する.ここでは,広帯域映像 IP 転送システム及び インターネットバックボーンスイッチへの適用例を紹

<sup>(</sup>注3): TxFIFO への書込み信号を発行しない状態で RxFIFO のデー タを読み出すことによりフレームを廃棄する.

<sup>(</sup>注4): 2002 年 11 月現在, NSP+としてインターネットドラフトで公開中.



図 7 非圧縮 HDTV 転送システム Fig. 7 Uncompressed HDTV transmission system.

介する.

4.1 広帯域映像 IP 転送システム

筆者らは, MAPOS の高速性を生かしたアプリケー ションとして, 広帯域映像 IP 転送システム [11] の開 発を行い, 適用実験を進めている.本システムでは 様々な種類の映像ストリームを IP でリアルタイム転 送することが可能であり, なかでも,現在一般に普及 しているギガビットイーサネットでは扱うことができ ない,約1.5 Gbps の映像業界向け非圧縮 HDTV 映像 ストリームの IP 転送が最も特徴的である.

図 7 は非圧縮 HDTV 映像を IP 転送する場合の基本 的なシステム構成で,エンドシステム (PC) を OC-48c の MAPOS 回線で接続している.各 PC に筆者らが 開発した OC-48c MAPOS PCI インタフェースカー ド [12] を搭載し, COREswitch を経由し相互接続し ている.1対1通信だけでなくマルチキャスト通信も 可能である.

HDTV カメラで撮影した映像データは送信 PC に て分割, IP パケット化され, MAPOS ネットワーク を経由して受信 PC へ送られる. 受信 PC では, 受信 した IP パケットデータをもとに HDTV 映像データを 再構成し出力する. HDTV カメラ及び出力モニタと PC の間は,業務用映像機器用の HD-SDI 規格のイン タフェースで,この部分を流れる非圧縮 HDTV 信号 は74.25 MHz サンプリング, 10 ビット量子化の輝度 信号と,37.125 MHz サンプリング, 10 ビット量子化の輝度 信号との言く この HD-SDI 信号の PC への入出力に は市販の HD-SDI カードを用いている.

本システムは,市販の汎用 PC,市販の HD-SDI カード,及び MAPOS PCI インタフェースカードを 用いて構成されており,PC 間の通信には MAPOS の 特徴である 64 kbyte の長大フレームを用いている.長 大フレームを用いた結果,エンドノードにおけるプロ トコル処理の負荷を大幅に軽減することができ,汎用



図 8 MAPOS 実験網 Fig. 8 MAPOS experimental network.

PC でも十分な性能が得られることを実証できた[11]. 4.2 インターネットバックボーンスイッチ

MAPOS の実フィールドへの適用性を検証するた め,1999 年 3 月に NTT 武蔵野研究所を含む都内 5 地点を結ぶ MAPOS 実験網を構築し,今日まで運用 を続けている.

本実験網は図8に示すように,各拠点がバックボー ンの COREswitch を介したスター型の MAPOS ネッ トワークで接続された構成となっている.このバック ボーンスイッチは NTT 武蔵野研究所内に設置されて いる.バックボーンスイッチと各拠点間は伝送装置を用 いず,光ファイバ及び光アンプを用いた簡易な伝送路 で接続されている.伝送距離の最長部分は50.7kmで ある.実験開始時期の関係から多くの区間で OC-12c 回線を用いているが,順次OC-48c回線に置き換えて 運用している.各拠点では,バックボーンスイッチと の接続点において MAPOS 対応の IP ルータを使用 しており, 各拠点の IP ルータ相互間で BGP (Border Gateway Protocol) を介した IP の経路交換を行って いる.すなわち,本実験網は,独立したネットワーク 運営主体である AS (Autonomous System) を BGP によって相互接続した,今日のインターネットバック ボーンと全く同様の形態となっている.

運用開始から現在まで3年半の間, MAPOSのプロ トコルや COREswitch に起因するトラブルはなく安 定した運用を続けており, これらが実フィールドへの 高い適用性をもつことがわかった.

MAPOS の実フィールドへの適用例としてこのほかに,「つくば WAN」におけるギガビットイーサネット LAN 間接続の例があり,筆者らが提案する GbE-MAPOS 変換装置 [13] ~ [15] が用いられている.

5. 性能評価

4. で述べた二つの代表的なアプリケーション, すな

わち広帯域映像 IP 転送システム,及びインターネット バックボーンスイッチへの適用を想定し,COREswitch の性能評価を行った.

5.1 広帯域映像 IP 転送用スイッチとしての評価

映像の種類として約 1.5 Gbps の非圧縮 HDTV 映像 を転送する場合を想定し,スループット,及びフレー ムフォワード遅延の測定と評価を行った.

5.1.1 スループット

非圧縮 HDTV 転送においてはデータ帯域が一定で あるため,あらかじめ必要な帯域を見積もることが可 能である.非圧縮 HDTV 映像は約1.5 Gbps の帯域を 必要とすることから,今回は OC-48c 回線を用いて1 回線当り一つの非圧縮 HDTV 映像を転送する場合を 想定し,トラヒック間で回線競合が発生しない条件下 で,以下の各場合のスループットを測定した.

- (1) あて先固定ユニキャスト転送
- (2) あて先変動ユニキャスト転送
- (3) あて先固定マルチキャスト転送
- (4) あて先変動マルチキャスト転送

具体的には(1)では表2に示す八つのポート<sup>(注5)</sup>のペ ア間での全二重通信を行い(2)では表3に示すポー ト1~ポート8までの各ポートが表に示すように2箇 所のポートへ交互にフレーム転送を行い(3)ではポー ト1が,ポート2~ポート8の7箇所へのマルチキャ ストを継続して行い(4)では,ポート1から他の奇数 番及び偶数番の全ポートへのマルチキャストを交互に 行った.これらすべてにおいて,あて先競合は発生し

表 2 全二重通信時のポート割当て

Table 2 Port assignments for case (1).

port1 <-> port2 port3 <-> port4 port5 <-> port6 port7 <-> port8 port9 <-> port10 port11 <-> port12 port13 <-> port14 port15 <-> port16

| 表 | 3  | ぁ   | て先 | 変動   | ユニキャ   | ァスト間  | 寺のフ | ポート  | ·割  | 当て |
|---|----|-----|----|------|--------|-------|-----|------|-----|----|
|   | Ta | ble | 3  | Port | assign | ments | for | case | (2) |    |

| port1 ->              | port2, port3   |
|-----------------------|----------------|
| port<br>2 ->          | port4, port5   |
| port<br>3 ->          | port6, port7   |
| port<br>4 ->          | port8, port9   |
| port<br>5 ->          | port10, port11 |
| port<br>6 $\text{-}>$ | port12, port13 |
| port<br>7 ->          | port14, port15 |
| port<br>8 ->          | port16, port1  |

ない.

(i) 測定系:測定系を図9に示す.MAPOS対応 の市販測定器である Anritsu 社製 MD1230A(以下, TGと略記)のトラヒックジェネレート機能を用いて トラヒックを生成し,それを光スプリッタで16分岐 し,COREswitchの16個のOC-48cポートへ入力す る.上記トラヒックは,ペイロード内のデータがすべ て0のIPパケットを収容した MAPOS フレームから なる.

(ii) 測定方法 (2)(4)では, TG より 2 種類の あて先の MAPOS フレームを交互に送信し(1)では 固定のユニキャストアドレス(3)では固定のマルチ キャストアドレスをあて先にもつ MAPOS フレーム を連続送信する.各ポートのルートテーブルを操作し て所望のポートへフレームが転送されるようにする. COREswitch 上でフレーム欠損の有無を観測しなが ら TG でフレーム間ギャップを調整し,60 秒間フレー ム欠損がない状態を維持できた最大の送信トラヒッ クのビットレートを測定しスループットとした.この 測定を,TG からの送信トラヒックのフレームサイズ が表 4 に示す各値の場合について行った.なお,表 中の値は,4 byte の MAPOS ヘッダと4 byte の FCS (Frame Check Sequence) を含む値である.

(iii) 結果と考察:(1)(2)の測定結果を図 10 に, (3)(4)の測定結果を図 11 に示ず<sup>(注6)</sup>.同じユニキャ スト通信での(1)(2)のスループットの違いは,ABT



図 9 スループット測定系 Fig. 9 Throughput measurement system.

(注5):1 枚の CIF は 1 本の全二重の回線をもち,この一つの回線を ポートと呼ぶことにする.任意のポート間のデータ転送はバックプレー ンのクロスバスイッチを経由して行われる.

(注6):異なる種類のフレームを送信する場合の TG のフレーム間ギャッ プの下限の制約により(2)(4)においてフレームサイズがそれぞれ 4,096,8,192 byte 以上の範囲では,フレーム欠損を起こさない限界近 くの高いピットレートでトラヒックを送信することができなかった.こ のため,図にはこの下限のフレーム間ギャップを用いたときの送信トラ ヒックのピットレートをそのままプロットした. 表 4 測定に用いたフレームサイズ [単位:byte] Table 4 Frame sizes used for the measurements.

54, 64, 128, 256, 512, 1,024, 1,280, 1,518, 2,048, 4,096, 4,472, 8,192, 16,384, 32,768, 65,288



図 10 ユニキャスト時のスループット Fig. 10 Throughput in unicasting.



図 11 マルチキャスト時のスループット Fig. 11 Throughput in multicasting.

におけるフレームの連続転送機能 [9] が稼働している か否かの違いである(1)の場合,各ポートに対して あて先ポートが同じフレームが連続して入力されるた め,入力ポート上の RSE は,そのあて先ポートに対 する ABT からの1回の転送許可ごとに,同じあて先 ポートのフレームを連続して転送する.一方(2)の場 合,あて先ポートの異なる2種類のフレームを交互に 受信するため,入力ポート上の RSE は,1フレーム ごとに ABT に対して転送要求を発行し転送許可を待 つ.この処理の違いがスループットの違いの原因であ る(3)(4)のスループットの違いも同じ理由による.

同じあて先変動がある場合での(2)(4)のスルー

プットの違いは,入力ポート上のRSEからの転送要 求に対し,ABTが入力ポートと出力ポート間のクロ スバスイッチ接続を新たに行う必要があるかどうかの 判断<sup>(注7)</sup>にかかる時間が,あて先ポートの数に依存す ることによる(1)(3)においても同様の違いはある が,連続転送機能によりABTが上記の判断を行う回 数が少なくなるため,スループットへの影響が小さく なっている.

図 10,図 11 より(1)~(4)のそれぞれにおいて フレームサイズが 128,512,128,1,024 byte 以上で あれば 1.5 Gbps のスループットが得られることがわ かる.これらの値は、エンドシステムの PC 側で想定 する 64 kbyte のフレームサイズ [11] に対して十分小 さい値であり、COREswitch は非圧縮 HDTV 映像転 送用スイッチとして十分なスループット性能をもつと いえる.

5.1.2 フレームフォワード遅延

5.1.1 の(1)~(4)について,スループットに加え フレームフォワード遅延の測定を行った.図9の系に おいて,ポート2からの出力をTGへ入力し,TGの 遅延測定機能を使用した.TGからのフレーム送信時 にタイムスタンプを付加し,測定対象装置を経由して 再度そのフレームを受信したときのタイムスタンプと 比較して遅延を測定している.60秒間の計測における 遅延の平均値を測定値とした.

図 12 に(1)(2)のユニキャスト通信時の遅延測 定結果を示す(3)(4)の場合については(1)(2) の場合とほぼ同様の結果が得られたため省略する.測 定は表 4 のフレームサイズについて行った.フレー ムサイズが最小の 54 byte では,(1) で 2.490  $\mu$ s(2) で 2.633  $\mu$ s であり,最大の 65,288 byte では(1)で 220.531  $\mu$ s(2)で 220.515  $\mu$ s であった.COREswitch では,入力ポートにおいて store-and-forward 方式に 基づくフレーム転送を行うため,フレーム長に応じ て遅延時間も大きくなっている.フレームサイズが 512 byte までの範囲では前述の RSE/ABT 間の処理 オーバヘッドの違いが(1)と(2)の測定値の違いに現 れているが,1,024 byte 以上の範囲では入力ポートに おける RxFIFO へのフレームバッファリング時間が

<sup>(</sup>注7):一度確立したクロスバスイッチの接続は,他のポートから同じ あて先ポートへの転送要求がない限り解放しない.ABT はフレームの 転送先が既に接続されているあて先ポートの集合のなかに含まれるか どうかを判断し,含まれる場合は直ちに転送許可を発行する.このと き,フレームが実際のあて先以外のポートへも転送されるのを防ぐため, TxFIFO への書込み信号を用いた制御を行っている.



図 12 ユニキャスト時の遅延 Fig. 12 Forward delay in unicasting.

支配的になるため,この違いによる影響は見られない. 筆者らが用いている1080i規格のHDTVシステムで は,1秒当りの映像フレーム数は30であり,1映像 フレームの表示時間は約33msである.COREswitch のフレームフォワード遅延は,これに比べて十分小さ い値であり,1映像フレーム未満の転送遅延が要求さ れるHDTV映像転送システムへの適用も十分可能で ある.

5.2 バックボーンスイッチとしての評価

次に,インターネットバックボーンスイッチとしての 使用を想定し,あて先競合が生じるトラヒックを入力 した場合のスループットを測定した.14本のOC-12c 回線と2本のアップリンク用OC-48c回線からなる構 成を想定し,測定環境の制約の関係から,OC-12c回 線側にトラヒックを入力し,OC-12c回線間のスイッ チングにおけるスループットを測定した.

(i)測定系 測定系を図 13 に示す.OC-12c回
線用の MAPOS 対応市販測定機である RADCOM 社
製 Tetra2(以下,TGと略記)の出力を 14 分岐し,OC-12cのポート 1~14 へ入力する.

(ii) 測定方法 TGから,ポート2~16をあて先とする15通りのフレームを順番に送信するトラヒックを生成し,COREswitchのすべてのOC-12c回線へ入力する.各CIFが自分のポートをあて先とするフレームを入力した際,これを廃棄しないようにするため,自分のポートをあて先とするフレームをポート1へフォワードするようにルートテーブルを設定する.

COREswitch 上でフレーム欠損の有無を観測しな がら, TG から送信するトラヒックの回線速度に対す る割合を1%刻みで制御し,60秒間フレーム欠損がな



図 13 スループット測定系 Fig.13 Throughput measurement system.

い状態を維持できた最大の値を測定した.この測定を, TGから送信するトラヒックのフレームサイズが256, 512,1,024 byteの三つの場合について行った.

(iii) 結果 フレームサイズが 256 byte の場合, OC-12c の回線速度に対し 89%のトラヒックの入力ま でフレーム欠損がない状態を維持することができた. また,フレームサイズが 512,1,024 byte の場合につ いては,回線速度に等しい入力までフレーム欠損なし の状態を維持することができた.

本測定では, すべてのポートに対して同じあて先の フレームを同時に入力することを繰り返しており, あ て先競合が非常に多い場合であると考えられる.この ようなトラヒックの場合においても, フレームサイズ が 512 byte 以上の場合 OC-12c 回線間でワイヤレー トのスイッチングが行え, バックボーンスイッチとし て十分な性能を有することが確認できた.

6. 関連研究

高速 IP ルータやスイッチにおいては, 文献 [16] の ようにデータ転送パスの使用率の向上やスケジューリ ングの簡易化の観点から,回線上のデータ転送単位が 可変長であっても,それらを固定長のセルに分割して スイッチングし,また再構成して出力するものが多い. これに対し,COREswitch では,可変長フレームを そのままスイッチングすることで高速に動作する回線 インタフェースのハードウェアを簡略化し,更に,高 速ストリーム処理向きデータパスや高効率な可変長フ レーム転送アービタを実現することにより,開発期間 の短縮と高速性の両立を達成している点が特徴である. 主なアプリケーションとして想定している広帯域映

像の IP 転送については,以下のような報告例がある. 文献 [17] は,ネットワークアダプタ上にプロセッサ を搭載し,プロトコル処理をホストプロセッサから独 立させることで高速化を図るアーキテクチャの提案で ある.文献[17] に報告のある OC-48c の例だけでな く,ギガビットイーサネットなどにも対応している.非 圧縮 HDTV より帯域の狭い DV (Digital Video)を, IPsec を用いて実時間で暗号化している[18] のが特徴 的である.

文献[19]~[21]は,非圧縮HDTVのIP転送に関す る報告である.文献[19]では,非圧縮HDTV/SDTV のビデオ信号を1,500 バイトのIPパケットに収容し てSDH上で長距離伝送する装置が紹介されている. ビデオ信号の入出力インタフェースと双方向の通信イ ンタフェースをもち,この装置だけでHDTV/SDTV 機器間を結ぶIP伝送網の構築が可能である.しかし, 完全な専用ハードウェアであり,様々なプロトコルが 実装可能であるという汎用性の点ではPCを用いた筆 者らのシステムが優れている.

文献 [20] は,様々な種類の映像フォーマットを扱っ ている.文献 [20] には述べられていないが,非圧縮 HDTV の転送には高速 LAN 技術である HIPPI (High Performance Parallel Interface) の後継である GSN (Gigabyte System Network)を用いており,筆者らの SONET/SDH と比べて距離の制約がある.また,エ ンドノードに PC ではなく高価な高性能ワークステー ションを用いている.

文献 [21] は,エンドノードに汎用 PC,ネットワークにギガビットイーサネットや OC-48c POS を用いている.汎用性の高い安価な構成要素を用いている点で筆者らのシステムに近い.しかし,文献 [21] の報告では非圧縮 HDTV を完全な形で転送するだけの性能は得られていない.また,報告のなかで筆者らのシステムを参照しており,筆者らのシステムの実装が先駆けている.

これらの例と比較して,4.1 で述べた筆者らのシス テムは,汎用性が高く安価な構成要素を用いながら, 非圧縮 HDTV の転送に十分な性能を実現している点 が優れている.これは,MAPOS の長大フレームに よってエンドノードのプロトコル処理の負荷を大幅に 軽減できたためであり,MAPOS の優位性を示すもの である.

7. む す び

本論文では,筆者らが開発した MAPOS 準拠の高速 スイッチ COREswitch について述べた.COREswitch は MAPOS 完全準拠のスイッチプロダクトで,1回 線当り OC-48c までの速度をサポートし,内部転送容 量 87.04 Gbps のクロスバスイッチによりリンクレイ ヤでのスイッチングを行う.高速ストリーム処理向き のデータパスや,高効率の可変長フレーム転送アービ タ等の実現により,ハードウェアの簡略化による開発 期間の短縮と高速性を両立している.

想定する主なアプリケーションとして,広帯域映像 IP 転送システム及びインターネットバックボーンス イッチを取り上げ,それぞれの性能評価を行った結果, ギガビットイーサネットでは扱えない約1.5 Gbps の 映像業界向け非圧縮 HDTV 映像を扱うのに十分な性 能をもつことを明らかにした.また,インターネット バックボーンスイッチの構成の一例として,14 本の OC-12c 回線,2 本の OC-48c 回線の構成を用いて, 同時競合転送試験を行った結果,フレームサイズが 512 byte 以上であればワイヤレートのスイッチングが 達成できることを明らかにした.

今後は,広帯域映像 IP 転送システムへの適用実験を 進め,得られた知見をもとに,広域映像配信向き次世 代高速スイッチの研究へと発展させていく予定である.

謝辞 COREswitch のハードウェア実装に御協力頂 いた中央システム技研(株)小林正之氏,システムソ フトウェア実装に御協力頂いた(有)ベルクマイクロ システムズ吉田敏明氏,日ごろから有益な御助言を頂 いているサン・マイクロシステムズ(株)佐島隆博氏 に感謝致します.また,MAPOS実験網の構築及び運 営に御協力頂いた,電気通信大学大学院情報システム 学研究科伊藤秀一教授,同大学総合情報処理センター 土屋英亮助教授,同大学電気通信学部情報工学科竹内 郁雄教授,東京大学医科学研究所ヒトゲノム解析セン ター高木利久教授をはじめとする MAPOS 実験網関 係者の皆様に感謝致します.

### 献

文

- A.G. Malis and W.A. Simpson, "PPP over SONET/SDH," RFC-2615, June 1999.
- [2] K. Murakami and M. Maruyama, "MAPOS Multiple Access Protocol over SONET/SDH, Version 1," RFC-2171, June 1997.
- [3] K. Murakami and M. Maruyama, "MAPOS 16 -Multiple Access Protocol over SONET/SDH with 16 Bit Addressing," RFC-2175, June 1997.
- [4] "Synchronous Optical Network (SONET) Basic Description Including Multiplex Structure, Rates and Formats," ANSI T1.105-1995.
- [5] "Network Node Interface for the Synchronous Digital

Hierarchy (SDH)," ITU-T Recommendation G.707, Oct. 2000.

- [6] K. Murakami and M. Maruyama, "IPv4 over MAPOS Version 1," RFC-2176, June 1997.
- [7] K. Murakami and M. Maruyama, "A MAPOS version 1 Extension - Node Switch Protocol," RFC-2173, June 1997.
- [8] K. Murakami and M. Maruyama, "A MAPOS version 1 Extension - Switch-Switch Protocol," RFC-2174, June 1997.
- [9] T. Ogura, S. Yagi, T. Kawano, M. Maruyama, and N. Takahashi, "Crossbar Arbiter Architecture for High-Speed MAPOS Switch," IEICE Trans. Inf. & Syst., vol.E83-D, no.5, pp.1028–1038, May 2000.
- "Multicast in a Campus Network: CGMP and IGMP Snooping," http://www.cisco.com/warp/public/473/ 22.pdf
- [11] 川野哲生,小倉 毅,清水健司,丸山 充,小柳恵一,"非 圧縮 HDTV over IP システムにおける高速プロトコル処 理技術",信学技報,NS2002-51, pp.47-50, June 2002.
- [12] 清水健司,川野哲生,小倉 毅,丸山 充,"MAPOS 対応 OC-48c PCI カードの実現と性能評価",信学技報, NS2002-55, pp.9-12, June 2002.
- [13] O. Okamoto, M. Maruyama, and T. Sajima, "Forwarding Media Access Control (MAC) Frames over Multiple Access Protocol over Synchronous Optical Network/Synchronous Digital Hierarchy (MAPOS)," RFC-3422, Nov. 2002.
- [14] 岡本 治,原田啓司,丸山 充, "MAPOS を用いた LAN 間接続方式の検討",信学技報,NS2001-17, pp.37-42, April 2001.
- [15] 原田啓司,岡本 治, "MAPOS 技術を用いた GbE-SONET/SDH 変換装置の開発", NTT 技術ジャーナル, vol.14, no.3, pp.72–74, March 2002.
- [16] N. McKeown, "Fast Switched Backplane for a Gigabit Switched Router," http://www.cnaf.infn.it/ferrari/ tfngn/doc/fasts\_wp.pdf
- [17] 小林伸治,的場宏純,都筑俊秀,陣崎 明, "Comet に よる OC48c クラスタの性能評価",情処学 HPC 研報, no.085-027, pp.157–162, March 2001.
- [18] "Parallel and Distributed Systems Fujitsu Laboratory, RWCP," http://www.comet-can.jp/PDSflab/ #NP
- [19] 栗林洋志, "デジタル放送用非圧縮映像伝送ネットワーク の検討" 映情学誌, vol.56, no.12, pp.1947–1950, Dec. 2002.
- [20] 勝本道哲,原田雅博,"超高品質・映像音響技術の構築" 信学技報,CQ2002-70, pp.31-36, July 2002.
- [21] C. Perkins, L. Gharai, T. Lehman, and A. Mankin, "Experiments with Delivery of HDTV over IP Networks," Proc. of the 12th International Packet Video Workshop, Pittsburgh, April 2002.

(平成 14 年 11 月 29 日受付, 15 年 3 月 14 日再受付)



### 小倉 毅

平4神戸大・工・システム卒.平6同大 大学院工学研究科システム工学専攻修士課 程了.同年日本電信電話(株)入社.現在, NTT 未来ねっと研究所にてネットワーク プロトコル,並列処理アーキテクチャ等の 研究に従事.情報処理学会会員.



### 川野 哲生 (正員)

平3熊本大・工・電気情報卒.平5九大 大学院総合理工学研究科情報システム学専 攻修士課程了.平8同博士後期課程了.同 年日本電信電話(株)入社.博士(工学). 現在,NTT未来ねっと研究所にて超高速 IP通信向けネットワークプロトコル及び

SW/HW アーキテクチャの研究に従事.情報処理学会会員.



### 清水 健司

平 10 上智大・理工・電気電子卒.平 12 同大大学院理工学研究科電気電子工学専攻 修士課程了.同年日本電信電話(株)入社. 現在,NTT未来ねっと研究所にてネット ワークプロトコル,広帯域コンテンツ配信 ネットワーク,並列処理アーキテクチャ等

の研究に従事.



### 丸山 充 (正員)

昭 60 電通大大学院修士課程応用電子工 学専攻了.同年日本電信電話(株)入社.主 として,高精細画像情報提供システムの研 究開発,ビデオ・オン・デマンドシステムの 研究開発に従事.現在,超高速コンピュー タネットワークと実時間並列分散アーキテ

クチャの研究に従事.工博.情報処理学会,日本ソフトウェア 科学会,IEEE,ACM 各会員.



### 高橋 直久 (正員)

昭 49 電通大・応用電子卒.昭 51 同大 大学院修士課程了.同年日本電信電話公社 (現,NTT)武蔵野電気通信研究所入所. 平13・4 月より名工大電気情報工学科教授. この間,並列計算システム,ソフトウェア 工学,ネットワークコンピューティングな

どの研究に従事.工博(東工大).情報処理学会,日本ソフト ウェア科学会,ACM 各会員.