高速光纤通道Fibre Channel系统测试
2006-06-20    电子产品世界   
打印自: 安恒公司
地址: HTTP://osha.anheng.com.cn/news/article.php?articleid=863
高速光纤通道Fibre Channel系统的测试

在一个机构内部,分配数字化视频数据的方式已经取得了显著进步。 Fibre Channel技术已允许基于服务器技术的RAID在分配网络之问发挥其吞吐量的潜力,为广播和后期制作视频数据的实时分配和传输提供了途径。在不久的将来,Fibre Channel将允许MPEG2流和其它在广播和后期制作机构中常用的信号在各节点问自由分配。本文提出了为优化基于Fibre Channel产品的发展所必需的测试设备,以及如何利用它们在一个机构内对Fibre Channel链路进行监测和测试。

一、Fibre Channel系统

你的业务机构迟早会充满Fibre Channel,有一点同样可以肯定,那就是有一天你会发现,Fibre Channel系统的工作不能如你所期望的那样。发生这样的事情时,用户就想知道它为什么不能正常工作,这是“恢复常规”的第一步。

多年来,我们已经看到这一动向。Fibre Channel有许多优良的性能,使其自然适合于媒体应用。Fibre Channel不仅有很高的带宽,而且能够工作在相隔距离远得多的设备之间,并允许轻松地混合视频、音频、图形和控制信号,不管它们的载送是依循IP、SCSI,还是其它协议。既然已有各种供应商可提供设备,接下去就是建立系统。开始时,系统工作会是良好的。它将按期望的那样做任何事情。但是惭惭地,随着应用或存储要求的改变,或某一项要求需要升级或业务扩展,突然间,其性能显得不足,在需要某一性能的时候却偏偏没有。可能出现响应时间延长,或偶然地,视频或音频包不能及时送达,甚至根本就收不到。用户要消除这些症状,就必须首先追查在Fibre Channel层面出现了什么问题。进行这一步的最基本工具是协议分析仪,接着是性能监视器。这些设备只是作为观测仪器而被接入环路或光纤网中,它们不会以任何形式启动或中止通道中的通信,或改变通信。不像SCSI中所有信息都流经总线上的每一点,Fibre Channel包含一系列固有的单向链路。为了解设备性能,监测点至少有两个,一个在上游,一个在下游。因此,所有的Fibre Channel协议分析仪都有两个接口。较复杂的测试环境可能需要多组装置协调运行。

二、测量仪器

为简单起见,对这两种工具的讨论将从性能监视器而不从协议分析仪开始。性能监视器是一种可以实时显示所通过的传输流的通信量、信息统计和基本误码情况的装置。特别地,对光纤通道的显示包括:速率显示,包括B?s、帧?秒和链路利用率;信息表征—帧规格分配;低级误码情况,指编码混乱(CV)、循环冗余检查(CRC)失效和环路启动程序(LIP)事件。速率显示是以瞬时值、峰值或对时间的曲线图来表示的,误码情况用时间标记来存档。协议分析仪是记录通过它的全部信息或特定部分信息的装置,并备有时间标记。它含有两种等同的、有协调控制效能的独立信道。当两个信道不够用时,多台分析仪能够同步运作。被捕获的数据可存储到一个超高速RAM上或一个硬盘驱动器上。一旦操作停止,用户就能观看捕获的数据,或者经软件包后处理后产生详细阶性能分析。由于Fibre Channel数据将以接近每个信道100Mb?s的惊人速率通过协议分析仪。如何控制所需存储信息就非常重要。这是对示波器的触发器功能的直接模拟。不过,协议分析仪的存储能够多次开始和停止。因而它能收集相似的多个案例,并允许对它们进行独立分析。通常Fibre Channel触发器会在一些帧和或特定素材内切断某些特定场的匹配,但是如果协议分析仪种性能监视器是链接的,就能在用户的触发事件项目上添加不同吞吐量测量和误码情况。有时用户可能希望将捕获的带宽限制在较固定的位上,并将结果轨迹存到硬盘驱动器上。通过这一措施,用户能获得数小时甚至数天之久的追查轨迹。很显然,为进行这类捕获必须非常专注。协议分析仪内的数据滤波器允许用户将捕获局限于存一个特定的源识别码和?或目标识别码。特定类型的命令或响应,或只是每一帧的前几个字节(数量由用户规定)上。那么,怎样使用这些工具呢?

三、测试方法

要检查的最基本项目,是Fibre Channel环路本身的完整性。只要快速浏览一下误码资料,用户便可知道各条电路或光链路是遇到了麻烦还是工作正常。一旦系统启动,除非环路上的某一设备不得不替换或环路因其他原因而中断,LIP一般不会发生。Fibre Channel声称指标为运行误码率低于10-12(大约每小时3个),大部分用户报告说其误码率远低于这个值。如果误码存档报告不如LIP所期望的,或每小时CV或CRC误码数量超过l-2个,就该检查一下环路中链路的完整性了。

如果链路完整性出了问题,由于Fibre Channel环路就像小孩们玩的“打电话”游戏一样,用户就会面临新的挑战。除非误码是发生在原发地和性能监视器之间,否则用户很难确定误码究竟在哪儿发生。ANSITll委员会正在试图借助链路误码状态功能(LinkEnor StatusFunction)来解决这个问题,其设想是在每一个节点掌握误码事件。不过,在真正做到这一点之前,还没有什么简便的办技可以识别链路状态(RLS)命令对环路作定时查询,并确定在线路中应从哪一个端口着手探查误码。

如果将性能监视器的误码探查效能用来触发协议分析仪,用户就应该能够捕获有误码的帧,并有希望查出原发地。然后用户就能够将性能监视器向一条链路的上游每移动一次观察一下各位置的误码率。“误码率台阶”(EnorRate Step)一旦确定,问题就可隔离在那个端口(或与其直接相连的下游电缆)上。

如果问题与链路完整性无关,另一个可能件是环路自身有过载情况。环路过载很容易用性能监视器测出来。峰值总线利用指示(或总线利用率对时间的关系曲线)可能显示一条摆幅异常大的利用率曲线,它从很低的平均数(完全处在Fibre Channel容量内)至接近100%,它导致转换迟缓(甚至失效)或响应缓慢。这种情况表明,可以利用性能监视器的某种门限(如:利用率超过90%)作为协议分析仪的触发条件。包含整个峰值利用期(包括临近起始部分)的轨迹能显示:为什么大量的信息试图在同一时间通过环路。即使Fibre Channel环路没有过载,仍然有可能存在环路上某一装置过载的情况。协议分析仪可以多种方式帮助用户找到这种问题的根源。

首先,可运用后捕获软件仅仅收集和分析帧头部分的长轨迹。以确定短期和长期载荷是否平衡。如果一个装置特别忙,其通信就应予以隔离(应用协议分析仪的滤波功能),并对其进行详细研究。即使没有特殊问题,这种初期的全设备隔离程序也要定期进行。与早期的数据进行比较。可显示不安全趋势因而提高警惕以防止在未来某一时间出问题。

如果可即时发现响应时间或丢失数据的影响,第二种方案是连续捕获更详细的轨迹(“包裹模式”),一经发现影响,立即停止捕获。要记住,所谓“发现”并不限于人工操作,对任何错误的电子显示都能与协议分析仪的外同步输入相连。用来停止捕获。这样,分析仪的轨迹中就会含有引发问题的特定事件。检查时间标记以确认轨迹足够长,以及包含出现问题的时间段;不然就重新调节滤波特性(如每帧数据)以延长捕获期。一旦被捕获,相同的后捕获分析软件或可视检查就会显示有问题的装置。如果需要更多的信息,可作第二次运行,只储存从特殊识别码上得到的想要的帧,以便仅从这些帧上捕获更多的细节。丢失数据的另一个潜在原因是定时但却无序地发送信息。出现这种情况时可用上段所述方法来监测。希望本文能够帮助人们减少运用Fibre Channel这一激动人心的新技术时的忧虑。潜在的问题还可能出现,并需要运用新的诊断方法,但是现在已经可以得到为使系统保持高效运行状态所需的诊断工具。

 

责任编辑: admin