简介
ccix是一种能够将两个或两个以上器件通过缓存一致性的方式来共享数据的芯片间互联技术。ccix旨在简化异构系统的架构设计,同时基于不同指令集(isa)的处理器或应用特定的加速器提升系统的带宽、降低时延。为此,多家公司联合成立了一家新的行业标准机构—ccix联盟,以推动ccix技术的应用。如今,ccix联盟逐渐发展壮大。
对于芯片互联网络,有两个指标是至关重要的:带宽和延时。ccix 采用两种机制来提高性能、降低延时。第一种机制是采用缓存一致性,自动保持处理器和加速器的缓存一致,提升易用性、降低延时。第二种机制是提高ccix 链路的原始带宽。最高的连接速率升至25gt/s (千兆传输/秒)。同时,ccix 规范也规定了多个ccix 端口可以通过端口聚合(port aggregation)技术,提供超过单个接口的性能,匹配加速器和内存扩展带宽。 ccix 架构采用的是基于pcie基本架构扩展的分层架构。ccix 协议规范包含ccix 协议层和ccix链路层。这些层规定缓存一致性协议、报文发送、流量控制和ccix 传输部分的协议。ccix 传输规范包含ccix 和pcie事务层,pcie 数据链路层,和ccix 物理层。这些层负责器件间的物理连接,包括速率和带宽协商,传输包错误检测和重试,和初始包编码协议。
ccix 协议层(ccix protocol layer),负责一致性协议,包括内存的读/写。这一层提供了片上(on chip)一致性协议(例如amba chi)的简单映射。这一层定义的缓存状态使得硬件能够确定内存的状态。比如硬件可以确定数据是否唯一且未被修改(和内存一致),或是共享且被修改的(和内存不一致)。
ccix 链路层(ccix link layer),负责ccix 协议层定义的代理(agent)之间消息的传输格式。目前ccix 链路层是构建在pcie 之上,但是基于分层架构,ccix 将来可以映射到不同的传输层。此外,这一层负责端口聚合(port aggregation),使得多个端口能够聚合在一起提升带宽。
ccix 和pcie 事务层(ccix and pcie transaction layer),负责处理它们各自的数据包。pcie 协议支持部署虚拟通道,使得不同数据流可以通过一个pcie 链路。将ccix 和pcie 传输流各分到一个虚拟通道,ccix和pcie 传输可以共享相同的链路。ccix 能够传输标准的pcie 包,或经过优化的ccix 包(删减了pcie 包里的几个不必要的字段)。传输标准的pcie 包时,可以采用现有的pcie 交换器。传输经过优化的ccix 包,能降低pcie的额外开销,使得一致性传输的包更小、更高效。
pcie数据链路层,执行数据链路层的所有正常功能。这些功能包括crc错误校验、包确认和超时检查,和信用初始化及交换。
ccix/pcie物理层的基础是pcie 物理层。ccix 扩展了物理层来支持25gt/s(千兆传输/秒)。这个较快的速率称为扩展速率模式(extended speed mode,esm)。
简单分析完ccix分层结构,再来看ccix的拓朴结构。ccix 能够支持多种灵活的拓扑结构,如下图。
所有的ccix器件至少有一个ccix端口。一个ccix端口可以关联一组物理管脚,用于和另一个ccix 端口连接,在两个或多个不同芯片间交互信息。
ccix定义的代理类型包括:请求代理(ra)、主代理(ha)、从代理(sa)和错误代理(ea)。这些代理,和系统里的端口及链接统称ccix 组件。一个代理在协议中用一个代理id 来标识。
请求代理(request agent):一个请求代理对系统内的不同地址进行读、写操作。请求代理可以对它已经访问的地址的数据进行缓存。每个ccix 请求代理可以有一个或多个处理单元(processing element)作为内部请求的发起者,请求由一个ccix 架构的请求代理执行。根本上说ccix 请求代理提供了加速器或ccix 使能的io 主设备向一致性系统内存的接口。
主代理(home agent):主代理负责管理指定的一段地址的数据一致性。当一个缓存行的状态需要改变时,主代理通过向所需的请求代理发出监听操作来保持一致性。
从代理(slave agent):ccix 支持扩展系统内存,来包含外设所附的内存。这种情形出现在主代理在一个芯片上,而这个主代理关联的一些或全部物理内存在另一个芯片上时。这种架构组件(扩展内存)称为从代理。从代理不会被请求代理直接访问。请求代理总是访问一个主代理,然后主代理再访问从代理。
错误代理(error agent):一个错误代理接收并处理协议错误信息。协议错误信息由ccix 组件发出。
ccix 的一个关键优势,是它能支持主设备和加速器间通过采用无驱动的数据移动方式共享数据。而传统的pcie 加速器需要驱动对加速器写入和读出数据,这增加了延时和计算开销。采用无驱动的数据移动方式,ccix 还可以将系统内存扩展至主设备的内存之外。基于ccix,每个支持ccix 的设备的行为与现有numa操作系统中的节点类似。这种基于内存的方法利用了现有的操作系统功能。在这种模式下,用来共享的所有数据结构都放在处理器和加速器都可访问的共享内存里。这种数据共享模型可以消除加速器特定的控制与管理驱动,允许加速器资源由一个中心调度器安排的长时间运行的任务来调用。这个调度器可以是操作系统调度程序的一部分,或者是和操作系统调度程序协同。 以上是对ccix规范的简单介绍,后面我们开始逐步分析ccix规范。 【待续】
苹果专利:探索力感知织物手套,支持手势控制输入
半导体光放大器SOA的电光转化效率
如何使用cpp编写用于小型系统的app
8051单片机进行8路LED模拟分支控制
电动机轴承损坏的因素有哪些
浅谈芯片间互联技术CCIX分层结构及拓扑结构
特斯拉为何要选择4D毫米波雷达?
基于全新Willow Cove CPU 核心 技术
瑞萨电子2012年度创史上最大亏损纪录
为蔚来提供激光雷达的“海创光电”冲刺科创板
凌特推出具输出跟踪功能的双输出两相同步控制器
AI赋生“纸片人”你陷入了他们的世界?
手机被监控,教你几招绝对安全
高精度加速度计分辨率测试方法
mtk mt6577双核处理器分析
Lattice公司的系统内可编程PLD
如何才能将DTU与PLC二者之间实现连接通信
以色列的Guardian Optical公司公布了一项新技术
CES 2024:三星发布“AI for All”愿景
华擎新款主板规格表曝出第二代锐龙APU,更像是“阉割版”