LinkedIn图数据库 LIquid:为9.3亿会员提供实时数据访问

最近,linkedin 分享了其图数据库 liquid 是如何自动索引和实时访问会员、学校、技能、公司、职位、工作、事件等之间的关系数据的。这个知识图谱被称为 linkedin 的“economic graph”,有 2700 亿条边,并且还在不断增长,目前每秒处理 200 万次查询。
linkedin 将其“你可能认识的人(people you may know,pymk)”推荐系统从传统的 gaia 系统迁移到了 liquid。这一变化显著改善了每秒查询数(qps)、延迟和 cpu 利用率。qps 从 120 增加到 18000,延迟从超过 15 秒下降到平均 50 毫秒以下,cpu 利用率下降了 3 倍以上。liquid 还引入了新的数据库索引技术,支持实时数据查询,实现了即时推荐。
图片来源:https://engineering.linkedin.com/blog/2023/how-liquid-connects-everything-so-our-members-can-do-anything
上图是系统的架构图,使用了 liquid,可以以较小的延迟和可接受的硬件成本来执行图查询。通过 liquid 对 economic graph 的查询生成数百个候选对象,并应用第二个排名函数。这个排名函数使用 venice 的机器学习功能和 apache pinot 的分析见解来评分并选择最佳候选对象。过滤步骤为呈现和最终评分准备好了这个排名列表。
liquid 的设计使其能够伸缩到当前十倍的规模,可以支持 linkedin 9.3 亿多会员的有机增长和新的语义领域。它提供 99.99% 的可用性,并可以自动根据图的大小和活动量的增加进行自动伸缩。
图数据库使用基于 datalog 的可组合声明式查询语言,帮助开发人员高效地访问和使用数据。可组合语言能够让开发人员在现有的特性(叫作模块)上进行构建,声明式语言能够让开发人员专注于表达他们想要开发的东西,而 liquid 自动化了高效的访问过程。开发人员因此可以快速变更数据集,大大减少了调整和更新数据库所需的时间。
linkedin 工程总监 bogdan artintescu 描述了 liquid 的发展路线图:
要让会员能够做更多的事情,我们需要在回答会员的问题方面提供更加完善的能力。我们可以沿着两个方向做出改进。首先,复杂的查询和添加到 economic graph 的数据源的多样性将会驱动新特性的开发和呈现。其次,丰富数据将提高推理能力。这可以通过创建派生数据(通过确定性算法或概率机器学习方法)或通过知识图谱(kg)模式中更丰富的语义改进推理来实现。我们计划专注于高性能图形计算和分析,并建立一个 kg 生态系统,让我们的开发人员能够进一步增强会员体验。
liquid 的成功激励了 linkedin 的其他团队和微软的姐妹团队将它作为图数据索引。

IDC预测:VR未来5年整体市场年复合增长率为69.9% 约达2000万台
驱动器源极引脚是如何降低开关损耗
MS99x0T系列模拟前端(AFE)芯片介绍
交流电源和直流电源符号的区别
八种电流与线宽的关系公式
LinkedIn图数据库 LIquid:为9.3亿会员提供实时数据访问
“逻辑门”RNA电路 利用生物计算机处理多个复杂信号
磁开关技术参数及规格
FPGA学习经验总结
2018中国创新力企业榜单 阿里巴巴斑马智行公司名列前茅
薄膜表面检测设备的原理及功能
徕卡S3中画幅相机上市 国行售价145500元
5G与工业互联网融合走向商用阶段,实现工业数字化的转型升级
惠普畅游人笔记本怎么样?惠普 Pavilion 14深度评测:非常轻薄续航亮眼
纳芯微车规级芯片助力汽车向电动化和智能化的发展趋势前进
Redis缓存预热+缓存雪崩+缓存击穿+缓存穿透要点简析
最尴尬的双摄,688元红米Pro手机开箱
霍尔传感器在无刷直流电动机中的应用解析
什么是NETCONF
中国手机厂商在全球智能手机市场的影响力巨大,谷歌拉拢中国手机厂商