字符串的相似性比较应用场合很多,像拼写纠错、文本去重、上下文相似性等。
评价字符串相似度最常见的办法就是:把一个字符串通过插入、删除或替换这样的编辑操作,变成另外一个字符串,所需要的最少编辑次数,这种就是编辑距离(edit distance)度量方法,也称为levenshtein距离。海明距离是编辑距离的一种特殊情况,只计算等长情况下替换操作的编辑次数,只能应用于两个等长字符串间的距离度量。
其他常用的度量方法还有 jaccard distance、j-w距离(jaro–winkler distance)、余弦相似性(cosine similarity)、欧氏距离(euclidean distance)等。
python-levenshtein 使用
使用 pip install python-levenshtein 指令安装 levenshtein
1. difflib
2. hamming距离,str1和str2长度必须一致,描述两个等长字串之间对应位置上不同字符的个数
3. 编辑距离,描述由一个字串转化成另一个字串最少的操作次数,在其中的操作包括 插入、删除、替换
4.计算莱文斯坦比
5.计算jaro距离
6. jaro–winkler距离
输出:
Protium X2平台加速软硬件协同设计验证的进度
智能电视 苹果下一个目标
世界超级计算机500强公布,美国Summit问鼎
影响贴片机工作效率的因素都有哪些
如何利用蓝牙模块将传统有线音箱改装成无线蓝牙音箱
评价Python字符串相似度的六种度量方法
工业生产安全保障—可燃气体探测器的使用场景和作用!
基于银行业的智慧消防预警系统实践研究
小型立体声调频发射机电路图
2019集微半导体峰会上老杳出席会议并致辞
智能家居广泛采用WiFi路由器_推动全球市场快速增长
SpeedFan汉化绿色版
红外适配器的功能特点/支持操作系统
了解流水线型ADC
华为新型忆阻器架构专利揭秘
38万欧!最古老的尼康相机被富豪收藏
意法半导体正式推出了一系列新的S-Touch触摸传感器
MAX1455 Diagnostic Clip Boost
华为MATE60是5G网络吗 华为MATE60是麒麟芯片吗
人脸识别一体机在景区管理中的应用