在讲课程《数据结构和算法》的过程中,我给了学生们一个参考例程,希望他们能够从程序中学到词频统计的方法。由于同学们底子比较薄弱,所以给出程序后,我希望同学们能够认真的查阅程序中用到的每个函数,了解其用法,这样才能真正的搞懂程序,遗憾的是我的学生只是完成了实验报告,而程序中很多函数的用法和含义根本就没搞清楚。这种学法是应付式的学法,我极不赞成这样的学习方式。所以才会有了此系列文章。也许是底子弱,也许是不爱学。
面对学生不爱学或者说学习不刻苦的状况,我也只能把这些好的代码传播到网上,让更多人能够借力学习。这也是我现在会更加专注网络传播文章的原因吧。有了词频统计程序,我们就可以在这个基础之上进行扩展,写出更复杂的程序。我就用这样的事例来写出了一个完整的系列文章,告诉大家如何从基础学起,然后再逐步的完善和深入,写出功能更强大的程序,这样的过程走一遍,才算是真正的掌握知识,才能把别人的知识转化为属于自己的知识。写这个系列耗时一个多月,大家看文章花了多长时间呢?有了阶梯,希望大家能好好利用和珍惜。
文本分析对于通信工程专业的学生而言,只是牛刀小试,等到完成词频统计的算法后大家还可以沿这条路继续深入,比如进行语音信号的识别。先进行信号中数字的识别,再进行语义识别。这些可比字符的识别难多了。当下,文本信息已经退居次席,人们更多在意的是语音和视频。因此,语音信号和视频信号处理是当下的技术热点,让我们一起由浅入深的学习吧。本课题可以作为毕业设计的题目,可以根据个人能力适当增加难度。
词频统计主要分为英文词频统计和中文词频统计。英文词频统计很简单,可以借助matlab自带函数进行断句,然后再进行统计即可。中文词频统计相对复杂一些。关键在于如何使用合适的语料库和如何精准匹配词语。比如句中出现了“人工智能”四字词,我们应该这四个字视为一个词,而不能分析成为两个词。再者出现生僻词语怎么办?慢慢来,我们先从简单的学起。依旧是老规矩,先看代码!代码中的注释非常清晰,当看完程序后也就明了了。
原文标题:大学毕业设计一席谈之四十八 词频统计(1)
文章出处:【微信公众号:通信工程师专辑】欢迎添加关注!文章转载请注明出处。
基于体积图像数据剖面密度自动搜索路线的主动漫游
如何设计一个节约单片机端口资源的键盘电路
喷墨打印机打印头撞击故障的处理
带嵌入式MCU的8通道12位AD转换器ADuC812及其应用
农村为什么要发展光伏发电,有哪些优势?
大学毕业设计一席谈之四十八 词频统计(1)
如何利用apollo实现配置文件的灰度发布?
一图读懂北斗导航的关键数据与历史
IGBT 和 GaN、SiC 和硅 FET 的统一视图和价格-性能分析
18W PD快充芯片U6615S有效缩短充电时长
PS2键盘编码Verilog源程序分享
科学家成功开发出自旋转移矩-磁性随机存储器
FANUC系统的数控机床过热故障如何检修
北斗+人工智能,打造极致出行体验
示波器实现高速全方位分析
如何做好一名高级维修工
你知道医疗应用的爬电要求?
程序员怎样向自由职业过渡
上海航芯指纹芯片及解决方案
5个秘诀,助你成功设计智能看门狗