搜索引擎的起源之科学史话克伦·施拜克·琼斯对网络搜索的贡献

科学史话 克伦·施拜克·琼斯: 每次网络搜索背后 都离不开她的贡献
克伦·施拜克·琼斯(karen spärck jones)1935年8月26日生于英国哈德斯菲尔德市,一个纺织业较发达的城市。在她小时候,她的父亲在大学里担任化学讲师,晚上还要打工挣钱;母亲是挪威人,曾去伦敦为挪威流亡政府工作。由于父母都顾不上照看她,便将她托付给乡间的一户人家。在这样的生长环境中,琼斯从小便锻炼出了一定的独立性。
从11岁到18岁这7年间,琼斯就读于一所高水平的文法女校,12岁时,她发愿要上剑桥大学,后终于如愿以偿。
1956年,她在剑桥大学获得历史学专业的文学学士学位。由于对哲学的兴趣,琼斯又继续读了一年哲学。1957年,她加入了剑桥语言研究所,开始接触计算机在语言研究方面的应用。在此工作期间,她认识了roger needham(1935—2003,计算机科学家,英国皇家学会会员),两人于1958年结婚。1964年,她在剑桥大学获得哲学博士学位,但博士论文导师对她的帮助不大,她基本上是独立打拼,编程也是自学的。1968年,琼斯成为剑桥大学计算机实验室的全职工作人员,从此以后她在这里耕耘了近50载,一直从事计算语言学和信息检索研究。
她在计算语言学和信息检索两个领域都作出了杰出贡献。在信息检索方面,早在1958年,她就与人合著了相关文章。她的最重要贡献当数1972年提出的逆文本频率指数(idf)的概念。这个概念的意思是:如果词w在一篇文档d中出现的频率高,并且在其他文档中很少出现,则可以认为词w具有很好的区分能力,可以把文章d和其他文章较好地区分开来。idf是互联网搜索引擎普遍采用的思路。可以说,没有琼斯的早年贡献,就没有谷歌搜索引擎日后的成就。
在计算语言学方面,她1963年完成的博士论文至今仍有价值。该文将统计进路(或曰机器学习进路)与已有资源(做在穿孔卡片上的叙词表)结合起来,取得了领先于时代的成果。此外,她在计算机自动摘要、结构化数据库的界面、对话、语义学等多个主题上均有所建树。
除了本人的学术研究外,她还通过学术社团的活动大大推进了本领域的进步。尤其是1994年她担任计算语言学学会(acl)会长期间。计算语言学学会是国际性的社团,当时多数会员是美国学者,她接手学会时,学会的财务状况不佳,原来的司库又去世了,一时半会儿招聘不到新的司库,在这种情况下,琼斯又要统筹安排学会的学术活动,又要管账,忙得一塌糊涂。那一阵子是acl苦痛挣扎的过渡期,在她的有力领导下,acl走出了困境。除了acl外,她还是另外好几个学会的会士。2000—2002年期间,她担任过英国科学院副院长。在英国有两所科学院:英国皇家学会相当于自然科学领域的科学院,而英国科学院是人文社会科学领域的科学院。由于语言学这个大类属于人文学科,琼斯就凭借其在计算语言学的成就当选为英国科学院的院士。
琼斯共获得过7个重要奖项,包括2004年获得的“计算语言学学会终生成就奖”和2007年获得的“英国计算机学会勒芙蕾丝奖章”(阿达。勒芙蕾丝是英国大诗人拜伦的女儿,计算机程序的创始人)。
她2002年办理了退休手续,但继续在实验室工作。直到2007年4月4日去世前不久,实验室里仍有她的身影。
2001年4月10日,电气电子工程师学会(ieee)历史研究中心的janet abbate女士采访了琼斯。在接受采访时她说:“人人都在谈职业生涯之类的东西。从某种意义上说,我做到了一路向前走,但其实那时并没有明显的路径。你得利用一切存在着的机会。早年的时候,对于女性,即使是在剑桥,工作机会也是极其有限的。看看现在的年轻女性,我是十分羡慕。现在没有多少女性拥有‘我能行’的心态,但她们其实拥有实现‘我能行’的机会,而我们那时根本就没有这样的机会。”
希望我们中国的职业女性以琼斯为榜样,抓住机会,奋力前行。
( 克伦·施拜克·琼斯 图片来源:剑桥大学网站)
概述搜索引擎的起源
1.搜索引擎的起源
1990年,加拿大麦吉尔大学(university ofmcgill)计算机学院的师生开发出archie。当时,万维网(world wide web)还没有出现,人们通过ftp来共享交流资源。archie能定期搜集并分析ftp服务器上的文件名信息,提供查找分别在各个ftp主机中的文件。用户必须输入精确的文件名进行搜索,archie告诉用户哪个ftp服务器能下载该文件。虽然archie搜集的信息资源不是网页(html文件),但和搜索引擎的基本工作方式是一样的:自动搜集信息资源、建立索引、提供检索服务。所以,archie被公认为现代搜索引擎的鼻祖。
2.搜索引擎的发展
第一阶段
excite的历史可以上溯到1993年2月,6个stanford university(斯坦福大学)大学生的想法是分析字词关系,以对互联网上的大量信息作更有效的检索。到1993年中,这已是一个完全投资项目,他们还发布了一个供webmasters在自己网站上使用的搜索软件版本,后来被叫做excite for web servers。注:excite后来曾以概念搜索闻名,2002年5月,被infospace收购的excite停止自己的搜索引擎,改用元搜索引擎dogpile
第二阶段
1994年4月,斯坦福大学的两名博士生,美籍华人杨致远和david filo共同创办了yahoo!。随着访问量和收录链接数的增长,yahoo目录开始支持简单的数据库搜索。因为yahoo!的数据是手工输入的,所以不能真正被归为搜索引擎,事实上只是一个可搜索的目录。yahoo!中收录的网站,因为都附有简介信息,所以搜索效率明显提高。注:yahoo以后陆续有 altavista、inktomi、google提供搜索引擎服务yahoo!--几乎成为20世纪90年代的因特网的代名词。
第三阶段
1995年,一种新的搜索引擎形式出现了——元搜索引擎(meta search engine)。用户只需提交一次搜索请求,由元搜索引擎负责转换处理后提交给多个预先选定的独立搜索引擎,并将从各独立搜索引擎返回的所有查询结果,集中起来处理后再返回给用户。第一个元搜索引擎,是washington大学硕士生 eric selberg 和 oren etzioni的 metacrawler。元搜索引擎概念上非常好听,但搜索效果始终不理想,所以没有哪个元搜索引擎有过强势地位。
第四阶段
智能检索的产生:它利用分词词典、同义词典,同音词典改善检索效果,进一步还可在知识层面或者说概念层面上辅助查询,通过主题词典、上下位词典、相关同级词典检索处理形成一个知识体系或概念网络,给予用户智能知识提示,最终帮助用户获得最佳的检索效果。
综合自科技日报 ; 参考资料: 《网络营销》 杨路明等编著 机械工业出版社

无线通信芯片、模块厂商介绍及其产业链汇总
汽车数字隔离器
自动灌溉播种机的制作
检测表明:嵌入式设备大多存在高位安全缺陷
支持GPS功能的模块解决方案
搜索引擎的起源之科学史话克伦·施拜克·琼斯对网络搜索的贡献
浅谈煤矿井下无入值守变电所技术研究与应用
小米6意犹未尽!小米7又曝光:骁龙845+全面屏+3D识别,依旧难实现现货
特斯拉预计国内新增4000个以上充电桩
飞虹电子微型逆变器的全桥拓扑结构IGBT选择方案
ThinkPad 新品发布会有望推出一款 “水冷”产品
央视实测网红脱糖电饭煲:降糖70%?虚假宣传
车载芯片48V60V72V100V转12V5A电源芯片AH8673
WindowsCE异常和中断服务程序
三千兆为用户带来“沉浸式千兆体验”
泰霖 MP1601异常分析
SAW滤波器的原理、制造及应用
苹果AirPods正式版评测:史上最快蓝牙配对 一次成功永久有效
广和通5G FWA解决方案成功上榜“2023年度十大‘数智’成果”
人工智能改变世界?人类有可能被迫靠边站