接受的pdf输入
tet pdf ifilter 支持所有相关风格的pdf 输入:
直到 acrobatdc 的所有 pdf版本,包括 iso32000-1 和 32000-2(pdf 2.0)
无需密码即可打开文档的受保护pdf
修复损坏的 pdf文档
国际化
除了西文文本 tetpdf ifilter 完全支持中文、日文和韩文(cjk) 文本。识别所有cjk 编码;支持水平和垂直书写模式。自动检测文本的区域设置id(语言和区域标识符)改进了microsoft 的分词和词干算法的结果,这对于东亚文本尤其重要。
还支持从右到左的语言,例如希伯来语和阿拉伯语。上下文字符形式被规范化,文本按逻辑顺序传递。
pdf 不仅仅是一堆页面
tet pdf ifilter 将 pdf文档视为容器,其中可能包含比普通页面更多的信息。tetpdf ifilter 索引 pdf文档中的所有相关项目:
页面内容
书签、注释(评论)和表单域中的文本
元数据(见下文)
嵌入式 pdf 和pdf 包(组合)以递归方式处理,以便可以搜索所有嵌入式pdf 文档中的文本。
xmp 文档元数据和文档信息
tet pdf ifilter 中的高级元数据实现支持元数据的windows 属性系统。它索引xmp 元数据以及标准或自定义文档信息条目。元数据索引可以在多个级别上配置:
文档信息条目、dublincore 字段和其他常见xmp 属性映射到windows shell 属性,例如标题、主题、作者。
tet pdf ifilter 添加了有用的特定于pdf 的伪属性,例如页面大小、pdf/a一致性级别、字体名称。
可以索引所有相关的预定义xmp 属性。
可以搜索用户定义的xmp 或基于pdf 的属性,例如公司特定的分类属性、数字签名或zugferd/factur-x 一致性。
tet pdf ifilter 可选择将元数据集成到全文索引中。因此,即使是不支持元数据的全文搜索引擎(例如sql server)也可以搜索元数据。
unicode 后处理
tet pdf ifilter 支持各种unicode 后处理步骤,可用于改进提取的文本:
折叠保留、删除或替换字符,例如从不相关的脚本中删除标点符号或字符。
分解用一个或多个其他字符的等效序列替换一个字符,例如用它们各自的标准对应物替换窄、宽或垂直的日文字符或拉丁上标变体。
L-COM全新中文官方网站上线!
两款家用电器智能改造电路图解析
英特尔如何构建下一代超级计算芯片
国民技精选各领域代表展品及MCU开发生态亮相慕尼黑展
通友集团受邀参加昆山市税务局税收助力“专精特新”企业发展专场活动
TET PDF IFilter支持所有相关风格的PDF输入
一种三相反应式步进电机驱动器设计方法
展示超长待机能力 惠普首款智能手表曝光
新唐科技NCT5569D芯片简介
“墨子号”量子科学实验卫星提前实现全部三大既定目标
通用变频器
门禁控制器安装与调试
“隐形光伏电站王者”收缩,珈伟新能预计2018年亏损近20亿元
李彦宏:百度掉队? 研发投入15%在AI领域做技术含量高的事
分享IDB在执行事务的过程中出现问题的排查经过
数据中心电源管理在于精准“细节”
发动机冷车时起动正常,热车后起动困难的故障分析
MS5803-14BA压力传感器用于可穿戴设备助力健康检测
欧胜面向电脑和笔记本电脑推出高清晰度音频(HD Audio)
浅析Linux netdevice子系统