pdf解析及数据加工 No.33678
招募中
招募角色:
开发工程师
金额¥2,500 类型 其他 周期 7 天 报名人数  9 人
No.33678
招募中
pdf解析及数据加工
其他 开发工程师 
周期  7  金额 ¥2,500

技能领域

开发工程师
前端开发
后端开发
全栈开发
Python

项目描述

  1. 根据给定的pdf,提取pdf中的部分文字内容(可用正则表达式匹配或用你习惯的方式),以及表格中的内容,并将内容整合成需要的字段(所以字段的计算方式已有),例子参见附件。
  2. 不同pdf可能会含有多种表格类型,需要适配几种不同的表格类型(10种左右,大部分字段是类似的,有小部分的差异),适配效果将直接体现到解析成功率上。
  3. 交付结果是一个函数,函数的输入为pdf路径和相关字段dict(用来和pdf中字段整合成最终结果),输出为一个包含目标字段的dict。
  4. 因项目其他部分是python,所以这个部分也需要使用python完成。
  5. 我们有之前的python代码,已实现80%左右的表格内容提取,你也可以拿之前的代码做二次开发。
  6. 验收方式:在总数据中随机抽500个pdf(测试数据我会在项目开始发一份给你),解析成功且内容正确率90%以上合格。
  7. 请注意,该项目中验收重点为解析准确率,请预留时间调试。
  8. 该项目为长期项目,后续的功能增加会长期合作。

相关文档

共上传2个文件,登录身份后方可查看下载

招募要求

  1. 熟悉python编程
  2. 熟悉数据处理, 有过pdf提取内容的经验(熟悉pdfplumber更加)
  3. 代码清晰规范,可读性高,注释充足
  4. 有责任心,有沟通能力