Python|通过百度OCR实现图片文字识别 昨天需要测试OCR的文字识别功能,需要从提供的图片或PDF扫描件中提取出文本信息。本来我想使用python的开源库(如pytesseract、OCRopus、OpenCV之类的库),考虑到公司数字员工的使用场景,未来图像识别会对识别率有较高的要求,所以还是用第三方提供的OCR接口最为稳妥。 大概看了百度的AI开放平台,在文字识别部分对个人用户开放了每月的调用额度,就顺便注册体验了下。整体识 2023-06-09 Python > aip #Python #aip
UiAuto|泛微Ecology系统附件上传插件 此次场景需求是上传文件到公司内网门户系统(泛微Ecology),通过UIAUTO的键盘鼠标功能模拟登录后再上传虽然也是可以的。但不高级,也不高效,而且执行时对服务器界面也有一定要求。这里我通过调用泛微Ecology的接口从后台实现了文件的上传,测试效果十分稳定。插件源码如下: package.json 123456789101112131415161718192021222324252627 2023-06-02 Python > UiAuto #Python #UiAuto #suds
UiAuto|Word插件 关于word的插件其实有很多种使用需求,该篇博文后续会根据实际使用情况再更新。 本次是需要对一篇word的内容进行检索,判断是否涉及某个字符串,代码比较简单,插件源码如下: package.json 123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354 2023-06-02 Python > UiAuto #Python #docx #UiAuto
UiAuto|Email插件 通过python进行邮件发送之前写过很多,但如果要查询目标邮件呢? 通过RPA模拟人工登录邮件,然后遍历出目标邮件?这种方法看似可以,但不高效。 这里通过python的imbox库实现邮件的遍历和查询,逻辑比较简单,插件源码如下: package.json 1234567891011121314151617181920212223242526272829303132333435363738394 2023-06-01 Python > UiAuto #Python #UiAuto #imbox
UiAuto|SQLServer插件 从数字员工的角度来看,可以连接各类数据库应该是最基本的功能。有些失望的是拿到的UiAuto标准产品没有封装SQLServer的功能,这里自己简单写一个,先满足简单的查询、更新。后续会根据使用情况及时更新。插件源码如下: package.json 1234567891011121314151617181920212223242526272829303132333435363738394041424 2023-05-30 Python > UiAuto #Python #UiAuto #pymssql
UiAuto|开发规范 最近公司在做数字员工的开发,在前面的博文中大概能看出我对PYTHON脚本、KETTLE、RPA(UIPATH、Power Automat)都做过一些自动办公的尝试。最终我们公司选择了UIAUTO来作为基础平台,究其原因,是它对PYTHON的二开有很大的兼容度,极其灵活!造轮子的过程何尝不是一种快乐呢? 百度百科搜索RPA给出的解释是“机器人流程自动化(Robotic process aut 2023-05-27 UiAuto #UiAuto
Python|reportlab实现pdf内容填充 近期因工作需要要进行某个承诺书的签署文件生成,需要在固定的PDF模板上填充上部门、姓名、日期信息。之前使用过福昕PDF编辑器,体验较为不错,但这次要生成的PDF数量有300份,手工逐个处理自然是不便的。在《Python|PyPDF2实现PDF自动拆分》中曾写过利用 PyPDF2 实现PDF文件的拆分,这次我们用python的reportlab库尝试下PDF的生成。 PDF is the glob 2023-04-27 Python > Pdf自动化 #Python #自动化 #Pdf
Python|实现招行回单自动下载 关于selenium库的应用我在《Python|selenium实现自动点赞收藏(进阶版)》中有写过,因为selenium对XPATH有很好的支持,所以对自动化运维/爬虫的场景支持比较稳定。 根据工作需要,我需要每天下载招行的回单,以便进行后续处理,所以这次就用selenium实现招行回单的自动下载。 总结 通过代码先遍历下载过去一年的清单,之后只需要通过定时任务每天晚上执行一次获取当日清单即可 2023-04-13 Python > selenium #Python #自动化
Python|PDF内容识别并按规则拆分 背景 从招行按日下载的PDF回单,数量大到可能有几百页,每页只有账号/金额/摘要/类型等字段,但却要求按照项目分类提取出来。你会怎么做? 我想到的方案是:逐页解析PDF内容,根据类型取收款/付款银行账号 → 根据账号查询到对应的项目 → 根据项目创建文件夹 → 按银行账户分类拆分PDF,存入对应的项目文件夹。具体逻辑如下: 处理后的文件夹效果如下: 666-A项目 20230101-666 2023-04-11 Python > PyPDF2 > shutil > os #Python #shutil #os #PyPDF2
Python|实现NBU自动巡检 在《Kettle|自助巡检》中,我曾利用ETL工具实现了除数据库备份检查之外的每日巡检工作,这一篇聊聊NBU备份巡检自动化。 分析过程 公司数据库涉及Oracle和SQL server,对于每日数据库巡检来说,Oracle数据库都是通过bplist语句进行查询,SQL server则是通过NetBackup客户端进行点击查询。 最好SQL server也能通过语句查询,这样整个方案就显得更合理。 2023-04-09 Python > os自动化 > loguru > resultEmail > sqlite3 #Python #自动化