XPath2Doc(通用网站数据采集及Doc生成工具)是一款全自动化的工具,旨在从网页页面中采集数据并生成Word docx文件。它自带天眼查和天眼查采集功能,用户可以在WebBrowser对话框中手动登录,并寻找所需的数据页面,然后点击程序流程按钮进行采集。XPath2Doc所以成为了一个自动化的网页页面数据填充Docx工具。
原理
网页页面的每一个元素,都可以表示成XPath句子。我们可以加载并打开浏览器的网页页面源码,通过XPath句子来获取网页元素中的文字。XPath句子的获取方法:通常我们可以使用Google Chrome浏览器打开网页,按F12进入开发者工具页面,在Elements菜单栏下,随着鼠标的移动可以看到网页被阴影遮盖,点击三角符号可以进一步精准定位位置,直到找到最终需要的数据位置。在需要查找的文字上点击鼠标,在弹出的菜单中,选择Copy-Copy XPath,然后粘贴到文本文档就可以获得需要的XPath句子。:如果复制出的XPath句子中有/tbody会影响采集,程序内部对此问题进行了处理,但在一些特殊情况下仍可能会影响数据采集,可以手动删除。
软件环境
Windows 7 Sp1操作系统,需要安装以下组件(注意:VC库如果不安装,本程序无法启动):VC2017及以上版本,.NET framework 4.5.2。
Windows 10操作系统下,上述组件通常内置,无需单独安装。
Windows 10 1903版本及以上版本兼容。
不兼容Windows XP操作系统。
操作指南
本程序工作需要三个配置文件:General.ini,自定义.ini,自定义模板.docx。后两个文件名可以自行定义。General.ini文件中定义了INI文件和Docx模板文件的存放目录,可以不填,默认是程序所在目录。自定义.ini、自定义模板.docx是软件使用者自己建立的网页采集XPath句子及最终生成文件所用的Docx模板,具体设置方式可以参考ini文件中的说明。,Docx模板文件中的“@<#0001#>@"这类标识符是在INI文件中定义的用于替换网页采集内容的标识字符串。ini文件中定义了替换关键词的前后缀和模板文件名。
使用本程序前,请先创建自己的INI配置文件和Docx模板文件。(具体可以参考附加的天眼查、天眼查2个配置文件和民事起诉书模板)
启动程序选择模板,点击采集数据按钮旁边的黑色三角符号,打开下拉列表,点击需要采集的部分。等待浏览器加载网页完毕,手动输入需要查看的内容,点击查看,找到数据的实际网页页面,然后点击采集数据按钮,观察右边的目录中是否已经获得需要的数据。再次打开下拉列表,选择下一个需要采集的部分,如果网址发生了变化要等待浏览器加载完毕,找到需要的数据网页页面。点击采集数据按钮观察右边目录中是否获得了第二部分的数据。如此循环直到数据全部采集完毕。如果前后两部分网址相同,在点击下一部分的下拉列表之前,要先在浏览器中再次查看新的数据,等新数据网页出来以后再点击下拉列表选择下一部分进行采集。(网址相同的情况下,点击下一部分会立即从网页取数据,如果浏览器没有换网页,数据就不对。)
如果某一部分需要重新采集,请先点击下拉列表中的该部分名字,然后点击采集按钮重新采集该部分(这时可以随意更改浏览器的数据网页,获得的就是不同企业数据)。目录中采集获得的数据结果如果有误差,可以点击自主改动。XPath句子如果有任何错误,也可以自己改动看检测结果(XPath句子在改动后会立即重新爬取浏览器的数据,所以浏览器最好保持数据网页页面),在程序中改动的XPath句子,不会保存到INI文件中,请自己手动保存。
如果目录中数据准确无误,浏览对话框中的Docx模板内容也正确,则可以点击生成文档按钮,填写要生成的文件名,本软件会使用爬取到的网页数据替换模板中的索引字符串,自动生成Docx文档。,右下方的Docx浏览对话框不能完全适用Word文档,对不规范的文档格式可能会出现文字缺失或错位情况。遇到这种情况,可以忽略,或者将模板文件改为标准的文档格式(单倍行距)。
软件特点
全自动采集:无需手动复制粘贴,一键采集网页数据。
模板定制:支持自定义Docx模板,满足不同文档格式需求。
XPath定位:利用XPath精确定位网页元素,确保数据准确性。
多网址支持:可对文档的不同部分应用不同网址进行采集。
易用性强:操作简单,即使非技术用户也能轻松上手。
如何使用
准备工作:下载并安装XPath2Doc软件,确保操作系统符合要求。
配置文件:创建自定义.ini和自定义模板.docx文件,设置XPath句子和模板内容。
采集数据:启动程序,选择模板,点击采集数据按钮,按照步骤完成数据采集。
生成文档:检查数据无误后,点击生成文档按钮,输入文件名,生成Docx文档。
XPath2Doc是一款功能强大的网页数据采集及Doc生成工具,能够帮助用户高效地完成数据采集和文档生成工作。