logo

观点

优化爬虫技术在税务稽查中的运用

我国经济发展方式不断转变、优化,电子商务平台、移动金融等新型税源增多,税收信息分布更加广泛,这给税务稽查工作带来挑战。利用爬虫技术抓取互联网海量数据中的涉税信息,捕捉风险疑点,能为税务稽查提供辅助。

2018年国地税合并前,福州市国税局、青岛市国税局都通过爬虫技术追缴税款上千万元。2022年2月,国家税务总局伊犁州税务局运用互联网信息协助税务风险监管,利用爬虫技术迅速获取土地使用权出让、股权转让等网络信息,查补税款3400万元,大大提高了稽查效率。实践证明,爬虫技术在税收风险管理中的应用,能提升税务部门的征管水平,推进企业内控机制建设,降低涉税风险。

目前国内通用的爬虫技术仍存在抓取动态网页耗时长、效率低、服务器维护成本高、合法性欠缺等问题。应用爬虫技术提高税务部门的稽查质效,应结合其技术难点和应用痛点,优化爬虫技术在税务稽查中的运用。

一是开发高级爬虫,破除壁垒。为降低爬虫开发难度和成本,减少爬虫开发流程,减轻开发者负担,可使用爬虫模板、设计半自动化的页面抽取方法,基于开源框架搭建爬虫系统,形成支持动态网页解析、性能稳定、轻量级、高效率的分布式爬虫系统。另外,为确保网络爬虫在运行过程中的有效性与稳定性,开发人员应遵循最优化原则和可行性原则,根据税务部门的技术水平、资金状况、维护力量等,选择自主爬虫软件或系统内共享爬虫软件,把握网络爬虫系统的核心应用目标以及关键运行对象,明确爬虫的获取主体和动作范畴,以此提高自主设计爬虫软件的可行性。

二是强化顶层设计,统筹全局。建立税务稽查信息共享平台和爬虫软件集成中心,自上而下构建数字稽查体系。具体而言,税务稽查信息共享平台实现总局、省局有关涉税信息采集、更新、处理、存储和管理,为地方税务稽查部门提供覆盖政府部门、税务机关、纳税人、互联网第三方的税收管理信息,丰富案源线索;爬虫软件集成中心挖掘、应用信息,建立各类信息源之间的对应关系,推定、排查涉税风险。建设全国“互联网+税务”涉税信息共享平台和软件开发应用,测试优化税务稽查爬虫抓取信息的能力,实现涉税信息、网络爬虫技术在各税务部门间的共享,以节约资源、减少重复开发。

三是完善法律法规,防微杜渐。首先,明确“税务稽查网络爬虫”的法律地位、组织形式、工作任务、权责范围、检查程序、检查内容、检查手段定性原则和处罚规定,使网络爬虫应用在税务稽查领域有法可依。其次,健全个人信息保护法,2021年实施的个人信息保护法,旨在为个人信息上一把“安全锁”,促进个人信息合理利用,但第三方使用个人数据的安全问题依然存在,可借鉴欧盟《通用数据保护条例》,构建第三方使用个人身份数据的边界和应承担责任的合规框架。再次,建立税警联合执法制度,在涉税违法行为隐蔽性、跨区域性不断加剧的情况下,加强爬虫技术应用,建立信息共享平台,提高破案效率;在税收法治建设过程中,紧跟征管体制改革步伐,有效对接税警资源,坚持预防与打击相结合。

四是培养复合型人才,一专多能。培养专项技术人才,信息、人事部门可利用“学习兴税”平台,开设计算机技术、互联网金融、资本市场、电子商务、会计、税法等课程;通过案例实践,锻造复合型稽查队伍。