在互联网+税务背景下,互联网的力量数据分析已经引领税收工作变革的"新常态"。通过采集互联网的简单数据,通过算法、维度组合得出新的宏观现象,这是互联网与税务的完美结合。
(1) 数据采集管理
数据采集管理是指利用网络爬虫技术、搜索引擎和文本处理等相关技术,在互联网中进行数据的采集。实现互联网全网涉税数据的实时监控采集。数据采集管理要求分三个部分进行说明:数据来源、采集方式和采集管理。
1.数据来源
数据采集来源包括但不限于企业基本工商数据网站、企业互联网交易数据网站、上市公司信息披露、政策新闻网等;数据来源有网页、Word、PDF、图片等多媒体形式数据来源。
2.采集方式
数据采集方式扩展为垂直爬虫、文件爬虫、通用爬虫三种形式,
垂直爬虫,需要满足对已知分析网站数据的全面实时监控采集,同时对采集的数据进行去重处理。
文件爬虫,满足包括但不限于Word、Excel、PDF等格式的互联网涉税数据的实时监控采集,同时对采集的多媒体形式的数据进行数据去重。
通用爬虫,利用搜索引擎相关技术实现对涉税信息的全网实时监控采集,并实现数据的去重功能。
3.采集管理
建立完善的采集管理机制,实现对互联网数据采集爬虫的合理管理,以满足互联网数据的全面实时的采集。采集管理需要满足自动化、分布式、可配置、可监控、可预警的要求。
自动化,采集管理需要满足自动化的要求,实现数据采集过程的自动调度自动管理。
分布式,数据采集需要构建分布式爬虫管理,实现数据的快速实时的数据监控采集,同时能应对网络爬虫的单点故障问题。
可配置,对网络爬虫的参数可灵活进行配置;例如对爬虫的原始链接、抓取频率、休眠时间、抓取策略等参数进行配置。
可监控,数据采集的服务器资源和运行爬虫情况进行监控。实现对服务器资源使用情况、爬虫的运行状况、抓取数据、抓取速率等多维度参数进行监控。
可预警,对运行异常可通过邮件、短信的形式,实时通知管理人员进行故障处理,保证数据采集的正常运行;运行异常包括:服务器过载、服务器运行故障、爬虫运行非正常停止、爬虫抓取速率低、爬虫下载异常等。
(2) 数据处理分析
对互联网涉税数据进行处理分析,利用信息抽取、NLP、文本关键词抽取、机器学习、文本聚类分类等技术,对互联网数据进行分类的和结构化处理,利用数据挖掘技术结合税务业务对数据进行分析挖掘。数据处理分析可分为:文本解析、自动分类和清洗检查3个部分。
1.文本解析
对采集数据进行文本解析,实现互联网数据的结构化处理。在现有系统文本解析的基础上实现,主题网页文本抽取、文件文本抽取和通用正文抽取,满足多种互联网涉税数据的文本解析。
主题网页文本抽取,根据涉税主题的定义,对互联网涉税网页数据利用HTML标签、正则表达式、文本同义词近义词等相关技术实现对网页文本信息的抽取。提相关能力证明材料,如软著、专利等。
文件文本抽取,针对文件类型为Word、Excel、PDF等格式的多媒体文件,实现对文件涉税信息的自动解析,解析方式需要具有通用性和易扩展扩展性。提相关能力证明材料,如软著、专利等。
通用正文抽取,对互联网涉税新闻线索类的数据需要实现数据关键信息的自动抽取,需要抽取标题、正文、时间、涉税事件与参与企业等关键信息。提相关能力证明材料,如软著、专利等。
2.自动分类
对文本解析后的互联网涉税数据进行自动分类,根据涉税数据特征结合税务机关数据需求构建数据分类规则,利用NLP、机器学习技术实现涉税数据的自动分类。
自动分类,实现对涉税信息的关键信息抽取,同时对文本的相似度进行计算,利用机器学习算法实现准确快速的自动分类功能,满足海量涉税数据的准确快速分类。
3.清洗检查
清洗检查包含对涉税数据的数据结构转化、数据去重、信息关联和数据检查等功能,提高涉税数据的准确性和可用性。
数据清洗中数据结构转化,将抽取的涉税信息数据项分别转换为对应的数据结构,同时对数据进行规范化处理,以便后续对涉税数据进行统计分析。涉税主题数据根据其数据去重规则将涉税数据进行去重处理;同时对各关联主题的数据进行自动关联处理,例如自动将股权交易数据关联到股权交易挂牌数据。
为保证数据的准确性,需要实现对涉税数据的检查功能,对异常数据进行自动的提取并形成数据检查任务,对正常数据进行抽样形成数据检查任务,最终由人工对检查任务数据进行核查和修订,经数据检查核定后数据方可进行发布。
(3) 数据中心及数据服务
数据中心及数据服务作为连接数据采集处理和提供用户服务的纽带是系统的核心。数据中心根据不同的需求采用异构分布式的架构,同时需要数据的安全备份,数据服务采用统一对外接口同时为WEB端和APP提供数据服务。
1.数据中心
数据中心应包含:涉税主题数据、快照文件数据和系统数据。涉税数据为通过数据采集处理后的结构化互联网数据,包括企业基本工商信息、涉税信息、涉税信息线索3类;快照文件包含网页快照、PDF文件快照和图片快照,解决了互联网数据变化快、实时性高、易消失的问题;系统数据作为互联网涉税服务引擎运行的基础数据,包括系统的用户权限信息、主题区域信息、区域信息、日志信息等。
数据中心组成结构为MySQL系统数据数据库、MongoDB集群结构化数据库、Elasticsearch搜索引擎集群和快照文件服务器。数据中心采用集群和数据备份策略保证数据的安全性同时提升系统的可用性。MySQL数据库存储系统数据,为引擎的权限安全和基本信息提供数据服务,MongoDB集群提供涉税信息的结构化展示和统计分析功能,Elasticsearch引擎集群为企业"一户式"、涉税信息、涉税线索提供全方位的搜索服务。
2.数据服务
数据服务为WEB服务引擎和移动端APP提供统一数据接口服务,包含有:企业一户式服务、全文检索服务、统一快照服务、统计分析服务、可视化服务和权限安全服务。
数据服务对外提供统一接口服务,数据通过HTTP协议使用JSON数据进行传输;数据服务需要构建WEB服务集群,利用Nginx负载均衡、redis数据缓存和消息队列技术,增加系统的负载能力和提升系统扩展性。
(4) 引擎及移动端服务
引擎及移动端服务于税务管理人员,方便税务人员快速通过关键字搜索涉税信息和在线分析数据,在原有系统数据搜索、数据展示、快照展示、数据统计及排序、数据下载等功能的基础上进行升级和优化具体包括以下6点:
1.企业"一户式"搜索;
2.涉税数据可视化展示;
3.与涉税主题相关的涉税风险指引;
4.精确数据归属人员;
5.优化系统界面及提高响应速率;
6.移动端服务。
企业"一户式"将企业的工商基本信息与各个互联网涉税主题事件进行关联,多方位展示企业互联网涉税信息情况。企业"一户式"搜索提供多种方式的信息搜索和过滤方式,搜索结果包括但不限于统一社会信用代码、法人代表、注册资本、成立日期、企业类型、注册地址、股东出资信息、股东性质、高管信息、历史沿革、涉税信息、涉税新闻线索等数据,其中可显示企业的投资关系图谱和上市公司股东的股权变化情况。
涉税数据可视化展示,在已有的企业数据和涉税数据的基础上,按照地区、时间、涉税主题各个维度对涉税信息进行分析和可视化展示,满足各层级对数据分析的需求。数据可视化包括涉税数据总量、涉税金额、涉税主题及对应金额、涉税数据时间变化、涉税金额较大类别展示等,可以自由切换区域展示各区域的数据情况。
涉税风险指引与涉税主题数据税种划分,增加涉税风险指引功能,对重点涉税信息主题的数据使用进行说明,包括涉税主题的相关概念、涉及税种、应对方法等说明。同时对已有涉税主题数据结合税务相关政策法规根据企业类型、涉税事件类型将涉税数据中涉及的税种进行划分;例如股权转让数据根据交易双方的类型的不同可能涉及企业所得税或个人所得税。
精确数据归属人员,将系统内涉税信息根据现有税务部门管辖情况,细分到相关的税务主管人员对应账号,并提供管辖内企业涉税信息变动的实时精准推送功能。
优化系统界面及提高响应速率,对现有系统进行优化,对系统界面进行优化、提升用户交互、减少系统响应时间。
添加移动端应用,在满足移动端涉税信息和企业信息搜索的同时,添加消息实时推送功能,实时推送关注企业的涉税信息的变动情况。移动端应用需要包括企业及涉税信息搜索功能、企业关注及消息推送功能;搜索功能应与PC端服务的搜索功能一致,并能实时推送税务人员辖区内涉税数据变化情况。
(5) 数据可视化应用
数据可视化主要旨在借助于图形化手段,清晰有效地传达与沟通信息。但是,这并不就意味着数据可视化就一定因为要实现其功能用途而令人感到枯燥乏味,或者是为了看上去绚丽多彩而显得极端复杂。为了有效地传达思想概念,美学形式与功能需要齐头并进,通过直观地传达关键的方面与特征,从而实现对于相当稀疏而又复杂的数据集的深入洞察。然而,设计人员往往并不能很好地把握设计与功能之间的平衡,从而创造出华而不实的数据可视化形式,无法达到其主要目的,也就是传达与沟通信息。
数据应用体现现象,是通过不同维度的信息组合得来的结果,两维度、三维度、四维度等等。将以时间、地区、涉税总数据、涉税总金额、涉税总企业、辖区上市企业、性质企业、工程采购涉税总额、房屋土地涉税总金额、矿产资源涉税总额、投资收购涉税总额、重大重组涉税总额、上市企业涉税总额的维度进行建立得出预测等信息。通过同比、环比、跨越式比较、维度性比较。