基于数据的审计-SmartAudit:问题导向、应用导向、解决痛点
内容简介 Orange通过“拖拽”的方式基本实现了所见即所得的数字化审计分析。
不要被标题欺骗了,这不是一篇训练推广文章,而是一系列严肃的教程!
介绍
在上一条推文中我写了一系列Python入门“0基础教程”:
但依然不可否认的是orange软件教程,Python 的初期学习曲线依然比较陡峭,业务线上的技术新手还是容易陷入“基于数据审计,从入门到放弃”的怪圈。(详见文章《》)
很多审计人员的梦想是能有一个系统或软件,只需要点击、拖动、等待,就能产生结果并找出可疑点,而不用去学习SQL语句或Python语言的“圣书”。
Python的世界博大精深,除了有大量强大的库之外,还有很多大神推出的所见即所得的工具,其中最出彩的当属Orange,而Orange主要用Python开发。
当然,Orange通过“拖拽”的方式已经基本实现了所见即所得的数字化审计分析,但距离生成工作底稿还有很长的路要走。
因为工具只是数字化审计路上最容易攀爬的一座山,做好数字化审计需要的是一个能力体系(《》),,。
本系列教程主要涵盖以下四个方面:
本文为第一部分:介绍Orange的基本功能和主要操作。
Orange基本介绍
Orange提供数据预处理、探索性数据分析、建模、模型评估、无监督机器学习和可视化等功能。
用户可以通过拖拽Orange提供的相应组件到工作区(Canvas)中,建立数据分析工作流,设置相关参数,即可自动进行数据处理、模型应用和结果呈现。
下图是Orange的主界面,主界面由三部分组成,左侧是组件集(Widget),中间是工作区(Canvas),点击组件的帮助链接会在右侧显示当前组件的帮助(Help)。
安装 Orange
截止2021年8月29日,Orange最新版本为3.29.3,读者可直接在官网下载安装程序或免安装压缩包。
官网下载地址为:
在Python环境下(最新版本仅支持Python3和64位机器环境),也可以通过pip命令安装 pip install orange3 --user
通过pip命令安装完成后,执行“python -m Orange.canvas”命令即可启动Orange。
橙色组件
从Orange主界面可以看到,Orange在左侧栏提供了5个组件集,并且组件图标也直观的展示了组件的功能。
如果您使用过 SPSS Modeler,您会发现 Orange 提供的功能非常相似。
Orange除了提供组件之外,还可以通过插件(Add-On)添加新的功能orange软件教程,同时也支持在Python环境中直接调用组件进行非可视化的代码级分析。
组件的使用 拖放组件
用鼠标左键点击橙色左边栏的组件,按住左键,将其拖放到工作区(Canvas)中,释放左键,再将需要的组件拖到可操作的位置。
在工作区(Canvas)中,可以将拖放的元件移动到任意位置,双击元件可以编辑元件相关参数。
使用帮助
在Orange的主界面中,当鼠标指针移到某个组件上时,会出现一个Tip信息框,显示该组件的主要功能、输入元素和输出结果。
例如当指针移动到数据表元件上时,提示信息框显示此元件的主要功能是以表格形式浏览数据,此元件的输入类型为各类二维数据,输出为选定数据或全量数据,如下图所示。
链接组件
组件之间的数据交互依赖于组件之间的链接,也就是可视化中组件之间的“线”。
由于不同组件的输入要求不同,且有多种输出结果,因此链接的两端需要不断做出正确的选择。双击组件之间的链接即可编辑链接。
可以点击某个组件上对应的输出类型框(输入类型框),按住鼠标左键,拖动到另一个组件的输入类型框(输出类型框)上,来重新定义两个组件之间的链接,如下图所示。
简单示例:预览数据
从数据组件集中拖入 CSV 文件导入组件,并选择数据源为“iris.csv”。
从数据组件集中拖入一个数据表组件并将其链接到 CSV 文件导入组件。双击链接以确保它是数据到数据。
双击数据表组件可以预览导入的数据字段名称和字段值,如下图所示。