AI和BI:AI是Artificial Intelligence(人工智能)的简称;BI是Business Intelligence(商业智能)的简称。商业智能又称商业智慧或商务智能,在过去指用数据仓库技术、联机分析处理技术、数据挖掘和数据可视化技术等进行数据分析以实现商业价值的一种能力。今天的商业智能开始引入人工智能,从而进入一个新的领域。
Benchmark:我在大学的时候这个词被翻译为“定标比超”,真是不明觉厉的感觉呀。Benchmark就是“可以作为对比的参照值”。我的很多客户会问,这个指标在行业中的平均情况是什么样呀?他们的问题可以同样表述为:这个指标在行业中的benchmark是多少?
Bubble Chart:气泡图。一种最多能够表示同一个事物的四个维度(但是一般只用其中三个)的直观的数据可视化方式。这种方式多用在分析流量、用户或者内容的表现上。
Cohort:没有比较约定俗成的翻译,比较多的翻译是“同期群”。跟Segmentation有点类似,但内涵要多一点,多点排队的意思。Cohort一般是一种分析方法,所以一般不单独出来,而是跟analysis在一起,即cohort analysis——同期群分析。这是一种很重要的分析方法,尤其在分析ROI、用户留存这两个领域。课堂上会详细介绍。
Dimension:维度。维度是对一指一个事物的不同的方面、特征或者属性。这么说太抽象。简单说,人可以分成男人和女人,性别就是人的一种维度。或者汽车可以分为白色、黑色、红色等,颜色就是汽车的一种维度。维度是最基本的数据结构,任何一个度量(指标)必须要依附于一个具体的维度才有意义。比如说,我说visit=100,这没有任何意义。我说搜索引擎给我的网站带来的visit=100,就有了意义。搜索引擎流量就是维度(即流量来源)的具体的值(就如同男人是性别这个维度的具体的值)。
Filter:过滤。过滤是指摒弃掉不需要的数据,只留下需要的。过滤都需要遵循一定的规则(这是废话),而且过滤掉的数据往往不能找回。过滤是一种常用的定位某个细分领域的方法,与细分(segmentation)的区别在于,segmentation是把总体分成并列的若干块(segment),而Filter则只保留符合规则的块,而丢弃其他不符合规则的块。
Machine Learning:专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎。
Metric(常用作复数,即Metrics):通常翻译为度量或者指标,但是因为指标含义更宽泛,例如KPI或者benchmark都可能被称为指标,所以在我的培训中metrics都是用度量来表示,这样更严谨。度量绝大多数都能能用数字表示,比如汽车的速度,速度就是度量。课程中涉及到的度量分为两类,一类是计数度量(比如常见的PV、UV、访次、停留时间等)和复合度量(两个度量四则运算而成,常见的有转化率、跳出率、留存率、活跃率等)。另外有些度量使用布尔量表示,即是或非。度量必须依附于维度才有意义。
Pattern:指某种会重复出现的模式或规律。Pattern常常用于发现用户行为上的某些趋同特征。比如,我们发现用户都喜欢在晚上10点到11点打开某个app应用,这就是一种pattern。如果我说发现了一个pattern,很兴奋,实际上的意思就是说我发现了一个规律。规律这词,几十年前就有了,pattern这洋文多有逼格呢……
Pivot Table:数据透视表。微软数据表格工具Excel的一个重要功能,用于快速汇总统计不同维度的数据,是Excel中最常用也是最实用的功能之一。Pivot table有时也直接表述为pivot。
Random:随机数,或者随机性。但是老外们也用它来形容“混沌”之类的意思。
Segmentation:细分。这是我们最基本的方法,即把总体按照一定的规则分成并列的若干块。做了segmentation之后,每一个块就是一个segment。所以segmentation和segment不是同义词。Segmentation怎么用?怎么发挥最大价值?课堂上有很多案例。
Supervised Learning:最常见的一种机器学习(machine learning)的方法。在监督学习中,每个实例都是由一个输入对象(通常为矢量)和一个期望的输出值(也称为监督信号)组成——例如,营销相关的创意、广告出价(排名)、目标人群的各种设置等为输入对象,广告的效果(例如点击率)就是输出值。监督学习算法是分析该训练数据,并产生一个根据已有的数据(输入对象和输出值)推算得出的映射关系,用这一映射关系去推断新的实例的情况。在刚才那个例子中,历史的创意、出价、目标人群设置数据及其相应效果的输出值可以用来推断未来在各种创意、出价和人群设置下的效果,并利用效果的推断不断调优输入对象的设置,从而让机器实现自动化的营销效果优化。
Unique:Unique是指排重(排除重复)。Unique很少单独用,常用在计数类度量的前面,比如unique visitor,指排除对同一个访问者重复计数之后的访问者数量——同一个人今天到网站一次,明天又来一次,不能就因此变成两个人,unique visitor仍然是1。Unique visitor通常可以简化为visitor,两个可以通用。Unique visitor和unique user是唯一的两个可以加不加unique都算unique的度量。另一个例子是unique impression,即同一个人多次看同一个广告,还是计算为1次。Unique impression和impression是两个不同的度量,因为后者不排重。
Visualization:数据可视化。是以图表、图形或者动态图形的方式直观展现数据的一种技术和学科。合理恰当的数据可视化能够极大提升数据分析的效率和效果。