机器学习增强的电子商务平台用户行为预测 | SDNLAB

作者:杨国胜，郭贝贝（中央民族大学，博士教授博导)人工智能开放创新平台（chinaopen.ai)联合学者

摘要：党的十九大报告指出,要“推动互联网、大数据、人工智能和实体经济深度融合”,这为电子商务发展指明了方向.如今以淘宝、京东为代表的电商品牌给消费者带来巨大方便、高效的消费模式，同时运营成本相较于实体经济更低。随着机器学习的发展，利用海量用户消费数据，结合数据挖掘、深度学习等先进算法，精确分析用户购买、退货等行为从而使得电子商务平台体验升级吸引更多客户量以及购买量。本文研究了基于不同数据挖掘及学习算法的用户行为预测系统的关键技术，在此基础上介绍了一种新颖的基于深度学习的电子商务平台用户行为预测技术，使得预测结果更为精准接近消费者真实想法，以期为电子商务的发展提供一定的参考和借鉴.

关键词：机器学习，电子商务，用户行为预测

电子商务通常是指一种新颖的在互联网开放的网络平台上，消费者基于浏览器/服务器应用方式进行各种商贸活动的商业运营模式。消费者在此平台上可实现无需与卖家面对面的网上购物、交易和在线电子支付。从2013年开始，越来越多的电子商务企业更加注重通过使用互联网为用户提供优质的服务，并随着电子商务越来越普及，更多人选择在其上进行交易，因此存在着庞大客户购买行为数据信息等，更重要的还有消费者的评价以及反馈意见。那么如何利用这些数据信息分析挖掘所蕴含的用户行为规律，从而应用于客户购买行为预测成为研究热点之一。准确把握客户购买行为，能够精确识别和定位潜在客户群体进行，将浏览者变为购买者，有着极其强的现实意义和经济价值。

电子商务客户的购买行为预测是指根据消费者历史访问点击操作、服务器日志、浏览记录以及商品反馈信息中所蕴含的行为规律对在线客户购买倾向进行实时预测消费者将来的行为。因此可实现针对客户推荐商品、制定营销策略以及决定平台商品的进货量与出货量。上世纪90年代，研究者就开始对大量网络数据进行挖掘和研究，国内还专门成立数据挖掘研究机构来专门分析客户的购物行为。随着电子商务的普及，越来越多方法被提出应用到客户行为分析预测中，如决策树方法、贝叶斯分类算法、支持向量机、神经网络方法及时间序列预测方法等。他们大都以数据驱动，从消费者个人信息、商品、消费行为等多种信息中筛选出主要因素并设计特征，利用机器学习算法对筛选出的数据进行模型训练，以训练好的模型预测消费者购买可能性最大的商品。

机器学习的本质是通过算法在众多的假设空间中找到一个最优的假设，预测方法是对数据从不同角度进行分析，预测方法以及处理的数据不同，客户行为预测的效果也不同。那么对于特定的学习问题都有与其相匹配的较合适的算法。而在现实生活中，并没有一个算法可以在任何领域里学习出准确的模型。通过集成若干多个单一算法的学习结果形成新的组合模型，从而达到提高算法最终学习准确率的效果的做法就越来越流行。使用何种方法来集成算法对于提高融合后最终算法的准确率至关重要。

在电商平台中，平台往往需要对客户网购行为进行分析及预测。电子商务平台所具有的客户信息数据库为基础，完成对客户网购行为的实时及针对性预测，从而体现了对客户行为的智慧化预测。因此，作为一套完整的预测模型系统，首先需要利用数据挖掘、机器学习、统计学等方法进行知识发现，对数据进行特征提取。然后以此为基础，构建作为知识指导的知识存储与表示的客户网购行为知识库，进而建立从数据输入到预测行为的系统体系。主要研究内容如下：

(1)消费者行为数据处理和特征构建。
首先从电子商务交互系统中抽取交互日志，准备与消费者行为分析预测相关的数据，其次进行数据预处理，包括数据清洗、填充缺失值和去除异常值，保证数据的唯一性，从而为实现消费者行为预测提供良好的基础保障。

(2)消费者行为特征构建
基于原始数据，进行提取用户行为购买特征，根据不同分类方法可将特征分成原始和拓展、静态和动态，或者将两种或以上类别的特征合成一个新的特征。要得到良好预估效果，数据和特征很大程度上决定了模型预估的上限，因此如何构建适合的特征是为实现用户行为分析提供良好的保障。

(3)消费者行为预测模型
预测模型的准确性是保障消费者行为预测分析的关键，目前虽然有很多预测模型，但的都远远达不到真实情况下的准确性要求。如何利用消费者静态或动态数据的分析进行准确预测消费者行为是极其关键的技术。

由于电子商务数据量大、处理复杂等处理难点，目前没有一种模型能够完全解决所有问题，绝大部分研究还是定性分析影响因素、构建理论模型。传统大多采用基于Logistic回归的方法，但其本质是一个线性分类模型，对输入有很高的要求，比如要求目标对象是线性可分的，但在实际中提出来的特征关联性强且存在复杂的非线性关系。再者就是Badding和随机森林方法，他们的性能都或多或少受到限制。为此，我们提出一种基于深度学习的消费者购物行为分析方法，如下图所示。
深度学习的概念由Hinton等人于2006年提出，属于机器学习研究中的一个新的领域，为解决神经网络易陷入局部最小和学习能力受限的问题，借助“逐层贪婪学习”的思想，通过学习更深层次的非线性网络，并从中选取有助于机器学习的更有效的特征，可以预测出更加精准的结果。本质是对数据的表征学习，目标是寻求更好的表示方法并创建更好的模型来从大规模未标记数据中学习这些表示方法。

基于深度学习的消费者购物行为分析工作流程主要分为包括以下四个步骤：1) 准备并处理数据集：包含用户交互信息采集、数据清洗等。

2) 特征构建：分为特征选择、划分样本训练集和测试集、特征处理三个阶段，特征选择是构建预测模型的关键，即从大量数据集中挑选对分类极为重要的特征集进而提高模型预测精准度，减少运行时间。因不同维度选择出的特征量纲和单位不统一会影响评估特征的权重，进而影响模型的预估效果、因此，需进行特征管理来进行归一化处理。

3) 设计预测模型并训练：选择基本模型框架为卷积神经网络CNN+循环神经网络RNN，并在其基础上对数据的负样本进行随机抽样、调整网络层数、确定损失函数、设计学习率等超参数；将模型输出误差通过BP算法反向传播，利用随机梯度下降SGD或Adam算法优化模型参数；

4) 模型验证：利用未训练的数据验证模型的泛化能力，如果预测结果不理想，则需要重新设计模型，进行新一轮的训练；

至今已有数种成熟的深度学习模型，包括深度神经网络DNN、卷积神经网络CNN和深度置信网络DBN和递归神经网络RNN等。这些在机器视觉、自然语言处理、生物信息学、语音识别等领域得到广泛应用、并取得显著效果。

消费者行为预测是目前在电子商务中极具前瞻性的研究领域，随着人工智能深度学习模型的深入研究，极大提升了消费者行为预测准确率。但是由于深度学习的黑盒特性，难以对消费者行为预测的特征提取过程进行定性研究，为此，仍需要进一步加强对深度学习模型的可视化技术研究，提高学习模型的可靠性分析并在可解释性的基础上进一步提高消费者行为预测准确度。

刘建, 孙鹏, 倪宏. 基于神经网络的用户兴趣度估计[J]. 计算机工程, 2011, 37(7):187-189.
李美其, 齐佳音. 基于购买行为及评论行为的用户购买预测研究[J]. 北京邮电大学学报(社会科学版), 2016, 18(4):18-25.
胡东波, 肖璇, 周锦. 基于数据挖掘的移动电子商务用户群体特征分析[J]. 科技管理研究, 2013, 33(9):222-226.
Kuo R J, LIAO J L, TU C. Integration of ART2 neural network and genetic k-means algorithm for analyzing web browsing paths in electronic commerce[J]. Decision Support Systems,2005(40):355-374
Wei C P, Chiu I T. Turning telecommunications call details to churn prediction: A data mining approach[J].Expert Systems with Application,2002,23(2):103-112.

转载自人工智能开放创新平台