流数据的预测分析:数据科学家的价值主张

 

predictiveAnalytics
 
 

        经常有这样的窘境 - 数据科学家们很难传达他们所构建的预测模型的商业价值。

        这就使得他们很难说服业务专业人员(分析师,战略/营销/运营经理,管理人员等)采取、利用预测模型,从而取得更好的业务成果。

        数据科学和商业世界之间存在脱节的情况,这一不容忽视的事实的主要原因之一是:缺乏一个共同的预测分析平台,-- 在这个平台上由数据科学家部署预测模型,业务专业人员可以运行新的数据的并获得商业洞察力和可视能力。特别是,数据科学家缺乏一个可访问的平台,以便部署预测模型,针对模型将流媒体事件数据化,并可进行实时可视化的预测。

        数据科学家使用各种工具–开源工具(如:R、Python、WEKA 、Mahout、Spark MLlib等)或商业授权(如SAS、SPSS、MATLAB等)–利用历史数据,去创建和验证预测模型。

        大多数业务专业人士都缺乏对于实际的数据科学工具、技术、模型和算法的直观理解。他们的理解能力往往只能局限于使用商业智能(business intelligence (BI))工具的数据洞察,而这些商业智能(BI)没有任何预测模型和数据化功能。

        当专业商务人士需要一些特定的见解能力来使用预测分析平台的时候,他们就要与数据工程师和数据科学家团队分享必要专业能力,并期望从中得到的见解能以他们理解的方式体现出来。例如,企业专业商务人士可能需要一个客户的名单,这个名单要按客户下一个季度的预测流失率排序。

        在这种情况下,数据工程师团队就要准备所有相关客户最近的数据,并将这些数据提供给数据科学家团队,后者会将这些数据输入到预先创建的预测模型中,这些预测模型创建在他们自己的建模环境中(例如,R或SAS),从而生成一分所需的具有相应流失概率的客户名单,并将该名单交付相关的商务专业人士,从而能够为其商业行为提供决策依据。

        在这种业务任务周期中,从数据准备到一种可操作的数据报告,业务人员并没有一个清晰的愿景提供给数据科学家来在创建模型和生成的数据报告;他们没有一个数据科学工具和相关的模型能够运行预测数据和评分选项(例如,后3天、7天或后14天预测需求 – 根据业务需要)。因此,数据科学家所创建预测模型在预测能力方面非常有限,这使得他们的千辛万苦总是差强人意。

        麒麟远创的运营智能产品改变了这种先天不足的困境,大改善了数据科学和商业世界之间的关系。麒麟远创的运营智能(OI)平台的杰出预测分析能力,使数据科学家和商业人士合作比以往任何时候都更能实现流畅配合。

        数据科学家可以从母模型创建环境中传输预测模型,并很快将其部署于运营智能环境之中,--业务人员更熟悉这种运营智能环境。这样就转变到了大家通常能够理解的平台之上,使用预测模型可将新数据设定一定的分数,使得不同的两组数据科学家一起工作–通过预测结果在OI平台可视化,这就可以快速呈现出所需的商业见解,特别对于连续的流事件数据,而商务人士可以更好的实时了解预测模型所服务的商业领域。

        该产品对于数据科学家的另一个重要的价值是:将预测模型输出和部署到麒麟远创的运营智能(OI)平台之中,进行运行时预测,从而可以大大扩展了建模工具的可选择空间。数据科学家可以在R环境中创建模型,并将该模型作为PMML文件或者作为R 对象导出,或者,他们可以使用SAS/SPSS或者其他工具,可以导出PMML。无论以哪种方式,在任何格式的模型中,都可以在麒麟远创运营智能(OI)平台上导入和部署该模型, 从而不论该预测模型是在哪里创建、如何创建,都可使商务人士轻松进行运行时预测(run-time prediction)。

        建模环境(例如,R,SAS等)只为建模以及测试和预测的目的,消化一批汇总数据;它们不是为实时数据预测而设计的。因此,数据科学家从未有过的优势,去将预测模型如何运行实时流媒体事件数据可视化。随着预测模型部署在麒麟远创运营智能(OI)平台上,数据科学家也可以直观地观察到,预测模型实时处理流事件数据时的性能和绩效。