中新网3月22日电 最近正在进行的谷歌PK李世石人机围棋大战备受瞩目,折射出人们对人工智能这项技术的广泛关注。人工智能的发展正是以当今世界产生的海量数据为基础,通过机器学习,数据挖掘,模式识别之类的算法,使新的算法越来越好的一项工作,青稞万维一直致力于算法的研究与改进,下面青稞万维将细致的为您讲解其大数据产品青云DMP对互联网精准营销带来的改变。
计算广告和个性化系统是,人工智能与大数据结合最成功的应用。计算广告又称在线广告,是线下广告,在线上自然发展延伸的结果。青稞万维认为在线广告区别于传统媒体广告的本质点是,在线广告可以根据不同的受众呈现不同的广告创意。那么就面临对受众进行定向,广告投放当中的在线分配等一系列带约束的优化的数学问题。在线广告又在定制化需求的催生下,产生了一种让需求方按自己的人群定义来挑选流量的开放竞价逻辑,这就是实时竞价(Real Time Bidding)。通过实时竞价的方式,按照定制化的人群标签购买广告,这样的产品就是需求方平台(Demand Side Platform, DSP)。实时竞价的产生和发展直接催生出了数据加工和交易市场,也就是包括青稞万维的青云DMP在内的各种DMP产品。青稞万维的青云 DMP的产生为DSP的发展,提供了数据方面的强有力的支撑。
由于数据的重要性,目前各行各业,都极力隐藏自身的数据,所以大多数公司,只拥有单一媒体数据。例如在某视频网站上的观赏行为,在某门户网站上的浏览行为,或在购物网站上的购买行为,这些都属于单一媒体的数据表现。那么有没有办法将这些数据进行整合,进而达到,多维度数据展现呢?青稞万维给出的答案是肯定的。
青稞万维基于对品牌广告主服务过程的深入调研与思考,并通过数据和技术的积累,打造了青云DMP系统。青稞万维通过与运营商在数据业务方面的合作,大力投入基于运营商脱敏数据的商业化应用技术和算法。青云DMP系统,涵盖了每个用户24小时的浏览行为,搜索关键字,购物阶段,视频观赏,社交网络,信息发布,在线时段等全景用户行为数据。青云DMP系统,在强有力的数据来源依托下,彻底解决了精准领域大量过期Cookie难题,提高了数据的活跃度探测水平。多维、全景的对于青云DMP的内容梳理和行为分析、标签更精准、更精细、行为定向维度更灵活、可扩展、对青云DMP的定向可持续、跨屏关联等优点,这些优特点全赖于青稞万维多年的研发经验累积与技术发展。
青云DMP通过对数据的文本主题挖掘,将用户访问的页面内容直接映射到一组有概括性意义的主题上,比如将介绍汽车内容的论坛页面映射到“汽车购买”这样的主题上。如果把页面视为一个文档,这就对应于文本主题模型(topic model)的研究问题。青云DMP采用了,LDA(Latent Dirichlet Allocation),sLDA(supervised LDA),HLDA(Hierarchically Supervised LDA)等主流主题挖掘算法。 LDA是基于文档,隐含主题,词的三层概率模型。sLDA是在某种标签监督下进行主题挖掘的通用模型,对应于根据某种分类进行主题挖掘。HLDA模型中,标注的类型是一个Hierarchy上的层次标签,这非常符合计算广告的需求。青稞万维基于以上概念模型开发的青云DMP,通过SVM(Support Vector Machine),AdaBoost等分类算法,将人群进行分类。例如, 可以将人群,分为游戏人群,学习人群,旅游人群等。也可以通过对购物阶段的分析,来判断用户对,某项商品的喜好程度。也可以通过协同过滤等推荐类算法,提供相似用户人群标签。
青稞万维大力投入青云DMP的基础设施建设,搭建了Hadoop生态系统集群。采用了比较成熟的文件管理系统HDFS。搭建了基于Hadoop2,YARN上的混合计算模型,使用MapReduce计算框架,对离线数据进行分析, 使用实时计算能力强大的Storm计算框架,来对实时数据进行分析, 青云DMP对于中等规模的数据分析和数据挖掘任务,采用了高效的内存计算框架Spark等的组合。通过此种方法显著降低了运维成本和数据共享成本的同时也提高了整体系统的计算效率和稳定性。
青稞万维的青云DMP目前提供了超过10个互联网节点,实时数据处理量超过5T,日更新页面标签数量超过2000万,每日可处理用户曝光量达到50亿,支持5亿用户的多维数据的贯通。
青稞万维的青云DMP目标是可以提供,社交,兴趣爱好,购物阶段,人口属性等碎片数据的整合服务,提供最全面,最完整的用户全景数据。