乐视视频借力开源技术解决大数据的经历分享

从年底破百亿的“芈月传”和有毒的“太子妃”到年初举报快播的“背锅侠”,乐视简直赚足了国民的关注。现在看来,游戏才刚刚开始,最近乐视又在忙活着升级,改Logo改域名,这意味着乐视已经准备火力全开,进军全球市场了。小编觉得,乐视之所以有这么大的野心,是因为背后有大数据作支撑,而且未来,大数据在乐视全球化战略中也将发挥举足轻重的作用。

从内容来看,乐视大数据打造的超级IP实力确实强大。2013年乐视最早借大数据跑赢宣传档为即将上映的《小时代》做了最精准的预测和分析,开展了一场漂亮的电影营销,拉开了大数据电影营销的模式。再后来,国内影视开始掀起IP潮,2015年是IP炒的最热的一年。年底,乐视给用户呈上满意的答卷,其自制的“十年剧王”《芈月传》以全网200多亿的播放总量创下纪录。网络雷剧《太子妃升职记》,目前全网播放量已接近15亿。大数据+超级内容IP给乐视进军全球市场注入了无限动力。

然而,这不是重点,“内容+”才是乐视生态的看点。《芈月传》播出后,乐视同步推出了《芈月传》定制版超级电视、智能手机、芈酒、手机壳、《芈月传》经典台词版手机铃声等个性化产品,还与天猫合作,打造《芈月传》衍生品旗舰店,《芈月传》手游也已经发布。注意,请注意,这是一个360°无死角的IP布局,乐视超级IP已经形成一个**的闭环。

如果说IP是软件的话,那乐视云就是硬件了。大数据时代,最不缺的就是“云”了,乐视云是一个专注于视频领域的云计算平台,2016年乐视云已经与戴尔达成两年全球战略合作、联手全球领先大数据运营商Equinix,法国**大电信运营商Orange、澳大利亚**电讯公司澳大利亚电信、**综合性国际电信公司西班牙电信、全球**通信方案运营商香港和记环球电讯有限公司等全球多家**运营商,打破数据孤岛,加速视频生态体系建设,未来乐视大数据的触角将会伸向更多行业。

再来看市值,乐视网2004年成立,2010年上市,当年市值仅为50亿。五年下来,乐视依托大数据平台在互联网视频、影视制作、智能终端、电子商务等垂直领域深耕,到现在,总市值已接近1100亿。但是,看看乐视这次全面升级冲击全球的架势,貌似,乐视的故事才刚刚开始!

白德鑫现在正在从事乐视网超级电视做数据挖掘。他表示,原来初期的业务做得适应不了当前业务发展,所以要进化。主要做的事情,构建每件事的时候,分析数据的平台,给乐视网的超级电视提供数据挖掘服务.如何从最初业务发展到现在,包括在超级电视上做实时分析和用户离线挖掘,通过数据挖掘,给很多业务部门提供数据挖掘的支持。

白德鑫提到自己是谷歌粉丝,目前正在做**批超级电视数据挖掘。云视频搞清播放机的时候,那时候比较屌丝,只有几万台数据,数据当时也比较少,做了一些开机数之类的、日常数据。在业务里做,在数据节点做计算。

  后来性能越来越低,因为量越来越大,当时每天数据量,当时觉得很大,每天只有几千万行数据。这时觉得需要尝试一些新的技术,就用Cassandra为存储,存储日至,做简单处理切分以后放进里面,使用Hodoop进行计算,把结果塞到MySQL里。每天计算数据对自己来说是一个中间数据。可以出来一些报表。数据组合比较多,刚开始只是盒子、应用,后来还有一些视频播放内容,开始尝试把每天数据把MySQL和Kettle进行分析。但是做了三四个月又换了,使用Kafka、Storm、Hodoop、Hpase、Hive、Oozie、Sqoop,**修改是有一些大的,跟随开源社区来做,进行相应升级,尽量跟社区保持一致。

  乐视网大数据的起点
  白德鑫表示,刚开始只有一个数据分析员,抓一些数据,这是做的分析。电视的盒子,包括电视开机,看了什么电视节目,因为乐视网是做视频内容的,点开了什么视频节目,看了多长视频节目是通过心跳来做的,三分钟一个心跳,这个放到终端记录下来。播放有开始、有心跳,电视好一些,但是盒子有些用户看着看着直接断电了,结束就没有了,只能从心跳往回挖。
  自从发布超级电视以后,刚开始盒子价格比较贵,没人买,后来盒子卖299,卖出去很多。数据量按照三分钟心跳,几十万用户看视频,开机有心跳、播放视频有心跳,数据量特别大,没办法,乐视当时上了四台。四台数据,看怎么发布的。之后输出,然后进行分析。看有哪些问题。
  当时做这个事情的时候一个人在做这些事情。然后后来有人离职,后来Cassandra这块没人了,交接的时候写完,对系统影响很大。在这个时候没人接手,他走了技术也走了,一个萝卜一个坑,萝卜走了坑很不容易填的。后来想找一个技术更牛一些的人帮乐视来做,但是到现在一个多月没有找到。系统要继续做,数据也在疯狂增长,没办法就把Cassadnra去掉,往MySQL里放。
  通过另外一种方式,分析人员对乐视意见很大,他多的时间有两个小时,要看今天开机量,和昨天的对比,再分时段看开机量,两个小时就过去了。他说系统老死机,我说是查询太慢了。希望系统可以做大一些。

  现阶段数据量的变化
  白德鑫自己说,乐视的数据量从年初的三个月翻一番,到现在的我写得稍微早一些,到每周翻一番,现在每天数据量一百G,超级电视以及盒子卖得非常快。从设备行为快速向用户行为转变。我的计划量是多少,卖得多了老百姓开始考虑业务行动,按照互联网方式做,用户拿着我的盒子看什么使的,是看电影还是看电视剧,所以这个时候很多用户行为来分析。现在电视版本和盒子版本一周一个,这个版本每周更新一个系统版本,用户是不是接受,这些都在乐视这里做分析。
  还有一个是乐视在这里做了一些测试,因为在盒子里,乐视叫UI里做一些测试,今天做一个海报推荐,明天加一个分析,看用户量高还是低。
  用户数据量增长很快,人也没有,一边找土豪**帮乐视解决这个问题,另外自己要解决这个问题了。看数据分析的人,团队从内部调,数据分析招聘了一个。还有一个比较牛的是从公司别的部门挖的一个人。从今年年初开始履行,从原有的来进行。**换成现在的方式。这个是自己在做,研发团队两个人,现在也是两个人。
  差不多半年搭成新的,新平台通过Kafka搭建,通过很多业务系统,点播、第三方的,包括一些日志,存储数据,以及需要对用户进行分析的数据。还有一些元数据,进行一些加工、处理。整合之后,其实就是前段所有的请求打到这里。Storme是**的数据,另外Hodoop写的已经换了,数据量大以后,换其他的数据库,刚开始选,公司自己开始做自己的数据库。通过Hodoop以及数据服务wAD-HOC的搭建、处理,实时查询、开放数据平台也做了查询、进行了报表,对一些实时数据分析系统,还有做了门户,对各个业务提供数据服务,要调哪些数据。运营商需要知道在四川电信、某个电信部门的视频点播量。这些都是靠内部挖掘的。
  乐视的数据源通过前端的,从三款到六款,所有数据都打到这里,好处是在于跟着开源社区升级系统,依然可以接收数据,不影响业务。后面再随便操作。数据稍微做一下处理放到STORE,放到数据实时计算、然后进行拆分。现在没有用PEED,用户交互是OEE,把多个任务组合,把它放到,**是一个结果,是一个业务流程的管理工具。
  数据输出之后通过查询,然后提供给别人,反馈到前端数据。这叫矩阵式的业务。这是进行的测试。服务器两台4Core cpu、6G,用户38万左右,38万有效数据。跟官网50万对比稍微差一些。因为乐视的机器性能比他们差很多。
  当时做的时候两个节点做的,用了一个发送,用的是同步发送,消息格式是两种,格式是30字节、50字节、200字节。如果30字节38万,其他数据基本上是在30万左右。这是单台数据。单台差不多30万。这是乐视的Spout集群,做一些业务拆分,比如有些数据需要组织,点播、心跳的,其实有些消息是随机的,虽然连续发过来的,但是每台机器都往外发,把数据写到里面,比方说播放时长,每个剧播放时长、按时段的数据计算。
  这个借用官网的图,我用的0.9几,实际上标准是一个,但是乐视怕数据丢失,所以做了两个,其实做得比较简单,把数据复制。存的一些数据,这些没有太多可讲的,当时做了一些简单优化,这个不多说。默认垃圾是关闭的,自动回收,不想让它自动回收要手工做一些处理。这是Sqoop,原来的数据都在这里存储,乐视导入集群里,乐视用这个来做。当时做了一些事情,把数据抽取整合。
  没有写在上面的OLD,包括查询,有些数据处理处理的中间结果,中间结果到**没有,不可能到使用阶段。

  ROI分析
  数据量每个月翻一番,现在不只这个了,乐视原有架构没办法满足新的需求,之前就是日报,现在每天实时数据都很多。Kettle方式数据整合时间越来越长,采用hadoop-Storm方案,不会对数据挖掘产生太大的影响,资源稍微丰富一点,集群不够使的时候要添加机器,数据每日跑一次,每天晚上12点跑一次收取数据生成报表,到现在实时查询,时间还是比较长的,五分钟左右。因特尔给乐视推荐过一个,但是它那个对内存要求太高,暂时做不到。现在都是6G内存服务器。支持硬件设备。
  目前还有很多事情要做,其实对乐视来说不同阶段选择不同方案,刚开始初期的时候,一年卖几万个盒子,刚开始三千一台盒子,不可能建十几个节点的数据。人员流失会导致技术流失。技术储备和内部自荐比招聘牛人更快。现在招聘也很困难,hadoop圈里人比较少。新业务平台都要小心对待。否则出问题很难解决。数据这块还好一些,如果前端没有,对业务影响很大。
  数据安全很重要,乐视有40多T数据,放到两个备份存储上。服务器多了就是爽,四台不够加八台,计算量可以很快。

以上就是安达网络工作室对于《乐视视频借力开源技术解决大数据的经历分享》的一些看法。更多内容请查看本栏目更多内容!

本文相关话题: 大数据 乐视 开源
版权声明:本文为 安达网络工作室 转载文章,如有侵权请联系我们及时删除。
相关文章
挪动站点怎样做能力从搜寻引擎获取更多流量?挪动站从搜寻引擎获取更多流量的技巧

随着APP的用户拉新成本越来越高、留存率却越来越低,很多公司都加强了移动站的建设。那么移动站点怎么做才能...

总结Hadoop集群技术近年来对大数据解决的推进

这篇文章主要介绍了总结Hadoop集群技术近年来对大数据处理的推动,随着数据量的日益庞大,越来越多的人开始对...

应用Google CDN招致网站页面无奈加载的成绩处理

这篇文章主要介绍了使用Google CDN导致网站页面无法加载的问题解决,由于谷歌在国内的访问原因,使得很多内置...

搜寻引擎优化需求留意什么?老手对搜寻引擎优化seo误区解读

优化工作不是一个一成不变的工作,他需要优化人员时时刻刻去寻找和优化用户体验的过程,而不是时时刻刻去研...

腾讯网站剖析工具Tencent Analysis腾讯剖析的应用教程

这篇文章主要介绍了腾讯网站分析工具Tencent Analysis腾讯分析的使用教程,Tencent Analysis对社区网站的相关...

关于网站Web端表单的交互式设计考虑

表单是前端开发中最常实现的基础功能之一,表单的设计对于用户体验来说非常重要,这里我们就来分享一篇携程前...

需求提交

客服服务