-->
<但ton class="menu_mobile_btn">切换菜单
保存您的免费座位流媒体连接今年八月. 现在注册!

在线视频紧跟大数据潮流

文章特色图片

每年, 有些术语是如此模糊, 迅速达到炒作的程度, 普通人同时思考是可以被原谅的, “为什么我不知道这是什么意思?以及“我怎么才能不解释它的意思呢??”

2013年的突破性词汇是大数据, 流类型从数据库的遥远世界向我们走来的是什么. 我们怎么知道它是突破术语? 我的一位在一家大数据分析初创公司工作的同事所做的分析显示,2013年上半年撰写的大数据相关文章几乎与2012年全年撰写的文章一样多.

“整个2012年, 科技出版物中有关大数据的文章不到19篇,000篇文章,苏珊·普契内利说, 传媒总监 Datameer. “在2013年上半年, 已经有将近14个了,000篇文章, 而且这个数字每个月都在增长.”

换句话说,每10天就有近500篇关于这个主题的文章.

什么是大数据?

稍晚一点, 我将介绍大数据中与流媒体相关的部分, 但, 第一个, 它有助于设定一个定义,因为主题本身可能很难确定. 要做到这一点,让我们首先从纯数据库的角度来看它.

大数据这个词, 当应用于典型的数据库场景时, 可以归结为三个主要领域:许多不同数据库的聚合, 包含无模式数据, 以及一套从数据中获取意义的分析工具.

就总体部署而言,数据库领域的王者是关系数据库. 这种类型的数据库几乎存在于所有的软件和硬件产品中, 甚至到了操作系统的层面, 因为它非常擅长管理适合结构或模式的数据.

大多数关系数据库都有一个问题, 但 the problem has been masked by decades of management system tools (relational database management system; RDMS): Not all data fits within a specific schema. 除了, 在传统的关系模式中,有些数据最好放在两个位置或两个表中使用, 例如某条街道上的房屋表以及同一条街道上停放的汽车拥有量表.

要处理这个问题,需要将信息分散到不同的表中, 关系数据库使用主键或一个特定的数据位将两个表链接在一起. 但是对于停在街上的汽车来说, 哪些数据变化频繁, 不像固定资产(如房子)那样容易融入有意义的模式.

为了解决这个问题, 数据库世界中出现了许多“脏数据”选项, 从最简单的XML标记文档到更强大的基于文档的数据库,这些数据库使用动态索引来绘制相似之处,并将其简化为动态“表”结构. 其中许多被称为map-reduce数据库, 其中,从数据库查询中得到的答案是预设的,并且围绕无模式数据的查询形成一个基本模式.

第三个领域是数据库, 这在社交媒体网络中尤其流行, 是图形数据库的概念吗. 在这个例子中, 关系是关键因素, 图是一种进行复杂搜索的新方法.

在我们前面提到的例子中, 一辆车停在街道上的位置相对于一所给定的房子的接近程度可以让我们制作一个地图缩减索引, 但是一个图形数据库可以让我们找到一个特定房主的朋友,他们的车和停在街上的那辆车是同一型号的, 除了确认那个特别的朋友是住在城里还是在另一个国家. Facebook推出的图谱搜索将允许其用户对符合特定人口统计或地理标准的朋友进行这类搜索.

关系数据库中显示数据块之间关系的图形.

在很多方面, 一般来说,大数据——尤其是图形数据库——依赖于使用标签来创建对象之间的关系, 人, 以及其他不同的数据. 在搜索图中,任何一个人或物体都有足够的标签, 需要做大量的索引工作.

这如何适合流媒体?

因此,如果大数据是关于结合数据库和运行适当的分析来找到问题背后的答案, 这一切如何适用于流媒体?

对于这个问题,你会得到截然不同的答案, 但我从流媒体中的大数据中得出的map-reduce索引可以归结为三件事:内容管理, 关键任务交付, 索引和元数据可用性.

内容管理和存储

毫无疑问, 视频在总数据流量中所占的比例呈跳跃式增长. 一些研究表明,在黄金时段,点播互联网视频流量几乎占所有互联网流量的三分之一, 在很大程度上要感谢 网飞公司. 一些对2014年流量的估计表明,互联网上传输的大部分数据将是视频内容.

这为内容交付网络(CDN)提供商提供了机会, 其中一些已经迎接了挑战. 但是,对于这些cdn来说,大数据问题不是关于视频内容管理,而是关于围绕视频的所有内容的管理.

有趣的是, 解决cdn面临的所有内容管理问题, 流媒体内容管理的问题实际上正变得相当简单:跟踪形成自适应比特率(ABR)传输所需的按需视频文件的多个版本. ABR是否通过苹果的HTTP Live Stream (HLS)传输?, 微软的流畅流媒体, 或新兴的HTTP动态自适应流(MPEG-DASH), 在允许对这些各种ABR技术进行动态分割方面,各方面都取得了进展.

In 2007, 50%的互联网流量来自几千个网站, 但是到了2009年, 50%来自150个站点(左). 今天(右),50%的互联网流量来自35个网站或服务. (图表由DeepField提供) 

这意味着我们不再需要在永久数据库中跟踪数千个2秒的片段, 的东西, 几年前, 网飞公司预计,如果他们被要求以预先分割的形式存储优质内容,其资产将超过100亿美元.

交付

第二个受到关注的领域是内容的传递, 尤其是随着“超大型”网站数量的增长.

Craig Labovitz的演讲, DeepField的联合创始人兼首席执行官, 在2013年内容交付峰会上, 针对cdn在内容管理方面面临的增长问题.

“CDN流量现在占美国所有消费者流量的一半以上,拉博维茨说. “与我们2009年发表的上一份报告相比,这是一个非常戏剧性的变化.”

Labovitz指出,将流量整合到几个关键cdn是一个持续的趋势, 2007年50%的流量来自几千个网站. By 2009, 达到北美互联网消费数据的一半所需的站点数量下降到几百个, 新报告的初步数据显示,现在所需的网站数量不到40个CDN或前10大网站.

“我们正越来越多地向非常平坦的方向发展, 密集的, 高度互联网络,Labovitz在之前的会议中指出. “大部分交通并不是沿着一棵树向上流到第15层,然后再往下流. 今天的大部分流量都是我们所谓的超级巨头之间的交换.”

流媒体覆盖
免费的
合资格订户
现在就订阅 最新一期 过去的问题
相关文章

流媒体东15:大数据困扰许多视频提供商

一些最大的视频出版商坐拥数年的观众数据,他们现在才开始筛选.

Rovi首次推出娱乐分析,多屏幕大数据

在收购IntegralReach之后,Rovi推出了一款针对目标受众的大数据分析解决方案.

MediaCom:大数据是联网电视成功的关键

流媒体视频正在通过各种连接设备进入家庭. 广告商也在跟进,依靠大数据来触及正确的目标.