为什么社交网络中数据翻页技术复杂-技术方案

时间:14-12-15 栏目:大数据 作者:爱说云网 评论:0 点击: 1,211 次

最近讨论的一个传统的问题,问题本身比较简单,针对key-list类型的数据,如何优化方案做到性能与成本的tradeoff。Key-list 在社交产品及面向用户的产品中非常普遍,如一个用户的好友关系 {“uid”:{1,2,3,4,5}},表示某个uid有1,2,3,4,5好友;一条微博下面的评论id列表结构是 {“weibo_id”: {comment_id1, comment_id2……}},一个用户发表的微博id列表等。

  在list长度较小时,我们可以直接使用数据库的翻页功能,如

  SELECT * FROM LIST_TABLE LIMIT offset, row_count;

  根据经验,在大部分场景下,单个业务的list数据长度99%的情况在1000条以下,在数据规模较小时,上面的方法非常适合。但剩下的1%情况下,数据可能多达100万条,在数据规模较大的时候,当访问offset较大的数据集,上述方法非常低效。但在考虑方案的时候不能忽视这些超大数据集的问题,因此要实现一个适合各种变长list场景的翻页方案,业界并没有简单高效的方案。这也反映出常说的80%的时间在优化20%的功能。

  List数据访问模型常见的有两种方式

  1. 扶梯方式

  扶梯方式在导航上通常只提供上一页/下一页这两种模式,部分产品甚至不提供上一页功能,只提供一种“更多/more”的方式,也有下拉自动加载更多的方式,在技术上都可以归纳成扶梯方式。

  (图:blogspot的导航条)

  (图:很多瀑布流式的产品只提供一个more的导航条)

  扶梯方式在技术实现上比较简单及高效,根据当前页最后一条的偏移往后获取一页即可,在MySQL可使用以下方法实现。

  SELECT * FROM LIST_TABLE WHERE id > offset_id LIMIT n;

  由于where条件中指定了位置,根据B-TREE实现原理,算法复杂度是O(log n)

  2. 电梯方式

  另外一种数据获取方式在产品上体现成精确的翻页方式,如1,2,3……n,同时在导航上也可以由用户输入直达n页。国内大部分产品经理对电梯方式有特殊的喜好,如图

  (图:timyang.net 网站的导航条)

  但电梯方式在技术实现上相对成本较高,当使用以下SQL时

  SELECT * FROM LIST_TABLE LIMIT offset, row_count;

  我们可以使用MySQL explain来分析,从下文可以看到,当offset=10000时候,实际上MySQL也扫描了10000行记录。

  为什么会这样?在MySQL中,索引通常是b-tree方式(但存储引擎如InnoDB实际是b+tree),如图

  从图中可以看到,使用电梯方式时候,当用户指定翻到第n页时候,并没有直接方法寻址到该位置,而是需要从第一楼逐个count,scan到count*page时候,获取数据才真正开始,所以导致效率不高。对应的算法复杂度是O(n),n指offset,也就是page*count。

  另外Offset并不能有效的缓存以便转化成前一种访问模式,这是由于

  1、在数据存在新增及删除的情况下,只要有一条变化,原先的楼层可能会全部发生变化。在一个用户并发访问的场景,频繁变化的场景比较常见。

  2、电梯使用比较离散,可能一个20万条的list,用户使用了一次电梯直达100楼之后就走了,这样即使缓存100楼之下全部数据也不能得到有效利用。

  以上描述的场景属于单机版本,在数据规模较大时候,互联网系统通常使用分库的方式来保存,实现方法更为复杂。在面向用户的产品中,数据分片通常会将同一用户的数据存在相同的分区,以便更有效率的获取当前用户的数据。如下图所示

  图中的不同年份的数据的格子是逻辑概念,实际上同一用户的数据是保存在一张表中。因此方案在常见的使用场景中存在很大不足,大部分产品用户只访问最近产生的数据,历史的数据只有极小的概率被访问到,因此同一个区域内部的数据访问是非常不均匀,如图中2014年生成的属于热数据,2012年以前的属于冷数据,只有极低的概率被访问到。但为了承担红色部分的访问,数据库通常需要高速昂贵的设备如SSD,因此上面方案所有的数据都需要存在SSD设备中,即使这些数据已经不被访问。

  简单的解决方案是按时间远近将数据进行进一步分区,如图。

  注意在上图中使用时间方式sharding之后,在一个时间分区内,也需要用前一种方案将数据进行sharding,因为一个时间片区通常也无法用一台服务器容纳。

  上面的方案较好的解决了具体场景对于key list访问性能及成本的tradeoff,但是它存在以下不足

  1、数据按时间进行滚动无法全自动,需要较多人为介入或干预

  2、数据时间维度需要根据访问数据及模型进行精巧的设计,如果希望实现一个公用的key-list服务来存储所有业务的数据,这个公用服务可能很难实现

  3、为了实现电梯直达功能,需要增加额外的二级索引,比如2013年某用户总共有多少条记录

  由于以上问题,尤其是二级索引的引入,显然它不是理想中的key list实现,后文继续介绍适合长尾翻页key list设计的一些思路及尝试。

相关文章

煤气联手阿里拓云计算
views 1772
近年内地科网巨头,积极拓展云计算业务,中华煤气(0003)亦「跨界」涉足相关业务。集团旗下名气通电讯,多年来透过煤气管道铺光纤网络,并成立数据中心。昨日集团宣布与阿里巴巴合作,拓展云计算,主打中小企市场。 主打中小企市场 煤气常务董事陈永坚在活动后指出,「大数据」为未来发展趋势,故选择...
谁在用阿里云?云计算用户须知10个问题...
views 1620
云计算喊了好几年了,笔者很好奇,到底什么样的用户在使用,以及这些用户在采购和使用云计算时是基于一种怎样的场景、需求和心态?   根据工信部电信研究院在其《云计算白皮书》(2014)中披露的统计数据。在全球排名前50万的网站中,约有2%采用了公共云服务,其中80%的网站采用了亚马逊和Rackspace...
12大编程语言收入排行榜-技术博客-@大数据资讯...
views 1711
计算机软件开发或者说程序员工作已经成为收入最高的职业之一。 BI最近的一份报告显示,近两年美国软件工程师的平均年薪已经接近10万美元(下图),与之相比欧洲的软件工程师的收入要少得多,平均年薪月5.5万美元,不过比去年同期增长了9%,呈现上升势头。 但值得注意的是,不同编程语言技巧的市场价值不同,...
什么是云计算
views 1503
 云计算(cloud computing,台湾译作云端运算),是分布式计算技术的一种,其最基本的概念,是透过网络将庞大的计算处理程序自动分拆成无数个较小的子程序,再交由多部服务器所组成的庞大系统经搜寻、计算分析之后将处理结果回传给用户。透过这项技术,网络服务提供者可以在数秒之内,达成处理数以千万计甚...
中小企业如何制定云计算战略?
views 1535
各大企业都专注于通过数据中心内部操作来启用云计算。在进入2013年之后,网络将是企业IT连接数据中心的重要因素,如何调整这些跨数据中心网络来支持新的云计算用例和相关的网络要求(带宽可扩展性、低延迟性、安全性、虚拟化和自动化),是每一位CIO都应该考虑的问题。 什么因素阻碍中小企业“云”实现 如今中小...
2014年云数据安全技巧回顾 云计算
views 1435
现在,云计算可谓是IT界的宠儿,但安全方面的顾虑让它未能得到企业的青睐。本文通过对2014年五大安全技巧的回顾及介绍,希望可以帮助IT团队与这个新宠儿熟络起来。 没有人否认云计算具有的优点:灵活性、可扩展性和按使用付费,但许多人仍在争论云计算对敏感数据来说是不是一种足够安全的环境。云计算数据的安全...
智能家居与云计算关系全解
views 1546
 文中首先介绍了智能家居与云计算的概念,接着针对传统的海量数据处理方法硬件成本太高,存在计算瓶颈的问题,在云计算理论的基础上针对智能家居中的门禁系统、温湿度系统、滴灌系统和照明系统搭建了基于Hadoop的数据处理平台。可以对大量传感信息进行分布式并行处理,并根据处理结果向底层设备发送指令以实现智慧化...
云计算怎样做政府生意?
views 1324
 运行在阿里云计算上的“中国药品电子监管网”,正式通过了信息安全等级保护三级测评。  这是全国首例部署在“云端”的部委级应用系统,通过国家权威机构测评。云计算数据安全性得到证明:政府数据在慢慢迁移到云端。  阿里巴巴跟政府一些技术合作由来已久。原铁道部12306售票网站首秀之后被网民骂得狗血喷头,铁...

声明: 本文由( 爱说云网 )原创编译,转载请保留链接: 为什么社交网络中数据翻页技术复杂-技术方案

为什么社交网络中数据翻页技术复杂-技术方案:等您坐沙发呢!

发表评论


读者排行