为什么社交网络中数据翻页技术复杂-技术方案

时间:14-12-15 栏目:大数据作者:爱说云网评论:0 点击: 1,547 次

最近讨论的一个传统的问题，问题本身比较简单，针对key-list类型的数据，如何优化方案做到性能与成本的tradeoff。Key-list 在社交产品及面向用户的产品中非常普遍，如一个用户的好友关系 {“uid”:{1,2,3,4,5}}，表示某个uid有1,2,3,4,5好友;一条微博下面的评论id列表结构是 {“weibo_id”: {comment_id1, comment_id2……}}，一个用户发表的微博id列表等。

　　在list长度较小时，我们可以直接使用数据库的翻页功能，如

　　SELECT * FROM LIST_TABLE LIMIT offset, row_count;

　　根据经验，在大部分场景下，单个业务的list数据长度99%的情况在1000条以下，在数据规模较小时，上面的方法非常适合。但剩下的1%情况下，数据可能多达100万条，在数据规模较大的时候，当访问offset较大的数据集，上述方法非常低效。但在考虑方案的时候不能忽视这些超大数据集的问题，因此要实现一个适合各种变长list场景的翻页方案，业界并没有简单高效的方案。这也反映出常说的80%的时间在优化20%的功能。

　　List数据访问模型常见的有两种方式

　　1. 扶梯方式

　　扶梯方式在导航上通常只提供上一页/下一页这两种模式，部分产品甚至不提供上一页功能，只提供一种“更多/more”的方式，也有下拉自动加载更多的方式，在技术上都可以归纳成扶梯方式。

　　(图：blogspot的导航条)

　　(图：很多瀑布流式的产品只提供一个more的导航条)

　　扶梯方式在技术实现上比较简单及高效，根据当前页最后一条的偏移往后获取一页即可，在MySQL可使用以下方法实现。

　　SELECT * FROM LIST_TABLE WHERE id > offset_id LIMIT n;

　　由于where条件中指定了位置，根据B-TREE实现原理，算法复杂度是O(log n)

　　2. 电梯方式

　　另外一种数据获取方式在产品上体现成精确的翻页方式，如1,2,3……n，同时在导航上也可以由用户输入直达n页。国内大部分产品经理对电梯方式有特殊的喜好，如图

　　(图：timyang.net 网站的导航条)

　　但电梯方式在技术实现上相对成本较高，当使用以下SQL时

　　SELECT * FROM LIST_TABLE LIMIT offset, row_count;

　　我们可以使用MySQL explain来分析，从下文可以看到，当offset=10000时候，实际上MySQL也扫描了10000行记录。

　　为什么会这样?在MySQL中，索引通常是b-tree方式(但存储引擎如InnoDB实际是b+tree)，如图

　　从图中可以看到，使用电梯方式时候，当用户指定翻到第n页时候，并没有直接方法寻址到该位置，而是需要从第一楼逐个count，scan到count*page时候，获取数据才真正开始，所以导致效率不高。对应的算法复杂度是O(n)，n指offset，也就是page*count。

　　另外Offset并不能有效的缓存以便转化成前一种访问模式，这是由于

　　1、在数据存在新增及删除的情况下，只要有一条变化，原先的楼层可能会全部发生变化。在一个用户并发访问的场景，频繁变化的场景比较常见。

　　2、电梯使用比较离散，可能一个20万条的list，用户使用了一次电梯直达100楼之后就走了，这样即使缓存100楼之下全部数据也不能得到有效利用。

　　以上描述的场景属于单机版本，在数据规模较大时候，互联网系统通常使用分库的方式来保存，实现方法更为复杂。在面向用户的产品中，数据分片通常会将同一用户的数据存在相同的分区，以便更有效率的获取当前用户的数据。如下图所示

　　图中的不同年份的数据的格子是逻辑概念，实际上同一用户的数据是保存在一张表中。因此方案在常见的使用场景中存在很大不足，大部分产品用户只访问最近产生的数据，历史的数据只有极小的概率被访问到，因此同一个区域内部的数据访问是非常不均匀，如图中2014年生成的属于热数据，2012年以前的属于冷数据，只有极低的概率被访问到。但为了承担红色部分的访问，数据库通常需要高速昂贵的设备如SSD，因此上面方案所有的数据都需要存在SSD设备中，即使这些数据已经不被访问。

　　简单的解决方案是按时间远近将数据进行进一步分区，如图。

　　注意在上图中使用时间方式sharding之后，在一个时间分区内，也需要用前一种方案将数据进行sharding，因为一个时间片区通常也无法用一台服务器容纳。

　　上面的方案较好的解决了具体场景对于key list访问性能及成本的tradeoff，但是它存在以下不足

　　1、数据按时间进行滚动无法全自动，需要较多人为介入或干预

　　2、数据时间维度需要根据访问数据及模型进行精巧的设计，如果希望实现一个公用的key-list服务来存储所有业务的数据，这个公用服务可能很难实现

　　3、为了实现电梯直达功能，需要增加额外的二级索引，比如2013年某用户总共有多少条记录

　　由于以上问题，尤其是二级索引的引入，显然它不是理想中的key list实现，后文继续介绍适合长尾翻页key list设计的一些思路及尝试。

大数据应用–实时路况数据

现在手机上装个导航软件，如高德地图，百度地图等等都有实时路况显示，导航和道路规划可以根据实时路况来实施，从而动态躲避拥堵，为出行节省时间，为了显示实时路况就必须有路况数据，今天来说下实时数据的获取方法。一般来说有以下几种典型数据来源获取方法： 1、实时路况数据最主要的收集方式，还是浮动车。这个浮动车...

云计算到底哪家强？

从全球市场看，微软Azure+谷歌GCE+IBM的Softlayer+阿里云，四家的市场份额加起来也不及Amazon AWS。微软Azure强在哪？技术储备。Amazon AWS虽然全球员工很多人，但是最核心的工程师也就几十个，而这种技术级别的在微软，可以说是一抓一大把。而且你看，现在的很多A...

小镇故事：以云计算之名

浙江杭州西湖区转塘镇，地处西湖南部，东濒钱塘江，西至灵山，南临富春江，北望西湖。有民间歌谣这样形容转塘的历史变迁：“春秋战国，一片汪洋；吴越水师，定山战场；山河变迁，沧海见陆梁。” 沧海变桑田的转塘，如今又悄然发生了新的变化。与云计算结缘杭州是全国...

未来之家里，物联网的四个趋势

我们在影视作品中见识过不少关于“未来家庭”的想象。早晨起床，被智能闹钟唤醒，面包机和咖啡机已经做好热气腾腾的早餐，浴室的水加热到刚好的温度……21 世纪初，比尔盖茨就在《未来之路》一书中写道： “我要建造一栋适应复杂科技变化的房子，但技术不能喧宾夺主，它需要像‘仆人’一样为服务主人而存在。” 比尔...

云计算进汽车厂，或改变汽车制造模式...

从今年第六届云计算大会中为制造业专设的技术论坛，到国家对于制造业的信息化建设，都体现着制造业的地位与价值。制造业包含的内容很广，这其中以汽车制造最为典型。中国作为汽车大国，在2014年汽车的保有量达到了1.4亿辆，虽然数量巨大，但中国汽车制造业的水平与国外相比并不成熟。制造创新能力以及产业链的整合优...

构建云计算必读的十大云经典案例部署...

1。以增加销售为目的的内部云　　EMC对云的态度不仅仅是“炒作”。EMC利用自身的存储硬件以及数据管理软件，并结合戴尔服务器以及VMware虚拟软件搭建了一个内部的私有云模型，并通过虚拟桌面为其内部员工提供云服务。　　EMC的私有云模型提供了从硬件...

IDC预测2015十大科技趋势：中国与亚马逊成主导...

北京时间12月4日上午消息，美国市场研究公司IDC今天发布研究报告，对2015年的科技行业进行了展望，认为“第三平台”的创新速度将会加快。　　IDC所谓的“第三平台”可以追溯回2007年，指的是基于云计算、大数据、移动设备和社交媒体的下一代软件。“第三平台”的增长也成为本次预测的主要着力点，但除此之...

云计算思想的产生

传统模式下，企业建立一套IT系统不仅仅需要购买硬件等基础设施，还有买软件的许可证，需要专门的人员维护。当企业的规模扩大时还要继续升级各种软硬件设施以满足需要。对于企业来说，计算机等硬件和软件本身并非他们真正需要的，它们仅仅是完成工作、提供效率的工具而已。对个人来说，我们想正常使用电脑需要安装许多软件...

声明: 本文由( 爱说云网 )原创编译，转载请保留链接: 为什么社交网络中数据翻页技术复杂-技术方案