san存储网络架构-艺龙网宕机26小时：存储系统备份架构不完善

发布时间：2018-02-14 所属栏目：大型网站系统架构

一 : 艺龙网宕机26小时：存储系统备份架构不完善

　　7月14日消息，11日下午2点到12日下午4点，艺龙旅游网出现了持续的访问故障。据了解，该事件最初是EMC存储设备出现故障，而由于艺龙网的存储结构不完善导致长时间无法修复。

　　此次事件在互联网行业的系统架构领域引发了很多的讨论，艺龙因为这次宕机事件，其网站服务和呼叫中心业务也无法进行，据一些媒体计算，艺龙网这次直接损失超过14.7万营业收入，而其对客户造成的潜在影响无法估计。

　　EMC存储出现问题引发连锁反应

　　11日下午，不断有网友反应艺龙网访问出现错误，很快，官方就出现了“系统故障，正在修复中……”的提示。对于这家以网站和呼叫中心为主要经营窗口的企业来说，此故障直接影响到业务运营。

　　12日早上8点，艺龙CEO崔广福表示，艺龙的存储系统出现故障，导致全部服务中断，崔广福称艺龙和EMC的工程师已抢修18个小时。

　　至此，不少目光集中在EMC公司上，艺龙网使用的存储产品由EMC提供，据接近现场人士透露，此次宕机也的确是存储硬件出现问题，导致数据库挂机，系统恢复需要较长时间造成。

　　12日下午呼叫中心恢复机票服务，网站服务等在4点开始恢复，到18点全部业务恢复运营。

　　备份架构不完善导致维修时间较长

　　对于艺龙网这次出现问题的原因一时众说纷纭，在不少人认为EMC硬件出现问题时，一些企业技术架构人员开始声援EMC。

　　丁香园网站CTO冯大辉在微博表示，EMC的产品不会持续到几十个小时恢复不了，而一位网友也提到，“做为EMC的竞争对手也不得不说，这不只是硬件的问题”。

　　IT服务公司中达金桥的孙巍表示，他在12日到现场参与系统恢复。从他的复述中得知，EMC存储硬件出现故障引发了整个事件，而由于艺龙对数据库的备份不足，存储层没有灾备方案，导致系统恢复缓慢，虽然硬件很快恢复正常，系统仍然无法工作。

　　据深入介绍，企业在运营平台的系统设备架构中，为了应对突发硬件、软件故障，一般需要对各个层级的系统进行备份，比如在服务器端使用双机热备，在存储层完成灾备，在软件层做冗余工作。这样任何一个环节出现问题都可以及时找到替代。

　　而在艺龙的事件中，艺龙的存储架构只预备了高性能架构的集群备份，灾备的准备依赖唯一的存储硬件，软件层也缺少冗余准备，这样存储出现问题，事先准备的灾备准备也就不起作用。

　　“把所有鸡蛋都放在一个篮子里,篮子出了问题,鸡蛋就全碎了。”孙巍这么形容。

　　存储行业的一些厂商人士在微博上纷纷表示，硬件不可能保证100%数据安全，要硬件保证不出现问题是不可能的，企业需要在架构上减少硬件出错对企业运营的影响。

　　到截稿为止，艺龙和EMC并没有回复关于此事技术过程的疑问。

　　艺龙再次停机升级或为加强存储系统

　　14日凌晨，艺龙网再次宣布停止运营7个小时，以实现系统升级。此前崔广福在微博上发出“英雄帖”，邀请咨询师、方案服务提供商、专家等为艺龙数据中心系统构架、灾备方案及运维管理会诊。这也说明艺龙对此次事件的重视。

　　业界人士认为，对于一个在线服务提供商，时刻在线和稳定性成为消费者一种信赖和依靠，而出现系统完全停止服务将对客户感受造成较大的影响。

　　据存储技术人士透露，主要的容灾技术结构已经完善，各个单位采用不同的架构主要原因还是因为成本问题。

　　也有人认为，这次的事件对于灾备行业来说将是一次促进，企业和政府单位在认识到意外发生的结果后会加大数据系统的投入。

二 : 专访吴春明：SDN改变网络现有架构风险亦存在

目前业界都在关注网络技术领域中诞生的全新架构概念——SDN网络，而它的出现也让业界一些领军厂商纷纷坐立不安，为何引起这样的情况，目前还无法给出明确的说法，但有一点可以肯定，那就是这一网络理念的提出，必将引发未来网络格局的改变。

从各厂商间不断并购、自主研发等表现来看，SDN成为2013年最为火爆的话题一点都不为过，是什么原因造成这样的情况?51CTO记者有幸与浙江大学计算机系统结构与网络安全研究所教授吴春明取得联系，为我们深入解析SDN的架构及原理。同时吴教授表示，由于其开放性，SDN也遭遇安全威胁。

专访吴春明：SDN改变网络现有架构风险亦存在_吴春明

浙江大学计算机系统结构与网络安全研究所吴春明教授

SDN改变网络现有架构

软件定义网络SDN改变网络转发与控制紧耦合的架构，作为一种全新的网络体系结构，其核心思想通过硬件设备的标准化、网络层面的控制转发分离来增强网络可编程能力，实现网络流量的灵活控制，为网络创新应用提供了良好的平台。

具体来说，SDN将有数据转发设备视为被管理的资源，通过网络操作系统(Network OS)实现逻辑上集中的管控。网络操作系统对物理网络进行了抽象,屏蔽了差异化物理网络设备的具体细节，为上层应用提供了统一的管理视图和网络编程接口。这样，基于网络操作系统这个平台，用户可以开发各种应用程序，通过软件来定义逻辑上的网络拓扑和功能，从而满足网络业务的不同需求，并且无需关心底层网络的物理拓补结构。

从行业的角度来看，SDN的出现引发了革命性影响。它让电信运营商、互联网内容提供商和终端用户都可以通过开放式可编程平台系统，极大的促进了网络增值模式的多样化以及网络路由、管理技术的进一步发展，试图为网络经济的发展构建一个良好的生态环境。

SDN助力业务高速推进

作为一个新兴的网络架构，SDN能够加速推动网络运营商和互联网内容提供商的未来业务发展。从网络运营商的角度来看，吸引新的利润增长，将网络基础架构和设施转变为面向服务的网络设备，从而丰富了网络业务提供。从内容提供商的角度来看，增强基础结构所提供的网络业务，增强网络的性能，避免企业陷入网络系统复杂性问题困扰，提高总体IT基础设施的运营能力。对于数据中心资源调度和网络控制有所优化，降低能耗，帮助企业IT业务发展，带来新的利润增长点。

如果能够将SDN、云计算和虚拟化网络有效的进行融合，那么可以极大的提升整个网络的快速运维和发展。从技术的角度而言，SDN作为一种可编程网络架构，可以推动云计算中的虚拟化、分布式、资源弹性分配等技术的应用实现，可以提高无线网络的资源管理效率。OpenFlow作为SDN控制转发分离的一种具体技术范例，通过交换机、控制器以及OpenFlow标准接口协议，增强了网络的可编程能力和网络系统管控能力，对于网络的灵活性以及伸缩性都可以进行扩展。

风险无处不在

谈到黑客问题时，吴春明教授表示，SDN是一种全新的网络架构，由于其开放性，在安全方面可能会存在很多问题，尤其是运行网络操作系统的服务器很可能将成为攻击目标。当然从逻辑角度看，逻辑集中控制也可能避免传统网络中的一些不稳定性，如OSPF和RIB等动态路由系统对路由控制带来的不稳定因素。传统网络中RIB Poisoning, Sybil和DoS等形式的攻击非常普遍，动态路由对网络控制系统带来的不确定性、复杂性等也会产生若干网络安全问题。SDN逻辑集中的网络控制模式，能够避免传统的完全分布式路由系统的复杂性，可以灵活地提供多样化的路由策略，但若控制器收到攻击，也会对网络的运行带来灾难。

总体而言，任何新兴的技术都将是风险与优势并存的，只有随着时间的推移，技术的不断完善，最终将一些可控性因素与非可控性因素逐步解决，并慢慢的与云计算、网络虚拟化、智能控制等技术相融合，最终达到网络管理的高效、网络资源利用的高效、网络业务提供的高效!

三 : 海内网附件存储架构全新升级为对象存储

10月21日，海内网附件存储架构全新升级，海内网附件存储系统正式切换为腾讯云对象存储Cloud Object Service（简称cos），新版对象存储是基于腾讯多年海量服务经验，对外提供的可靠、安全、易用的海量存储服务。(www.61k.com]遍布全国的加速节点为用户提供高质量的上传与下载。

此次升级，海内网附件存储空间将扩展为无限容量，同时具备与qq空间相同的底层存储架构与图片处理能力。在大数据时代，我们将不遗余力的根据用户需求进行一系列技术升级，旨在为用户提供稳定、安全的互联网言论环境。

海内网海内网附件存储架构全新升级为对象存储

一、对象存储cos的优点

总体上来讲，对象存储同兼具SAN高速直接访问磁盘特点及NAS的分布式共享特点。对象存储结构的核心是将数据通路(数据读或写)和控制通路(元数据)分离，并且基于对象存储设备(Object-based Storage Device，OSD)构建存储系统，每个对象存储设备具有一定的智能，能够自动管理其上的数据分布。

二、对象存储的架构

1、对象

存储中的对象是系统中数据存储的基本单位，一个对象实际上就是文件的数据和一组属性信息(Meta Data)的组合，这些属性信息可以定义基于文件的RAID参数、数据分布和服务质量等，而传统的存储系统中用文件或块作为基本的存储单位，在块存储系统中还需要始终追踪系统中每个块的属性，对象通过与存储系统通信维护自己的属性。在存储设备中，所有对象都有一个对象标识，通过对象标识OSD命令访问该对象。通常有多种类型的对象，存储设备上的根对象标识存储设备和该设备的各种属性，组对象是存储设备上共享资源管理策略的对象集合等。

2、对象存储设备

对象存储设备具有一定的智能，它有自己的CPU、内存、网络和磁盘系统，OSD同块设备的不同不在于存储介质，而在于两者提供的访问接口。OSD的主要功能包括数据存储和安全访问。目前国际上通常采用刀片式结构实现对象存储设备。OSD提供三个主要功能：

（1）数据存储。OSD管理对象数据，并将它们放置在标准的磁盘系统上，OSD不提供块接口访问方式，Client请求数据时用对象ID、偏移进行数据读写。

（2）智能分布。OSD用其自身的CPU和内存优化数据分布，并支持数据的预取。由于OSD可以智能地支持对象的预取，从而可以优化磁盘的性能。

（3）每个对象元数据的管理。OSD管理存储在其上对象的元数据，该元数据与传统的inode元数据相似，通常包括对象的数据块和对象的长度。而在传统的NAS系统中，这些元数据是由文件服务器维护的，对象存储架构将系统中主要的元数据管理工作由OSD来完成，降低了Client的开销。

3、元数据服务器(Metadata Server，MDS)

MDS控制Client与OSD对象的交互，主要提供以下几个功能：

(1) 对象存储访问。

MDS构造、管理描述每个文件分布的视图，允许Client直接访问对象。MDS为Client提供访问该文件所含对象的能力，OSD在接收到每个请求时将先验证该能力，然后才可以访问。

(2) 文件和目录访问管理。

MDS在存储系统上构建一个文件结构，包括限额控制、目录和文件的创建和删除、访问控制等。

(3) Client Cache一致性。

为了提高Client性能，在对象存储系统设计时通常支持Client方的Cache。由于引入Client方的Cache，带来了Cache一致性问题，MDS支持基于Client的文件Cache，当Cache的文件发生改变时，将通知Client刷新Cache，从而防止Cache不一致引发的问题。

4、对象存储系统的客户端Client

为了有效支持Client支持访问OSD上的对象，需要在计算节点实现对象存储系统的Client，通常提供POSIX文件系统接口，允许应用程序像执行标准的文件系统操作一样。

三、对象存储文件系统的关键技术

1、分布元数据传统的存储结构元数据服务器通常提供两个主要功能。

(1)为计算结点提供一个存储数据的逻辑视图(Virtual File System，VFS层)，文件名列表及目录结构。

(2)组织物理存储介质的数据分布(inode层)。对象存储结构将存储数据的逻辑视图与物理视图分开，并将负载分布，避免元数据服务器引起的瓶颈(如NAS系统)。元数据的VFS部分通常是元数据服务器的10%的负载，剩下的90%工作(inode部分)是在存储介质块的数据物理分布上完成的。在对象存储结构，inode工作分布到每个智能化的OSD，每个OSD负责管理数据分布和检索，这样90%的元数据管理工作分布到智能的存储设备，从而提高了系统元数据管理的性能。另外，分布的元数据管理，在增加更多的OSD到系统中时，可以同时增加元数据的性能和系统存储容量。

2、并发数据访问

对象存储体系结构定义了一个新的、更加智能化的磁盘接口OSD。OSD是与网络连接的设备，它自身包含存储介质，如磁盘或磁带，并具有足够的智能可以管理本地存储的数据。计算结点直接与OSD通信，访问它存储的数据，由于OSD具有智能，因此不需要文件服务器的介入。如果将文件系统的数据分布在多个OSD上，则聚合I/O速率和数据吞吐率将线性增长，对绝大多数Linux集群应用来说，持续的I/O聚合带宽和吞吐率对较多数目的计算结点是非常重要的。对象存储结构提供的性能是目前其它存储结构难以达到的，如ActiveScale对象存储文件系统的带宽可以达到10GB/s。

61阅读提醒您本文地址：

四 : 解析Instagram网站的图片存储架构

被Facebook以10亿美金收购的著名手机照片分享应用Instagram最近吸引了无数人的眼球，Instagram联合创始人Mike Krieger说他们用了8周时间打造了最初的Instagram，但现在的系统肯定已经今非昔比。Instagram技术团队曾发表过一篇文章，介绍了Instagram背后的技术，日前Mike Krieger在名为Scaling Instagram的演讲里，又介绍了更多细节，让人们能了解到5名技术人员是如何支撑起整个系统的。

一张照片上传的过程是这样的：

1.采用同步的方式写入媒体数据库
2.如果照片上有地理位置标签，则以异步的方式将照片提交给Solr进行索引
3.将照片的ID加入每个关注者的列表里，该列表保存在Redis之中
4.在显示Feed时，选取一小部分照片ID，在Memcached里进行查询
5.在设计系统时，Instagram的设计哲学是简单、为最小化运维负担进行优化并监控一切内容；其核心原则是保持简单，不要重复发明轮子，尽可能使用经过验证、稳定可靠的技术。

由于只有5名技术人员（其中仅2.5名后端工程师），精力有限，选择Amazon的云服务是个不错的选择。目前他们使用了超过100个EC2实例用于提供各种服务，运行的操作系统是Ubuntu 11.04，之前的一些版本在高流量时表现不够稳定。在负载均衡方面，他们使用Amazon的Elastic Load Balancer实现负载均衡，后端运行了3个Nginx实例，SSL只到ELB上为止，降低了Nginx上的CPU负载。DNS和CDN分别由Amazon的Route 53和CloudFront提供，所有的照片都存放在S3上，目前已经有几TB的规模了。

用于处理请求的应用服务器运行于Amazon High-CPU Extra-Large Instance之上，由于他们的请求更多是CPU密集型的，因此这能更好地平衡CPU与内存。采用的开发框架是Django，WSGI服务器是Gunicorn，通过Fabric在所有机器上进行并行部署，一次部署仅需几秒钟。

用户信息、图片元数据、标签等大部分数据存储在 PostgreSQL 中。
实践中发现 Amazon 的网络磁盘系统单位时间内寻道能力不行，所以有必要将数据尽量放到内存中。创建了软 RAID 以提升 IO 能力，使用的 Mdadm 工具进行 RAID 管理。
管理内存中的数据，vmtouch 这个小工具值得推荐。
PostgreSQL 设置为 Master-Replica 方式，流复制模式。利用 EBS 的快照进行数据库备份。使用 XFS 文件系统，以便和快照服务充分配合。使用 repmgr 这个小工具做 PostgreSQL 复制管理器器。
连接池管理，用了 Pgbouncer。Christophe Pettus 的文章包含了不少 PostgreSQL 数据库的信息。

应用程序在连接数据库时，由Pgbouncer建立连接池。目前，Instagram的数据按照用户ID进行分片，某些分片可能会超出物理节点的容量上限，为此他们将数据分成了很多个逻辑分片，映射到少数几个物理节点之上；当一个节点被填满之后，可以将某些逻辑分片移到别的节点上，以缓解该节点的压力。随着数据量的增长，以后他们也会进行垂直分区，Django DB Router能让一切轻松不少。

Instagram也大量使用Redis来存放复杂的对象（对象的大小做了一定的限制），用于主Feed、活动Feed、会话系统及其他相关系统。因为要将Redis的所有数据都放在内存里，此处同样也用了High-Memory Quadruple Extra-Large Instance，并对数据做了分片。当Redis实例的请求达到4万/秒后，它渐渐成为了瓶颈，于是Redis也做了主从复制，副本的数据会经常导出到磁盘上，通过EBS快照进行备份。

除了Redis，他们还使用Memcached来做缓存，目前运行了6个实例，应用服务器通过pylibmc和libmemcached进行连接。虽然Amazon提供了Elastic Cache服务，但该服务的价格并不便宜，相比之下，还是运行自己的Memcached实例比较划算。异步任务队列使用的是Gearman，目前有大约200个工作进程来处理各种任务，比如把照片分享到Twitter和Facebook，通知用户有新照片等等。Pyapns已经处理了十亿的推送通知，非常稳定，他们还自己开发了基于Node.js的node2dm，用于向Android设备发送推送通知。

监控方面，Instagram使用Munin以图形化的方式呈现整个系统的运行状况，还通过Python-Munin定制了一些插件，用来显示业务数据；网络守护进程Stated可以实时收集数据并做汇总；Dogslow会监控进程，一旦发现运行时间过长的进程，便会保存该进程的快照，以便后续分析，比如响应时间超过1.5秒的请求，通常都是卡在Memcached的set()和get_many()方法上。对于Python的错误，只要登上Sentry就能实时获取错误信息。

HighScalability上还根据整理Instagram团队软件工程师Mike Krieger的演讲整理了一些值得借鉴的经验，比如：

1.找那些你熟悉的技术和工具，在简单的使用场景里先做一些尝试
2.不要使用两个工具来处理同样的任务
3.事先准备降级方案，以便在需要时降低负载
4.不要过度优化，或者希望能事先知道站点要扩展，对于一个初创的社交站点而言，没什么扩展性问题是解决不了的
5.如果一个办法不行，赶快换下一个

五 : 艺龙网宕机26小时主因：存储系统备份架构不完善

网易科技讯 7月14日消息，11日下午2点到12日下午4点，艺龙旅游网出现了持续的访问故障。据了解，该事件最初是EMC存储设备出现故障，而由于艺龙网的存储结构不完善导致长时间无法修复。

EMC存储出现问题引发连锁反应

12日早上8点，艺龙CEO崔广福表示，艺龙的存储系统出现故障，导致全部服务中断，崔广福称艺龙和EMC的工程师已抢修18个小时。

12日下午呼叫中心恢复机票服务，网站服务等在4点开始恢复，到18点全部业务恢复运营。

备份架构不完善导致维修时间较长

对于艺龙网这次出现问题的原因一时众说纷纭，在不少人认为EMC硬件出现问题时，一些企业技术架构人员开始声援EMC。

“把所有鸡蛋都放在一个篮子里，篮子出了问题，鸡蛋就全碎了。”孙巍这么形容。

到截稿为止，艺龙和EMC并没有回复关于此事技术过程的疑问。

艺龙再次停机升级或为加强存储系统

业界人士认为，对于一个在线服务提供商，时刻在线和稳定性成为消费者一种信赖和依靠，而出现系统完全停止服务将对客户感受造成较大的影响。

据存储技术人士透露，主要的容灾技术结构已经完善，各个单位采用不同的架构主要原因还是因为成本问题。

也有人认为，这次的事件对于灾备行业来说将是一次促进，企业和政府单位在认识到意外发生的结果后会加大数据系统的投入。（王杰聪）

【相关报道】

艺龙网今晨再度中断服务官网称系统正在升级

本文标题：san存储网络架构-艺龙网宕机26小时：存储系统备份架构不完善
本文地址： http://www.61k.com/1124016.html

61阅读

san存储网络架构-艺龙网宕机26小时：存储系统备份架构不完善

网站运营

网络频道

建站经验