请选择 进入手机版 | 继续访问电脑版

ITIL,DevOps,ITSS,ITSM,IT运维管理-ITIL先锋论坛

 找回密码
 立即注册

扫描二维码登录本站

QQ登录

只需一步,快速开始

查看: 1869|回复: 0

一起看看-基于 DevOps 理念的私有 PaaS 平台实践

[复制链接]
发表于 2018-10-16 16:32:20 | 显示全部楼层 |阅读模式
本帖最后由 adminlily 于 2018-10-16 16:51 编辑 0 o( u" Z5 V# n4 w; z$ y  P
: O3 y3 F# \! }7 {0 G
前言
. w" z7 p  z8 j0 l( |4 A) C! y
2 h6 Q( q0 s+ O! T
9 R. p& S& f2 h" D2 @
云计算从2006年 AWS 推出 EC2开始,至今已经10年,从最开始多数人不清楚云计算为何物,到如今,大到 BAT等互联网公司,传统金融、证券、制造业企业,小到初创企业,都在积极推进云计算战略,以此加快业务交付效率,降低成本、提升竞争力。云计算的首要目的是将底层硬件抽象化,向上提供计算资源,存储资源,网络资源。

. P/ I* f% I* q" f* u: G

) U; H4 \2 K) `; @3 c
其关键核心是提高了IT业务交付效率,使企业花费更少的钱,办更多的事情,同时满足质量,安全的需求。在云计算大潮下,企业内IT部门,需结合自身的业务特点,思考提供怎样的云计算基础设施服务(IaaS),以及基于 IaaS又提供怎样的 PaaS ,才能满足企业对于质量,效率,成本,安全四元组合的最佳要求,是摆在每一个运维从业者面前的问题。

8 G2 x* }0 `! n" T7 ?! Y
$ \" \( ?' g: X+ y4 N
YY 互娱基于 ITILxf.com" target="_blank" class="relatedlink">DevOps 理念,并结合 ITIL 最佳实践理念,从13年开始推出自己的IaaS,基于自身条件,推出一套符合企业内部要求的私有 PaaS 运维平台,并在实践中不断的改进完善IaaS,PaaS。本文将系统的从4个方面,分享YY互娱运维团队对于 PaaS 运维平台实践经验及未来展望,希望对大家有一些参考意义。

% C3 {! u( Z" E0 X; j" j  o2 `: O
0 |0 z% B5 I4 Z3 [# }+ h! ^- o
, Q0 l. ^( O+ ~5 e/ E
一、 运维价值体系

  v' n) A' W1 z1 D& _: O
% d$ K2 O$ M3 ]' A* s$ p" _: L
说到运维,还得从运维的价值体系说起。运维的价值体系,从四个维度来概括,即质量,效率,成本,安全。这体现的是一个经济问题,是运维部门总结工作时,公司高层能听得懂的语言。我们从事一切运维工作,大到公司运维平台体系构建,小到某项具体运维工作,最终将从这4个维度的数据来衡量,因此,运维工作应该以提高业务的质量,效率为出发点,在成本和安全中寻求最佳平衡点。在云计算的形式下,应当以自动化,服务化等技术手段为依托,数据化,可视化体现运维的价值输出。
1.png

# [2 P/ C  v. O

7 V: c& k9 @7 k, Y+ ~. H4 j- v: v! N$ U1 x1 V

0 M1 J/ R6 P9 T4 R二、 运维平台化方式
3 q' y: ?3 r- A/ p; W5 _

+ G6 Q( X. _' {0 S
纵观整个运维技术的发展历程,运维平台化体系建设,我们认为主要有以下3种形式。
# ]3 {: {0 R( l  p( j% ^$ R
2 m4 k# o0 h) ?* o/ [, q
1. 面向流程) Q& S" R" ?* v7 M  A8 Z
% E0 W/ f4 A/ ~- c/ _6 @1 H
# K: C2 Q/ {. i- L) L
提供独立的工具子系统,再将工具 API 化,向上提供整合能力。
1.png
  l$ D5 t; t4 r% S" ^

  g7 A. m" q- B2 Q6 f) `
上面这种运维平台模式,是典型的以 ITIL 最佳实践为参考的运维体系建设。我们从一个常见的业务上线场景说起,来看看这种模式的特点。

! G1 @3 ^. D+ g2 Y- Q# M
; M* n5 n1 Z! t& y$ A: }
假如一个 Web 业务需要上线,需要服务器资源,需求人(开发或者业务运维)需要到 CMDB 查看是否有空闲资源,若有,则到“服务器申请”流程里面提一个工单,经过一个审批流程(至少3个审批节点),拿到服务器。

3 k; I( v$ [3 V+ G/ o
' b  R; c- ~1 A
同样,业务上线还需要数据库,需要缓存,需要 DNS 解析,需要开通权限,需要添加监控等等,需求人都必须到相应的系统提单,才能完成需求。这样的流程体系下,对于需求的管理方是比较好的,各类需求,资源都可以较好的记录以及控制。
4 Y7 S, T- @) X6 {6 [

# r8 [/ b2 w: V6 ]4 H" y
但对于核心的业务上线,变更、即面向用户的价值交付,效率很低,业务上线周期长,人力成本高。
3 i' ]' i# S" I, z

2 M$ G) ?  |6 Y$ U7 i' \2 a% N; A& Q
ITIL 最佳实践中总共包括六大操作流程五大服务支持流程,流程都包括五大要点:流程目标、基本概念、主要活动、好处与风险,以及关键绩效指标与报表。以流程为导向建设运维体系,在互联网时代本身变化极快,不断试错,追求敏捷高效的目标冲突越来越大。

2 y, z' k: I! L! [( Y* `/ C; j' r
' T0 G% \. B' P% X7 l& T7 s+ e
ITIL 面向流程的运维体系亟需改进,而改进的方向,即面向业务的服务化方向改进。
9 q& [  O! k* }4 R" d6 v7 z

& T, J4 x- o" B: L% e
2. 面向服务: h- |( o* O/ _6 S
- f! s' E' b/ ?& e  X
& `2 M7 J# j( s
基础组件API 化(IaaS化),向上提供整合能力,再做面向运维的集中信息管理,配置管理,变更管理等。
1.png
1 z' _3 k" z& z) X* J

5 J# K& q2 g: w6 \
如上图所示,我们仍旧以一个 Web 业务上线的场景,来进行说明。
$ Y% e9 L; s8 B/ H  y" }$ w7 Y+ v

5 l' \& R) a/ }; v
面向服务的运维平台,首先需要构建底层资源的 IaaS 化,API 化。有了 IaaS化,我们就具备了提供一个一站式的运维平台的基础能力。在这样的运维平台上,业务上线需要数据库资源,平台提供对应的实例配置套餐,一键创建并返回给用户。
! q  X& M7 |  m! D% u

/ n+ v3 d- \/ O3 A& I  R5 z
同样,制定一套标准的发布规范,实现自动化部署,业务在发布的时候,从 IaaS 资源池自动分配服务器。其他的资源,如 CDN,域名解析等,同样可以在平台上自助完成。
( L- S8 w: W1 S( A; Z, [3 w( W0 ~

# ?/ b! n4 g, M
这样,业务上线的流程,全部以自动化,自助的方式完成。再往前,平台与持续集成,自动化测试平台进行对接,即可完成自动化测试,并根据自动化测试结果来决定是否进行发布。

5 J2 h/ W  d/ y* n8 J  o
: ~3 e0 y9 l% M
这里面主要是以 DevOps 的理念来构建运维平台,这个方式也是我们的实践方式,后续内容将详细描述。

% o+ `$ ?0 Q, T6 @1 T

3 d' u$ d4 w4 T4 b
3. “拿来主义”4 k) k$ Q& Y2 F9 ?. |  Y7 R
2 j" f9 Q- `) T, _
+ C9 l9 B5 e& S7 L! q
1.公有云平台

7 }2 Y# i  n" u1 j" x5 N, D( ?
# {- t; r+ X: b+ v4 R
公有云平台提供了完备的基础资源和强大的功能特性,且具体完善的 API,一般创业公司完全可以基于公有云平台进行运维平台化管理,无需自己再去开发一套运维管理平台,也没有能力去开发。不过一旦公司做大,考虑到单一供应商的风险,势必考虑至少两家云平台的资源,甚至可能还存在自有数据中心,这样就面临着混合云管理需求。1 ?3 N! w: c$ c) D
. a: [  w1 a  Y$ ~) ^5 S
, l3 f0 c& R' ~( V
2.ITSM 商业软件) R& V! X7 Y* r7 z0 h

6 @& V* W/ M# b6 k# j& u. L. G5 E! n$ K% v/ R+ ~% z& @
在云计算和 DevOps 驱动下,当前也有商业的ITSM 管理软件,提供一站式运维管理平台软件或者服务,而不是提供离散的 ITSM 管理套件。这类软件,在互联网+的时代,对于传统行业的 IT 部门转型升级会非常有帮助。
/ h7 J! `/ |" R/ `: r( i, e" r
1.png

3 N$ U- k" j( G) _$ i6 I

+ ~* D) l6 O8 l3 r1 f2 c. [0 s
9 F# J. Y1 {( `6 @( V4 Y4 b- t
8 F' r7 c3 ~) B' D( V
. B/ K9 d4 B/ R( |

  h+ w8 n% I( c2 S; I三、 YY互娱 - PaaS 运维平台理念和实践
业务场景
4 A6 a! A" c5 n: M

$ u8 x3 }& l- M& I, Q0 h
YY 互娱在这几年处于高速发展的过程,即要稳固拓展 PC 端的市场,又需要在移动端寻求突破,业务场景:
1.png
   

& t( Q8 Z: V3 B- d) K9 {: y$ P8 z
1. 快速试错
) Z# ~. i) b' w0 U8 Q  e9 C

, z! k! Y' v- H2 ]  w' o
互联网时代竞争激烈,特别是移动互联网时代,谁能快速推出产品,快速迭代,谁就能在市场上占得先机。快速试错是一种常见的竞争手段。PaaS 平台的业务交付运行模式,最大特点就是效率高,成本低,可以很好的满足快速试错的业务需求。
   
. ?  M5 |" y& O
2. 人力不足

; L( Q1 I. s4 `1 O0 N+ j) K. T

! C) f& i8 A0 |3 z$ j
长期以来,互联网企业在运维方面的人力投入是不够的,很多时候是扮演的救火员的角色,PaaS 在平台层面提供一站式运维服务,高可用架构质量保障,减少业务上线对运维人员的依赖,在不需要运维人员介入,开发人员自己就可以上线业务,并持续迭代。
基于 IaaS 的 PaaS 平台,将硬件环境与软件环境进行了解耦,也降低了硬件故障对线上业务的影响,释放了运维自身的压力。
   

, T- j& g) @& g/ o
3. 成本压力
7 N! x, {% U6 t& [5 z
5 i  [! w9 `0 Q. B
业务上线需求多,如果按传统的方式提供物理资源,对资源的需求量极大,而业务的访问量,生命周期不可预测,造成硬件资源利用率低。很多时候通过混合部署业务,提高硬件资源利用率,造成后期维护成本非常高。
3 A" K# O. ]; _3 K
5 a3 F2 H4 G3 F! T+ V
平台理念
8 W" z. t0 b4 `9 c
2 I) m" B7 n2 [  f& N4 j
基于上面的业务场景,以及云计算的大背景,YY 互娱技术团队基于 OpenStack ,推出自己的 IaaS平台,主要面向游戏业务的云计算平台。基于 IaaS能力,逐步构建自己的PaaS平台。
5 y/ u) E- d9 T" {0 b
4 g, S, `) w% P8 `' N8 I, u& z- i/ X
我们的平台理念是:运维技术服务化,转化为生产力。平台提供高可用高性能高质量的基础架构服务,满足业务的快速交付。平台提供一系列的工具,组件,来支撑开发人员自助式运维。
+ y! v: l* ~8 N4 h4 a2 z# D

$ e1 v# h2 Y) N$ Q
开发人员只要使用平台,无需找到运维人员,就能应用运维的能力,如高可用,弹性伸缩,配置管理,容灾备份等能力,达到 NoOps 的目的,减少开发、运维不必要的沟通成本,使开发人员专注于业务开发。
; h- x! d' l6 Z9 G. ~, s  k

: _+ A+ D& M; r% ^  C: p
执行 DeoOps 理念,平台将开发、测试,运维流程自动化打通,将持续集成,自动化测试的能力以服务化的方式输出到平台。最终,将业务价值交付涉及的各种能力,通过平台输出到业务,达到技术服务转化为生产力的目标。
1.png

5 p: X$ y" R5 r1 B2 b1 Q# b2 E- L6 `7 G& P) r$ _
$ F5 H/ \) y. g2 Q
实践历程

' Y6 b( r9 Z$ y9 a& N* \+ V# I0 `  |) @- E
# i" b' e& ]4 T
1. 整体架构

. i" m( ^: ~( }2 x

/ L5 f: P" S3 _% o$ m0 K+ z, C2 k
PaaS运维平台的整体架构:
1.png

" R' C& o' R7 M1 P' V7 M; s) @8 }5 f- C2 B4 I
, ~% H) X$ m( t4 |: ]' d" U! B+ r1 @
两种颜色代表两个视图,蓝色部分代表从业务维度的视图,即从PaaS平台用户的维度看到的架构。灰色部分代表从运维自身的视图,即运维全局的视图。

8 H4 L* x$ K' G- n& U& ^
$ p) s3 E$ G5 \0 e& t
从业务维度的视图,大概分为4层,从下而上,面向服务,包括硬件层,IaaS,PaaS和业务层。
; J2 e2 W4 `9 h* K/ z3 x) |5 Y
, e4 E, `0 v9 D9 l8 B' B) _
从运维自身的视图,包括全局资源中心,监控中心,数据源中心,报表中心,安全体系等。
9 B) i3 L/ Q* v4 }

1 w; r5 V3 ^0 o
接下来的篇幅,主要把面向业务的各个核心组件及实践做介绍。

9 Y  x) W* m3 _5 D; e9 o
! F# N, g+ [8 c* B+ v: h# y- D
2. 标准化

8 G3 v% H; |: P0 v& R
3 J1 Y% ~& w( S7 d4 K% o. R
标准化是运维自动化的基础,PaaS 平台的标准将以系统化,自动化的方式落地。

3 ?6 I( y# z1 I; Y
: e- D9 a) @9 p# h7 Q
标准化主要包括这些规范:

+ O) S8 I( F6 R! |/ H
9 W' D$ V9 {' o6 V( \3 ^$ e6 M
  • 基础应用软件规范(Nginx,Resin,Tomcat等)
    * z1 f7 I- L4 K9 Z+ A/ _! D3 W

6 c, `$ G; x6 ~1 D; L! C2 f8 O; t! D- z$ _6 k# n8 B0 D
  • 应用程序打包规范(Java,PHP)

    / b5 s- {! E/ C2 N' i0 _5 T5 x
: ?7 r! |% I! s/ _# Y, ^3 v5 o

9 O& J# S" S2 N: k
  • 应用程序部署规范
    : D! |2 h) N- k0 `4 M- ~6 b* ]
    , Z2 N; v+ k6 T& h9 U
7 V, |# t& ]/ U1 g# D5 f! S& m  o
  • 监控规范

    , q+ c2 [; D% j' q9 ]: G5 x* r/ S
$ L4 ?1 A& m9 {% L5 j( R/ H8 {

7 o8 \: N" h, F4 ]& u1 Z- E& C. e. z
  • 其他

    % U3 C3 e( f$ H# K- ?4 ]! s

    ( z! V9 P) r8 }! ^* J+ |" C
" D6 E, p" s2 j  Z0 u( M3 y. P
以上规范,全部落地到PaaS 平台的各个子系统,由子系统自动化完成。比如对VM 环境的标准化,通过 VM 镜像方式交付。
5 q# W& h8 R$ ?( k' c# Y
/ i8 l! u- Z& ^$ i/ j4 B
3. IaaS

, n( a2 C. U# G5 m9 P

$ |" u# n/ `  F) L0 w! s' W7 c
我们的 IaaS 层提供了以下服务,来满足我们的应用上线。

6 h% O! k' n$ s' I. e2 B

/ G1 u) W% c6 x0 i计算虚拟化" ]: h% p3 N8 r: b/ e/ E+ j0 M; m

- Z2 `4 V/ |& g/ x5 t1 s$ o# i8 C7 R3 g
计算虚拟化部分,我们这里使用 VM,将 VM 作为我们容器计算的最小单元。当前使用 OpenStack 开源实现方案,使用 KVM 做 hypervisor。提供各类 VM 套餐满足不同业务场景。计算能力扩展我们采取的 VM 的横向扩展,即 ScalingOut,后面章节会介绍。( ?( G* H3 V/ P' `( R9 {* ]! B8 e
存储虚拟化
1 l  u, `9 Q+ U) D) G6 _3 N, h8 d4 D  z$ @* Y
3 h7 S  M4 o+ T9 j
  • 考虑到性能问题,我们VM使用了本地存储。没有使用 Ceph分布式存储。
    / T  e# F( Y3 s
    ; k9 E+ B) v. D
+ c5 ^5 V( r, y& d
  • 对象存储上,对接了公司提供的基础服务。1 Z( U7 O% `( s3 k
    7 O9 x- e6 |- R

; c# }9 |* {6 u6 f. ^7 d" _7 V4 P网络虚拟化9 I/ a4 P# k+ Q9 N4 F

7 k3 J5 ]$ k( G5 H. l2 g1 m( H* L
  • 网络部分,采用了Neutron Provider Network,未实现 VPC 网络隔离。
    8 c+ R" \; O+ e, w+ r
    9 E- J7 E/ I7 R+ U$ H* D

/ r+ ~1 s% V( A0 a+ D, @* C5 A: T
4 h5 F! \2 W' V0 k0 }2 S* Y数据源
3 C. [5 s. m" l. d4 C/ r: e2 U* o6 Q# y- T' V% r( `" K' M

7 L! ^6 W* x: O; T' O数据源我们提供了3类数据源,Mysql,Redis,Memcached。这3类资源是平台上使用最频繁的组件。我们以单物理机多实例的方式运行,未主动采用 cgroup 进行资源隔离。这些插件在被创建的时候会自动添加监控,用户可以在平台查看相关监控状态信息。( c. \" W8 n0 B! L2 }. R
3 }& E8 a! ]* P6 t1 Q; M: t

! k/ Y) R, {! O) I) G8 \插件平台。上述基础组件以插件方式与平台整合,类似于 Heroku 的 Addons服务。
4 L0 @$ E: V$ D/ q# ?7 R* k: y  k9 l2 {

6 L0 Z5 s( `% i7 R! R4 k2 d& U' r
1.png
具体业务流程描述如下:
$ i6 Z5 J0 r2 s$ n+ ]
+ G$ a* r- d- _2 p
  • 插件注册:插件开发者将自己开发的插件接入插件平台。
    2 e2 P3 u5 u9 j3 w# R

    4 y1 S1 ]# C$ m) H

0 T' [, |! {- Z
  • 获取插件:PaaS 平台的项目用户请求插件平台,获取插件授权信息。
    + O, P2 b$ m* X$ a- _, k4 r

; k9 l1 ?7 v7 C3 h# f; R+ _* N' V5 z
  • 返回授权:插件平台将来自 PaaS 平台的请求转发到具体的插件,获取具体插件的地址,授权等信息,并将信息存储在插件平台然后返回给PaaS 平台。比如 Mysql 实例,返回域名,端口,账号,密码。

    6 X# e( l  \" N' ^$ Y9 L

6 @1 T" G! q- p' Z' y/ D, X2 f$ l! G( m2 C3 T7 i  t5 q1 d5 Q
  • 插件注入容器: 项目模块发布的时候,由CloudRouter 从 PaaS 平台上获取插件信息并将相关信息注册到业务容器环境变量。关于 CloudRouter 的功能,后续会详细描述。
      z; B0 T2 n' |5 |$ D

    " K! c! C$ n5 ]5 z: I3 I% \) o  c4 {
/ i& n& }5 p/ \
容器访问插件:业务容器从环境变量中获取到的插件信息,直接请求具体的插件。
( o( c) p0 u1 G0 n/ {/ M- {% l
2 G5 P2 Z% K5 f) F2 H* v
插件平台的引入,增强了PaaS平台的开放性和灵活性,项目所需的所有基础组件,不需要 PaaS 平台自己提供,可以由公司其他开发同事提供。插件平台面向公司内部所有开发人员,设置了一定的运营策略,如贡献率,引用量,收获赞等,并与公司的绩效积分,技术职级评定做一定关联。
4 d! P" d# X6 {3 N- G  o0 F  l' f
* U/ {$ h6 J9 [% r6 g

* A* K- p/ Z/ I$ A, s0 {. [$ X
3 z" O8 s3 g6 c1 H; d
  • 1.png
    . X" ?4 q5 z& [! |4 R& v" t0 a8 p

: P5 ?5 l# \4 n. w. k2 ?& s9 P# \; J
其他资源
5 f* u) Y9 Z2 k; N! s

7 [1 O1 G' ~0 e/ ]! f* B4 z( _: ?& a! `& i4 m
其他基础服务,我们同时提供了 CDN,消息队列等。
6 D( q! _/ l) @: ?; W" v) |- l# @4 g! Q+ S. \1 ]
# n" [# Y; Y. [8 m
CDN 是使用第三方厂商基础服务,通过 API对接,实现一键创建 CDN 服务。消息队列服务底层采用了 RabbitMQ集群。# [* [3 o. |* v1 y
6 l! M5 b$ T6 q+ f  H+ V
! G% e8 x; d7 n
同样,这些资源也以插件方式整合到平台。# o- z( P2 k0 f' }1 F/ D0 B

6 {$ }# ^; c: o; F% G7 u7 C- t& ~0 k- f, S- D8 Q4 r9 F
4. 持续交付

: U! f& w; g$ B/ X

  Y% a# U; x* v1 q8 L( e
基于上面的 IaaS 层,我们有了构建 PaaS 的基础能力,来解决持续交付的问题。我们从以下几个方面来描述
1.png
  • 交付模型
    + [" n3 h, X' x# \9 c! t, d
    4 D1 m0 n+ i2 L0 [
9 Q( E: F  x" |$ k4 w' `0 H) Y( ?
交付模型,指在我们的 PaaS 平台上的业务,构建一个业务的模型。这个模型也是基于我们的应用程序打包规范来做的。这里再简单描述下:
0 Z7 Y6 a7 }8 @5 y
2 C+ v- z! l4 G; b- H# [. G. ]

7 u1 N2 @" D% z- I4 U* V: p1 WPaaS 平台业务交付的对象包括:人, 项目,模块。
- O' U, K( B1 Y+ y% B* b; M8 |
1 |  b4 G  S% U4 E! a) C, x! q8 h& _% q+ Z1 x% E
人即项目管理员,一个人可以管理多个项目,一个项目也可能是多个人管理。
$ ^  p' ]9 g& Q9 E# z4 i- O. P; h. |/ ^& G  L4 k* C: @
. q6 {& |+ l# D) [, E& d, t. ^
项目对应的是一个业务,一个项目又分多个模块,每个模块就是一个独立的部署单元;模块一般是按功能进行划分,比如最常见,一个项目有 admin 模块,user 模块。我们的PaaS平台的部署操作最小单元是项目的模块。以 Java 应用为例,模块的类型有 War和Jar。不同类型对应不同的部署动作。
/ y% Y: ~$ l( e9 J7 ~9 {6 I& E3 Q$ \& O; _. k" m
8 p. b6 z! q! y
项目管理
; g' a9 z/ q# ~/ s, s0 f& {( z7 Z" K) W# v  l" H
  B& H( @/ b- U: N: Z
项目的管理包括项目的新建,以及用户权限管理,属性管理。需要的基础信息包括:项目 代码库地址,项目成员等等。
# F' |' A4 @* g# a

: T$ |* o# L8 t. c+ \项目管理中涉及的信息
* m5 N1 m7 @* z: {) ?" k4 R
1.png
% l, ?) i% p: g. R8 Y+ _. t7 l5 I+ b

; W3 R" H+ r; V& O+ ]7 S1 {) M

) B7 _: Y% e8 [$ ^4 K
% L: m( y2 h7 _/ p1 f# l, G! @
持续集成
( T% m& g0 Y, [: j; d9 t- }$ F

; |$ C, ?4 \3 s, M4 H以Java 项目为列,我们约定在 pom.xml 根据模块名称打包成对应类型的包。并自动创建对应的项目模块,打好的程序包上传到分布式文件系统(DFS)。实现只要将代码提交到版本库,即可一键打包发布。在我们的现实情况中,并没有对每一个项目要求持续集成,而是选择性的,其中的! H  C' x1 K) |' I- |, T' v; }0 T7 |- _
% a% b" D: M- N

3 d& ^# `8 V: w8 y
7 P. Q$ K8 `0 L0 a- P! {& u原因是:
2 Z. k7 s6 \3 r' Q. G8 D
- d* K# @; X3 n/ x' V
5 h: K! r/ Q: D% h0 G& G大部分项目都是小型项目,不涉及多人协同开发,这样的场景下不涉及到复杂的持续集成场景。
7 Y* D/ f* b2 F) e& E6 m! S0 G小步快跑。本身项目的迭代速度比较快,集成频率比较高,一般不会出现持续集成不通过导致需要花费大量精力解决集成失败的问题。
! }6 O6 R# s* A% w, @: H
' ^7 e7 C8 C- J+ A9 G  D) r& l8 J+ P9 b/ X0 t& a
持续测试

8 q2 _- L0 A2 L- c8 }9 |
$ b& [& C$ J2 T) l. H* k" a$ ^
  • PaaS 平台与自动化测试平台进行对接,在基础信息上同步共享,包括项目名称,项目成员,版本库地址等。持续测试的实践经验是:
    7 c/ D. s) v: r3 N: y

    $ |* n+ ]3 a: G' ~/ A. ?
2 m- m5 o2 O7 k  F
业务分级。对核心项目进行严格的持续测试,包括单元测试,QA 自动化测试。对非核心项目,默认不进行测试。是否测试的权限交给项目管理员,项目管理员一般都是开发团队的 Leader。
) |+ k/ ]! J  w; h  w& ]0 N4 M, `- W0 g. i( ^: y: \
# k2 ?% |: |9 W/ ]% i, E
风险控制。在实际的运作中,测试能发现的问题是有限的,需要考虑一旦出现问题的补救措施。因此,对于核心的业务系统,引入风险监控,降低 bug 的影响范围。) A( Q& Q6 e  S% o2 h" l4 ~
9 _' b% A# w3 S9 T+ i* f

7 b& D& U, i2 A. n7 k
持续部署

9 r0 z1 F: `+ _3 U6 U
: _2 O! ^$ ^, T4 M; t7 ^8 v7 A
  • 持续部署中,涉及到如下几个问题,我们的解决方案是:
    2 M- Z* n( O% e6 Z& J3 E: p. X0 W

      k8 p4 h$ e, N

1 L+ p  x9 F/ I% {
; e) S) u4 a) `数据源。项目所需的数据源(Mysql,Redis)实例,用户在平台上一键创建,然后通过环境变量的方式注入到业务容器。具体流程见前面章节“插件平台”所描述。
8 \5 ^, ?" S( @# t2 P
. Z( e0 f3 Z. w/ d  n. c
8 I+ b$ o' g& D) c配置管理。包括运行环境的管理,JVM 参数定制,Nginx 参数定制,域名配置,证书配置等,这类配置全部在平台,由用户自助或系统自动化完成。
7 D, n; P+ B/ q
' ?7 p0 Z; m3 h
! [8 h1 ^  t: J$ {- x发布。涉及“包版本”发布审批,服务器资源自动分配,“配置管理“中涉及的各项配置应用到相关组件。
. r1 F2 @1 b0 s+ l6 c: q* ^. {3 ?& a9 ]& C

& j1 J; y: V! K* |* y. Y* F回滚。平台支持包版本快速回滚。& `7 p' K2 M: X. y
/ Y, T0 Q9 d8 a- ^

8 _8 w# E  |' ~, S8 L* u
持续反馈

9 c) _9 A8 L$ g6 J+ w6 }# ~  Q3 h
基础资源监控及监控数据展示
6 s/ ~/ {) }+ w' n
* D" Y, H& D0 b$ N" z
3 I& R) ]$ H' M: j0 n运行维护
2 n* I3 ~- `& y4 P! t# u# Q; ^
7 J7 m4 A7 g5 S. A/ ~2 r2 S# h, q& ^0 w- d& [$ A
业务可用性监控和数据展示

) t) l: }0 v  l: e1 k/ Z5 y- b) S; v5 i3 A! ]/ g
  • 上述三点在后面的章节详细说明
    * K7 d% f, i1 V$ e- O# z1 Z
    2 k5 Y6 I" g- h# d% T

6 j! H" ^/ i+ F
' [6 W4 k' Y. V9 Q$ `5. 高可用架构$ V" N- T( l2 F! c+ V2 N  C) q2 y0 {) f7 I

% S; }5 {6 W% x: s+ L' p* B* ~3 ^* C& s) U% r
平台架构高可用设计,从最上层的攻击防御,到数据持久化层,全部提供高可用方案。业务只要接入平台,就具备全部的能力。。6 ^) J- V) l9 s/ k8 D
1.png
+ i# P; O  m9 ^* _# Y* C9 {
云防DDOS,接入公司层安全中心的DDOS 防火墙,保障业务安全。$ v7 [* l1 m. B# r( e% M

* B5 N) p, s( C! q
, C5 \; }4 Q+ k2 OGSLB,平台提供多机房,多链路接入的能力。项目域名自动解析到多个机房,提供就近接入的能力。
! d, ]: Y: N7 _* D# I
6 W% G* s: s" @; z! P
/ H- C9 P' c1 @0 m7 f6 ?OSPF-LVS,四层负载均衡采用OSPF-LVS 架构,具备平滑的水平扩展的能力。
& W9 K0 v. K1 E+ ~1 [
- `' D1 C9 b1 n
1.png

6 {9 n+ j: R8 {  q9 G
  e3 X4 c" C; f* e# o  }) F" Z! s5 r2 h9 j7 `
$ q- M5 D8 [" N9 H! `/ M
# y8 [' s" f- r- f+ r
AppRouter 应用路由层,Nginx提供七层的路由转发,同样具备平滑的水平扩展能力。( e8 b1 \0 j. S- L" X: {& d
/ j9 ^4 K1 Y) j3 X2 b1 p

) ?% e7 [2 ^2 pContainer,应用逻辑层。这一层是项目级别的配置。提供 Nginx+容器(Tomcat,Resin,PHP-FPM)环境。这一层引入 Nginx,是考虑到部分七层业务逻辑控制,交由项目级别的控制,不至于每次项目级别的变更,而影响上一层AppRouter 全局层面的变更。这一层具备弹性伸缩的能力,后续章节具体讲解弹性能力实现方式。
# F) h  Q" Q1 m8 g! [5 \5 |4 E+ ^7 [, d  f$ Z/ b

3 J3 U1 ^) V, R+ s) iCache 层,提供纯 Cache 和数据型 Cache。这一层我们主要是使用的 Redis,以域名和端口的方式对外暴露,通过域名切换,具备故障切换的能力。0 J) g- Z' B4 O9 e
. W! F& }# D  n$ H1 ?( S' d+ ]: R

' a6 q  u( J. J" R- y& i5 r/ w
  • DB数据持久化.这一层目前对于所有业务实例,默认提供带主从的实例对,业务发生故障时,需要根据业务场景对数据一致性要求情况,进行故障切换。这一层当前未引入开源类似 MHA,MMM 等架构,而是通过域名切换的方式来实现,这里面参考了 AWS 的实现方法。
    7 }# f6 ?+ y/ Y5 Q9 h% O! l% l* {: z

    & m7 i& o8 g) @4 w3 p1 S7 Y2 r) p

0 g2 Q: Z! [7 ?8 D- d9 Z- g
$ J( _- K' Q8 }: Y% D+ _; j/ v6 m
我们的架构一般都是 MM 架构,当主节点发生 Down 机后,域名切换到从实例,Master 恢复后,只要修复主从关系即可。对于高并发访问量的业务,需要一主多从,或者 Mysql 环形复制场景,这些需要根据业务特性做一些人工介入。2 j  Y( V- w5 x. l0 \4 ]& m) S3 [! o+ W

) O; i& M7 r" ?2 ~# L# H4 g
, w5 j4 z2 ]' A0 P1 S6. 弹性扩展
6 j/ `: }+ ]- d, x8 k$ b8 L# }4 i3 R5 N( A! n6 D

! Y6 W: X- J& J( @  w弹性/ J- o  X  ~' \9 d

4 `$ u1 |4 c# r! }2 r. o; ]
# ?1 x' ~- M1 \+ M弹性是 PaaS 平台的基本能力,弹性技术的好处有:' U9 d0 b) D( ^7 D

6 B; c; c, V. k  z. a
: Y* l* T: n, O2 |6 c高性能:在业务访问规模上去时,服务器自动增加,保证性能+ S# Z3 f* C* ^0 B
" i& ?3 H8 G7 h1 }3 e) T
$ |5 K$ Z& E# S4 ?" e% g
经济性:在业务规模降低时,自动收缩服务器,节省成本
7 M+ ]8 h8 C6 D+ x0 x, _; A1 L1 `8 j* C/ s* Q2 P3 C

7 [! X1 Z, s/ Y9 ]高可用:如果有服务器宕机,自动进行故障隔离2 G5 w- b9 s) }) l. _2 h5 Z
( Z0 |( Q3 ~) I  W2 ?+ z. _; y+ y

/ V8 w0 B' v9 j* G
平滑部署:实现热部署,不影响现有业务运行

% Y( k- O, Z: S  c- r2 z: ^8 {8 I( I: y" r: Q( i6 b
  • 弹性伸缩提供包括动态伸缩,热部署,故障隔离三层含义。弹性示意(图十四)
  • 1.png # x  H1 a% Q9 ]$ d( i% ^

    * E' W# w) Q2 `: f: Z" h

; D7 U- }' H/ G1 @$ p0 |/ s
' s6 ^! v) j! J% ~9 P0 |
我们的弹性技术是由CloudRouter 和 CloudMonitor,资源池3个部分组成。架构:

7 K7 d; b" p0 v

: D$ d" _2 F# i2 o% A( w( J
1.png
  • CloudRouter是核心组件,是弹性调度的大脑,在用户的任务,资源分配中间起核心的调度协调的作用。

    6 ?: {' G) U& S: M: B
    - g7 o+ R. X  O  ]; n/ P" G
6 B) Y9 @" a1 e$ r
  • CloudMonitor 负责项目服务器的状态数据收集,并提供接口供 CloudRouter 查询状态。
    7 D- Y# x# n$ e1 U
    9 s! H! w8 L9 M( i

1 m; ]& p2 b$ e4 Z
  • 资源池是基于预创建的可用资源缓冲池。这里主要是指 VM 资源。VM 资源又分为多种配置,对于每种配置的资源,可在后台配置预先创建一定的数量。一旦服务需要资源,可立刻从池里获取。

    . x; O5 h4 O0 J

    8 J; H0 c5 M7 B0 e( z: [8 ?( t2 p

: \) {5 o; z. Z
  • 弹性的策略. 当前我们的弹性策略是模块的所有 VM 的负载平均值。当负载平均值大于我们们指定的弹性阀值,则进行扩展,可设置每次扩展的服务器数量。同样,当平均值小于我们指定的阀值,则进行缩减。

    ; S- K/ `3 R  e3 f

    . u7 y- C0 n( a* _$ T8 c- b
: p; ]& z5 Q7 ]0 |) z
在实际的业务场景中,可能有些业务是内部小型项目,不需要进行弹性,是否弹性是一个可选项。另外,还有一些项目,可能无法满足无状态的设计要求,不希望每次部署都更换服务器,我们也提供了在部署的时候,选择“就地部署”,就地部署的意思就是每次部署都使用同样的服务器。弹性调度策略配置:
1.png
- d6 n* v/ U" Q4 M) R8 r6 Q

5 B( K4 U& Z  D; ~4 \, T) P
7. NoOps

/ ?* S5 @$ e5 Y7 S: H# s

3 B+ ?2 U* L$ N$ `4 e7 j' p
自主运维
# {- Z) T5 H0 ]" D$ d& P2 Y( A* b# a, v
) U# J  B# x5 v$ P5 U) m* v
平台提供一系列日常运维管理工具,包括常见的服务器性能查询,日志查询,应用分析工具,数据源相关信息查询。大多数场景下,开发人员无需登录服务器。

; I) V8 P) e( G; x; v% M0 [3 g# _& k: i- b! o0 `  |
1.png
8 N/ j1 D0 @4 o4 o
日志管理
- Z. u, D, s1 _: }2 u$ V" ?. s2 s6 F1 A4 F, `* p1 e

0 z! D- A2 M0 }9 V! t+ t文本日志。我们在每台vm上通过 Rsyslog 进程收集业务进程日志发到集中日志服务器。在集中日志服务器端,我们按项目名称存储,一个项目一个日志目录。日志目录权限管理,我们使用Linux 用户组权限设置,只有具备PaaS 平台项目管理权限的用户,才能查看该项目下的日志。
  |5 T+ ~( Y. i7 E) U) ?4 e1 h# a  A1 F: h( A2 l

* ~4 d1 F/ A; SWeb 日志分析。PaaS 平台对接了公司级的 Web 日志分析系统,能够实时展示项目域名的日志访问量,带宽流量,请求状态等情况。6 J( T9 y9 {8 C& x: q) p
. l6 s. D, V) H$ N
7 \  R* C" i' z
日志管理方面,我们提供了两种方式6 g: @$ [7 M+ l' u

+ s% E3 x. ^" @* H6 F6 I
7 d! V  m9 m1 ?4 @监控" _3 B' j) H, W. `

! t- n5 g% |- [9 }; ^
/ _. w6 I+ r! ^  ~9 y平台监控主要是基于 zabbix 做了一些 API 层面的定制开发,我们内部称之的为“CloudMonitor“。主要包括以下三个方面功能:9 b% d* a- w5 j; T; E$ T, ]7 T
基础监控
; y' j* Y1 ?) D4 w5 Z
& K/ J% x2 q6 T* v7 y1 s7 Y/ j; P4 p1 v+ V& m/ `- h6 c$ V9 z" [
VM:基础监控包括 CPU,内存,磁盘 IOUtils,磁盘空间使用率,网络流量,TCP链接数,进程数等。监控信息如图:
, g6 J& I& }2 z" G, w
1.png
, |+ `8 V0 k6 g' v; b+ j; N* c

9 B3 X& v: J/ G4 A- }& F: U/ d数据源:对 Mysql,Redis,Memcached 常规指标做了监控。7 i& h% ^; n9 r: d8 ^% g# L. Q9 x( j

) f8 \& d( D! q0 C6 }( j# |1 A3 s( S1 Y, u5 O+ j( a; g9 q8 L7 T$ R
自定义监控。支持 TCP,DNS,PING,HTTP,支持自定义告警条件和策略。如图:
9 G" P4 K; T3 a" u' X8 s$ h
1.png
$ g* ^* b) _3 y
+ Z+ o" E) h$ K, l/ [/ {3 R4 }  o$ y3 Z
3 z9 H. J9 Y3 ^- C% H/ ^+ b

" T# z* b( h- ^* F0 @4 ]# \6 \; ?, u) `) K+ H+ S
告警。平台告警由 CloudMonitor 组件负责,支持多种方式告警。CloudMonitor 组件是在Zabbix 的事件接口上,定期获取事件,按业务维度进行汇总分析发送给业务开发负责人和运维负责人。- H' V) O8 V$ X! C8 A
" s" @  B4 E5 F/ o2 {2 ^6 u6 B

( @2 |( t3 i2 J做了一定程度的事件聚合,比如宿主机 Down 机,宿主机上的 vm 相关信息关联起来,从业务开发负责人看:某 vm Down 机是由于某宿主机引起;从运维层面看,某宿主机 Down,影响了这些 vm,这些 vm 运行了这些业务。
- k3 r% v4 Y  K3 ^. a' W, ?0 n
% [0 U1 K* C) J+ D8 R- h$ }
) k" m: f. o" J5 @' I* e工具组件
5 @+ u0 L9 T: i* G2 [/ ]& k" m3 X% X8 B

/ k0 B2 j2 a; L5 k2 K7 |在自助运维场景中,开发人员需要对项目 ,域名,IP 信息进行查询,平台提供相应的工具。5 ~& ~* u7 n+ u

) h9 G& l: q  M9 U6 E' e( ^( P9 d1 s" p: s  m& N
可用性反馈* H& T$ m& M0 q$ N5 K6 N$ y, \
) ]6 s4 `: F& y+ `& I" q6 ?

# {7 ^% h% X4 v8 }' J3 Y平台的可用性反馈,主要是对平台各个层面的服务可用性,进行系统化,自动化评估。这里主要介绍下我们的业务的可用性度量实践方法。
  R/ W# g6 i9 ^/ G" y
) I0 o, S, b9 w! a8 k5 k5 {
& O6 Q/ Q& n3 b2 H3 L, M% u我们称为“Monitor.X监控规范”具体描述如下:! v! W& W7 x6 {; p

+ J9 Q' k% `8 G9 t: y- c: j( t7 T( l  F- }, n0 ?
X代表语言。(注:若是 PHP 项目,文件后缀为 monitor.php;若为 node.js,则文件名为,monitor.js)。2 r4 H7 Q) B  r2 J
5 q8 i9 l" W" L- ]; r: f

( d6 q- |. S: ?$ s路径要求:url规则为http://项目域名/monitor/monitor.X)项目域名取配置管理里面,设置域名框中,去掉 包括 test 字符串后的第一个域名。
* F" W* w5 P# d$ W& g
4 K+ B. p# E; u+ H& c- g' Z# n6 V% v* Y) }7 W8 T- c, D
输入参数:接口不用输入参数。
! p- f! x' u# s( @0 X* k: E) _  \% S: {/ G8 _$ U2 Z" k* ?
' {' `5 Y; n# X4 i# t: V2 z
输出说明:接口输出只分为两种,正常和不正常。% A1 }% P7 N9 V" Z% c* c6 E
5 u& V6 `% F: _4 E
; r. s, L  Q  `9 g
正常:状态码为200,且输出包括字符串“200”9 y/ Q5 |% H- N) F$ ^
) P; Z* p+ G3 e8 E
5 u: f) _0 w) @. J7 J: S
非正常:状态码200或者非200,且输出字符串不包括200。 (可以用作错误提示内容)。
6 d& Q" o0 H0 ?8 U# V8 b
! S: H. S) S' D+ ~
" M' U! q5 z0 C( O对于状态码200,同时信息也包括200字符串,但是实际是服务不可用的情况,需要程序员特殊处理返回信息。5 q: h/ \5 `0 O, v6 o  j) J* w' a

8 Z* w, R0 i; [- g0 z$ ^: w: I/ X5 l; s$ E7 ]  y
接口内部实现要求:要覆盖系统的核心业务逻辑(业务自身把握);有多个业务逻辑时,也是统一在一个接口返回(调用顺序由业务控制)。9 L  o5 |9 l! `1 C7 G  e7 r

( G. o, R' y7 q- V: G
$ n0 g, d" J* a3 I% W业务在PaaS 平台发布,平台将自动加上项目的 Monitor.X 监控,根据 Monitor.X 的状态,来衡量业务是否可用。可用性反馈如图:0 M/ x7 N% [" z6 S
1.png

8 X6 N8 W' Q: S- H" Z. X6 ?  N1 v
7 J& L: d% W2 Y
- L" h3 L% D- T
8. 安全审计

8 w8 |+ n5 ]! C

# {" V8 q4 H+ Z# h9 T" ^
所有操作包括打包,配置,部署,日常运维等操作全部收拢在PaaS平台上,每一个用户在平台的的所有操作都有记录,可追踪。
对于核心项目的数据变更类的操作,引入运维审批。

. w6 s0 P7 G* a& n" j

4 {* I0 w8 n2 ~1 L& r( `
9. 平台运营
9 f$ p( |4 h3 U' K( W

6 I3 Z1 x2 T4 q4 ]; p0 z
双向反馈
- W  I( d  T7 a7 N9 ]9 J+ B

# n' N2 B- U% Z2 [$ R构建平台用户反馈沟通群组,第一时间接受响应用户的需求,重视“客户满意度”,并将客户反馈的问题,由专人进行收集汇总,每周发出平台质量问题周报,并组织开发运维力量,集中有效解决用户反馈的问题。这些问题,有技术性的,流程性的和体验性的,用户每一个问题的交互过程,通过沟通群传达给平台每一个用户。

" S- d; y7 l3 f; `
; u9 O' c8 m1 Y( A/ s" n& u
体验优化
* Q1 n5 ^) F, @( f) C' R( ^0 m

. [4 b1 }5 S# a" ~长期以来,在面向技术人员的系统 UI设计,用户体验是不好的,内部技术平台首要解决的是可用性问题。PaaS 平台需重视用户的体验,体验好也才能实现我们的 NoOps 的理念。试想一下,如果我们做了一个自己觉得很厉害的功能,而用户觉得不好用而弃用,那做的可能就是无用功。

* Z" |9 P! T8 F0 N& l2 m; ~
! ]" q* ^+ Q# E- Z
也许有种担心,我们已经把所有的用户放在一个群里面,任何一个细节问题,体验问题,都会让所有用户知晓,平台维护者比较被动。我们的经验是,在 DevOps 文化下,平台的建设者(运维团队),平台的使用者(开发团队),都有面向业务最终用户价值交付的共同目标,都将以合作,包容的心态,共同推动平台的进步。

6 R6 K0 d6 s0 y# C2 e
' ~; P% e; O' \. Q6 \' a
平台收益
9 D  s. u. m- S" K" F
; G& k* l' B4 O' E1 W, z! T5 c% _, N; E, `7 j
平台收益情况,从四个方面表述,如图所示
1.png
质量
0 U% c9 ?! V2 i- ]8 w1 {& t, X7 E$ i$ e' q
; Q( Z- h. M6 x0 r
基础组件平台保障高可用,故障自动隔离。应用容器弹性伸缩,确保在业务变化中得到稳定的服务质量。平台提供自动化可用性管理方案,对业务质量形成有效反馈。
, _" Z4 h0 I& \- d9 u3 G! r6 \0 E/ a+ g% n

9 s- q& `6 j+ H效率
6 E) w; M0 _3 h( Z& M* ]0 r0 D1 n& N! F3 s0 J- V3 h
# ~) t% E6 n$ A+ Q2 T5 v
执行 DevOps 理念,将研发,测试,运维全流程以自动化的方式整合,实现业务的快速交付。提供丰富的自助运维工具,系统,满足开发自助式运维需求,提高日常维护的效率。% F  K, J/ k1 ^# E) m8 H5 S1 G
* Z  T- z- [! u, K8 S) `2 A1 ^
3 f5 Y. Y+ g( c! @$ `0 b6 }7 _7 o
安全) W, Q; f- K  r8 U. {& f+ s6 o) w' n
' G) n1 Y1 B* v7 r  p
) I. T  s9 q, ?% ~
在网络安全和系统安全上,接入公司级安全体系,包括云防 DDOS,主机基线安全,主机漏洞检测,应用层引入公司的 WAF模块。在数据安全和 D/O 权限分离上,平台隔离开发人员登陆生产环境和生产数据库的权限,所有权限全部收拢在平台上,变更类操作自动引入工单,由运维介入审批。所有操作记录可跟踪。
* e, N0 S# i: a6 x/ n* G4 D1 L+ R& }# O4 L! ?) Q1 Y
, y' u4 C4 U; O3 _
成本# q  R; X2 \* I- b
( b/ H' v9 \: }% b+ w# n

; f+ w( U1 E  d" V3 x5 W通过 IaaS 层的计算虚拟化,资源池,弹性伸缩等技术手段,提高系统资源利用率,减少硬件资源采购。通过自动化的技术手段,减少人力资源的投入一站式的运维管理服务平台,大大减少人员流动导致项目的交接成本,降低人力成本。
! X/ c( V' ~) s' V6 B2 N1 ?- n! h9 X+ U7 |: |& ^0 y

# `* S2 {7 L  u0 V平台风险8 D1 v$ H0 F% b# u- U! H
1 ^- n) t  i% S) E' }+ C

0 Z! G6 d2 H$ H
PaaS 平台的风险,如图所示
1.png
    1. 容量管理

& Y1 V) ~7 `4 g* o5 x  G* f( z

. Y1 S, }* O4 |% |
PaaS 平台的资源交付是完全自助的,不需要运维人员介入审批,IaaS 层的资源容量是有限的,因此,从接入层,应用层,IaaS 层,构建全面的自动化容量评估系统,显得尤为重要。需要关注几个点:
3 Y3 Z) L9 z( g) W0 G9 e/ c' X

6 z  n% @, }& I2 ~6 j2 c
资源调度; E; x" v# a% k* ^- K
* V+ a! C. T9 t+ J4 c: M

& K2 Y! u- {; u* SIaaS 层的资源调度器,一般都是静态的调度策略,是基于资源创建时间点来选取一台最优的节点进行资源新增。一般来说,我们的调度策略都会有一定的超额比例。但随着业务的发展,某些节点的负载会比较高,甚至出现资源不足导致系统宕机。
1 N/ k/ b# r/ m; T9 I$ h
/ D% b4 M; ~; z+ \7 s8 k3 h1 S8 Y& A. ?6 w9 g5 A; o
  •   对于计算节点,我们有弹性扩展来保证业务可用性。但对于数据库如 Mysql,如果出现宕机,对业务影响非常大,一个 Mysql 宿主机,可能运行10个以上的实例,一次宕机影响几十个业务。
    5 V  `  n- D* i
    8 I! Y& w4 o( o2 A  z

2 j. Q- D  o& z8 a% c% W1 N* g, G  X) H; d3 {, `0 o$ q9 _) y
容量预警' j- I0 F3 Z1 _2 Q1 q
7 r& y% S/ e5 @9 V5 G( B
, [& r: L0 X* D
  • 对各类资源设置一个预警阀值是非常重要的。比如对于 Mysql 数据源,我们主要关注的是内存的分配,那么预警阀值=(已经分配内存)/总的可分配内存*100%,这个阀值随着资源池越大,可以调得越大。8 U1 E6 W) {" q

    % x( q, n# {3 y( _' ~& n  G" F
8 F8 v' P1 F: J1 L

' C* w& p6 [) k6 b7 F3 u
  • 容量预测9 H2 O0 O1 [% `. ]+ y2 R5 g/ ]& n
) c1 u- b0 y- M5 c( `1 k! Y
, y; g- s# X$ P
  • 定期发布容量预测报告。如对计算资源来说,定期自动预测不同类型的套餐可创建的数量。同时,还需构建基于一段时间的趋势预测,以便及时发现平台资源容量突变情况。
    ' ^+ W0 Y/ u* w4 M3 [3 d) T+ U

    ! [( y& c. ~- [6 Q. B8 |

( i% ^9 O" P- d6 [' y1 f, W0 u7 A3 x- o8 I( P+ E
    2. 隔离性
! @$ T0 i( h' l4 t! J
6 K2 b; p* l1 c# Z- U. x/ \) v$ E- I! W) A* d
+ r$ G3 R7 |" l$ [' e9 Z2 G
资源隔离8 Q+ Y: e" I7 F7 q4 w4 Q2 s

% ?9 Z2 g0 \( U" j7 J0 f( Z, i; n' f( ?
  • 私有 PaaS平台,对 IaaS层资源,一般都是没有做资源隔离的。比如,像 Mysql 这种多线程的应用,单机跑多个实例,可能一个业务异常 SQL,就会耗尽宿主机的所有CPU资源而影响其他业务。因此,对于业务实例的质量分析,主动发现实例的质量变化,并及早介入优化,显得尤为中重要。
    . J5 O' ]& Y: r9 i

    9 R4 N/ l. k0 B# F: p( z: u5 m
9 m# U4 c% r. I8 j/ t
2 [: V" Y. V1 t& ~; ]' W3 q9 N
从我们的经验看,大部分的 SQL,只需简单的索引即可得到明显优化。而这些 SQL 优化,只要能及时让开发人员知道,他们就有能力去优化,或者更近一步,质量分析平台能自动生成优化的 SQL,自动推送给开发人员进行优化,或者再近一步,把优化的 SQL 应用到数据实例,并通知用户执行结果。
0 h6 U8 N$ q7 w8 k' m+ @0 `& f- T; r0 S' T9 T) T( u

& ?/ N8 A! O- l- Q; U
  • 网络隔离
    4 V+ k# U  T8 y2 V- E0 I" y
+ v. M) ]: W  Q6 k( P

  e" X- J$ I5 e9 G
  • 当前我们的IaaS 层未实现 VPC 网络,网络上不具备隔离性。这是我们当前正在改进的方面。
    ; H, Q1 O) \/ r3 o

    , A# p  m7 ?) B+ b9 E8 x2 Y
. }. \) [+ p+ N. h. z
  • YY互娱- PaaS 运维平台未来规化
    ' M& e2 K0 R+ V- i; j. ]

    9 O5 l% X/ v' t7 {3 W

+ U. f) m# u" a/ ^

3 S! C+ |. \0 ]+ W: p  T1 j% m9 N+ Q6 V5 v' O+ ^; K+ W
    1. 面向业务/运维的一站式平台
$ |) B7 @4 L+ g- ~6 F
9 h$ b" ]1 ]" _9 t& S( j; q; B
增强平台的一站式运维管理的能力,包括容量评估,管理,预测,质量分析,成本分析,容灾切换等。如图所示
1.png
   
5 T/ Z0 G/ }3 W; u% ]) n
2. 多语言支持
: F' b/ ~8 \7 u! G
3 O) b; B* X' ^3 w2 b: v
支持 Task,Node.JS,Python等语言。
/ q8 J, A$ u/ m# {! {
! Q4 y0 O( N% n
支持资源编排。
+ L" X) L' y. @/ G

6 a1 m1 H- ?) T% X
    3. 自动化、数据化、可视化、产品化
1 S) x. e, q* j: Z* E
* |' {$ g2 ~8 {9 n; f, y* k0 b  |. f
进一步提升自动化,包括IT运营分析,容量评估预测,容灾备份切换等。
+ S+ p/ x9 p7 b4 E9 k0 ?
  F. E. n" s- I5 S8 B7 X) W
将运维的各项能力数据化,并进一步可视化出来。
/ w  C, ^) {  m8 x# C1 @

# ?: N& t" f$ L+ Y产品化,提升用户体验。

! Y: G/ R, |# U" I# w; h3 {8 V. b
$ W" F  j5 K) A8 f; j
如图所示:
1.png
    4. 业务运行于VDC
  j$ J8 ], ]1 r7 g: [

% X( M4 a( }/ q2 T4 c- e
YY 互娱技术团队当前推出自主研发实现 SDN,SDC,SDS 的云计算平台, 初步具备了SDDC 的能力,我们把 SDDC,称之为 VDC(Vistual Data Center)。

3 o  W1 W5 c. g( d7 [+ w8 b
4 Q& I0 S$ e$ a! b) u, c1 U, P
在 SDN上采取软硬结合的方案,在硬件交换机上实现了基于 VxLAN技术的VPC网络数据包的封装和解封。下一步,我们将构建基于VPC的 PaaS 运维平台。

' @% j6 n) ^+ u$ D! n

1 a0 ~2 O! u2 ]( o; a. v
原创:刘亚丹
$ V9 ?: i; @7 Y8 g- a. Z  a5 w
3 g  m) O) A* _# y. D: q, g
, ^) c- S1 u  k8 i5 Q& n3 T6 _




上一篇:DevOps系列:详解微服务实践 从架构到部署
下一篇:DevOps实践之打造自服务持续交付
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

参加 ITIL 4 基础和专家认证、长河ITIL实战沙盘、DevOps基础级认证、ITSS服务经理认证报名

QQ|ITIL先锋论坛 ( 粤ICP备11099876号 )|appname

Baidu

GMT+8, 2022-6-28 10:54 , Processed in 0.123240 second(s), 32 queries .

Powered by Discuz! X3.4 Licensed

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表