導讀(dú) | 互聯網運維工(gōng)作(zuò),以服務為(wèi)中心,以'♥穩定、安全、高(gāo)效為(wèi)三個 ₹(gè)基本點,确保公司的(de)互聯網業(yè)務能(néng)≈↕¥夠7×24小(xiǎo)時(shí)為(wè¶→•i)用(yòng)戶提供高(gāo)質量的(de)服務。 |
運維人(rén)員(yuán)對(duì)公司互聯網業(yè)務所依賴的σ×¥≥(de)基礎設施、基礎服務、線上(shàng)業(yè)務進行(xín←ε¥g)穩定性加強,進行(xíng)日(rì)常巡檢發現(x÷₹♠iàn)服務可(kě)能(néng)存在的(de)隐患,對(du ♥φ∏ì)整體(tǐ)架構進行(xíng)優化(huà)以屏蔽常見(jiε→¥àn)的(de)運行(xíng)故障,多(duō)數(shù)據中∏✘接入提高(gāo)業(yè)務的(de)容災能(néng)力,通(tōng<¶)過監控、日(rì)志(zhì)分(fēn)析等技(jì)術(shù)手段→→,及時(shí)發現(xiàn)和(hé)響應服務故障,減少σε☆(shǎo)服務中斷的(de)時(shí)間(jiā✔n),使公司的(de)互聯網業(yè)務符≥α♠合預期的(de)可(kě)用(yòng)性要(yào)求,持續穩定地(dì '↕)為(wèi)用(yòng)戶提供務。
運維工(gōng)作(zuò)分(fēn)類<✘
運維的(de)工(gōng)作(zuò)方向比較多(duō₹),随著(zhe)業(yè)務規模的(de)不(bù)斷發展&$↕,越成熟的(de)互聯網公司,運維崗位會(huì)劃分(fēn)πε得(de)越細。當前很(hěn)多(duō)大£≠←ε(dà)型的(de)互聯網公司,在初創時☆(shí)期隻有(yǒu)系統運維,随著(zhλ♦♠✘e) 模、服務質量的(de) 要(yào)求,也(yě↔δ)逐漸進行(xíng)了(le)工(gōλ✔∑≥ng)作(zuò)細分(fēn)。一(yī)般情況下(xià)運維團隊₩ 的(de)工(gōng)作(zuò)分(fēn)類(見(jiàn)圖1-1®♥)和(hé)職責如(rú)下(xià)。
圖1-1 運維團隊的(de)工(gōng)作(zuò)分(fēn)類₩♥↕
系統運維
系統運維負責IDC、網絡、CDN和(hé)基礎服γ↔"務的(de)建設(LVS、NTP、DNS);負責資産管理₽¥(lǐ),服務器(qì)選型、交付和(hé£★≠★)維修。詳細的(de)工(gōng)作(z≤π↔>uò)職責如(rú)下(xià):
IDC數(shù)據中心建設
收集業(yè)務需求,預估未來(lái)數(shù)據中心的(de)發展規≥↔↓模,從(cóng)骨幹網的(de)分(fēn)布,數(shù)據中心建λ↔築,以及Internet接入、網絡攻擊防禦能(™÷♥☆néng)力、擴容能(néng)力、空(kōng)間(jiān)預留、外₹∑δ(wài)接專線能(néng)力、現(xiλ≈₽÷àn)場(chǎng)服務支撐能(néng)力等方面評估選型數(shù)據♥★✘ 中心。負責數(shù)據中心的(de)建設、現(xiàn)場(chǎn✘↔g)維護工(gōng)作(zuò)。
網絡建設
設計(jì)及規劃生(shēng)産網絡架構,這(zh™σè)裡(lǐ)面包括:數(shù)據中心網絡架構、傳輸網架構、CDNφ>網絡架構等,以及網絡調優等日(rì)常運維工(gōng)作(zuò)。
LVS負載均衡和(hé)SNAT建設
LVS是(shì)整個(gè)站(zhàn)點架構中的(de)流量入口,★™根據網絡規模和(hé)業(yè)務需求,構建負載均衡集群;完成網絡與業(y✔¶Ωè)務服務器(qì)的(de)銜接,提供高(gāo)£πδ性能(néng)、高(gāo)可(kě)用(yòng€¥©)的(de)負載調度能(néng)力,以及統一(y×®ī)的(de)網絡層防攻擊
能(néng)力;SNAT集中提供數(shù)據中心的(de)公網'' ∏訪問(wèn)服務,通(tōng)過集群化(huà)部署§δ,保證出網服務的(de)高(gāo)性能(€↔ néng)與高(gāo)可(kě)用(yòng)。
CDN規劃和(hé)建設
CDN工(gōng)作(zuò)劃分(fēn)為(wèi)第三方和(hé)自(γ$"₩zì)建兩部分(fēn)。建立第三方CDN的(de)選型和(hé)↕β≈調度控制(zhì);根據業(yè)務發展趨勢,&β÷規劃CDN新節點建設布局;完善CDN業(yè)務及監控,保障CDN系統穩定、λ★高(gāo)效運行(xíng);分(fēn)析業(yè)務加速頻(pín) "↔道(dào)的(de)文(wén)件(jiàn)特性和(hé↔™)數(shù)量,制(zhì)定最優的(de)加速策略和(hé)資源匹配;± ™負責用(yòng)戶劫持等CDN日(rì)常故障排↑<↔∞查工(gōng)作(zuò)。
服務器(qì)選型、交付和(hé)維護
負責服務器(qì)的(de)測試選型,包含服務器(qì)整機(jγε←ī)、部件(jiàn)的(de)基礎性測試和(↕♦hé)業(yè)務測試,降低(dī)整機(jī)功率,提升機(jī)©≤≈架部署密度等。結合對(duì)公司業(yè)務的(de÷φ∑✔)了(le)解,推廣新硬件(jiàn)、™✔×∞新方案減少(shǎo)業(yè)務的(de)服務器(®£ qì)投入規模。負責服務器(qì)硬件(ji←×àn)故障的(de)診斷定位,服務器(qì)硬件(jiàn)監控、健康檢查工→÷σ¶(gōng)具的(de)開(kāi)發和(hé)維護。
OS、內(nèi)核選型和(hé)OS相(xiànγ₽g)關維護工(gōng)作(zuò)
負責整體(tǐ)平台的(de)OS選型、定制(zhì)和(hé)© ¶≠內(nèi)核優化(huà),以及Patch的(de)更新和(→✘§↑hé)內(nèi)部版本發布;建立基礎的(de)YUM包管理(lǐ)和(hé)✔¥分(fēn)發中心,提供常用(yòng)包版本庫;跟進日(rì)常各÷★π÷類OS相(xiàng)關故障;針對(duì)£δα∑不(bù)同的(de)業(yè)務類型,φα§♠提供定向的(de)優化(huà)支持。
資産管理(lǐ)
記錄和(hé)管理(lǐ)運維相(xiàng)關的(de)基礎物(wù)理(l∑&←$ǐ)信息,包括數(shù)據中心、網絡、機(jī)櫃、服務器(qì)、ACσσ&L、IP等各種資源信息,制(zhì)定有(yǒu)效的(de)≥©流程,确保信息的(de)準确性;開(kāi)放(fàng)A¶↕PI接口,為(wèi)自(zì)動化(huà)運維提供數(shù)據支持。ε<Ω
基礎服務建設
業(yè)務對(duì)DNS、NTP、SYSLOG等基" ∑礎服務的(de)依賴非常高(gāo),需要♣★★ (yào)設計(jì)高(gāo)可(kě)用£∞(yòng)架構避免單點,提供穩定的(de)基礎服務。
應用(yòng)運維
應用(yòng)運維負責線上(shàng)服務的(de)變更、服δ±務狀态監控、服務容災和(hé)數(shù)據備份等工(gōng)δ↑&作(zuò),對(duì)服務進行(xínλ♥γg)例行(xíng)排查、故障應急處理(lǐ)等工(gōng<$δδ)作(zuò)。詳細的(de)工(gōnδ™g)作(zuò)職責如(rú)下(xià)所述。
設計(jì)評審
在産品研發階段,參與産品設計(jì)評審,從(cóng)運維的(de)角度提出✘$≠評審意見(jiàn),使服務滿足運維準入的 ÷(de)高(gāo)可(kě)用(yòng)要(y✔αào)求。
服務管理(lǐ)
負責制(zhì)定線上(shàng)業(yè)務升級變更及回滾方案®☆≠,并進行(xíng)變更實施。掌握所負責的(de)服務及服務間(€ ¶jiān)關聯關系、服務依賴的(de)各種資源。能(néng)夠發現(xià∞↑'n)服務上(shàng)的(de)缺陷,δ 及時(shí)通(tōng)報(bào)并推'α♣≠進解決。制(zhì)定服務穩定性指标及準入<×"标準,同時(shí)不(bù)斷完善和(hé)優化"(huà)程序和(hé)系統的(de)功能(néng)、效率,提高(↔✔gāo)運行(xíng)質量。完善監控內(nèi)容,∑©$§提高(gāo)報(bào)警準确度。在線上★↔♠φ(shàng)服務出現(xiàn)故障時(shí),第一(yī)時α☆★$(shí)間(jiān)響應,對(duì)已知(zhī)&≥♠$線上(shàng)故障能(néng)按流程進行(xíng)通(tōng↔Ω)報(bào)并按預案執行(xíng),✘σ¥未知(zhī)故障組織相(xiàng)關人( ∑↕rén)員(yuán)聯合排障。
資源管理(lǐ)
對(duì)各服務的(de)服務器(qì)資産進行(xíngφ©)管理(lǐ),梳理(lǐ)服務器(qì)資源狀況、數(shù)≈₩¥據中心分(fēn)布情況、網絡專線及帶寬情況,Ωα✔能(néng)夠合理(lǐ)使用(yòng)服務器(qì)資源,根據不( $bù)同服務的(de)需求,分(fēn)配不(b ♠₽ù)同配置的(de)服務器(qì),确保服務器(qì)資源的(de)充≠≥分(fēn)利用(yòng)。
例行(xíng)檢查
制(zhì)定服務例行(xíng)排查點,并不(Ω©≈bù)斷完善。根據制(zhì)定的(de)服務排查點, •對(duì)服務進行(xíng)定期檢查。對(duì)排查過程中發現÷↕(xiàn)的(de)問(wèn)題,及時(shí)♥↓進行(xíng)追查,排除可(kě)能(néng)存在的(d$₹e)隐患。
預案管理(lǐ)
确定服務所需的(de)各項監控、系統指标的(de)阈值或臨界點"♥®Ω,以及出現(xiàn)該情況後的(de)處理♥♣✔&(lǐ)預案。建立和(hé)更新服務預案文(wén)檔,并根據日≠★>(rì)常故障情況不(bù)斷補充完善,提高γ(gāo)預案完備性。能(néng)夠制(§φzhì)定和(hé)評審各類預案,周期性進行(xí "φ♦ng)預案演練,确保預案的(de)可(kě)執行(xíng)性。
數(shù)據備份
制(zhì)定數(shù)據備份策略,按規範進行(xíng)數( 'shù)據備份工(gōng)作(zuò)。保證數(shù)據備份的(de)≥α可(kě)用(yòng)性和(hé)完整性,定期開(k♥"★āi)展數(shù)據恢複性測試。
數(shù)據庫運維
數(shù)據庫運維負責數(shù)據存儲方案設λ♣計(jì)、數(shù)據庫表設計(jì)、索引設δφ計(jì)和(hé)SQL優化(huà),對(duì)數(shα★ù)據庫進行(xíng)變更、監控、備份、高 ×✔(gāo)可(kě)用(yòng)設計(jì)等工(gōng)作(zuò)'↑ 。詳細的(de)工(gōng)作(zuò)職責如(rú)下(xα•ε¥ià)所述。
設計(jì)評審
在産品研發初始階段,參與設計(jì)方案評審,從(cóng)D♥÷↑♣BA的(de)角度提出數(shù)據存儲方案、庫表λπ設計(jì)方案、SQL開(kāi)發标準、索引設計(jì)方案等,使服βγ✔務滿足數(shù)據庫使用(yòng)的(de)高(gāo×÷)可(kě)用(yòng)、高(gāo)性能(∞δγnéng)要(yào)求。
容量規劃
掌握所負責服務的(de)數(shù)據庫的(de)容量上(s±εhàng)限,清楚地(dì)了(le)解當前♠β瓶頸點,當服務還(hái)未到(dào)達容量上(shàng)限時(sh∑₽£í),及時(shí)進行(xíng)優化(huà)、分(δ÷♦fēn)拆或者擴容。
數(shù)據備份與災備
制(zhì)定數(shù)據備份與災備策略,定期完成數(shù)據¥₽≈恢複性測試,保證數(shù)據備份的(de)可(kě)用★< γ(yòng)性和(hé)完整性。
數(shù)據庫監控
完善數(shù)據庫存活和(hé)性能(nβε≠§éng)監控,及時(shí)了(le)解數(shù)據庫運行(x✘"íng)狀态及故障。
數(shù)據庫安全
建設數(shù)據庫賬号體(tǐ)系,嚴格控制(zhì)÷' ←賬号權限與開(kāi)放(fàng)範圍,降低(dī)$ε®±誤操作(zuò)和(hé)數(shù)據洩露的(de)風(fēng)險;★★加強離(lí)線備份數(shù)據的(de)管理(l♦¥"ǐ),降低(dī)數(shù)據洩露的(de)風(γ fēng)險。
數(shù)據庫高(gāo)可(kě)用(yòn∑≤g)和(hé)性能(néng)優化(huà)
對(duì)數(shù)據庫單點風(fēng)險和(☆∞hé)故障設計(jì)相(xiàng)應的(d↔↔←e)切換方案,降低(dī)故障對(duì)數(shù)據庫服務的(d→€↓®e)影(yǐng)響;不(bù)斷對(duì)數(shù)據庫整體(∞₹★tǐ)性能(néng)進行(xíng)優化(huà),包括新存儲方案®☆引進、硬件(jiàn)優化(huà)、文(wén)件(jiàn)系統 φ®£優化(huà)、數(shù)據庫優化(huà)、SQL優化(huà)←&≤等,在保障成本不(bù)增加或者少(shǎo)量增加的(de)情況下¥ §$(xià),數(shù)據庫可(kě)以支撐更多(duō)的(de≥™™)業(yè)務請(qǐng)求。
自(zì)動化(huà)系統建設
設計(jì)開(kāi)發數(shù)據庫自(zì)動化(h<★uà)運維系統,包括數(shù)據庫部署、自(zì)動擴容、分( •&σfēn)庫分(fēn)表、權限管理(lǐ)、備份恢φ∞複、SQL審核和(hé)上(shàng)線、故障×&切換等功能(néng)。
運維研發
運維研發負責通(tōng)用(yòng)的(de)運維平台設計(jì)¥ ∏"和(hé)研發工(gōng)作(zuò),如(rú):資産管理(λ←♣lǐ)、監控系統、運維平台、數(shù)據權限管理(lǐ)系統等。提供各種A←PI供運維或研發人(rén)員(yuán)使用(yòng),封裝更高♥(gāo)層的(de)自(zì)動化(huà)運維系統。詳細≤✘✔≠的(de)工(gōng)作(zuò)職責如(≥↔rú)下(xià)所述。
運維平台
記錄和(hé)管理(lǐ)服務及其關聯關系,協助運"↔↓>維人(rén)員(yuán)自(zì)動化(huà)、流程化(hu→ à)地(dì)完成日(rì)常運維操作(zuò),包↑♠括機(jī)器(qì)管理(lǐ)、重啓、改名、初始化(huà)、域名管理(✔>lǐ)、流量切換和(hé)故障預案實施等Ωε≠÷。
監控系統
負責監控系統的(de)設計(jì)、開(kāi)發工(™≠gōng)作(zuò),完成公司服務器(qì)和(hé♠φ >)各種網絡設備的(de)資源指标、線上(shàng)業(yè)務運行(xín↑↑☆εg)指标的(de)收集、告警、存儲、分(fēn)析、≥Ω•展示和(hé)數(shù)據挖掘等工(gōng)作λ'(zuò),持續提高(gāo)告警的(de)及時(shí)性₩♦、準确性和(hé)智能(néng)性,促進公司服務器(qì)資♣源的(de)合理(lǐ)化(huà)調配。
自(zì)動化(huà)部署系統
參與部署自(zì)動化(huà)系統的(d☆∑↕©e)開(kāi)發,負責自(zì)動化(huà)部署系統所需要(y♣®ào)的(de)基礎數(shù)據和(hé)信息,負責☆♦權限管理(lǐ)、API開(kāi)發、Webφ δ®端開(kāi)發。結合雲計(jì)算(suàn),研發和(hé)提供P₽ΩaaS相(xiàng)關高(gāo)可(kě)用(yòngΩ↓σ)平台,進一(yī)步提高(gāo)服務的(de)部署速度和(h★₹¥↕é)用(yòng)戶體(tǐ)驗,提升資源利用(yòng)率。♥•'
運維安全
運維安全負責網絡、系統和(hé)業(yè)務等方面的(de)安全加固工(§'÷♦gōng)作(zuò),進行(xíng)常規的(de)安±β全掃描、滲透測試,進行(xíng)安全工(gōng)具和(hé)系統研發以及安εδ全事(shì)件(jiàn)應急處理(lǐ)。詳細的®™(de)工(gōng)作(zuò)職責如(rú)±$下(xià)所述。
安全制(zhì)度建立
根據公司內(nèi)部的(de)具體(tǐ)流程,制(zhì)←定切實可(kě)行(xíng),且行(xíng)之有(yǒu)效的(de)↕≤安全制(zhì)度。
安全培訓
定期向員(yuán)工(gōng)提供具有(yǒu)針對(duì)性'✔ 的(de)安全培訓和(hé)考核,在全公司內(nèi)建立安♠全負責人(rén)制(zhì)度。
風(fēng)險評估
通(tōng)過黑(hēi)白(bái)盒測試和✔>φ(hé)檢查機(jī)制(zhì),定期産生(shēng)對≤Ω↔(duì)物(wù)理(lǐ)網絡、服務器(qì↔π"∑)、業(yè)務應用(yòng)、用(yòng)戶數(shù)據等→♣方面的(de)總體(tǐ)風(fēng)險評估結果£β"₹。
安全建設
根據風(fēng)險評估結果,加固最薄弱的(de)環節,包括設計(jì)安←&₩全防線、部署安全設備、及時(shí)更新補丁、防禦病毒&&Ω♦、源代碼自(zì)動掃描和(hé)業(yè)務産品←>§•安全咨詢等。為(wèi)了(le)降低(dī)×↑←可(kě)能(néng)洩露數(shù)據的(de)價值,通(tō→↓£ng)過加密、匿名化(huà)、混淆數(shù)♦÷據,乃至定期删除等技(jì)術(shù)手段和(hé)流程來(lái₩♦§)達到(dào)目的(de)。
安全合規
為(wèi)了(le)滿足例如(rú)支付牌照(zhào∑↓±)等合規性要(yào)求,安全團隊承擔著(zhe)安全合規的(d$∑e)對(duì)外(wài)接口人(rén)工(gōng)作(zuò)。
應急響應
建立安全報(bào)警系統,通(tōng)過安全中心收集第 ✔♥三方發現(xiàn)的(de)安全問(wèn)題,組織&≈Ω<各部門(mén)對(duì)已經發現(xiàn)的(d↔←e)安全問(wèn)題進行(xíng)修複、影(yǐng)響面評≤★♦估、事(shì)後安全原因追查。
運維工(gōng)作(zuò)發展過程
早期的(de)運維團隊在人(rén)員(yuán♠£'✘)較少(shǎo)的(de)情況下(xià),主要(yào)是€(shì)進行(xíng)數(shù)據中心γ↔≈建設、基礎網絡建設、服務器(qì)采購(gòu)和(hé)服Ωα→務器(qì)安裝交付工(gōng)作(z&↕↕uò)。幾乎很(hěn)少(shǎo)涉及線上(shàn∏g)服務的(de)變更、監控、管理(lǐ)等工(gōng₽↓)作(zuò)。這(zhè)個(gè)時(shí)候的(de)運維團隊更多(d£☆→uō)的(de)屬于基礎建設的(de)角色,提供一®♠≥↕(yī)個(gè)簡單、可(kě)用(yòng)的(de)網絡環境和(héΩλ£)系統環境即可(kě)。
随著(zhe)業(yè)務産品的(de)逐漸成熟,對(•↑duì)于服務質量方面就(jiù)有(yǒu)了(le)更高(gāo)的(d₩÷≤≤e)要(yào)求。這(zhè)個(gèδ≠±↑)時(shí)候的(de)運維團隊還(hái)會(huì)承擔一(•≤yī)些(xiē)服務器(qì)監控的(de)工α☆±(gōng)作(zuò),同時(shí)會(huì)負責Lσπ λVS、Nginx等與業(yè)務邏輯無關的(de)4/7層運維工(gōng)™"♥÷作(zuò)。這(zhè)個(gè)時(shí)候服↕≤§務變更更多(duō)的(de)是(shì)逐台的(de)手工(gōng®&ε)操作(zuò),或者有(yǒu)一(yī)些(♦¶δxiē)簡單批量腳本的(de)出現(xiàn)♦♣。監控的(de)焦點更多(duō)的(de)在服務器(qì)狀态 ÷和(hé)資源使用(yòng)情況上(shàng),對(duì)服↔$β務應用(yòng)狀态的(de)監控幾乎很→₽(hěn)少(shǎo),監控更多(duō)的(de)使用£≤(yòng)各種開(kāi)源系統如(rú)Nagios、©↑σCacti等。
由于業(yè)務規模和(hé)複雜(zá)度的(de)持續增加,運維團π>>隊會(huì)逐漸劃分(fēn)為(wèi)應用(yòng)運維和(§®€ hé)系統運維兩大(dà)塊。應用(yòng&♠)運維開(kāi)始接手線上(shàng)業(yè)務,逐↕&☆步開(kāi)展服務監控梳理(lǐ)、數(sh♣σλ ù)據備份以及服務變更的(de)工(gōng)作(zuò)。随著(z✘$he)對(duì)服務的(de)深入,應用(yòngεε★)運維工(gōng)程師(shī)有(yǒu)↔₹能(néng)力開(kāi)始對(duì)服務進行(xín™♠g)一(yī)些(xiē)簡單的(de)優化(h≠>→uà)。同時(shí),為(wèi)了(le)π≈≥應對(duì)每天大(dà)量的(de)服務變更,我們也(yě)開(kāi)始♥ σ編寫各類運維工(gōng)具,針對(du λ♦λì)某些(xiē)特定的(de)服務能(néng)夠很®γ(hěn)方便的(de)批量變更。随著(zhe)業(yè)務規模&↑的(de)增大(dà),基礎設施由于容量規劃不(bù)足或抵禦風(≈σ✘∑fēng)險能(néng)力較弱導緻的(de)故障也(yě)越來(lá&i)越多(duō),迫使運維人(rén)員(y→ ★uán)開(kāi)始将更多(duō)的(de)精力投入到(dào)多>Ω₹≥(duō)數(shù)據中心容災、預案管理(lǐ™¶Ω)的(de)方向上(shàng)。
業(yè)務規模達到(dào)一(yī)定程度後,開♦→•φ(kāi)源的(de)監控系統在性能(néng)和(hé)功能(néng)←©↔方面,已經無法滿足業(yè)務需求;大(dγ♣↑à)量的(de)服務變更、複雜(zá)的(de' )服務關系,以前靠人(rén)工(gōng)記錄、工(gōng)具變更的(de§§ ™)方式不(bù)管在效率還(hái)是(shì)準确性方↕βα→面也(yě)都(dōu)無法滿足業(yè)務需求;在安全方面也(yě)出$¶®×現(xiàn)了(le)各種大(dà)大(dà)小(xi₽¶εǎo)小(xiǎo)的(de)事(shì)件(jiàn←λ✔),迫使我們投入更多(duō)的(de)精力在安全防禦上(shàng)。逐ε'漸的(de),運維團隊形成之前提到(dào)的 φ(de)5個(gè)大(dà)的(de)工(gōng)作(β×≤☆zuò)分(fēn)類,每個(gè)分(fēn)類都(±♠>↓dōu)需要(yào)有(yǒu)專精的(de)人(rénα↔)才。這(zhè)個(gè)時(shí)候系統運維更專注于基礎設施的σ♦λ¥(de)建設和(hé)運維,提供穩定、高(gāo)效的(de)網絡™®φ環境,交付服務器(qì)等資源給應用(yòng)運維工(gōng)程≥↔₹©師(shī)。應用(yòng)運維更專注于服務運行(≤α★xíng)狀态和(hé)效率。數(shù)據庫運維屬于應用(yòng)運維工₩₩(gōng)作(zuò)的(de)細化(huà),更專δ↑₩注于數(shù)據庫領域的(de)自(zì)動化(huà)、性能(®¥néng)優化(huà)和(hé)安全防禦。運維研發和( "™hé)運維安全提供各類平台、工(gōng)具,進一$₩©(yī)步提升運維工(gōng)程師(shī)的(de)工(gōn★g)作(zuò)效率,使業(yè)務服務運行(xíng)得(de)§∞ 更加穩定、高(gāo)效和(hé)安全。
我們将運維發展過程劃分(fēn)為(wèi)4個(gè)階段,如(rú)圖←₹♥1-2所示。
圖1-2 運維發展過程
手工(gōng)管理(lǐ)階段
業(yè)務流量不(bù)大(dà),服務器(φ• qì)數(shù)量相(xiàng)對(duì)較少(shǎo),系統複雜≤ $(zá)度不(bù)高(gāo)。對(duì)于日(rì)常的§δ₹(de)業(yè)務管理(lǐ)操作(zuò),大(dà)©' 家(jiā)更多(duō)的(de)是(sh§≥ì)逐台登錄服務器(qì)進行(xíng)手工(gōng)操作→↔§(zuò),屬于各自(zì)為(wèi)戰,每個(gè)人(rén)都(↕☆ dōu)有(yǒu)自(zì)己的(de)操作(zuò)方式,缺少(λ↔shǎo)必要(yào)的(de)操作(zuò)标準、流程機(jī)制(z♠↑hì),比如(rú)業(yè)務目錄環境都(dō±Ω&u)是(shì)各式各樣的(de)。
工(gōng)具批量操作(zuò)階段
随著(zhe)服務器(qì)規模、系統複雜(zá)度的(<€↕de)增加,全人(rén)工(gōng)的(de)操作(zuò)♥←£方式已經不(bù)能(néng)滿足業(yè)務的(de)快(kuài)速發展δπ 需要(yào)。因此,運維人(rén)員(yuán)逐漸開(γ£kāi)始使用(yòng)批量化(huà)的(de)£®¶操作(zuò)工(gōng)具,針對(duì)不(bù)同操 ÷作(zuò)類型出現(xiàn)了(le)不(bù)同的(de)腳本程→↔$序。但(dàn)各團隊都(dōu)有(yǒu)自(zì)★✘己的(de)工(gōng)具,每次操作(zuò)需求發生(s€σhēng)變化(huà)時(shí)都(dōu)需要(y↓♥ào)調整工(gōng)具。這(zhè)主要∞ $(yào)是(shì)因為(wèi)對(duì)于環境、操作(zuò)的 &®(de)規範不(bù)夠,導緻可(kě)程序化(huà)處理(lǐ)能(né•¥ng)力較弱。此時(shí),雖然效率提升了(le)一(y≠♠δī)部分(fēn),但(dàn)很(hěn)快(k¥∏uài)又(yòu)遇到(dào)了(le)瓶頸。操↕↓>作(zuò)的(de)質量并沒有(yǒu)太多(duō)的©×•₹(de)提升,甚至可(kě)能(néng)因為(wèi)批量執行(xín ×φg)而導緻更大(dà)規模的(de)問(wèn)題出現(xiàn)。我們®₽™開(kāi)始建立大(dà)量的(de)流程規範,比如(rú)複查機(jī)制€βσ$(zhì),先上(shàng)線一(yī)台服務器(qì)觀察10分(fēn★↔)鐘(zhōng)後再繼續後面的(de)操作(zuò),一(yī)次升級完成♥☆後至少(shǎo)要(yào)觀察20分(fēn)鐘(zhōng)™ 等。這(zhè)些(xiē)主要(yào)還(hái)是(shì)靠&÷人(rén)來(lái)監督和(hé)執≥Ω >行(xíng),但(dàn)在實際過程中執✔©♠×行(xíng)往往不(bù)到(dào)位,反而降低£♠ ¶(dī)了(le)工(gōng)作(zuò≥≈×↕)效率。
平台管理(lǐ)階段
在這(zhè)個(gè)階段,對(duì)于運維效率和(hé)誤操作 ₩₩®(zuò)率有(yǒu)了(le)更高(gāo)的(de)要≥ ♥'(yào)求,我們決定開(kāi)始建設運維平台,通(tōng)過平台承載♥π标準、流程,進而解放(fàng)人(rén)力和(hé)提高(gāo)質≤→量。這(zhè)個(gè)時(shí)候對(duì)服務的(de)變 ♦∞♣更動作(zuò)進行(xíng)了(le)抽象,≈¥φ 形成了(le)操作(zuò)方法、服務目錄環境、服務運行(xíng)方式等統₹ 一(yī)的(de)标準,如(rú)程序的(de)啓停接口必須包≥€λ 括啓動、停止、重載等。通(tōng)過平台來(lái)約束操作(zuò) ©¶≥流程,如(rú)上(shàng)面提到(dào)的(de)上(←≈§βshàng)線一(yī)台服務器(qì)≈ Ω±觀察10分(fēn)鐘(zhōng)。在平台中強制(zhì)設定暫停檢查點 •¥,在第一(yī)台服務器(qì)操作(zuò)完成後,需要(yào)運↑Ω維人(rén)員(yuán)填寫相(xiàng)應的(de)檢查項,然¶↓後才可(kě)以繼續執行(xíng)後續的(d≤♠×δe)部署動作(zuò)。
系統自(zì)調度階段
更大(dà)規模的(de)服務數(shù)量、更複雜(δ¥> zá)的(de)服務關聯關系、各個(gè)運維平β₩σ台的(de)林(lín)立,原有(yǒu)的 <↓(de)将批量操作(zuò)轉化(huà)成平台操作(♠≥↕zuò)的(de)方式已經不(bù)再适合,需要(yào)對(duì)服×φ♥務變更進行(xíng)更高(gāo)一(yī)層的(de)抽象。将每一(y&"≠ī)台服務器(qì)抽象成一(yī)個(gè)容器(qì¶ ₩),由調度系統根據資源使用(yòng)情況,将服務調度、γ♠部署到(dào)合适的(de)服務器(qì)上(shà<λ€ng),自(zì)動化(huà)完成與周邊各個(gè)運維系統↑≠"的(de)聯動,比如(rú)監控系統、日(rì)志(<∑zhì)系統、備份系統等。通(tōng)過自(zì≈')調度系統,根據服務運行(xíng)情況動态伸縮容量±↔★₽,能(néng)夠自(zì)動化(huà)處理(lǐ)常見♥→(jiàn)的(de)服務故障。運維人(rén)β&§員(yuán)的(de)工(gōng)作(zuò)γ™ 也(yě)會(huì)前置到(dào)産品設計(jα&ì)階段,協助研發人(rén)員(yuán)改£™↓®造服務使其可(kě)以接入到(dào)自(z↔→↔ì)調度系統中。
在整個(gè)運維的(de)發展過程中,希望所有(yǒ★©₽↓u)的(de)工(gōng)作(zuò)都(dōu)自(zì)動化(huà↔∏)起來(lái),減少(shǎo)人(rén)的(de)重複ελ工(gōng)作(zuò),降低(dī)知(zhī)識傳遞的( σde)成本,使我們的(de)運維交付更高(β↔γ≤gāo)效、更安全,使産品運行(xíng)€≤更穩定。對(duì)于故障的(de)處理(>₹÷lǐ),也(yě)希望由事(shì)後處理(lǐ)變成提 φ←前發現(xiàn),由人(rén)工(gōng€←₹)處理(lǐ)變成系統自(zì)動容災。
原文(wén)來(lái)自(zì): &n∞♥Ωbsp;http://www.yunweipai.com/arα§₹chives/21491.html