互聯網運維工(gōng)作(zuò),以服務為(wèi)←¶ 中心,以穩定、安全、高(gāo)效為(wèi)三個(gè)基× 本點,确保公司的(de)互聯網業(yè)務能(néng)夠 7ו ★;24 小(xiǎo)時(shí)為(wèi)£∞£ 用(yòng)戶提供高(gāo)質量的(de∞δ)服務。
運維人(rén)員(yuán)對(duì& )公司互聯網業(yè)務所依賴的(de)基礎設施、基礎≥≥ 服務、線上(shàng)業(yè)務進行(xíng)穩定性≠♣☆π加強,進行(xíng)日(rì)常巡檢發現(x÷₩©iàn)服務可(kě)能(néng)存在的(de)隐患,±γ對(duì)整體(tǐ)架構進行(xíng)優✘$化(huà)以屏蔽常見(jiàn)的(de←✔→)運行(xíng)故障,多(duō)數(shù)據中接入 ↑提高(gāo)業(yè)務的(de)容災能(néng)力。
通(tōng)過監控、日(rì)志(zhì)分(fēn)析等技(jì♣ ₩)術(shù)手段,及時(shí)發現(x€>iàn)和(hé)響應服務故障,減少(s ∞hǎo)服務中斷的(de)時(shí)間(jiān),使↕>λ公司的(de)互聯網業(yè)務符合預期的(de)可(kě)用(yò§ng)性要(yào)求,持續穩定地(dì)←¥≤為(wèi)用(yòng)戶提供務。
在安全方面,運維人(rén)員(yuán)需要(yào)關注業(yè)務運σ₹"行(xíng)所涉及的(de)各個(gè)層面,确保用€™(yòng)戶能(néng)夠安全、完整地(d♦ <ì)訪問(wèn)在線業(yè)務。
從(cóng)網絡邊界劃分(fēn)、ACL ≈♥←•管理(lǐ)、流量分(fēn)析、DDoS 防禦,到(dào)操作(zuò'σ™)系統、開(kāi)源軟件(jiàn)的"εα(de)漏洞掃描和(hé)修補,再到(dàoλ₹)應用(yòng)服務的(de)XSS、SQL¥×♠注入防護;
從(cóng)安全流程梳、代碼白(bái)盒黑(hēi)盒掃描、 "權限審計(jì),到(dào)入侵行(xín♣¶σg)為(wèi)檢測、業(yè)務風(fēn$♠✘g)險控制(zhì)等。
運維人(rén)員(yuán)需要(yào)↔®保障公司提供的(de)互聯網業(yè) 運行(xíng)在安全、可(kě®Ω)控的(de)狀态下(xià),确保公司業(yè)務¶λ數(shù)據和(hé)用(yòng)戶隐私數(sh<↕ù)據的(de)安全,同時(shí)還(hái)需要(yào)<α•具備抵禦各種惡意攻擊的(de)能(néng✘♣)力。
在确保業(yè)務穩定、安全的(de)前提下(xià),還(hái)需保障×₩業(yè)務高(gāo)效的(de)運轉,公司內(nèi)快(kuài)↓ ≈速的(de)産出。運維工(gōng)作(zuò)需要♣←♣(yào)對(duì)業(yè)務進行(xí≠'☆ng)各方面優化(huà)。
比如(rú),IO 優化(huà)提升數(sh♥Ω☆ù)據庫性能(néng),圖片壓縮降低(dī)帶 Ωα寬使用(yòng)量等,提供的(de)互聯網業(yè)務以較小(xiǎo)的✔∑✘₩(de)資源投入帶來(lái)最大(dà)的(de)用(yò₹×'×ng)戶價值和(hé)體(tǐ)驗。同時(shí),±∏還(hái)需要(yào)通(tōng)過各≤÷種工(gōng)具平台提升內(nèi)部産品發布交付的(deβ)效率,提升公司內(nèi)運維相(xiàng)關±♣₽的(de)工(gōng)作(zuò)效率。
工(gōng)作(zuò)分(fēn)類運維
運維的(de)工(gōng)作(zuò)β₩方向比較多(duō),随著(zhe)業(yè)務♣£∞§規模的(de)不(bù)斷發展,越成熟的(de)互聯網公司,運維崗$★₽€位會(huì)劃分(fēn)得(de)越細α₹ 。當前很(hěn)多(duō)大(dà)型的(de)互聯網公司,在初§♣創時(shí)期隻有(yǒu)系統運維,随著(zhe)服務規模♠β、服務質量的(de) 要(yào)求,也(yě)逐漸進行(xíng)了(©>le)工(gōng)作(zuò)細分(fēnγσ≥≤)。
一(yī)般情況下(xià)運維團隊的(de)≥$工(gōng)作(zuò)分(fēn)類(見(jiàn)圖1'₹-1)和(hé)職責如(rú)下(xià)。
圖1-1 運維團隊的(de)工(gōng→∑)作(zuò)分(fēn)類
系統運維
平均薪資:7800元/月(yuè)
系統運維負責IDC、網絡、CDN和(hé)基礎服務的(dβ Ωe)建設(LVS、NTP、DNS);負責資産管理(lǐ),→•服務器(qì)選型、交付和(hé)維修。詳細的(de)工(gōng)作(z<≤uò)職責如(rú)下(xià):
1.IDC數(shù)據中心建設
收集業(yè)務需求,預估未來(lái)數(shù)據中 ∑心的(de)發展規模,從(cóng)骨幹網的(de)分(☆"fēn)布,數(shù)據中心建築,以及Internet接入、網絡攻擊↑Ω防禦能(néng)力、擴容能(néng)力、空(kōng)間''(jiān)預留、外(wài)接專線能(néng)力、現(xiàn)σ'場(chǎng)服務支撐能(néng)力等方面評估選型數(shù)→>據中心。負責數(shù)據中心的(de)建設、現(xiàn)場(c ♥hǎng)維護工(gōng)作(zuò)。
2.網絡建設
設計(jì)及規劃生(shēng)産網絡£Ω>架構,這(zhè)裡(lǐ)面包括:數(shù)據中心網絡架構、傳輸網架構、Cλ•®DN網絡架構等,以及網絡調優等日(rì)常運維工(gōng)作(zuò↕ε)。
3.LVS 負載均衡和(hé) SNAT 建設
LVS 是(shì)整個(gè)站(zhàn)點架構中的(de)流量入口,根✔♠✔ε據網絡規模和(hé)業(yè)務需求,構建負載均衡集群。完成網絡與業(≤λφyè)務服務器(qì)的(de)銜接,提供高(gāo)性能(néng÷₩)、高(gāo)可(kě)用(yòng)的(de)負載調度能(néng)φ☆力,以及統一(yī)的(de)網絡層防攻擊能(néng)力。
SNAT .集中提供數(shù)據中心的(de)δ←公網訪問(wèn)服務,通(tōng)過∞÷×£集群化(huà)部署,保證出網服務的(de)高(gāo)性能(néng)與≠♦€€高(gāo)可(kě)用(yòng)。
4.CDN 規劃和(hé)建設
CDN 工(gōng)作(zuò)劃分(fēn)為(wèi)第三方和(h ≥ é)自(zì)建兩部分(fēn)。
建立第三方 CDN 的(de)選型和(hé↑₹)調度控制(zhì);根據業(yè)務發展趨勢,規劃☆γ♣CDN新節點建設布局;完善CDN業(yè)務及監控,保障CDN 系統穩<★♥定、高(gāo)效運行(xíng)。
分(fēn)析業(yè)務加速頻(pín)道(dào¶✘)的(de)文(wén)件(jiàn)特性和'™(hé)數(shù)量,制(zhì)定最優✘↕的(de)加速策略和(hé)資源匹配;負責用♥≈(yòng)戶劫持等CDN日(rì)常故障排查工(gōng)作♣π☆©(zuò)。
5.服務器(qì)選型、交付和(hé)維護
負責服務器(qì)的(de)測試選型,包含服務器(qì)整機(jī)、部件(j ±iàn)的(de)基礎性測試和(hé)業(yè)務測•∏試,降低(dī)整機(jī)功率,提升機(↔σjī)架部署密度等。
結合對(duì)公司業(yè)務的(de)了(le)解,推廣™≈新硬件(jiàn)、新方案減少(shǎo)業(yελ₽è)務的(de)服務器(qì)投入規模。負責服務器(qì)♣•$硬件(jiàn)故障的(de)診斷定位,服務器( ♠qì)硬件(jiàn)監控、健康檢查工(gōφαε✘ng)具的(de)開(kāi)發和(hé)維護。
6.OS、內(nèi)核選型和(hé) OS 相(xiàng✔™¶)關維護工(gōng)作(zuò)
負責整體(tǐ)平台的(de) OS 選型、定制(zhì)和(hé)內λ♣÷(nèi)核優化(huà),以及 Patch 的(de)更新和(héδ×<)內(nèi)部版本發布;建立基礎的(de)YUM包管理(lǐ)和(hé≥♦')分(fēn)發中心,提供常用(yòng£∞)包版本庫;跟進日(rì)常各類 OS 相(λ≤xiàng)關故障;針對(duì)不(bù)同的(β©de)業(yè)務類型,提供定向的(de)優化(huà)支持。
7.資産管理(lǐ)
記錄和(hé)管理(lǐ)運維相(xiàng)φ₩關的(de)基礎物(wù)理(lǐ)信息,包括數(shù)據中心、網絡、機®β (jī)櫃、服務器(qì)、ACL、IP等各種資源信息,制(zhì)₹↕♠&定有(yǒu)效的(de)流程,确保信息的(de)準确性;開(kāi)放(σφfàng)API接口,為(wèi)自(zì)動化(huà)運維提供數(shù→&←→)據支持。
8.基礎服務建設
業(yè)務對(duì) DNS、NTP✔≥、SYSLOG 等基礎服務的(de)依賴非常高(gāo),需要(yà←↕←o)設計(jì)高(gāo)可(kě)用(yòng)架☆÷¶構避免單點,提供穩定的(de)基礎服務。
應用(yòng)運維
平均薪資:6000元/月(yuè)
應用(yòng)運維負責線上(shàng)服務的 σ(de)變更、服務狀态監控、服務容災和(¥hé)數(shù)據備份等工(gōng)作(zuò),對(duì)λ¶₩服務進行(xíng)例行(xíng)排查、故障應急處理÷©(lǐ)等工(gōng)作(zuò)。詳細的(de)工(gōng)作(z₽¶★uò)職責如(rú)下(xià)所述。
1.設計(jì)評審
在産品研發階段,參與産品設計(jì)評審,從(cóng)運σ✔σ≈維的(de)角度提出評審意見(jiàn),使服務滿足運維準入的(d©σ×e)高(gāo)可(kě)用(yòng)要(yào)求。
2.服務管理(lǐ)
負責制(zhì)定線上(shàng)業(yè)務升級Ωσ™≠變更及回滾方案,并進行(xíng)變更實施。掌握所負責的(d♣€e)服務及服務間(jiān)關聯關系、服•φ©務依賴的(de)各種資源。能(néng)夠發現(xΩ¶✘∞iàn)服務上(shàng)的(de)缺陷,及時(shí)通(tōng)報♣δ≠☆(bào)并推進解決。
制(zhì)定服務穩定性指标及準入标準,同時(shí)₹不(bù)斷完善和(hé)優化(huà)程序和(hé)系統的(≠©δde)功能(néng)、效率,提高(gāo)運行(xíng)質量。完£λ≈善監控內(nèi)容,提高(gāo)報(bào)警準确度。
在線上(shàng)服務出現(xiàn)故障時(shí),第一(yī)時(₹→shí)間(jiān)響應,對(duì)已知(zhī)線上(shàng)故障能≠♥$(néng)按流程進行(xíng)通(tōng)報(bào'★✔£)并按預案執行(xíng),未知(zhī)故障組織相(xiàng)關人(rénσ∏)員(yuán)聯合排障。
3.資源管理(lǐ)
對(duì)各服務的(de)服務器(qì)資産進行(λ xíng)管理(lǐ),梳理(lǐ)服務器(q≥ε£®ì)資源狀況、數(shù)據中心分(fēn®$)布情況、網絡專線及帶寬情況,能(néng)夠合理(lǐ)使用(yòng'")服務器(qì)資源,根據不(bù)同服務的(₩ ₩de)需求,分(fēn)配不(bù)同配置的(de)服務器(qì),∞ '确保服務器(qì)資源的(de)充分(fēn)利用(> £yòng)。
4.例行(xíng)檢查
制(zhì)定服務例行(xíng)排查點,并不(bù)斷完善。根據制(zhì)βπ定的(de)服務排查點,對(duì)服務進行(xíng)定期檢查。對(✘≤δduì)排查過程中發現(xiàn)的(de)問(wèn)題,及時(sh≠∞•í)進行(xíng)追查,排除可(kě)能(néng)存在的(de)隐患。
5.預案管理(lǐ)
确定服務所需的(de)各項監控、系統指标的(de)阈值或臨界點,以及出現<♦∞(xiàn)該情況後的(de)處理(lǐ)預案δβ。建立和(hé)更新服務預案文(wén)檔©÷,并根據日(rì)常故障情況不(bù)斷補充完善∞©™,提高(gāo)預案完備性。能(néng)夠制(zhì)定和(hé±÷π)評審各類預案,周期性進行(xíng)預案演練,确保預案的÷±(de)可(kě)執行(xíng)性。
6.數(shù)據備份
制(zhì)定數(shù)據備份策略,按規範進行(xíng)數(shù)據π₹備份工(gōng)作(zuò)。保證數(shù)據備份的(≈♥÷de)可(kě)用(yòng)性和(hé)完整性,定期開(kā> φi)展數(shù)據恢複性測試。
數(shù)據庫運維
平均薪資:9500元/月(yuè)
數(shù)據庫運維負責數(shù)據存π≥儲方案設計(jì)、數(shù)據庫表設計(jì)、∞♣©索引設計(jì)和(hé)SQL優化(huà),對(duì)數(sh☆∑ ù)據庫進行(xíng)變更、監控、備份、高(gāo)可(kě)用(©εyòng)設計(jì)等工(gōng)作(™↓zuò)。詳細的(de)工(gōng)作(z₹ ♥ uò)職責如(rú)下(xià)所述。
1.設計(jì)評審
在産品研發初始階段,參與設計(jì)方案評審,從(cóng)Dασ>♦BA的(de)角度提出數(shù)據存儲方案、庫表設計(jì)方案、SQLγ♠開(kāi)發标準、索引設計(jì)方案σ€™等,使服務滿足數(shù)據庫使用(yòng)的(de)高(gā≥™ o)可(kě)用(yòng)、高(gāo)性能(néng)要(yào✘€₹§)求。
2.容量規劃
掌握所負責服務的(de)數(shù)據庫的(de)容量上(shàn£★σg)限,清楚地(dì)了(le)解當前瓶頸點,當服務還(hái)未到(dà✔£o)達容量上(shàng)限時(shí),及時(shí)進行(xí ↑ng)優化(huà)、分(fēn)拆或者擴容。
3.數(shù)據備份與災備
制(zhì)定數(shù)據備份與災備策略,定期完≈成數(shù)據恢複性測試,保證數(shù)據備份的(de)可(↔÷kě)用(yòng)性和(hé)完整性。
4.數(shù)據庫監控
完善數(shù)據庫存活和(hé)性能(±✘&néng)監控,及時(shí)了(le)解數(shù)據庫運行(xí'←ng)狀态及故障。
數(shù)據庫安全
建設數(shù)據庫賬号體(tǐ)系,嚴®ε格控制(zhì)賬号權限與開(kāi)放(fàng)範圍,降低(dī)誤操♣®∑λ作(zuò)和(hé)數(shù)據洩露的(deφ≠)風(fēng)險;加強離(lí)線備份數(shù)據的(de)管理(lǐ€↕★),降低(dī)數(shù)據洩露的(de)風(fēng)險。
5.數(shù)據庫高(gāo)可(kě)用(y≤♠òng)和(hé)性能(néng)優化(huà)
對(duì)數(shù)據庫單點風(fēng)險和←≈(hé)故障設計(jì)相(xiàng)應的(de)切換方>¶φ案,降低(dī)故障對(duì)數(shù↓>"')據庫服務的(de)影(yǐng)響;不(bù)€"斷對(duì)數(shù)據庫整體(tǐ)性能(néng)進∞δ★δ行(xíng)優化(huà),包括新存儲方案引進、硬件(jià 'n)優化(huà)、文(wén)件(jiàn)系統優≥±化(huà)、數(shù)據庫優化(huà)、SQL優化(hλuà)等,在保障成本不(bù)增加或者少(shǎo)×γ↓量增加的(de)情況下(xià),數(shù)據庫✘←¶可(kě)以支撐更多(duō)的(de)業(yè)務請(qǐng)求。
6.自(zì)動化(huà)系統建設
設計(jì)開(kāi)發數(shù)據庫自(zì)動化(huà)運β"≥←維系統,包括數(shù)據庫部署、自(zì)動擴容、分(fēn)庫分♣π(fēn)表、權限管理(lǐ)、備份恢複、βγ®SQL審核和(hé)上(shàng)線、故障切換等功能(néngλ☆€)。
7.運維研發
運維研發負責通(tōng)用(yòng)的≠>≈↔(de)運維平台設計(jì)和(hé)研發工(gōng)作(zuò)✘,如(rú):資産管理(lǐ)、監控系統、運維平台、數(shù)據權δα×限管理(lǐ)系統等。提供各種API供運維或研發人(rén)員(yuá©"∏↓n)使用(yòng),封裝更高(gāo)層的(de)自(zì)動化∞™(huà)運維系統。詳細的(de)工(gōn"₹g)作(zuò)職責如(rú)下(xià)所述。
8.運維平台
記錄和(hé)管理(lǐ)服務及其關聯關系,協助↑¶>∞運維人(rén)員(yuán)自(zì)動化(h γπuà)、流程化(huà)地(dì)完成日(rì)常運維操作(zuò₽£★®),包括機(jī)器(qì)管理(lǐ) ♥、重啓、改名、初始化(huà)、域名管理(lǐ)、流量切換和(hé)故障預案₽π♠實施等。
9.監控系統
負責監控系統的(de)設計(jì)、開(kāi)發工(gōng)作₩φ¶®(zuò),完成公司服務器(qì)和(hβé)各種網絡設備的(de)資源指标、線上(s≠¥★Ωhàng)業(yè)務運行(xíng)指标的(de)收集βε£、告警、存儲、分(fēn)析、展示和(hé)數(shù)據挖掘等工(gōng)↑π←作(zuò),持續提高(gāo)告警的(de)及時 £(shí)性、準确性和(hé)智能(nénφ¶∑g)性,促進公司服務器(qì)資源的(deΩσ)合理(lǐ)化(huà)調配。
10.自(zì)動化(huà)部署系統
參與部署自(zì)動化(huà)系統的(de)開(£≠kāi)發,負責自(zì)動化(huà)部署系統所需要(yào∞₹₹)的(de)基礎數(shù)據和(hé)信息,>β€負責權限管理(lǐ)、API開(kāi)發、Web端開(kāi)發。結∞σ合雲計(jì)算(suàn),研發和(hé)提供PaaS相(xiàn★↑≠>g)關高(gāo)可(kě)用(yòng)平台,進一Ω÷∑β(yī)步提高(gāo)服務的(de)部署速度和(hé)≤™'用(yòng)戶體(tǐ)驗,提升資源利用(yòng)率。
運維安全
平均薪資:8500元/月(yuè)
運維安全負責網絡、系統和(hé)業(yè)務等方面的(de)安全加固工(gōn×™φg)作(zuò),進行(xíng)常規的(de)安全掃描、滲透測試,σ÷進行(xíng)安全工(gōng)具和(hé)系統研發以及安全☆↓事(shì)件(jiàn)應急處理(lǐ)。詳細的(de)工(g•π↔ōng)作(zuò)職責如(rú)下(xi↔δ™≤à)所述。
1.安全制(zhì)度建立
根據公司內(nèi)部的(de)具體(tǐ)流程,制(zhì)定™♣•切實可(kě)行(xíng),且行(xíng)之有(yǒu)效的(de)安全<ε•♠制(zhì)度。
2.安全培訓
定期向員(yuán)工(gōng)提供具有(yǒu)針對(✘≈ ₽duì)性的(de)安全培訓和(hé)考核,在全公司內(nèi)建立安全負責♠✘人(rén)制(zhì)度。
3.風(fēng)險評估
通(tōng)過黑(hēi)白(bái)§← ≠盒測試和(hé)檢查機(jī)制(zhì),定期産生(sσ€hēng)對(duì)物(wù)理(lǐ)網絡、服務器(qì)、♦β∏∑業(yè)務應用(yòng)、用(yòng)戶數(shù)據等方面的(de)總≥' 體(tǐ)風(fēng)險評估結果。
4.安全建設
根據風(fēng)險評估結果,加固最薄弱的(de)環節$≈≤ ,包括設計(jì)安全防線、部署安全設備、及時(shí)更新補丁、防禦病ε✘€毒、源代碼自(zì)動掃描和(hé)業(yè)務産品安全咨詢等。↕↓₩為(wèi)了(le)降低(dī)可(kě)能(néng)洩↑↔露數(shù)據的(de)價值,通(tōng)過€≥♠<加密、匿名化(huà)、混淆數(shù)據,乃至定期删除等技('σjì)術(shù)手段和(hé)流程來(lái)達到(dào)目的(de)。∏Ω↓©
5.安全合規
為(wèi)了(le)滿足例如(rú)支付 φ牌照(zhào)等合規性要(yào)求,安全團隊承擔著(zhe)安全合規的(•✘✔de)對(duì)外(wài)接口人(rén)工(gōng)作§♣¥(zuò)。
6.應急響應
建立安全報(bào)警系統,通(tōng)過安全中心收集第三方發現(xiàn) $的(de)安全問(wèn)題,組織各部門(mén)對(duì)已經₽β發現(xiàn)的(de)安全問(wèn)題進行(xíng)修複、影(yǐng♦π$)響面評估、事(shì)後安全原因追查。
運維工(gōng)作(zuò)發展過程
早期的(de)運維團隊在人(rén)員(y≥φ↕uán)較少(shǎo)的(de)情況下(xià),主要 δ♠(yào)是(shì)進行(xíng)數(shù≤®γ)據中心建設、基礎網絡建設、服務器(qì)采購(gòu)和(hé)服≤★≥λ務器(qì)安裝交付工(gōng)作(zuò)。幾乎很(hěn)少(sh₽¥ǎo)涉及線上(shàng)服務的(de)變更、監控、管理(lǐ)等工(gōγ∏ng)作(zuò)。
這(zhè)個(gè)時(shí)候的(de)☆₩運維團隊更多(duō)的(de)屬于基礎∑✘¶建設的(de)角色,提供一(yī)個(gè)簡單、可(kě)用(yòngεδ•)的(de)網絡環境和(hé)系統環境即可(kě)。
随著(zhe)業(yè)務産品的(de)逐α♦≥漸成熟,對(duì)于服務質量方面就(jiù)有(yǒu) ¥了(le)更高(gāo)的(de)要(yàoλΩλ)求。這(zhè)個(gè)時(shí)候的(de)運維團隊還(hái)會(h≈¥uì)承擔一(yī)些(xiē)服務器(qì)監控的(de ¥)工(gōng)作(zuò),同時(shí)會(huì)負責 LVS♠&£、Nginx 等與業(yè)務邏輯無關的(de) 4/7 層運維工(gōng)÷↓作(zuò)。
這(zhè)個(gè)時(shí)候服務變更更多(duβ✘÷£ō)的(de)是(shì)逐台的(de)手工(gōng)操作(zuò↕>),或者有(yǒu)一(yī)些(xiē)簡單批量腳本的(de)出現(xiàε>₹Ωn)。監控的(de)焦點更多(duō)的(de)在服務器(₽αqì)狀态和(hé)資源使用(yòng)情況上(βφshàng),對(duì)服務應用(yòng)狀≤®态的(de)監控幾乎很(hěn)少(shǎo✔÷),監控更多(duō)的(de)使用(yòng)各種≠® 開(kāi)源系統如(rú)Nagios、Cact♥γi等。
由于業(yè)務規模和(hé)複雜(zá)度的(d∑¶♥♦e)持續增加,運維團隊會(huì)逐漸劃分( ÷ fēn)為(wèi)應用(yòng)運維和(hé)系統✔↓₽φ運維兩大(dà)塊。應用(yòng)運維開(kāi)始接手線上(↑¶shàng)業(yè)務,逐步開(kāi)展服務監控梳理₽∑(lǐ)、數(shù)據備份以及服務變更的(de)工(gōng) ±作(zuò)。
随著(zhe)對(duì)服務的(de)深入,應用(yòng>↓✘)運維工(gōng)程師(shī)有(yǒu)能(néng)&£力開(kāi)始對(duì)服務進行(xíng)一(yī)些(xiΩ§ē)簡單的(de)優化(huà)。同時(sh£→í),為(wèi)了(le)應對(duì)每天大(dà)量的(d®♦e)服務變更,我們也(yě)開(kāi)始編寫各類運維工(gōng)具,針£&對(duì)某些(xiē)特定的(de)服務能(néng)夠很(hěβ≈≠n)方便的(de)批量變更。
随著(zhe)業(yè)務規模的(de)增大(dà),基礎設✔≤施由于容量規劃不(bù)足或抵禦風(fēng)險能(néng)力較弱導緻≤≤"的(de)故障也(yě)越來(lái)越多(duō α),迫使運維人(rén)員(yuán)開(kāi)始将更多 ∏(duō)的(de)精力投入到(dào)多(duō)數(shù)φ§據中心容災、預案管理(lǐ)的(de)方向上(shàng)。
業(yè)務規模達到(dào)一(yī)定程度後,開(kāi)源的§™₩(de)監控系統在性能(néng)和(hé)功能(néng)α±£'方面,已經無法滿足業(yè)務需求;大(dà)量≥→®的(de)服務變更、複雜(zá)的(de)服務關系,以前靠人(rén)工☆∏↑(gōng)記錄、工(gōng)具變更的(d÷♠e)方式不(bù)管在效率還(hái)是(shì)準确性方面也(★£yě)都(dōu)無法滿足業(yè)務需求。
在安全方面也(yě)出現(xiàn)了(le)各種大(dà)大(dà)小(x §iǎo)小(xiǎo)的(de)事(shì)件(jià¶®∑n),迫使我們投入更多(duō)的(de)精力在安全防λ¥ 禦上(shàng)。逐漸的(de),運維團隊形成之前提到♣≈÷ (dào)的(de)5個(gè)大(dà)的(d↓∞e)工(gōng)作(zuò)分(fēn)類,每個(•ε♦gè)分(fēn)類都(dōu)需要(yào)有(yα¶♦×ǒu)專精的(de)人(rén)才。
這(zhè)個(gè)時(shí)候系統運維更專注于基礎設施的(de≈£ Ω)建設和(hé)運維,提供穩定、高(gāo)效的(deα ≤)網絡環境,交付服務器(qì)等資源給應用(yòng)運維工(gōng)程師<₽↕•(shī)。應用(yòng)運維更專注于服務運行(xíng)狀<β♥态和(hé)效率。
數(shù)據庫運維屬于應用(yòng)運維工(gōngΩ↓<)作(zuò)的(de)細化(huà),更專注于¥↕λπ數(shù)據庫領域的(de)自(zì)動化(huà)、性能(nénΩλ £g)優化(huà)和(hé)安全防禦。運維研發和(hé∞δ>)運維安全提供各類平台、工(gōng)具,進一(yī)步提≠σ✘升運維工(gōng)程師(shī)的(de)工(gōng)作(zuò)♦↕效率,使業(yè)務服務運行(xíng)得(π±de)更加穩定、高(gāo)效和(hé)安全。
手工(gōng)管理(lǐ)階段:業(yè)務流量不(bù)大(dà),服務器(qì)數(s¶hù)量相(xiàng)對(duì)較少(↔φshǎo),系統複雜(zá)度不(bù)高(gāo)₩↓€≈。對(duì)于日(rì)常的(de)業(yè)務管理(lǐ)操作(z£♠♣uò),大(dà)家(jiā)更多(duō)的(de)₽©∑是(shì)逐台登錄服務器(qì)進行(xíng)手工(®←ε>gōng)操作(zuò),屬于各自(zì)為(wèi)"™&€戰,每個(gè)人(rén)都(dōu)有(yǒu)自(zì)₽↔←↑己的(de)操作(zuò)方式,缺少(shǎo)必要(yà₹←o)的(de)操作(zuò)标準、流程機(jī)制(zhì),比如¥≥(rú)業(yè)務目錄環境都(dōu)是(shì)各式≤♠β各樣的(de)。
工(gōng)具批量操作(zuò)階段:随著(zhe)服務器(qì)規模、系統複雜(zá)度的(de)增加,全人®'(rén)工(gōng)的(de)操作(z₩αuò)方式已經不(bù)能(néng)滿足業(yè)務的(de≈÷)快(kuài)速發展需要(yào)。因此,運維人(rén)員(yuán)逐漸≤ε開(kāi)始使用(yòng)批量化(huà)的(de)操作(zuò)工(g♥ σ™ōng)具,針對(duì)不(bù)同操作(zuò)類型出現(xiàn)了( ←le)不(bù)同的(de)腳本程序。
但(dàn)各團隊都(dōu)有(yǒu)自♣ ♥(zì)己的(de)工(gōng)具,每次操作(zuò)需求發生(shēng∞≥)變化(huà)時(shí)都(dōu)需要(yào)調整工(α↔gōng)具。這(zhè)主要(yào)↕✘∞是(shì)因為(wèi)對(duì)于環境、操作(zuò)的(de)規範 •π™不(bù)夠,導緻可(kě)程序化(huà)處<§•理(lǐ)能(néng)力較弱。此時(shí),雖然效率提升了(le)一↔≤≤≠(yī)部分(fēn),但(dàn)很(hěn)快(kuài)又(yò♦↓u)遇到(dào)了(le)瓶頸。
操作(zuò)的(de)質量并沒有(yǒu)太多α≤(duō)的(de)提升,甚至可(kě)能(néng)因為(wèi)批量 ¥↕執行(xíng)而導緻更大(dà)規模的(de)問(wèn)題出現(x♣☆→σiàn)。我們開(kāi)始建立大(dà☆♦£)量的(de)流程規範,比如(rú)複查機(jī)制(zhì),先∞ ¶≤上(shàng)線一(yī)台服務器(qì)觀察10分(fēn)鐘→∑(zhōng)後再繼續後面的(de)操作(zuò≠♠×),一(yī)次升級完成後至少(shǎo)要(yào)觀✘ ≠♠察20分(fēn)鐘(zhōng)等。
這(zhè)些(xiē)主要(yào)還(hái)是(shì)靠人(rén)∞∑•來(lái)監督和(hé)執行(xíng),但(dàn)在實際過程中₽γ執行(xíng)往往不(bù)到(dào)位,反而降低∞→¶(dī)了(le)工(gōng)作(zuò♦©)效率。
平台管理(lǐ)階段:在這(zhè)個(gè)階段,對(duì)于運維效率和♦¶₩(hé)誤操作(zuò)率有(yǒu)了(lα≈₽ e)更高(gāo)的(de)要(yào)求,我們決定開(kāi←←♣)始建設運維平台,通(tōng)過平台承載标準、流程,進而£§÷解放(fàng)人(rén)力和(hé)提高(₩σgāo)質量。
這(zhè)個(gè)時(shí)候對(duì)服務的(de≠φγ<)變更動作(zuò)進行(xíng)了(le)抽象,形"∏成了(le)操作(zuò)方法、服務目錄©β環境、服務運行(xíng)方式等統一(y♣€<≥ī)的(de)标準,如(rú)程序的(de)啓停接口必須包€≈↔₹括啓動、停止、重載等。通(tōng)過平台來(lái)約束操作(zuò)流程,¶₩如(rú)上(shàng)面提到(dào)的(de)上(sh஥¶ng)線一(yī)台服務器(qì)觀察10分(fēn)鐘(zhōng)∑≠。
在平台中強制(zhì)設定暫停檢查點,在第一(yī)台₹≠©服務器(qì)操作(zuò)完成後,需要(yào)×$™運維人(rén)員(yuán)填寫相(xiγ€ε∏àng)應的(de)檢查項,然後才可(kě)以繼續執行(xíng)後續的(de¥>)部署動作(zuò)。
系統自(zì)調度階段:更大(dà)規模的(de)服務數(shù)↔ δ∞量、更複雜(zá)的(de)服務關聯關系、各個(₹φ×gè)運維平台的(de)林(lín)立,原有♣<(yǒu)的(de)将批量操作(zuò)轉化(huà)成平台操∞→作(zuò)的(de)方式已經不(bù)再适合,需要(yào)對(duì)≥≥服務變更進行(xíng)更高(gāo)一(yī)層的(₩ de)抽象。
将每一(yī)台服務器(qì)抽象成一(yī♠✔)個(gè)容器(qì),由調度系統根據資源使用(yò✘≈✔ ng)情況,将服務調度、部署到(dào)合适的(de)服 ¥× 務器(qì)上(shàng),自(zì)動化(huà)完成與周♥← 邊各個(gè)運維系統的(de)聯動,比如(rú)監控系統 ₩×™、日(rì)志(zhì)系統、備份系統等。
通(tōng)過自(zì)調度系統,根據服務運σ♦行(xíng)情況動态伸縮容量,能(néng)夠自(zì)動化(hu¥π€∞à)處理(lǐ)常見(jiàn)的(de)服務故→↕₩₽障。運維人(rén)員(yuán)的(de)工(gōng)作•☆(zuò)也(yě)會(huì)前置到(dào)産品設計(jì)階段,∑"λ✘協助研發人(rén)員(yuán)改造服©÷務使其可(kě)以接入到(dào)自(zì)調度系統中。
在整個(gè)運維的(de)發展過程中,α →δ希望所有(yǒu)的(de)工(gōng)作(zuò)都(d®₽ ōu)自(zì)動化(huà)起來(lái☆↑σ),減少(shǎo)人(rén)的(de)重複工(gōng)作(zuò)¶♣☆♠,降低(dī)知(zhī)識傳遞的(de)成本,使我ε π們的(de)運維交付更高(gāo)效、更安全,使産品運行(xíng)更穩定βΩ。對(duì)于故障的(de)處理(lǐ),也(yě)希望由事(↓Ω♥shì)後處理(lǐ)變成提前發現(xiàn)λεγπ,由人(rén)工(gōng)處理(lǐ)變成系統自(≈✔zì)動容災。
文(wén)章(zhāng)轉載自(zì):laiwei
原文(wén)地(dì)址:http://t.cnλβ™/RoPJWSZ