چگونه براي «حوادث قوي سياه» در مرکزدادههاي خود آماده باشيد و آنها را کاهش دهيد
«قوهای سیاه» چیستند و با مرکز دادههای شما چه میکنند؟
ممکن است VMware را بهعنوان شرکت مجازيسازي بشناسيد که طي يازدهسال گذشته در بازار پيشرو بوده است. در واقع، بهگفته Gartner، بيش از 80 درصد برنامههاي مجازيسازيشده در جهان روي VMware اجرا ميشوند. اين کتاب الکترونيکي، ديدگاه VMware را روي بازيابي حوادث در مرکز دادهها روشن ميکند؛ اما بياييد لحظهاي IT را فراموش کنيم. تئوري «پيشامدهاي قوي سياه» سمبلي است که مفهوم پيشامدهاي ناگهاني با اثر زياد را ميرساند و به پيشامدهاي نامنتظرهاي اشاره ميکند که عواقبي بزرگ و نقشي تاريخي دارند. چنين پيشامدهايي، نقشي بسيار بزرگتر از رويدادهاي مرتب و نرمال دارند. «قوي سياه»، کتابي به قلم نسيم نيکلاس طالب، توضيح ميدهد که پيشامدهاي قوي سياه قابلپيشبيني نيستند. يک شخص يا يک سازمان ميتواند براي پيشامدهاي منفي برنامهريزي کند و از اين طريق توانايي سيستم را براي واکنش، قوي کرده و مانند رويدادهاي مثبت از آن بهرهبرداري کند. طالب، ادعا ميکند که مردم و بهخصوص شرکتهاي بزرگ بهشکل کلي نسبت به پيشامدهاي قوي سياه خطرناک، بسيار آسيبپذير هستند و اگر آماده نباشند در معرض خطر از دست دادن منابع ارزشمندي قرار ميگيرند.
ارتباط مشخصي بين تئوري پيشامدهاي قوي سياه و نياز به آمادگي مقابله با حوادث حياتي داراييهاي IT شما وجود دارد. گسترش بازيابي اتوماتيک حوادث (DR)، راه محافظت از IT و کسبوکارها در برابر پيشامدهاي پيشبينينشده و حتي پيشامدهاي قوي سياه است. فصولي که در ادامه ميبينيد مباني DR و زيرساخت موردنياز آن را توضيح ميدهند. همچنين حقايق مخفي DR را توضيح ميدهد و بهترين نمونههاي دنياي واقعي را نشان ميدهد.
براي نامنتظرهها آماده باشيد
اميدواريم هيچوقت به فعالسازي برنامه بازيابي حوادث IT نياز نداشته باشيد. شغل ما، فراهم کردن محافظت اتوماتيکي موردنياز شماست.
مرکز دادههاي شما، قلعه شماست
اينجا جايي است که تمام عناصر حياتي IT شما – سختافزار، دادهها و نرمافزار – وجود دارند و بايد آن را با آخرين راهکارهاي مستحکم امنيتي و از طريق چندپردازشيهاي اضافي، بسترهاي مقياسپذير و شبکههاي بسيار سريع، مستحکم و قابل اتکا کنيد؛ اما هنوز در مقابل نيروهاي فراتر از کنترلتان مثل حوادث طبيعي، رويدادهاي ساختهشده بهدست انسان مثل بستن جادهها، فرايندهاي امنيتي يا اختلال در خدمات محلي مشخص، کاملاً محافظتشده نيست.
زمان اختلال و از دستدادن دادهها، حتي اگر موقتي باشد ميتواند اثراتي بسيار عميق و طولاني روي کسبوکار بگذارد و منجر به نابودي کسبوکار بشود:
– از دست دادن درآمد به اين علت که مشتريان، ديگر نميتوانند با شما کار کنند.
– از بين رفتن اعتبار در بازار و از دست دادن اعتماد مشتري
– مجازات براي نقض SLA ها با همکاران، تأمينکنندگان و توزيعکنندگان
– هزينههاي بازيابي و تعمير دادههاي از دست رفته
– هزينههاي قانوني براي رسيدن به نيازمنديهاي تطبيق داخلي و خارجي
چگونه بين ريسک بازيابي حوادث و سرمايهگذاري، تعادل برقرار ميکنيد؟ آيا پتانسيل ريسک بيشتر از سرمايه است؟ بياييد به آن نگاهي بيندازيم:
– 43درصد از کمپانيهايي که با حوادث روبهرو ميشوند، ديگر بازگشايي نشده و 29درصد آنها طي دو سال بسته ميشوند.
– 93درصد کسبوکارهايي که مرکز دادههاي خود را براي 10 روز از دست داده بودند، طي يک سال ورشکست شدند.
– 40درصد کمپانيهايي که با يک حادثه بزرگ روبهرو شدند اگر نتوانند تا 24 ساعت مرکز دادههاي خود را برگردانند از کسبوکار خارج ميشوند.
«CIOها و سازمانهاي IT بايد سناريوهايي را در نظر بگيرند که عمليات معمولي در آنها مختل شود و فعاليتها و فناوريهايي را بهکار گيرند که به آنها اجازه دهد با اختلال احتمالي داخلي و يا خارجي مواجه شوند.»
برترين پيشبينيهاي Gartner براي سازمانهاي IT و کاربران از سال 2011 به بعد
اين عوامل بهاندازه کسبوکار شما مهم هستند و توان اين را داريد که ريسک را کاهش دهيد.
«DR راه صنعت IT براي ايجاد آمادگي و مبارزه با پيشامدهاي قوي سياه است.»
با يک ساختار هوشمندانه و مجازي شروع کنيد
قابل اعتماد، قابل تکرار، قابل بازيابي
راهکارهاي مديريتي مجازيسازي قابل اعتماد
راهکارهاي DR که سالها پيش در دسترس قرار گرفت بهدلايل زير نتوانست نيازمنديهاي کسبوکار را برطرف کند:
– قيمت بالا
– پيچيدگي
– غيرقابل اعتماد بودن
در راهکارهاي سنتي DR، «قيمت بالا» از آنجايي آمد که نياز به گسترش دومين سايت درصورت خرابي با زيرساخت منحصربهفرد، گواهينامههاي نرمافزارها و نيروهاي انساني وجود داشت. «پيچيدگي» زياد بود چون براي اطمينان از بازيابي کل خدمات کسبوکار، برنامههاي بازيابي بايد بسياري از عناصر تکي و پويا را تغيير ميدادند: برنامهها، هاستها، شبکه و فضاي ذخيرهسازي. «غيرقابل اعتماد بودن» اين فرايندها بهعلت اتوماسيون ضعيف و ناتواني در تست فرايندهاي بازيابي بود.
بسياري از سازمانها رسيدگي به نقطه هدف بازيابي (RPO) و زمان هدف بازيابي (RTO) را به پيشامد حوادث محدود کرده بودند. دپارتمانهاي IT شک داشتند که محافظت از حوادث را گسترش دهند يا نه و شک داشتند که آيا کيفيت بيمه واقعاً ارزش آن هزينه را دارد يا خير.
مجازيسازي براي موفقيت برنامههاي DR، بنيادي و حياتي است. مجازيسازي، پيچيدگيهاي نرمافزاري و سختافزاري را کم ميکند و به فرآيندهاي استانداردسازي اجازه ميدهد تا برنامهريزي و اتوماسيون فرآيندهاي بازيابي قابل اعتماد و قابل تکرار باشند.
در واقع در نظرسنجي اخير IDG، 70درصد مشتريان با مجازيسازي به BC/DR بهبوديافته، دست يافتند. يک زيرساخت هوشمند مجازي، مبتني بر VMware زيرساخت صحيح راهکار مدرن DR است که بسيار منعطف و مقياسپذير بوده و براي کارهاي حياتي کسبوکار با هوشمنديهاي نهان، بهينه شده است.
راهکار VMware DR عوامل زير را فراهم ميکند:
– آسانترين راه براي تکرار کردن برنامهها در سايت دوم
– راحتترين راه براي بازيابي و انتقال برنامهها
– قابل اعتمادترين بازيابي و انتقال سايت بهصورت اتوماتيک
DR مقرون به صرفه:
DR دارد با تطبيق سريع مجازيسازي و انقلاب فناوري تکرار، بيش از پيش مقرون بهصرفه ميشود. مجازيسازي اجازه تثبيت زيرساخت را در سايت ناموفق ميدهد. گزينههاي کپي و تکرار بيشتر با استفاده از تجهيزات ذخيرهسازي کمتر و راهکارهاي رايج نرمافزاري بهشکل گستردهتري در دسترس هستند. DR ميتواند با توجه به اين پيشرفتها از داراييهاي حياتي و با مقياس بزرگ IT، همانند سايتهاي کوچکتر و برنامههاي رده 2 محافظت کند.
DR اتوماتيک:
در محيطهاي مجازي، کاربران نهايي از پيچيدگي مديريت گامبهگام فرايند بازيابي در امان هستند. اکنون يک راهکار DR ميتواند بهصورت خودکار تمام گامهاي مورد نياز براي حصول اطمينان از درجه مورد رضايت حفاظت را، اجرا و هماهنگ کند. کتابچههاي راهنماي قديمي ديگر براي مديريت برنامههاي بازيابي با برنامههاي بازيابي مبتني بر نرمافزار، ديگر بهقدر کافي خوب نيستند. تنظيم يک برنامه بازيابي در يک محيط مجازي بهسادگي انتخاب RPO ها و RTO ها براي هرکدام از خدمات کسبوکار است.
بازيابي و انتقال سايت قابلاعتماد:
سازمانها با مجازيسازي، اطمينان بيشتري از اين دارند که به RPO ها و RTO هايشان رسيدگي ميشود. مجازيسازي توانايي تست برنامههاي بازيابي را بهطور مکرر و به شيوه غيرمختلکننده فراهم ميسازد. اکنون فرايندهاي دستي بازيابي با فرايندهاي اتوماتيک جايگزين شدهاند و ريسک دخيل بودن کاربر را در خطا کاهش ميدهند و بازيابي پيشبيني شده را تضمين ميکنند. جدول زير نشان ميدهد که چگونه سازمانها با زيرساخت مجازي از قابليتهاي DR به همراه ساير مزاياي مجازيسازي استفاده ميکنند.
استفاده سازمانتان را از قابليتها/ ظرفيتهاي مجازيسازي زير با توليدات ماشينهاي مجازي مبتني بر محيط، چگونه توصيف ميکنيد؟
(درصد پاسخدهندگان، N=119)
منبع: برگه سفيد ESG: گروه استراتژي کسبوکار، 2011: مديريت حياتي مجازي سازي براي رسيدن به مقياس و اثرگذاري
حقايق و افسانههاي مربوط به بازيابي حوادث
بازيابي حوادث به يک سياست بيمهاي ميماند که شما ميتوانيد آن را بدون بروز واقعهاي تست کنيد.
افسانه 1:
بازيابي حوادث يک قابليت لوکس و گرانقيمت است و بيش از حد از منابع استفاده ميکند
واقعيت:
مديريت بازيابي سايت VMware vCenter (SRM) به شما انعطافپذيري لازم را براي مشخص کردن سناريوهاي مختلف شکست ميدهد که با انتخاب شما در پوشش، سرعت و هزينه بازيابي مطابقت داشته باشد. براي مثال، درحاليکه يک سايت اختصاصي بازيابي يک راهکار بسيار قوي باشد ( که البته گرانتر است!)، در بسياري از موارد کافي است يک رويکرد فعال دوسويه وجود داشته باشد که تعداد دو يا بيشتري از مرکز دادهها با قابليت خوب استفاده از برنامههاي حياتي، مکمل هم باشند؛ بنابراين هيچ منبعي اتلاف نميشود و کسبوکار پايدار خواهد ماند.
درمجموع، مشتريان SRM مرتباً مسائلي مانند ذخيره کردن پول، منابع و زمان را گزارش ميدهند.
چگونه کارها در Challenger Limited انجام ميشود:
Challenger Limited مقرريها را مشخص ميکند و محصولات و خدمات سرمايهگذاري را فراهم ميکند. سازمان دو مرکزداده مستقر را به همراه حدود 500 نفر پرسنل، پشتيباني ميکند.
Challenger Limited بهمنظور فراهم کردن نيازمنديهاي کسبوکار براي بازيابي سريع و کمترين ميزان از دستدادن دادهها، زيرساخت VMware دو خوشهاي را پيادهسازي کرده که به فضاي ذخيرهسازي شبکه شده در مراکز دادهها با حدود يکسوم قيمت محيط بازيابي حوادث وصل شده است.
SRM اين قابليت را به سازمان داده که بيشتر 50 نواري که قبلاً براي پشتيبان گرفتن از دادهها استفاده شده دور بريزد، يک شخص-روز را در هفته نگه دارد. به علاوه Challenger Limited صدها گام از فرايندهاي بازيابي حوادث را اتوماتيک کرده است.
نتايج کسبوکار:
– بهبود RPO از 24 ساعت به 90 دقيقه و زمان بازيابي از 24 ساعت به کمتر از 4 ساعت
– کاهش تعداد افرادي که نياز داشتند سيستمهايشان را دوباره به يک نفر بارگذاري کنند
– قطع يک سرمايه بزرگ براي بازيابي حوادث به يکسوم قيمت محيط فيزيکي
– حذف نياز به 15 سرور در صف با هزينه 200 هزار دلار
افسانه 2:
معماري و مديريت صحيح يک راهکار DR، وظيفه پيچيدهاي است که به مهارتهاي خاص و منابع گران نياز دارد.
واقعيت:
با VMware نه. DR فيزيکي ميتواند بهخاطر زيرساخت دوتايي و پيچيده و مسائل همگامسازي پيکربندي ميان سايتها پيچيده باشد. مجازيسازي سرورها، OS و برنامهها و دادههاي پيکربندي را کپسوله ميکند، بنابراين پيچيدگي بهميزان بسيار زيادي کاهش مييابد. مجازيسازي و اتوماسيون اين اطمينان را ميدهند که برنامههاي بازيابي ساده و کامل هستند و ميتوانند توسط کارمندان بدون داشتن مهارت خاصي اجرا شوند.
با SRM، تنظيم يک برنامه اتوماتيک بازيابي نيازي به تلاش ندارد و ميتواند به جاي اينکه هفتهها زمان ببرد تا از روي کتابچه راهنما بهصورت دستي تنظيم شود در عرض چند دقيقه صورت گيرد.
چگونه در Swedbank انجام ميشود:
Swedbank يکي از بزرگترين مؤسسات اقتصادي در اسکانديناوي و بالتيک است،362 شعبه در سوئد و 222 شعبه در استونيا، لاتويا و ليتواني دارد. اين بانک با 18هزار کارمند به 9.5 ميليون مشتري خصوصي و 534 هزار مشتري سازماني خدماترساني ميکند.
جلوگيري از اختلال در سرويس براي Swedbank حياتي است.
Swedbank بايد با روشهاي قديمي نسخه پشتيبان تهيه ميکرد و بازيابي انجام ميداد که بسيار پيچيده و زمانبر بود. Swedbank اقدام به گسترش SRM کرد تا فرايند بازيابي، مديريت و تست برنامههاي بازيابي را ساده و اتوماتيک کند. از زمان پيادهسازي آن، Swedbank قابليتهاي DR خود را حداقل دوبار در سال تست ميکند. يک مرکز داده را کاملاً ميبندد و تمام کارها را به مرکز داده باقيمانده ميبرد. هرچيزي را در پشتيبان مرکز دادهها براي 24 ساعت اجرا ميکند و بعد دوباره مرکز داده اصلي را از بين ميبرد.
Mart Nael، رئيس هسته زيرساخت گروه IT در Swedbank، ميگويد: زمان بازيابي ما زير 30 دقيقه در مسائل حياتي کاري است و براي بازيابي کل مرکز داده به زير 4 ساعت زمان نياز داريم.»
نتايج کسبوکار:
– ROI مثبت در يکسال و جلوگيري از هزينهبري سختافزار
– هزينههاي عمليات IT در هر سال، 14درصد کاهش يافتند
– هزار ماشين مجازي توسط دو نيروي تماموقت مديريت شدند
– آمادهسازي سرور 30 برابر سريعتر شد
«مديريت بازيابي سايت VMware باعث ميشود مديريت و تست برنامههاي بازيابيمان بهسادگي فشردن يک دکمه باشد.» Kenneth Newball، مدير ارشد بازيابي حوادث AHS-IS
افسانه 3:
با وجود تمام برنامهريزيها، هيچگاه نخواهيد فهميد که آيا بازيابي در بروز حوادث واقعي موفق خواهد بود يا خير.
واقعيت:
يک برنامه بازيابي بدون تست کردن، برنامه کاملي نيست. در واقع برنامه بازيابي ميتواند و بايد با شکستهاي کافي تست شود و بار ديگر مورد تست قرار گيرد تا اعتبار آن سنجيده شود. SRM، فعاليت تست کردن غيرمختلکننده برنامههاي بازيابي را ممکن ميکند.
چگونه در سيستم سلامت Adventist انجام ميشود:
سيستم سلامت Advisment (AHS-IS)، يک سازمان محافظت از سلامت در آمريکاست که 37 بيمارستان را پشتيباني ميکند که در واقع يعني سالانه از 4ميليون بيمار مراقبت ميکند. خدمات اطلاعات AHS (AHS-IS) در 9 ايالت بيمارستان دارد و سالانه 500 نفر کارمند استخدام ميکند. «هدف صفر» برنامهاي است که براي اطمينان يافتن از اينکه AHS-IS بتواند مراقبت کافي را فراهم کند، بالاترين درجات خدمات و حداقل زمان اختلال براي سيستمهاي محافظت از سلامت مثل جدولبندي Cerner و برنامههاي پزشکي الکترونيکي را ايجاد ميکند.
اضافه کردن SRM به زيرساخت VMware خود به AHSIS اجازه داد عملها را حتي فراتر از برنامهريزي و تست DR در جريان بگذارد.
Kenneth Newball، مدير ارشد بازيابي حوادث در AHS-IS، ميگويد: VMware SRM، مديريت و تست برنامههاي بازيابي را تا حد فشردن يک دکمه آسان ميکند. اين واقعيت که هر زمان بخواهيم ميتوانيم عمليات تست را انجام دهيم به ما اعتماد به نفس و اطمينان به بازيابي سيستمهايمان را ميدهد.
نتايج کسبوکار:
– RTO حدود 75درصد کاهش پيدا ميکند، يعني از 48 ساعت به کمتر از يک ساعت.
– حذف هزينههاي سفر و پرواز تيم 10نفره براي تست DR
– حذف سختافزار خريداري شده به ميزان 84.5درصد، نگهداري به ميزان 93.1درصد و مصرف برق به ميزان 90درصد
افسانه 4:
هزينه DR ضروري نيست، مثل برنامه محافظت که تقريباً هيچگاه استفاده نميشود.
واقعيت:
حتي اگر يک حادثه بزرگ هيچگاه رخ ندهد، برنامه بازيابي در زمان برنامه انتقال با گامهاي مشابه ميتواند استفاده شود در زمانهاي اختلال برنامهريزي شده مثل انتقال سايت استفاده ميشود. بهعلاوه، برنامهريزي DR به کامل شدن امکانات درجاييکه برنامه بازيابي حوادث نياز ميشود، کمک ميکند. خروجي تست بازيابي، آمادگي براي حوادث و توانايي رسيدن به RTO را ثابت ميکند.
چگونه در دپارتمان بهبود ناتوانيهاي اوهايو انجام ميشود:
دپارتمان بهبود ناتوانيهاي اوهايو (DODD)، يک سيستم ايالتي است که خدمات پشتيباني 80 هزار نفر از افراد ناتوان را اجرا ميکند. يک حادثه که باعث اختلال در سيستم شود ميتواند اثرات واقعي انساني برجاي بگذارد.
Brian Brothers، مدير شبکه، ميگويد: بهعلاوه 10 مرکز توسعهاي که داريم، مسئول حصول اطمينان از اين هستيم که حمايتکنندگان و تهيهکنندگان ايالت، پشتيباني مورد نيازشان را از دولت فدرال ميگيرند. اگر خدمات ما مختل شوند و نتوانيم هزينههاي خدمات درماني را بگيريم تأثير بدي روي تهيهکنندگان و افراد ناتواني ميگذارد که به آنها کمک ميشود.
ممکن است که برخي تهيهکنندگان کارشان را رها کنند.
SRM در DODD، مسئول يک DR قابلاعتماد و تأييدشده است که بتواند تست و مميزي شود. آژانس راهکار بازيابي حوادث خود را دوبار امتحان کرده است. تست دوم، شامل 50 سرور توليدي ميشد که با موفقيت حدود 90 دقيقه مختل شدند.
Kipp Bertke، مدير IT زيرساخت و عمليات DODD، ميگويد: اگر روزي حادثه واقعي داشته باشيم، سايت DR ما تبديل به سايت توليدي ما ميشود و انتظار داريم کمتر از 2 ساعت آماده و درحال اجرا باشد. سايت بازيابي حوادث DODD همينطور منتظر نميماند درعوض بهصورت فعال از سايت نسخه پشتيبان ميگيرد و روزانه از تيم توسعه برنامه پشتيباني ميکند.
نتايج کسبوکار:
– يک سايت مطمئن بازيابي حوادث که بتواند کمتر از 2 ساعت آماده و درحال اجرا باشد.
– راهکار بازيابي حوادث کاملاً تستشده و فعال که براي زيرساخت فضاي ابر پيادهسازيشده هستند.
– سيستمهاي آنلاين که خدمات سريعتر و مورد اعتمادتر فراهم ميکنند.
10 فعاليت برتر بازيابي حوادث
يک VMware بهاشتراکگذاريشده با بيش از 5 هزار مشتري SRM
- مجازيسازي. محيطهاي مجازي سريعتر هستند و انتقال در آنها سريعتر انجام ميشود. مجازيسازي پيچيدگي را توسط پوشش عناصر تکي و حرکت دادن قسمتهاي مختلف کاهش ميدهد، هرچند سادهسازي برنامهريزي و افزايش وضوح فرايند DR، کاهش ميدهد. همچنين به شما اجازه ميدهد از تکثير مبتني بر مجازيسازي استفاده کنيد که منعطفتر و بهصرفهتر از تکثير مبتني بر فضاي ذخيرهسازي هستند.
- اتوماسيون. اجازه ندهيد خطاهاي انساني سر راه شما قرار بگيرند. از برنامههاي بازيابي اتوماتيک استفاده کنيد، نه يک پشته. با يک اتوماسيون مناسب، يک برنامه بازيابي ميتواند در عرض چند دقيقه به جاي چند هفته انجام شود. اتوماسيون باعث ميشود نيازي نباشد کاربران بسياري از گامهاي بازيابي را مديريت کنند، در عوض به شکل اتوماتيک فعاليتهايي مثل پيش- پيکربندي شبکه و ماشينهاي مجازي را انجام ميدهد و زيرساخت بازيابي و شروع مجدد برنامهها را تنظيم ميکند.
- تأييد اعتبار و تست. گاهبهگاه برنامه DR خود را تست کنيد. از تستهاي غيرمختلکننده براي برنامههاي بازيابي خود استفاده کنيد. يک گزارش دقيق از خروجيهاي تست خود بگيريد که شامل RTO هاي بهدست آمده باشد. با اين اطلاعات ميتوانيد اعتمادبهنفس مورد نياز براي محافظت در مقابل حوادث براي رسيدن به اهداف کسبوکار بهدست آوريد. همچنين آموزش مورد نياز براي کارکنان را فراهم ميکند و نشان ميدهد هر مسئلهاي چقدر زود ميتواند کشف شود.
- ايجاد اهداف قابل دسترس. بازيابي اتوماتيک حوادث ميتواند بسيار قوي باشد، اما معجزه نيست. براي مثال، 100 ماشين مجازي شامل Exchange، Oracle SQL و SAP نميتوانند مختل شوند و پس از 30 دقيقه شروع به کار کنند. RTO خود را مبتني بر واقعيت تنظيم کنيد. براي ايجاد خط استاندارد، تست را در شرايط مختلف اجرا کنيد و ببينيد چه چيزي بهدست ميآيد.
- اگر ميتوانيد سريع عمل کنيد. اگر به شما هشدار داده ميشود از آنها استفاده کنيد! سريع عمل کنيد تا برنامه تستشده DR خود را قبل از يک حادثه واقعي اجرا کنيد تا از يک واقعه DR جلوگيري کنيد. براي مثال يک طوفان پيشبينيشده، يک تسونامي محتمل يا احتمال يک خطر خرابي شبکه.
- در زمان خطر، فعال باشيد. بيشتر خسارات نه بهعلت حوادث، بلکه به اين علت رخ ميدهند که فرايندها طبق برنامهريزي پيش نرفتهاند. مثال: آپديت برنامه يا شبکه، نگهداري از داده، تعميرات و … . با فعالانه جابهجا کردن برنامههايتان، ريسک وارد شدن خسارات را بهشدت پايين ميآوريد.
- قبول مسئوليتها. به هرکسي که در برنامه DR هست، يک وظيفه و مسئوليت مشخص بدهيد. انتظار نداشته باشيد کارکنان دائماً در قسمت رخ دادن حوادث يا در قسمت کنترل باشند. در جاهاي ضروري نفرات را کم و زياد کنيد و همين کار را با کامپيوترها هم انجام دهيد.
- دادههاي بازيابي خود را تا جاي ممکن آپديت نگه داريد. کار خوبي است که سايت مربوط به اختلال خود را با دادههايي پر کنيد که تغيير زيادي نميکنند. اين به شما اجازه ميدهد فقط روي دادههاي حياتي بهسرعت متغير، تمرکز کنيد و با تلاش کمتري به RTO مورد نياز خود برسيد.
- براي شکست آماده باشيد. يک برنامه بازيابي براي شکست تهيه و تست کنيد، تکثير در جهت معکوس را راهاندازي کرده و بدانيد که چه زماني آن را فعال کنيد. نقطه پايان حادثه را مشخص کنيد تا سيستم شما بتواند به حالت نرمال بازگردد.
- فقط پول صرف DR نکنيد. از دارايي و کالاي ارزانتر براي سايت ناموفق استفاده کنيد يا از سختافزار باقيمانده از مرکز داده اصلي خود که حالا مجازي شده است با تغيير منظور عملکرد استفاده کنيد. از سايتهاي ناموفق دوسويه يا بهاشتراک گذاشته شده استفاده کنيد، از نرم افزارهاي بيشتري در فضاي ابر استفاده کنيد (SaaS) و همچنين نگاهي به ابزارهاي DR غير IT داشته باشيد (ژنراتورهاي UPS يا پشتيبانگير، ذخاير سوخت، محافظت بهتر از آتش و …).
نتيجهگيري: راهنماي شروع سريع به بازيابي حوادث
ميتواند انجام شود. بايد انجام شود. VMware به شما کمک ميکند که انجام شود.
درحاليکه مرکزداده شما براي توانايي راهاندازي کسبوکار شما حياتي است، وقايع خارج از کنترل (يا حتي برخي از آنهايي که برنامهريزي شدهاند) ميتوانند باعث شوند خدمات IT از دسترس خارج شده يا بسيار محدود شود. اين موقعيت بااينکه خيلي نادر است، ميتواند به يکپارچگي کسبوکار شما، اعتبار شما در بازار و رضايت و وفاداري مشتريان شما لطمه بزند.
ميتوانيد اين ريسک را با پيادهسازي راهکار DR براي محافظت از داراييهاي حياتي IT خود، کاهش دهيد. يک راهکار DR که بهخوبي طراحي شده باشد و روي يک زيرساخت مجازي هوشمند قرار بگيرد، ميتواند RTO و RPO مورد نياز را همگام با بهصرفه بودن هزينهها فراهم کند. برنامههاي dr شما ميتوانند از راه غيرمختلکنندهاي تست شوند و به دپارتمان IT شما در نواحي فراتري از نيازهاي DR معمول، سودرساني کنند.
زيرساخت IT شما حياتيترين نقش را براي سهولت و موفقيت برنامههاي DR تان ايفا ميکند. ثابت شد که زيرساخت مجازيسازي شده مورد اعتمادترين و بهصرفهترين بستر براي DR است که به شما اجازه ميدهد قسمتهاي در حال حرکت و عناصر دادههايتان در مرکز داده را جمعوجور و مختصر کنيد و باعث شويد تکثير معماري ساده شود و به منابع کلي کمتري نياز باشد.
پس چگونه شروع به محافظت از داراييهاي IT خود ميکنيد؟ ليست زير را بهعنوان راهنماي خود در نظر بگيريد:
1- حياتيترين برنامهها و دادهها را مشخص کنيد. چه برنامههايي بهطور مستقيم درآمدزايي ميکنند يا ايمني را تضمين ميکنند يا براي حفظ و ادامه کسبوکار شما حياتي هستند؟ چه دادههايي براي مشتريان يا براي مسائل مالي و آماري داخلي حياتي هستند؟
2- اگر هنوز اين کار را نکردهايد، برنامههاي کليدي خود را مجازي کنيد. اين نهتنها باعث کاهش هزينههاي عملياتي و نگهداري توسط حذف پيچيدگيهاي غيرضروري ميشود، بلکه محيط شما را براي برنامهريزي DR مؤثر، بهتر ميکند.
3- به توافقي روي RTO و RPO هدف برسيد. چه دادههايي را ميتوانيد از دست دهيد؟ براي چه مدت؟ ميخواهيد برنامههاي حياتي چه چيزهايي را به حالت آنلاين برگردانند؟ از واقعبينانه بودن اهداف خود مطمئن شويد.
4- محرکهاي DR را مشخص کنيد، يعني چه زماني فعاليتهاي برنامهريزيشده شروع شود. اين ميتواند تصميمي مبتني بر کسبوکار باشد و دادههايي که ميگيريد يا پيشامدي فني که DR را بهطور خودکار فعال کند.
5- مشخص کردن اينکه ميخواهيد چه گزينههايي را براي تکثير، عدم موفقيت و شکست DR پيادهسازي کنيد. راهکار نهايي در سطح محافظت، سرعت بازيابي و هزينهها، تفاوت ايجاد ميکند.
6- انتخاب ارائهدهنده راهحل. از ارائهدهندگان/ فروشندگاني که سختافزار، سيستم عامل يا هر انتخاب محدودکننده ديگري را سر راه شما ميگذارند و باعث ميشوند بهخوبي نسبت به محيط تسلط نداشته باشيد، آگاه باشيد. درباره سطح تخصص مورد نياز تيم خود براي نگهداري راهکار يا ميزان منابع مورد نياز، مطالعه کنيد. مطمئن شويد که ميتوانيد راهکار را قبل از بروز يک حادثه تست کنيد.
و درنهايت، موفق باشيد. اميدواريم که هيچوقت يک رويداد قوي سياه را تجربه نکنيد و هيچوقت نياز به استفاده از راهکار DR براي بازيابي از ناخواستهها نداشته باشيد؛ اما اگر داشتيد، VMware اينجاست تا شما را بهخوبي آماده کند.
براي اطلاعات بيشتر درباره مديريت بازيابي سايت VMware vCenter و يک اعتبار 60 روزه رايگان، لطفاً از VMware SRM بازديد کنيد.
مباني بازيابي از حوادث 101
«بازيابي از حوادث»، قسمت کليدي پايداري کسبوکار شرکت است تا از در دسترس بودن فرايندهاي وابسته به IT يکپارچه کسبوکار، حصول اطمينان کند و از اثرات طولانيمدت منفي اختلالات برنامهريزي شده و برنامهريزي نشده، جلوگيري کند. هدف DR، بازيابي خدمات حياتي IT با سرعت هرچهتمام و بهحداقل رساندن اختلال در کسبوکار است. هيچچيز بيش از سرعت زيرساخت برنامههاي IT شما روي توانايي بازيابي اثر نميگذارد. مثل اين ميماند که يک کپسول آتشنشاني در خانه وجود داشته باشد تا درصورت آتشسوزي بهسرعت از آن استفاده کنيم يا مثل ايمنيهاي خودرو ميماند و براي کاهش اثرات تصادف بهکار ميرود، پس زيرساخت IT شما ميتواند باعث موفقيت يا شکست برنامه DR شود.
IT و زيرساخت برنامهها
زيرساخت مرکزدادههاي شما نقش مهمي در اثرگذاري روي راهکار DR ميگذارد. زيرساخت ميتواند DR را خيلي پيچيده، غيرقابل پيادهسازي و گاهي غيرممکن کند يا ميتواند کمک کند که IT شما قابل اعتماد، تأييد شده و مؤثر باشد. در قسمت بعد چگونگي آن را توضيح ميدهيم.
دو فرايند کليدي براي بازيابي از حوادث بهصورت ساده و قابل اعتماد وجود دارد:
Failover
Failover توانايي جابهجايي از سرور، سيستم يا شبکه اضافي يا در حالت انتظار است. Failover بايد بدون هيچگونه مداخله يا هشدار انساني صورت بگيرد.
FailBack
Failback فرايند بازيابي سيستم يا دارايي در حالت failover به حالت اصلي خود است. Failback مؤثر، سيستم را به حالت قبل از مختل شدن بازميگرداند.
مشخصههاي کليدي براي برنامهريزي و اندازهگيري موفقيت فرايندها.
RPO
نقطه هدف بازيابي (RPO) نقطهاي از زمان است که بايد دادهها را آنطور بازيابي کنيد که سازمان تعريف کرده و به آن «فقدان قابلپذيرش» در وضعيت حوادث ميگويند. اين به سازمان اجازه ميدهد يک پنجره زماني قبل از وقوع حادثه تعريف کند که دادهها ممکن است از بين رفته باشند و کاملاً به نوع دادهها و تکثير مورد استفاده بستگي دارد. هرچه تعداد تکثير دادهها بيشتر باشد، RPO کوچکتر است.
RTO
RTO يک مشخصه کاملاً فني است و تصميم شروع failover کاملاً مربوط به کسبوکار است و RTO ميتواند بيش از خود DR زمان ببرد. چه توسط انسان و چه به شکل اتوماتيک شروع شده باشد، زمان شروع DR بايد محاسبه شده و در RTO دخيل شود. تکثير در بيشتر مواقع يک عنصر کليدي هر فرايند DR است که توسط راهکار مورد استفاده DR مشخص فراهم ميشود.
تکثير
در مفهوم آمادهسازي براي failover، تکثير افزونگي معماري شدهاي براي منابع IT شما فراهم ميکند: سختافزار، دادهها، نرمافزار، شبکه يا همه آنها باهم. فاکتورهاي زيادي در مشخص کردن عمق و ميزان تکثير مورد نياز وجود دارد: نوع خدماتي که بايد از آنها محافظت شود، عناصر حياتي مختلف، فناوري و هزينه.
سناريوهاي بازيابي حوادث
سناريوهاي مختلف و تکنيکهاي DR در دسترس هستند تا نيازمنديهاي مشخص و اهداف مالي شما را برآورده کنند. معماري صحيح ميتواند فرايند DR شما را اثرگذارتر، بهصرفهتر و قابلپيشبيني کند. اينجا يکسري از تنظيمات رايجي را آوردهايم که ميتوانيد استفاده کنيد:
– فعال- غيرفعال: اين بيشتر يک سناريوي قديمي DR است، جاييکه سايت محصول دارد، برنامههايي که سايت دوم بازيابي شده را اجرا ميکند و سايت دوم غيرفعال است تا failover مورد نياز واقع شود. در اين سناريو داريد يک failover براي سايتي ميپردازيد که بيشتر مواقع غيرفعال است.
– فعال- فعال: از سايت DR خود وقتي براي DR استفاده نميشود براي کارهاي غيرحياتي استفاده کنيد. آن را طوري تنظيم کنيد که بهعنوان قسمتي از فرايند failover بهطور خودکار خاموش شود يا به حالت تعليق دربيايد تا بتوانيد بهراحتي فضاي کاري براي حجم کارهايي آزاد کنيد که بازيابي شده است.
– دوسويه: محافظت دوسويه failover فراهم کنيد تا بتوانيد کارهاي توليدي فعال را روي هر دو سايت در هر جهتي اجرا کنيد. فضاي جدا در سايت ديگر براي اجراي محيطهاي مجازي که failover شدهاند، استفاده ميشود.
– Failover محلي: برخي کارها نياز دارند که بتوانند در يک محل يا سايت مشخص failover کنند، مثال: وقتي يک اختلال فضاي ذخيرهسازي اتفاق ميافتد يا وقتي نگهداري شما را مجبور ميکند کارها را به يک آزمايشگاه محلي ديگر ببريد.
– سايتهاي بهاشتراک گذاشتهشده بازيابي: در گسترش استاندارد يکبهيک، يک مرکزداده تکي توسط يک سايت بازيابي تکي محافظت ميشود. ممکن است بخواهيد با استفاده از سايت بازيابي به اشتراک گذاشته شده از چند مرکز داده محافظت کنيد. تمام سايتهاي محافظتشده قابل ديدن و مديريت در اين راهکار DR نمونه در سايت بازيابي به اشتراک گذاشته شده هستند. شرکتهايي که سايتهاي متعدد نيازمند محافظت دارند، اين ويژگي را جذاب خواهند يافت. اين توپولوژي ميتواند با استفاده از ويژگي بازيابي سايت بهاشتراک گذاشتهشده، پيادهسازي شود.