آینده نزدیک شماره اول

مقدمه ای بر بزرگ‌ داده ها

بزرگ داده
نوشته شده توسط admin

مدیریت اطلاعات و داده‌ها این روزها برای شرکت‌ها و سازمان‌های دولتی نقش اساسی را بازی می‌کند و به نوعی می‌توان گفت مجموعه‌ای موفق‌تر است که استراتژی‌های خود را بر اساس بررسی بزرگ‌ داده‌ها بنا کند. از طرف دیگر این امر را نیز باید در نظر داشت که بزرگ‌ داده‌ها در واقع تنها فناوری و تکنیک جدید و نوظهور نیستند، بزرگ‌ داده‌ها مسیر حرکت کسب و کار و فرآیند چرخش کار در سازمان‌ها را مشخص می‌کنند. در بزرگ‌داده با داده‌های متمایز و بزرگ که دائماً از لحاظ حجم، نرخ تولید داده و تنوع در حال تغییر هستند سروکار داریم. برای اینکه مفهوم Big Data در ذهن شما تداعی بیشتری داشته باشد به مثال‌های زیر دقت کنید: مدیران فروشگاه‌های خرده فروشی آنلاین که روزانه هزاران خریدار دارند می‌توانند با بررسی رفتار کاربران در وب‌سایت، میزان قیمت و همچنین موجودی کالای خود را زیر نظر داشته باشند.  در ابعاد وسیع‌تر دولت‌ها قادر هستند تا بیماری‌های واگیردار را که در شبکه‌های اجتماعی از آن‌ها سخن به میان‌ می‌آید در نقاط مختلف جغرافیایی شناسایی کنند. همچنین شرکت‌های نفت و گاز با بررسی بزرگ‌داده‌ جمع‌آوری شده از حفاری، تصمیم‌های دقیق و موثر‌تری اتخاذ نمایند. داده‌ها در بزرگ‌داده باید برای تصمیم‌ گیری در خصوص موارد کاربردی متفاوت، به صورت صحیح مدیریت شوند. برای مدیریت بزرگ‌ داده‌ها عوامل زیر در نظر گرفته می‌شود: حجم داده اگر از گذشته با کامپیوتر سروکار داشته باشید، به خوبی می‌دانید کامپیوتری که 15 سال پیش از آن استفاده می‌کردیم، دارای هاردی با ظرفیت حدودی  10 گیگابایت بود؛ اما شاید برای شما جالب باشد که روزانه در فیس‌بوک حدود 500 ترابایت اطلاعات جدید ایجاد می‌شود و اطلاعات جمع‌آوری شده هواپیمای بوئینگ 737 بیشتر از 240 ترابایت به ازای هر پرواز است. نرخ تولید میلیون‌ها فرآیند مختلف در وب‌سایت‌های بزرگ توسط کاربران در کسری از ثانیه انجام می‌شود، الگوریتم‌هایی که مشخص کننده  ارزش سهام هستند به صورت بلادرنگ تغییر می‌کنند، درشبکه‌های بازی آنلاین نیز شاهد تغییر و ذخیره سازی اطلاعات بازیکنان  به صورت لحظه به لحظه هستیم. تنوع بزرگ‌داده‌ فقط شامل اعداد، تاریخ‌ها و رشته‌ها (Strings) نیست؛ تصاویر ماهواره‌ای و عکس‌های هوایی، اطلاعات سه‌بعدی، فایل‌های متنی ساختار نیافته (نظیر لاگ شبکه‌‌های ویدئویی)، بزرگ‌داده‌هایی را تشکیل می‌دهند که  از تنوع بسیار زیادی برخوردارند. وقتی صحبت از Big Data به میان می‌آید، ابزار نگه‌داری و مدیریت این حجم‌ بزرگ‌ داده معنی پیدا می‌کند، چرا که بانک‌های اطلاعاتی معمولی دیگر قادر به مدیریت بزرگ‌ داده‌ها نیستند. اینجاست که دیتابِیس‌های بزرگ نظیر MongoDB برای مدیریت و بررسی بزرگ‌ داده‌ها به کمک می‌آیند.       

به خدمت گرفتن دیتابیسهای بزرگ در سازمانها

دیتابیس‌های بزرگ با کنترل بزرگ‌ داده‌ها سازمان‌ها را قادر می‌کند تمرکز بیشتری بر روی اهداف خود داشته باشند و آنها را به سمت سودآوری بیشتر هدایت می‌کنند. آنالیز بزرگ‌ داده‌ها به نهادهای تجاری کمک می‌کند تا بی‌درنگ میلیون‌ها رکورد آماری را در خصوص کالاها، منابع موجود و مشتریان جمع‌آوری کرده و بدون وقفه آنالیز جدیدی از به کارگیری منابع ارائه دهد. برای اینکه مفهوم به کارگیری دیتا‌بیس بزرگ برای آنالیز بزرگ‌ داده‌ها بهتر در ذهن نقش بگیرد، ‌مثال زیر خالی ازلطف نیست: شهری بزرگ در آمریکا را در نظر بگیرید که از دیتا‌بیس بزرگ MongoDB برای کاهش جرم و بهبود خدمات شهرداری استفاده می‌کند و عملیات جمع‌آوری و بررسی تصاویر ماهواره‌ای به صورت زنده از 30 سازمان مختلف انجام می‌شود؛ بدیهی است که تعامل با بزرگ‌داده‌ بدست آمده تنها از عهده دیتابیس‌های بزرگ برخواهد آمد. اینجاست که به کارگیری بزرگ‌داده در بستر دیتابیس‌های بزرگ به کمک آمده و کاهش چشمگیری در هزینه‌ها ایجاد خواهد کرد. از طرف دیگر متن‌باز بودن تکنولوژی‌های مورد استفاده در بزرگ‌ داده‌ها باعث می‌شود تا با کمترین هزینه به بهترین نحو ممکن بتوان آنرا با شرایط سیستمی سازمان مورد نظر تطبیق داد. در مثال ذکر شده، انتقال داده‌ها از بانک اطلاعاتی فعلی به دیتابیس MongoDB که متن باز می‌باشد باعث صرفه‌جویی زیادی در  هزینه خرید لایسنس  می‌شود. از طرف دیگر بررسی بزرگ‌داده‌های جمع‌آوری شده منجر به چالاکی بیشتر سازمان نسبت به سایر رقبای تجاری خواهد شد. جمع‌آوری سریع‌ اطلاعات مشترک در قسمت‌های مختلف سازمان و سرعت بخشیدن به فرآیند آپدیت این اطلاعات  به تشخیص مشکلات مشتریان و برطرف نمودن هرچه سریعتر موانع کمک خواهد کرد؛ بدیهی است که  این امر بهبود میزان وفاداری مشتریان را در دراز مدت به دنبال خواهد داشت.    

راهکارهای پیشرو در به کارگیری BigData

دو گزینه برای استفاده از بزرگ‌ داده‌ها وجود دارد: راه‌حل عملیاتی و راه‌حل تحلیلی بزرگ‌ داده‌ها تحت تأثیر دو تکنولوژی واقع شده‌اند،‌اول سیستم‌هایی که اطلاعات را در هنگام بارگزاری و ذخیره شدن بررسی می‌کند و مورد دوم سیستم‌‌هایی که امکان تحلیل داده‌ها را برای مراجعات بعدی فراهم می‌کنند.  البته لازم به ذکر است که متخصصان در بیشتر مواقع هر دو شیوه را برای دستیابی به نتیجه دقیق‌تر به کار می‌گیرند. دیتابیس‌هایی نظیر NoSQL بزرگ‌ داده‌ها را به شیوه عملیاتی بررسی می‌کنند و تمرکز بیشتری در قسمت‌های درخواست شده دارند تا آنالیز رخدادها به صورت همزمان صورت پذیرد. از طرف دیگر دیتابیس‌هایی که از شیوه‌های تحلیلی استفاده می‌کنند، تمایل بیشتری به بررسی تمامی رخدادها دارند و در عملیات آنالیز تمامی داده‌ها در لحظه انجام می‌شود.       

رایانش ابری و بزرگدادهها

وقتی صحبت از رایانش ابری به میان می‌آید در واقع منظور حجم زیادی از محاسبات کامپیوتری و نرم‌افزارهای مختلف است که سرویس به خصوصی را از طریق شبکه اجرا می‌کنند. تاکنون شیوه سِلف‌هاستینگ (Self Hosting) برای تعامل با بزرگ‌ داده‌ها استفاده می‌شده است اما رایانش ابری در تمامی تکنولوژی‌های کامپیوتری نفوذ داشته است و بزرگ‌ داده‌ها نیز از این قاعده مستثنی نیستند. هزینه‌نگه‌داری سیستم‌ها در شیوه سلف‌هاستینگ به صورت دائم محاسبه می‌شود اما در رایانش ابری تنها زمان به خدمت گرفتن‌ سرویس مورد نظر، هزینه‌ها لحاظ خواهند شد. با این حساب اگر بخواهیم سلف‌هاستینگ را با یکی از شیوه‌های رایانش ابری، برای مثال IaaS، در تعامل با داده‌های کلان مقایسه کنیم موارد زیر را می‌توان به‌ عنوان دلایل برتری رایانش ابری ذکر کرد. کم‌هزینه بودن، قابل طراحی با نیاز سازمان، انعطاف پذیری بالا، تعریف و تغییر حجم‌ و پهنای باند دلخواه، سازگاری با شرایط مختلف و قابل اطمینان بودن، از مزایای شیوه نگه‌داری بزرگ‌ داده‌ها با استفاده از فناوری رایانش ابری است. در مجموع اگر بخواهیم در یک جمله مزایای رایانش ابری را ذکر کنیم،‌می‌توان گفت که استفاده از رایانش ابری به چالاکی مجموعه کمک کرده و از طرف دیگر هزینه‌های کمتری را نیز به کارفرما تحمیل می‌کند. همانطور که در بالا اشاره شد، بانک‌  اطلاعاتی NoSQL گزینه‌ مناسبی برای استفاده بزرگ‌ داده‌ها به حساب می‌آید و از طرف دیگر با رایانش ابری نیز سازگاری کامل دارد. نکته جالبی که در خصوص دیتا‌بیس‌های NoSQL وجود دارد، امکان مدیریت حجم زیادی  از اطلاعات می‌باشد که بر روی سرورهای متخلف مستقر هستند. معماری دیتا‌بیس‌ NoSQL این امکان را می‌دهد که اطلاعات به صورت دسته‌بندی شده در جداول متفاوت و در محل‌های مجزا ذخیره شوند. با تعاریفی که در خصوص دیتابیس MongoDB و سایر بانک‌های اطلاعاتی که از معماری NoSQL بهره می‌برند، به میان آمد، می‌توان گفت که به کارگیری اینگونه دیتابیس‌ها بهترین گزینه برای استفاده از بزرگ‌ داده‌ها در فضای ابری می‌باشند.      

ادغام راهحل عملیاتی و راهحل تحلیلی با یکدیگر توسط هادوپ  (Hadoop)

هادوپ درواقع چهار چوب متن‌باز برای ذخیره سازی و پردازش بزرگ‌داده‌هاست که توسط شرکت آپاچی پشتیبانی می‌شود، این تکنولوژی با ترکیب و توزیع داده به ذخیره سازی آن می‌پردازد و به زبان جاوا پیاده‌سازی شده است، جالب است بدانید که در حال حاضر شرکت‌های بزرگی نظیر فیس‌بوک، یاهو و گوگل از هادوپ استفاده می‌کنند. در این بین استفاده از بانک‌اطلاعاتی که از معماری NoSQL پشتیبانی می‌کند نظیر MongoDB به همراه هادوپ گزینه‌ای بسیار مناسب برای تعامل با بزرگ‌ داده‌ها می‌باشد.  دیتا‌بیس‌هایی که از معماری Mpp (تعداد زیادی از پردازنده‌ها،یا رایانه‌های جدا از هم، که با یکدیگر محسابات هماهنگی را به صورت موازی انجام می‌دهند)بهره‌گرفته‌اند را نیز برای تعامل با بزرگ‌ داده‌ها می‌توان به خدمت گرفت. در این روش به کارگیری دیتا‌بیس Mpp در کنار استفاده از فناوری هادوپ و NoSQL منجر به ثبت و استخراج گزارش‌های بسیار دقیقی می‌شود که به اتخاذ تصمیمات مهمی از جانب شرکت‌های بزرگ منتهی خواهد شد. البته این نکته را نیز باید اضافه کرد که تکنولوژی‌ و راه‌حل‌های پیشنهادی برای استقرار بزرگ‌ داده‌ها به بلوغ کامل رسیده‌  اما هنوز  به طور کامل در جوانب مختلف به کار گرفته نشده است. در مجموع باید گفت که  سازمان‌های بزرگ چاره‌ای به غیر از انتخاب و استفاده از بزرگ‌ داده‌ها ندارند و دیر یا زود شاهد انتقال اطلاعات سازمان‌ها از بانک‌های اطلاعاتی فعلی که عمدتاً غیر متمرکز هم هستند به دیتابیس‌های بزرگ که بزرگ‌ داده‌ها را مدیریت  و پردازش می‌کنند، خواهیم بود.

مترجم: محمد کاملان.

درباره نویسنده

admin

دیدگاهتان را بنویسید