SlideShare a Scribd company logo
‫با‬ ‫آشنایی‬Hadoop
‫رضایی‬‫ناصر‬
nasser.rezaei.novin@gmail.com
‫مقدمه‬
•‫کنیم‬ ‫می‬ ‫زندگی‬ ‫اطالعات‬‫عصر‬ ‫در‬ ‫ما‬.
•‫سال‬ ‫تا‬ ‫شود‬ ‫می‬ ‫بینی‬ ‫پیش‬2020‫به‬ ‫الکترونیکی‬ ‫صورت‬ ‫به‬ ‫شده‬ ‫ذخیره‬ ‫اطالعات‬ ‫ان‬‫ز‬‫می‬44‫زتابایت‬(‫زتابایت‬‫هر‬
1027
‫ابایت‬‫ر‬‫ت‬ ‫میلیارد‬ ‫یک‬ ‫یا‬ ‫بایت‬)‫برسد‬.
•Facebook‫میزبان‬240‫ماه‬‫هر‬ ‫که‬ ‫است‬‫تصویر‬ ‫میلیارد‬7‫پتابایت‬(7‫ابایت‬‫ر‬‫ت‬ ‫هزار‬)‫کند‬ ‫می‬ ‫پیدا‬ ‫افزایش‬.
•‫اینترنت‬ ‫آرشیو‬
1
‫حدود‬18.5‫است‬ ‫کرده‬ ‫سازی‬ ‫ذخیره‬ ‫را‬ ‫اطالعات‬ ‫پتابایت‬.
•Hadoop‫توسط‬ ‫که‬Apache‫است‬ ‫شده‬ ‫توزیع‬ ‫پردازش‬‫بر‬ ‫مبتنی‬ ‫سیستمی‬ ‫است‬ ‫شده‬ ‫سازی‬ ‫پیاده‬.
1
www.archive.org
‫ها‬ ‫داده‬ ‫تحلیل‬ ‫و‬ ‫سازی‬ ‫ذخیره‬
•‫ک‬ ‫رشد‬ ‫نرخ‬ ‫ها‬ ‫هارددیسک‬ ‫سازی‬ ‫ذخیره‬ ‫فضای‬ ‫افزایش‬ ‫به‬ ‫نسبت‬ ‫ها‬ ‫هارددیسک‬ ‫خواندن‬ ‫سرعت‬ ‫افزایش‬‫متری‬
‫است‬ ‫داشته‬.
•‫است‬ ‫شده‬‫بیشتر‬ ‫بسیار‬ ‫گذشته‬ ‫نسبت‬ ‫به‬ ‫دیسک‬ ‫اطالعات‬ ‫تمام‬ ‫خواندن‬ ‫ای‬‫ر‬‫ب‬ ‫نیاز‬ ‫مورد‬ ‫زمان‬ ‫امروزه‬.‫حدود‬ ‫از‬5‫سال‬ ‫در‬ ‫دقیقه‬1990‫تا‬2.5‫ای‬‫ر‬‫ب‬ ‫ساعت‬
‫امروزی‬ ‫معمولی‬ ‫های‬ ‫هاردیسک‬.
•‫است‬ ‫نوشتن‬ ‫و‬ ‫خواندن‬ ‫سرعت‬ ‫افزایش‬ ‫ای‬‫ر‬‫ب‬ ‫همزمان‬ ‫صورت‬ ‫به‬ ‫دیسک‬ ‫چند‬ ‫از‬ ‫استفاده‬ ‫شده‬ ‫ارائه‬ ‫راهکار‬.
‫همزمان‬ ‫خواندن‬ ‫چالش‬ ‫دو‬
•1-‫اری‬‫ز‬‫اف‬ ‫سخت‬ ‫نقص‬
•‫کند‬ ‫می‬ ‫پیدا‬ ‫افزایش‬‫نیز‬ ‫افزاری‬ ‫سخت‬ ‫نقص‬ ‫احتمال‬ ‫استفاده‬ ‫مورد‬ ‫افزارهای‬ ‫سخت‬ ‫تعداد‬ ‫افزایش‬ ‫با‬.
•‫های‬ ‫دیسک‬ ‫به‬ ‫شبیه‬ ‫چیزی‬ ،‫تعمدی‬ ‫افزونگی‬ ‫همان‬ ‫یا‬ ‫ها‬ ‫داده‬ ‫از‬ ‫کپی‬ ‫چند‬ ‫از‬ ‫استفاده‬ ‫شده‬ ‫ارائه‬ ‫حل‬ ‫راه‬RAID‫است‬.
•Hadoop‫از‬HDFS
1
‫کند‬ ‫می‬ ‫استفاده‬.
•2-‫شوند‬ ‫ادغام‬‫یکدیگر‬ ‫با‬ ‫طریقی‬ ‫به‬ ‫ها‬ ‫داده‬ ‫که‬ ‫آنند‬ ‫نیازمند‬ ‫تحلیلی‬ ‫های‬ ‫پردازش‬ ‫اغلب‬
•MapReduce‫محاسب‬ ‫به‬ ‫دیسک‬ ‫روی‬ ‫نوشتن‬ ‫و‬ ‫خواندن‬ ‫های‬ ‫عملیات‬ ‫از‬ ‫را‬ ‫مساله‬ ‫این‬ ‫که‬ ‫کند‬ ‫می‬ ‫استفاده‬ ‫انتزاعی‬ ‫مدل‬ ‫از‬‫ه‬
‫کلید‬ ‫از‬ ‫ای‬ ‫مجموعه‬-‫کند‬ ‫می‬ ‫تبدیل‬ ‫ها‬ ‫مقدار‬.MapReduce‫تشکیل‬ ‫شوند‬ ‫می‬ ‫ا‬‫ر‬‫اج‬ ‫هم‬ ‫دنبال‬ ‫به‬ ‫موارد‬‫اکثر‬ ‫در‬ ‫که‬ ‫عملیات‬ ‫دو‬ ‫از‬
‫است‬ ‫شده‬:Map‫و‬Reduce.
1
Hadoop Distributed FileSystem
‫ای‬ ‫دسته‬ ‫پردازش‬
•MapReduce‫کند‬ ‫می‬ ‫استفاده‬ ‫ای‬ ‫دسته‬ ‫پردازش‬ ‫مدل‬ ‫از‬.‫تمام‬ ‫روی‬ ‫را‬ ‫جو‬ ‫و‬ ‫پرس‬ ‫یک‬dataset‫و‬ ‫دهد‬ ‫می‬ ‫انجام‬
‫رسد‬ ‫می‬ ‫نتیجه‬ ‫به‬ ‫قبولی‬ ‫قابل‬ ‫زمان‬ ‫در‬.
•‫پردازش‬ ‫ای‬ ‫دسته‬ ‫ذات‬ ‫دلیل‬ ‫به‬MapReduce‫نیست‬ ‫مناسب‬ ‫ای‬ ‫محاوره‬ ‫های‬ ‫کاربرد‬ ‫ای‬‫ر‬‫ب‬ ،.
‫توسعه‬Hadoop
•‫آفالین‬ ‫دلیل‬ ‫به‬(‫ای‬ ‫محاوره‬‫غیر‬)‫بودن‬Hadoop‫توسط‬ ‫زیادی‬ ‫های‬ ‫توسعه‬ ،Apache‫آن‬ ‫روی‬ ‫ها‬ ‫سازمان‬‫سایر‬ ‫و‬
‫است‬ ‫شده‬ ‫انجام‬.
•‫دیتابیس‬HBase‫کند‬ ‫می‬ ‫اهم‬‫ر‬‫ف‬ ‫را‬ ‫آنالین‬ ‫دستیابی‬ ‫که‬.‫کلید‬ ‫مدل‬ ‫از‬-‫دا‬ ‫سازی‬ ‫ذخیره‬ ‫ای‬‫ر‬‫ب‬ ‫که‬ ‫کند‬ ‫می‬ ‫استفاده‬ ‫مقدار‬‫از‬ ‫ها‬ ‫ده‬
HDFS‫کند‬ ‫می‬ ‫استفاده‬.HBase‫برد‬ ‫می‬ ‫بهره‬ ‫ای‬ ‫دسته‬ ‫پردازش‬ ‫از‬ ‫هم‬ ‫و‬ ‫ها‬ ‫رکورد‬ ‫به‬ ‫آنالین‬ ‫دستیابی‬ ‫از‬ ‫هم‬.
•YARN
1
:‫کالستر‬ ‫روی‬ ‫ا‬‫ر‬‫اج‬ ‫امکان‬ ‫شده‬ ‫توزیع‬ ‫های‬ ‫افزار‬ ‫نرم‬ ‫به‬ ‫که‬ ‫است‬‫کالستر‬ ‫مدیریت‬ ‫سیستم‬Hadoop‫دهد‬ ‫می‬ ‫را‬.
1
Yet Another Resource Negotiator
‫با‬ ‫شده‬ ‫سازگار‬ ‫پردازشی‬ ‫الگوهای‬Hadoop
•SQL‫ای‬ ‫محاوره‬
•‫توزیع‬ ‫با‬MapReduce‫فعال‬ ‫اختصاصی‬ ‫جوی‬ ‫و‬ ‫جست‬ ‫موتور‬ ‫از‬ ‫استفاده‬ ‫و‬(‫مثل‬Impla)‫از‬ ‫استفاده‬ ‫یا‬Hive‫روی‬Tez.
•‫ای‬ ‫محاوره‬ ‫پردازش‬
•‫اند‬ ‫شونده‬ ‫ار‬‫ر‬‫تک‬ ‫ذاتا‬ ‫ماشینی‬ ‫یادگیری‬ ‫های‬ ‫الگوریتم‬ ‫مانند‬ ‫ها‬ ‫الگوریتم‬ ‫از‬ ‫خیلی‬.‫صو‬ ‫در‬ ‫ها‬ ‫آن‬ ‫کارایی‬ ‫این‬‫ر‬‫بناب‬‫دسته‬‫هر‬ ‫که‬ ‫رتی‬
‫کند‬ ‫می‬ ‫پیدا‬ ‫گیری‬ ‫چشم‬ ‫افزایش‬ ،‫بگیرد‬ ‫ار‬‫ر‬‫ق‬ ‫حافظه‬ ‫در‬ ‫نیاز‬ ‫مورد‬ ‫داده‬.Spark‫کند‬ ‫می‬ ‫اهم‬‫ر‬‫ف‬ ‫را‬ ‫قابلیت‬ ‫این‬.
•‫جریانی‬ ‫پردازش‬
1
‫مثل‬ ‫جریانی‬ ‫های‬ ‫سیستم‬Storm‫و‬Spark Streaming‫و‬Samza‫کنند‬ ‫می‬ ‫اهم‬‫ر‬‫ف‬ ‫را‬ ‫بالدرنگ‬ ‫شده‬ ‫توزیع‬ ‫محاسبات‬ ‫امکان‬ ،.
•‫جو‬ ‫و‬ ‫جست‬
•‫جوی‬ ‫و‬ ‫جست‬ ‫پلتفرم‬Solr‫کالستر‬ ‫یک‬ ‫روی‬ ‫تواند‬ ‫می‬Hadoop‫شود‬ ‫ا‬‫ر‬‫اج‬.
1
Stream Processing
‫و‬ ‫ای‬ ‫رابطه‬ ‫داده‬ ‫پایگاه‬MapReduce
1
Atomicity, Consistency, Isolation, Durability
MapReduce ‫پایگاه‬‫ای‬ ‫رابطه‬ ‫داده‬
‫پتابایت‬ ‫چند‬ ‫گیگابایت‬ ‫چند‬ ‫اندازه‬‫داده‬
‫دسته‬‫ای‬ ‫محاوره‬‫ای‬ ‫دسته‬ ‫و‬ ‫ای‬ ‫دستیابی‬
،‫بار‬ ‫یک‬ ‫نوشتن‬‫تعدا‬ ‫به‬ ‫خواندن‬‫زیاد‬ ‫د‬ ‫زیاد‬ ‫تعداد‬ ‫به‬ ‫نوشتن‬ ‫و‬ ‫خواندن‬ ‫رسانی‬ ‫بروز‬
‫محدودیت‬ ‫بدون‬ ACID
1
‫ها‬ ‫اکنش‬‫ر‬‫ت‬
‫قالب‬‫خواندن‬ ‫هنگام‬ ‫بندی‬ ‫بندی‬ ‫قالب‬‫نوشتن‬ ‫هنگام‬ ‫ساختار‬
‫کم‬ ‫زیاد‬ ‫جامعیت‬
‫خطی‬ ‫غیر‬‫خطی‬ ‫اندازه‬‫تغییر‬
‫های‬ ‫سیستم‬Hadoop‫مثل‬Hive‫ان‬ ‫رفته‬ ‫پیش‬ ‫شدن‬ ‫ای‬ ‫محاوره‬ ‫سمت‬ ‫به‬‫بیشتر‬ ‫ها‬ ‫اکنش‬‫ر‬‫ت‬ ‫و‬ ‫ایندکس‬ ‫افزودن‬ ‫با‬‫د‬.
‫افزونگی‬ ‫و‬ ‫یافتگی‬ ‫ساختار‬
•‫یافته‬ ‫ساخت‬ ‫های‬ ‫داده‬‫مثل‬XML‫حوزه‬ ‫در‬ ‫هستند‬ ‫ای‬ ‫شده‬ ‫تعیین‬ ‫پیش‬ ‫از‬ ‫قالب‬ ‫دارای‬ ‫که‬RDBMS‫می‬ ‫ار‬‫ر‬‫ق‬
‫ند‬‫ر‬‫گی‬.
•‫یافته‬ ‫ساخت‬ ‫نیم‬ ‫های‬ ‫داده‬‫ن‬ ‫قدرتمند‬ ‫ها‬ ‫ساختار‬ ‫روی‬ ‫محدودیت‬ ‫اما‬ ‫باشند‬ ‫ساختاری‬ ‫دارای‬ ‫است‬ ‫ممکن‬‫یست‬
‫ها‬ ‫گسترده‬ ‫صفحه‬ ‫مثل‬.
•‫ساختار‬ ‫بدون‬ ‫های‬ ‫داده‬‫تصاویر‬ ‫یا‬ ‫ساده‬ ‫متنی‬ ‫های‬ ‫فایل‬ ‫مثل‬.
•Hadoop‫برخالف‬ ‫و‬ ‫کند‬ ‫می‬ ‫مدیریت‬ ‫را‬ ‫ساختار‬ ‫بدون‬ ‫و‬ ‫یافته‬ ‫ساخت‬ ‫نیم‬ ‫های‬ ‫داده‬ ‫خوبی‬ ‫به‬RDBMS‫روی‬ ‫سنگینی‬ ‫بارگذاری‬
‫ندارد‬ ‫ها‬ ‫داده‬.
•‫شود‬ ‫می‬ ‫رعایت‬ ‫ها‬ ‫داده‬ ‫پایگاه‬ ‫افزونگی‬ ‫حذف‬ ‫و‬ ‫کردن‬ ‫کم‬ ‫در‬ ‫معموال‬ ‫سازی‬ ‫نرمال‬.‫در‬ ‫که‬ ‫صورتی‬ ‫در‬Hadoop
‫آوریم‬ ‫می‬ ‫پدید‬ ‫عامدانه‬ ‫افزونگی‬ ،‫ها‬ ‫داده‬ ‫سریع‬ ‫خواندن‬ ‫و‬ ‫محلی‬‫غیر‬ ‫دسترسی‬ ‫از‬ ‫جلوگیری‬ ‫ای‬‫ر‬‫ب‬.
•‫در‬Hadoop‫کند‬ ‫می‬ ‫پیدا‬ ‫افزایش‬ ‫خطی‬ ‫صورت‬ ‫به‬ ‫ها‬ ‫آن‬ ‫پردازش‬ ‫و‬ ‫ها‬ ‫داده‬.‫ای‬‫ر‬‫ب‬ ‫که‬ ‫صورتی‬ ‫در‬SQL‫خطی‬‫غیر‬
‫است‬.
‫منابع‬
• White, Tom. Hadoop: The definitive guide, 4th edition. " O'Reilly Media, Inc.", 2015.

More Related Content

PDF
Yarn مروری بر
PDF
مدل MapReduce
PDF
ورودی خروجی Hadoop
PDF
سیستم فایل HDFS
PDF
Introduction to Apache Hadoop in Persian - آشنایی با هدوپ
PDF
Recovery in gnu/linux
PDF
Apache spark
PDF
1st Hadoop Tehran Workshop - اسلاید اولین کارگاه آموزش هدوپ تهران
Yarn مروری بر
مدل MapReduce
ورودی خروجی Hadoop
سیستم فایل HDFS
Introduction to Apache Hadoop in Persian - آشنایی با هدوپ
Recovery in gnu/linux
Apache spark
1st Hadoop Tehran Workshop - اسلاید اولین کارگاه آموزش هدوپ تهران

Similar to آشنایی با Hadoop (20)

PDF
بیگ دیتا
PPTX
Redis.
PDF
توسعه نرم‌افزارهای مقیاس‌پذیر بر اساس معماری ریزسرویسها (Microservices) و اجر...
PDF
how upgrade ceph
PDF
Introduction to Hadoop and Spark - اسلاید کارگاه آموزش هدوپ و اسپارک شیراز
PDF
Image processing
PDF
how enable ceph dashboard
PPTX
IranOUG_Oracle_Multitenant
PDF
Ceph: A Powerful, Scalable, and Flexible Storage Solution
PPTX
06 hpc library_fundamentals_of_parallelism_and_code_optimization-www.astek.ir
PDF
Big Data and select suitable tools
PDF
rbdmap in ceph
PDF
Pg autoscaling in ceph
PDF
Rbdmap ceph realease 0.2
PDF
Big Data Processing in Cloud Computing Environments
PPSX
cloud services for libraries
PPTX
Introduction to oracle
PPTX
PDF
the refrence of Oracle Database - The 0.4 release
بیگ دیتا
Redis.
توسعه نرم‌افزارهای مقیاس‌پذیر بر اساس معماری ریزسرویسها (Microservices) و اجر...
how upgrade ceph
Introduction to Hadoop and Spark - اسلاید کارگاه آموزش هدوپ و اسپارک شیراز
Image processing
how enable ceph dashboard
IranOUG_Oracle_Multitenant
Ceph: A Powerful, Scalable, and Flexible Storage Solution
06 hpc library_fundamentals_of_parallelism_and_code_optimization-www.astek.ir
Big Data and select suitable tools
rbdmap in ceph
Pg autoscaling in ceph
Rbdmap ceph realease 0.2
Big Data Processing in Cloud Computing Environments
cloud services for libraries
Introduction to oracle
the refrence of Oracle Database - The 0.4 release
Ad

آشنایی با Hadoop

  • 2. ‫مقدمه‬ •‫کنیم‬ ‫می‬ ‫زندگی‬ ‫اطالعات‬‫عصر‬ ‫در‬ ‫ما‬. •‫سال‬ ‫تا‬ ‫شود‬ ‫می‬ ‫بینی‬ ‫پیش‬2020‫به‬ ‫الکترونیکی‬ ‫صورت‬ ‫به‬ ‫شده‬ ‫ذخیره‬ ‫اطالعات‬ ‫ان‬‫ز‬‫می‬44‫زتابایت‬(‫زتابایت‬‫هر‬ 1027 ‫ابایت‬‫ر‬‫ت‬ ‫میلیارد‬ ‫یک‬ ‫یا‬ ‫بایت‬)‫برسد‬. •Facebook‫میزبان‬240‫ماه‬‫هر‬ ‫که‬ ‫است‬‫تصویر‬ ‫میلیارد‬7‫پتابایت‬(7‫ابایت‬‫ر‬‫ت‬ ‫هزار‬)‫کند‬ ‫می‬ ‫پیدا‬ ‫افزایش‬. •‫اینترنت‬ ‫آرشیو‬ 1 ‫حدود‬18.5‫است‬ ‫کرده‬ ‫سازی‬ ‫ذخیره‬ ‫را‬ ‫اطالعات‬ ‫پتابایت‬. •Hadoop‫توسط‬ ‫که‬Apache‫است‬ ‫شده‬ ‫توزیع‬ ‫پردازش‬‫بر‬ ‫مبتنی‬ ‫سیستمی‬ ‫است‬ ‫شده‬ ‫سازی‬ ‫پیاده‬. 1 www.archive.org
  • 3. ‫ها‬ ‫داده‬ ‫تحلیل‬ ‫و‬ ‫سازی‬ ‫ذخیره‬ •‫ک‬ ‫رشد‬ ‫نرخ‬ ‫ها‬ ‫هارددیسک‬ ‫سازی‬ ‫ذخیره‬ ‫فضای‬ ‫افزایش‬ ‫به‬ ‫نسبت‬ ‫ها‬ ‫هارددیسک‬ ‫خواندن‬ ‫سرعت‬ ‫افزایش‬‫متری‬ ‫است‬ ‫داشته‬. •‫است‬ ‫شده‬‫بیشتر‬ ‫بسیار‬ ‫گذشته‬ ‫نسبت‬ ‫به‬ ‫دیسک‬ ‫اطالعات‬ ‫تمام‬ ‫خواندن‬ ‫ای‬‫ر‬‫ب‬ ‫نیاز‬ ‫مورد‬ ‫زمان‬ ‫امروزه‬.‫حدود‬ ‫از‬5‫سال‬ ‫در‬ ‫دقیقه‬1990‫تا‬2.5‫ای‬‫ر‬‫ب‬ ‫ساعت‬ ‫امروزی‬ ‫معمولی‬ ‫های‬ ‫هاردیسک‬. •‫است‬ ‫نوشتن‬ ‫و‬ ‫خواندن‬ ‫سرعت‬ ‫افزایش‬ ‫ای‬‫ر‬‫ب‬ ‫همزمان‬ ‫صورت‬ ‫به‬ ‫دیسک‬ ‫چند‬ ‫از‬ ‫استفاده‬ ‫شده‬ ‫ارائه‬ ‫راهکار‬.
  • 4. ‫همزمان‬ ‫خواندن‬ ‫چالش‬ ‫دو‬ •1-‫اری‬‫ز‬‫اف‬ ‫سخت‬ ‫نقص‬ •‫کند‬ ‫می‬ ‫پیدا‬ ‫افزایش‬‫نیز‬ ‫افزاری‬ ‫سخت‬ ‫نقص‬ ‫احتمال‬ ‫استفاده‬ ‫مورد‬ ‫افزارهای‬ ‫سخت‬ ‫تعداد‬ ‫افزایش‬ ‫با‬. •‫های‬ ‫دیسک‬ ‫به‬ ‫شبیه‬ ‫چیزی‬ ،‫تعمدی‬ ‫افزونگی‬ ‫همان‬ ‫یا‬ ‫ها‬ ‫داده‬ ‫از‬ ‫کپی‬ ‫چند‬ ‫از‬ ‫استفاده‬ ‫شده‬ ‫ارائه‬ ‫حل‬ ‫راه‬RAID‫است‬. •Hadoop‫از‬HDFS 1 ‫کند‬ ‫می‬ ‫استفاده‬. •2-‫شوند‬ ‫ادغام‬‫یکدیگر‬ ‫با‬ ‫طریقی‬ ‫به‬ ‫ها‬ ‫داده‬ ‫که‬ ‫آنند‬ ‫نیازمند‬ ‫تحلیلی‬ ‫های‬ ‫پردازش‬ ‫اغلب‬ •MapReduce‫محاسب‬ ‫به‬ ‫دیسک‬ ‫روی‬ ‫نوشتن‬ ‫و‬ ‫خواندن‬ ‫های‬ ‫عملیات‬ ‫از‬ ‫را‬ ‫مساله‬ ‫این‬ ‫که‬ ‫کند‬ ‫می‬ ‫استفاده‬ ‫انتزاعی‬ ‫مدل‬ ‫از‬‫ه‬ ‫کلید‬ ‫از‬ ‫ای‬ ‫مجموعه‬-‫کند‬ ‫می‬ ‫تبدیل‬ ‫ها‬ ‫مقدار‬.MapReduce‫تشکیل‬ ‫شوند‬ ‫می‬ ‫ا‬‫ر‬‫اج‬ ‫هم‬ ‫دنبال‬ ‫به‬ ‫موارد‬‫اکثر‬ ‫در‬ ‫که‬ ‫عملیات‬ ‫دو‬ ‫از‬ ‫است‬ ‫شده‬:Map‫و‬Reduce. 1 Hadoop Distributed FileSystem
  • 5. ‫ای‬ ‫دسته‬ ‫پردازش‬ •MapReduce‫کند‬ ‫می‬ ‫استفاده‬ ‫ای‬ ‫دسته‬ ‫پردازش‬ ‫مدل‬ ‫از‬.‫تمام‬ ‫روی‬ ‫را‬ ‫جو‬ ‫و‬ ‫پرس‬ ‫یک‬dataset‫و‬ ‫دهد‬ ‫می‬ ‫انجام‬ ‫رسد‬ ‫می‬ ‫نتیجه‬ ‫به‬ ‫قبولی‬ ‫قابل‬ ‫زمان‬ ‫در‬. •‫پردازش‬ ‫ای‬ ‫دسته‬ ‫ذات‬ ‫دلیل‬ ‫به‬MapReduce‫نیست‬ ‫مناسب‬ ‫ای‬ ‫محاوره‬ ‫های‬ ‫کاربرد‬ ‫ای‬‫ر‬‫ب‬ ،.
  • 6. ‫توسعه‬Hadoop •‫آفالین‬ ‫دلیل‬ ‫به‬(‫ای‬ ‫محاوره‬‫غیر‬)‫بودن‬Hadoop‫توسط‬ ‫زیادی‬ ‫های‬ ‫توسعه‬ ،Apache‫آن‬ ‫روی‬ ‫ها‬ ‫سازمان‬‫سایر‬ ‫و‬ ‫است‬ ‫شده‬ ‫انجام‬. •‫دیتابیس‬HBase‫کند‬ ‫می‬ ‫اهم‬‫ر‬‫ف‬ ‫را‬ ‫آنالین‬ ‫دستیابی‬ ‫که‬.‫کلید‬ ‫مدل‬ ‫از‬-‫دا‬ ‫سازی‬ ‫ذخیره‬ ‫ای‬‫ر‬‫ب‬ ‫که‬ ‫کند‬ ‫می‬ ‫استفاده‬ ‫مقدار‬‫از‬ ‫ها‬ ‫ده‬ HDFS‫کند‬ ‫می‬ ‫استفاده‬.HBase‫برد‬ ‫می‬ ‫بهره‬ ‫ای‬ ‫دسته‬ ‫پردازش‬ ‫از‬ ‫هم‬ ‫و‬ ‫ها‬ ‫رکورد‬ ‫به‬ ‫آنالین‬ ‫دستیابی‬ ‫از‬ ‫هم‬. •YARN 1 :‫کالستر‬ ‫روی‬ ‫ا‬‫ر‬‫اج‬ ‫امکان‬ ‫شده‬ ‫توزیع‬ ‫های‬ ‫افزار‬ ‫نرم‬ ‫به‬ ‫که‬ ‫است‬‫کالستر‬ ‫مدیریت‬ ‫سیستم‬Hadoop‫دهد‬ ‫می‬ ‫را‬. 1 Yet Another Resource Negotiator
  • 7. ‫با‬ ‫شده‬ ‫سازگار‬ ‫پردازشی‬ ‫الگوهای‬Hadoop •SQL‫ای‬ ‫محاوره‬ •‫توزیع‬ ‫با‬MapReduce‫فعال‬ ‫اختصاصی‬ ‫جوی‬ ‫و‬ ‫جست‬ ‫موتور‬ ‫از‬ ‫استفاده‬ ‫و‬(‫مثل‬Impla)‫از‬ ‫استفاده‬ ‫یا‬Hive‫روی‬Tez. •‫ای‬ ‫محاوره‬ ‫پردازش‬ •‫اند‬ ‫شونده‬ ‫ار‬‫ر‬‫تک‬ ‫ذاتا‬ ‫ماشینی‬ ‫یادگیری‬ ‫های‬ ‫الگوریتم‬ ‫مانند‬ ‫ها‬ ‫الگوریتم‬ ‫از‬ ‫خیلی‬.‫صو‬ ‫در‬ ‫ها‬ ‫آن‬ ‫کارایی‬ ‫این‬‫ر‬‫بناب‬‫دسته‬‫هر‬ ‫که‬ ‫رتی‬ ‫کند‬ ‫می‬ ‫پیدا‬ ‫گیری‬ ‫چشم‬ ‫افزایش‬ ،‫بگیرد‬ ‫ار‬‫ر‬‫ق‬ ‫حافظه‬ ‫در‬ ‫نیاز‬ ‫مورد‬ ‫داده‬.Spark‫کند‬ ‫می‬ ‫اهم‬‫ر‬‫ف‬ ‫را‬ ‫قابلیت‬ ‫این‬. •‫جریانی‬ ‫پردازش‬ 1 ‫مثل‬ ‫جریانی‬ ‫های‬ ‫سیستم‬Storm‫و‬Spark Streaming‫و‬Samza‫کنند‬ ‫می‬ ‫اهم‬‫ر‬‫ف‬ ‫را‬ ‫بالدرنگ‬ ‫شده‬ ‫توزیع‬ ‫محاسبات‬ ‫امکان‬ ،. •‫جو‬ ‫و‬ ‫جست‬ •‫جوی‬ ‫و‬ ‫جست‬ ‫پلتفرم‬Solr‫کالستر‬ ‫یک‬ ‫روی‬ ‫تواند‬ ‫می‬Hadoop‫شود‬ ‫ا‬‫ر‬‫اج‬. 1 Stream Processing
  • 8. ‫و‬ ‫ای‬ ‫رابطه‬ ‫داده‬ ‫پایگاه‬MapReduce 1 Atomicity, Consistency, Isolation, Durability MapReduce ‫پایگاه‬‫ای‬ ‫رابطه‬ ‫داده‬ ‫پتابایت‬ ‫چند‬ ‫گیگابایت‬ ‫چند‬ ‫اندازه‬‫داده‬ ‫دسته‬‫ای‬ ‫محاوره‬‫ای‬ ‫دسته‬ ‫و‬ ‫ای‬ ‫دستیابی‬ ،‫بار‬ ‫یک‬ ‫نوشتن‬‫تعدا‬ ‫به‬ ‫خواندن‬‫زیاد‬ ‫د‬ ‫زیاد‬ ‫تعداد‬ ‫به‬ ‫نوشتن‬ ‫و‬ ‫خواندن‬ ‫رسانی‬ ‫بروز‬ ‫محدودیت‬ ‫بدون‬ ACID 1 ‫ها‬ ‫اکنش‬‫ر‬‫ت‬ ‫قالب‬‫خواندن‬ ‫هنگام‬ ‫بندی‬ ‫بندی‬ ‫قالب‬‫نوشتن‬ ‫هنگام‬ ‫ساختار‬ ‫کم‬ ‫زیاد‬ ‫جامعیت‬ ‫خطی‬ ‫غیر‬‫خطی‬ ‫اندازه‬‫تغییر‬ ‫های‬ ‫سیستم‬Hadoop‫مثل‬Hive‫ان‬ ‫رفته‬ ‫پیش‬ ‫شدن‬ ‫ای‬ ‫محاوره‬ ‫سمت‬ ‫به‬‫بیشتر‬ ‫ها‬ ‫اکنش‬‫ر‬‫ت‬ ‫و‬ ‫ایندکس‬ ‫افزودن‬ ‫با‬‫د‬.
  • 9. ‫افزونگی‬ ‫و‬ ‫یافتگی‬ ‫ساختار‬ •‫یافته‬ ‫ساخت‬ ‫های‬ ‫داده‬‫مثل‬XML‫حوزه‬ ‫در‬ ‫هستند‬ ‫ای‬ ‫شده‬ ‫تعیین‬ ‫پیش‬ ‫از‬ ‫قالب‬ ‫دارای‬ ‫که‬RDBMS‫می‬ ‫ار‬‫ر‬‫ق‬ ‫ند‬‫ر‬‫گی‬. •‫یافته‬ ‫ساخت‬ ‫نیم‬ ‫های‬ ‫داده‬‫ن‬ ‫قدرتمند‬ ‫ها‬ ‫ساختار‬ ‫روی‬ ‫محدودیت‬ ‫اما‬ ‫باشند‬ ‫ساختاری‬ ‫دارای‬ ‫است‬ ‫ممکن‬‫یست‬ ‫ها‬ ‫گسترده‬ ‫صفحه‬ ‫مثل‬. •‫ساختار‬ ‫بدون‬ ‫های‬ ‫داده‬‫تصاویر‬ ‫یا‬ ‫ساده‬ ‫متنی‬ ‫های‬ ‫فایل‬ ‫مثل‬. •Hadoop‫برخالف‬ ‫و‬ ‫کند‬ ‫می‬ ‫مدیریت‬ ‫را‬ ‫ساختار‬ ‫بدون‬ ‫و‬ ‫یافته‬ ‫ساخت‬ ‫نیم‬ ‫های‬ ‫داده‬ ‫خوبی‬ ‫به‬RDBMS‫روی‬ ‫سنگینی‬ ‫بارگذاری‬ ‫ندارد‬ ‫ها‬ ‫داده‬. •‫شود‬ ‫می‬ ‫رعایت‬ ‫ها‬ ‫داده‬ ‫پایگاه‬ ‫افزونگی‬ ‫حذف‬ ‫و‬ ‫کردن‬ ‫کم‬ ‫در‬ ‫معموال‬ ‫سازی‬ ‫نرمال‬.‫در‬ ‫که‬ ‫صورتی‬ ‫در‬Hadoop ‫آوریم‬ ‫می‬ ‫پدید‬ ‫عامدانه‬ ‫افزونگی‬ ،‫ها‬ ‫داده‬ ‫سریع‬ ‫خواندن‬ ‫و‬ ‫محلی‬‫غیر‬ ‫دسترسی‬ ‫از‬ ‫جلوگیری‬ ‫ای‬‫ر‬‫ب‬. •‫در‬Hadoop‫کند‬ ‫می‬ ‫پیدا‬ ‫افزایش‬ ‫خطی‬ ‫صورت‬ ‫به‬ ‫ها‬ ‫آن‬ ‫پردازش‬ ‫و‬ ‫ها‬ ‫داده‬.‫ای‬‫ر‬‫ب‬ ‫که‬ ‫صورتی‬ ‫در‬SQL‫خطی‬‫غیر‬ ‫است‬.
  • 10. ‫منابع‬ • White, Tom. Hadoop: The definitive guide, 4th edition. " O'Reilly Media, Inc.", 2015.