Submit Search
سیستم فایل HDFS
5 likes
391 views
nasser rezaei
آشنایی با سیستم فایل هدوپ، مدیریت داده ها در کلاستر های عظیم
Data & Analytics
Read more
1 of 23
Download now
Downloaded 45 times
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
More Related Content
PDF
آشنایی با Hadoop
nasser rezaei
PDF
ورودی خروجی Hadoop
nasser rezaei
PDF
Yarn مروری بر
nasser rezaei
PDF
مدل MapReduce
nasser rezaei
PDF
Introduction to Apache Hadoop in Persian - آشنایی با هدوپ
Mobin Ranjbar
PDF
1st Hadoop Tehran Workshop - اسلاید اولین کارگاه آموزش هدوپ تهران
Farafekr Technology
PDF
بیگ دیتا
Hamed Azizi
PDF
تشخیص انجمن در مقیاس کلان داده
Navid Sedighpour
آشنایی با Hadoop
nasser rezaei
ورودی خروجی Hadoop
nasser rezaei
Yarn مروری بر
nasser rezaei
مدل MapReduce
nasser rezaei
Introduction to Apache Hadoop in Persian - آشنایی با هدوپ
Mobin Ranjbar
1st Hadoop Tehran Workshop - اسلاید اولین کارگاه آموزش هدوپ تهران
Farafekr Technology
بیگ دیتا
Hamed Azizi
تشخیص انجمن در مقیاس کلان داده
Navid Sedighpour
What's hot
(8)
PDF
Introduction to Hadoop and Spark - اسلاید کارگاه آموزش هدوپ و اسپارک شیراز
Mobin Ranjbar
PDF
Hadoop Case Studies in the Real World in Persian - کاربردهای هدوپ در دنیای واقعی
Mobin Ranjbar
PDF
Big Data Processing in Cloud Computing Environments
Farzad Nozarian
PDF
Recovery in gnu/linux
Yashar Esmaildokht
PPTX
Disk DBMS
Mahmood Neshati (PhD)
PDF
آموزش دیتاگارد در اوراکل
faradars
PPTX
DB Indexing
Mahmood Neshati (PhD)
PDF
Apache spark
Majid Golghandashti
Introduction to Hadoop and Spark - اسلاید کارگاه آموزش هدوپ و اسپارک شیراز
Mobin Ranjbar
Hadoop Case Studies in the Real World in Persian - کاربردهای هدوپ در دنیای واقعی
Mobin Ranjbar
Big Data Processing in Cloud Computing Environments
Farzad Nozarian
Recovery in gnu/linux
Yashar Esmaildokht
Disk DBMS
Mahmood Neshati (PhD)
آموزش دیتاگارد در اوراکل
faradars
DB Indexing
Mahmood Neshati (PhD)
Apache spark
Majid Golghandashti
Ad
Similar to سیستم فایل HDFS
(20)
PDF
Ceph: A Powerful, Scalable, and Flexible Storage Solution
Yashar Esmaildokht
PDF
how upgrade ceph
Yashar Esmaildokht
PDF
how enable ceph dashboard
Yashar Esmaildokht
PDF
rbdmap in ceph
Yashar Esmaildokht
PDF
Pg autoscaling in ceph
Yashar Esmaildokht
PDF
Rbdmap ceph realease 0.2
Yashar Esmaildokht
PDF
طراحی سیستم های اطلاعاتی بر مبنای قابلیت های Nosql بانک های اطلاعاتی
عباس بني اسدي مقدم
PDF
Ulimit
Yashar Esmaildokht
DOCX
Docker
AlirezaGoshayesh
PDF
Everything you need to know about computer
nq2tzqmpwx
PDF
Everything you need to know about computer
nq2tzqmpwx
PDF
Everything you need about basics of computer
nq2tzqmpwx
PDF
انواع حملات در شبکه های کامپیوتری.pdf
AliAzarifar
PDF
Raid
Amir hosseinnemat
PDF
Fo it 94-11-database
mb_dadkhah
PDF
Wazuh و Ossec Wazuh به ossec از مهاجرت نحوه همچنین
Yashar Esmaildokht
PDF
Ossec و Wazuh
Yashar Esmaildokht
PPTX
06 hpc library_fundamentals_of_parallelism_and_code_optimization-www.astek.ir
aminnezarat
PPSX
grid
mohamad mahmodi
PDF
Supervisor
Yashar Esmaildokht
Ceph: A Powerful, Scalable, and Flexible Storage Solution
Yashar Esmaildokht
how upgrade ceph
Yashar Esmaildokht
how enable ceph dashboard
Yashar Esmaildokht
rbdmap in ceph
Yashar Esmaildokht
Pg autoscaling in ceph
Yashar Esmaildokht
Rbdmap ceph realease 0.2
Yashar Esmaildokht
طراحی سیستم های اطلاعاتی بر مبنای قابلیت های Nosql بانک های اطلاعاتی
عباس بني اسدي مقدم
Ulimit
Yashar Esmaildokht
Docker
AlirezaGoshayesh
Everything you need to know about computer
nq2tzqmpwx
Everything you need to know about computer
nq2tzqmpwx
Everything you need about basics of computer
nq2tzqmpwx
انواع حملات در شبکه های کامپیوتری.pdf
AliAzarifar
Raid
Amir hosseinnemat
Fo it 94-11-database
mb_dadkhah
Wazuh و Ossec Wazuh به ossec از مهاجرت نحوه همچنین
Yashar Esmaildokht
Ossec و Wazuh
Yashar Esmaildokht
06 hpc library_fundamentals_of_parallelism_and_code_optimization-www.astek.ir
aminnezarat
grid
mohamad mahmodi
Supervisor
Yashar Esmaildokht
Ad
سیستم فایل HDFS
1.
فایل سیستمHDFS رضاییناصر nasser.rezaei.novin@gmail.com
2.
مقدمه •کامپ تعدادی روی
را آن تا است نیاز شود میبیشترکامپیوتر سازی ذخیره ظرفیت از دیتاست یک اندازه که وقتییوتر(node)مجزا کنیم قسمت. •ش توزیع فایل سیستم کنند می مدیریت ها ماشین از ای شبکه روی را سازی ذخیره فضای که هایی فایل سیستم بهگویند می ده. •شده توزیع فایل سیستمHadoop،HDFSدارد نام.
3.
احیرطHDFS •HDFSاست شده احیرطزیر
مقاصد ایرب: •بزرگ خیلی های فایل:پتابایتی حتی یا ابایتیرت ،گیگابایتی صدها های اندازه با هایی فایل. •جریانی داده دسترسی:است نامحدود خواندن یکبار؛ نوشتن الگوی ،داده پردازش الگوی کاراترین.HDFSاین از پیش رکورد اولین خواندن ایرب که تاخیری از دیتاست تمام خواندن زمان اینربناب ،گیرد می الگو ایدهتر مهم آید می است. •معمولی ارزاف سخت:Hadoopندارد ابیرخابررب در مقاومت با قیمت انرگ ارهایزاف سخت به احتیاجی.HDFSبه های ابیرخ مقابل در که است شده احیرط ای گونهnodeدهد ادامه را خود کار جزئی ای وقفه باحداکثر ها. •HDFSنیست سازگارزیر موارد با: •کمتاخیر با ها داده به دسترسی:خوبی به دارند کمتاخیر با دسترسی به نیاز که هایی اپلیکیشنباHDFSنمی کار کنند. •کوچک فایل زیاد تعداد:که جایی آن ازnamenodeهای فایل تعداد محدودیت شود می داری نگه اصلی حافظه در حافظه انزمی به سیستمnamenodeدارد بستگی. •تصادفی صورت به ها فایل درتغییر نویسنده؛ چند:در ها فایلHDFSشوند می نوشته منبع یک توسط.همیشه شود می اضافه فایل انتهای به محتویات(Append.)کرد ایجاد اترتغیی فایل از خاصی آفست در توان نمی.
4.
مفاهیمHDFS •Block:است دیسک در
نوشتن و خواندن واحد ترین کوچک بالک.معموال دیسک بالک512در است بایت است دیسک بالک از ضریبی معموال فایل سیستم بالک که حالی. •HDFSبزرگ اندازه با منتها دارد را بالک مفهوم هم128مگابایت(فرض پیش)در ها فایل ،HDFSبالک اندازه به هایی قطعه در شوند می ذخیره.کند نمی اشغال را آن تمام بالک ازکمتر انداز با فایلی دیسکی تک فایل سیستم برخالف.اناین به بالک دازه بال ابتدای به رسیدن زمان ازبیشتر خیلی بایستی بالک تمام خواندن زمان که است بزرگ سیستم در دلیلباشد ک. •محدودی تعداد در بالکهر ،رود نمی بین از افزاری سخت های ابیرخ در بالک اینکه از اطمینان ایرب(معموال3)مجزا ماشین شود می کپی.
5.
NamenodeوDatanode •:Namenodeنام فضای(namespace)فای و
ها کتوریدایر متادیتای و کند می مدیریت را فایل سیستمرا ها ل کند می داری نگه فایل سیستم در. •قالب در محلی دیسک در دائمی صورت به اطالعات این2شوند می داری نگه فایل:namespace imageوedit logهمچنین ، namenodeتمامdatanodeشناسد می را خاص فایل یک به مربوط های. •Datanode:ش ذخیره های بالک گزارش ارائه و اخوانیرف هنگام در بالک بازیابی و داری نگه اش وظیفهدر ده به زمانی های فاصلهnamenodeاست.
6.
از محافظتnamenode •بدونnamenodeگردد می
بالاستفاده فایل سیستم.بایستی دلیل همین بهnamenodeشدن ابرخ از را داشت برحذر.منظور بدینHadoopکند می اهمرف را امکان دو: •1-سیستم متادیتای از گیری پشتیبان:شود می ذخیره متفاوت فایل های سیستم در که. •2-از استفادهnamenodeثانویه:یک مثل نامش برخالف کهnamenodeکند نمی عمل.تصویر ادغام آن اصلی وظیفه namenodeباedit logاندازه تا استedit logنشود بزرگ خیلی.Namenodeشود می ساخته مجزایی ماشین روی ثانویه.
7.
بالک کردن کش •اصلی
حافظه در را شوند می دسترسی زیاد که هایی بالک توان میdatanodeکرد ذخیره. •تواند می کار زمانبندTaskروی را هاdatanodeاند کرده کش را بالک که کند اراج هایی. •بگیرد اختیار در را منابع از استفاده و ها کش دسترسی مدیریت تواند می کش مخزن یک.
8.
HDFS FederationوHA •HDFS Federation:چند
بزرگ خیلی کالسترهای در که دهد می را امکان اینnamenodeهر و باشیم داشته namenodeبگیرد اختیار در را فایل سیستم نام فضای از قسمتی مدیریت.یکی مثال/userکتوریدایر و ها فایل و دیگری و آن درون های/share •HDFS High Availability (HA):متادیتای کردن کپی کیبترnamenodeاز استفاده و فایل سیستم چند روی namenodeساخت ایرب ثانویهcheckpointدادن دست ازابررب در را سیستمnamenodeکند می بیمه.اگر اما namenodeبازیابی درتاخیر دلیل به سیستم بیفتد کار ازnamenode(تا بزرگ های سیستم در که30یا دقیقه ببرد زمان تواند میبیشتر)شود می روبرو بزرگی مشکل با. •Hadoopکردن اضافه با را مشکل اینHAجفت یک آن در که است کرده حلnamenodeفعال های حالت در-کار به آماده دارند وجود.که وقتیnamenodeشد مشکل دچار فعالnamenodeشود می اندازی راه توجه قابلتاخیر بدون کار به آماده. •اندازی راه ایربHAاست الزمزیر اترتغیی بعضی. •Namenodeاکراشت ایرب اکیراشت حافظه دارای بایدedit logباشد.edit logآخرین بازیابی ایرب افتادگی کار از هنگام در وضعیتnamenodeشود می استفاده اصلی. •Datanodeدوهر به را ها بالک ارشزگ باید هاnamenodeبدهند. •Clientابیرخ بتوانند باید هاnamenodeکنند مدیریت را. •اکیراشت حافظه ایرب انتخاب دوHAدارد وجود:1-NFS Filer2-QJM
9.
کردن قرنطینه و
تشخیصnamenodeمعیوب •Failover:یکjobهر در کوچکnamenodeابیرخ تشخیص اش وظیفه که استnamenodeاست. Failoverاز معموال هاZooKeeperشدن معیوب تشخیص ایربnamenodeکنند می استفاده. •Fencing:ناخواسته اترتغیی ایجاد مانع که است متدیnamenodeموجب است ممکن که معیوب شود می ،گرددکالستر در مشکل.
10.
رابطCommand-Line •اندازی راه از
پسHadoopبا کار ایرب مختلفی های رابط از توان می سیستم رویاستفاده فایل سیستم کرد.آن ترین مهمCommand lineاست. •فایل سیستم ابتدایی های فرمان از تعدادی: •fsفایل سیستم فرمان خطHadoopکند می اخوانیرف راج خود در فایل سیستم در کار ایرب دستورزیر تعدادی کهای است داده. • % hadoop fs -copyFromLocal input/docs/quangleLocal.txt /user/tom/quangleHDFS.txt •محلیمسیر از را فایل(پوشهinput)روی شده تعیین آدرس بهHDFSکند می منتقل. • % hadoop fs -copyToLocal quangleHDFS.txt quangleLocal.txt •کالستر از را فایلHadoopکند می کپی محلی فایل سیستم به. • % hadoop fs -mkdir books سازد می فایل سیستم در پوشه یک. • % hadoop fs -ls . • Found 2 items • drwxr-xr-x - tom supergroup 0 2014-10-04 13:22 books • -rw-r--r-- 1 tom supergroup 119 2014-10-04 13:21 quangleHDFS.txt •خروجی در اول ستونnamenodeفایل از ها کپی تعداد دوم ستون ،کند می مشخص را فایل های دسترسی(پ ایربوشه هادر چونnamenodeاست معنی بی ستون این دارند اررق)مشخص را آن گروه وکاربر چهارم و سوم ستون ،کن مید. نام وتغییر آخرین زمان و تاریخ ،بایت به اندازه ها ستون بقیهپوشه-کند می مشخص را فایل.
11.
فایل سیستم های
دسترسی •یک پوشه یا فایلهرowner،groupوmodeدارد.modeکاربر ایرب که است هایی دسترسی مجموعه هستند مالک کاربری گروه عضو نه و هستند مالک نه که انیرکارب و مالک کاربری گروه ،مالکنظر در شود می گرفته. •است آمدهزیر جدول در ها پوشه و فایل های دسترسی: پوشه فایل دسترسی پوشه محتویات خواندن فایل خواندن خواندن(r) پو های فایل کردن اضافه و حذفشه نوشتنفای درل نوشتن(w) فرزندان به دسترسی وجودندارد کردن اراج(x)
12.
فایل های سیستمHadoop •Hadoopکه
است کرده تعریف فایل سیستم نوع چندHDFSاست آن نمونه یک تنها. •Hadoopقالب ازURIکند می استفاده فایل سیستم کردن پیدا ایرب.کرد لیست ایرب مثالهای فایل ن rootکنیم می وارد رازیر دستور محلی دیسک روی: • % hadoop fs –ls file:///
13.
فایل های سیستمHadoop توضیحات
پیادهسازیJava(تحتorg.apache.hadoop) قالبURI فایل سیستم سیستمکنترل با محلی دیسک ایرب فایلیchecksumمحلی fs.LocalFileSystem file Local توزیع فایل سیستمشدهHadoop.با شده هماهنگMapReduce hdfs.DistributedFileSystem hdfs HDFS سیستماز خواندن امکان که فایلیHDFSکند می اهمرف را هویت ازراح امکان با. hdfs.web.WebHdfsFileSystem webhdfs WebHDFS نسخهHTTPSازWebHDFS hdfs.web.SWebHdfsFileSystem swebhdfs Secure WebHDFS سیستمرا ها فایل و شود می سوار دیگری فایل سیستم روی که فایلیکاستن ایرب توسط شده استفاده حافظه ازnamenodeکند می آرشیو. fs.HarFileSystem har HAR یکفایل های سیستمسایر ایرب کالینت سمت اتصال جدولHadoop.معموال به اتصال نقطه ساختن ایربFederated namenodeمی استفادهشود. viewfs.ViewFileSystem viewfs View با که فایلی سیستمFTPشود می گرداندهبر fs.ftp.FTPFileSystem ftp FTP سیستمفایلAmazon S3 fs.s3a.S3AFileSystem s3a S3 سیستمفایلMicrosoft Azure fs.azure.NativeAzureFileSystem wasb Azure سیستمفایلOpenStack Swift fs.swift.snative.SwiftNativeFileSystem swift Swift
14.
رابط 1 هایHDFS •Hadoopاست شده نوشته
جاوا به. •های رابطدر زیادیHadoopبه دسترسی ایربHDFSاند شده نوشته. •HTTP:به دسترسی امکان جاواغیر های برنامه به که است رابطیHDFSپروتکل طریق از را HDFS REST APIدهد می.به دسترسی ایرب راه دوHDFSطریق ازHTTPدارد وجود. •مستقیم:زمینه پس های پردازش(daemons)HDFSهای درخواست مستقیم صورت بهHTTPرسیدگی را کنند می. •غیرمستقیم:طریق ازproxy. •C:Hadoopکتابخانه یکCنام بهlibfsبه دسترسی ایربHDFSفایل های سیستمسایر و Hadoopاز که است کرده اهمرف 2 JNIفایل سیستم اخوانیرف ایربclientکند می استفاده جاوا. همچنینlibwebhdfsرابط از کهwebhdfsاست شده معرفی ،کند می استفاده.1 Interface
15.
رابطJava •فایل های سیستم
ایرب شده شخصی کدهای جاوا کاربری رابط از استفاده با توان میHadoopنوشت. •دستورزیر مثالcatدر فایل یک محتویات نمایش ایربHDFSاستاندار استریم به فایل اتصال طریق از راد کند می سازی پیاده را خروجی. •دستور از استفاده با جاواURL.setURLStreamHandlerFactory(new FsUrlStreamHandlerFactory());فایل سیستم HDFSبالک در را آن دلیل همین به پذیرد انجام یکبار باید اخوانیرف این ،شناسد می راstaticایم داده اررق. • % export HADOOP_CLASSPATH=hadoop-examples.jar فرمان خط در اخوانیرف: • % hadoop URLCat hdfs://localhost/user/tom/quangle.txt 1 1 Source codes at: https://github.com/tomwhite/hadoop-book
16.
فایل خواندن ساختار
17.
فایل خواندن ساختار 1-تابع
زدن صدا با کالینتopen()شی درFileSystemزند می صدا را بخواند میخواهد که را فایلی ،. 2-DistributedFileSystem،namenodeطریق از راRPC 1 می صدا فایل های بالک اولین مکان کردن مشخص ایرب زند.،بالکهر ایربnamenodeآدرسdatanodeگرداند برمی را دارند را بالک آن از کپی یک که هایی. 3-DistributedFileSystemیکFSDataInputStreamگرداند میبر فایل خواندن ایرب کالینت به را. 4-کالینتread()زند می صدا استریم روی را.طریق از وDFSInputStreamترین نزدیک بهdatanodeمی وصل شود. 5-،رسیم می بالک انتهای به وقتیDFSInputStreamبه اتصالdatanodeبهترین سپس و بندد می راdatanodeرا کند می پیدا بعدی بالک ایرب. 6-،کرد تمام را خواندن کالینت که وقتیclose()از راFSDataInputStreamزند می صدا. •خواندن طول دراگرDFSInputStreamاز خواندن در خطایی باdatanodeمی بازیابی را بعدی بالک ترین نزدیک ،شد مواجه از و کندdatanodeکند میصرفنظر بعدی های بالک ایرب است شده مواجه خطا با که ی. •DFSInputStream،checksumکند می چکنیز را بالک.از دیگری کپی کند می سعی شد یافت ابیرخ بالکاگرdatanode به را ابیرخ و بخواندnamenodeکند ارشزگ. 1 Remote Procedure Call
18.
ای شبکه توپولوژیHadoop •Hadoopترین
نزدیک کند می سعیnodeراخواندن ایرببالککند معرفی.منظور بدینHadoop کند می تقسیمزیر های دسته به را ها پردازش: •1-یک به متعلق های پردازشnode. •2-nodeیک مختلف هایrack. •3-nodeبا هاییrackمتفاوت. •4-nodeمتفاوتدیتاسنتر با هایی(Hadoopندارد را قابلیت این هنوز.)
19.
فایل در نوشتن
ساختار
20.
فایل در نوشتن
ساختار 1-زدن صدا با را فایل کالینتcreate()ازDistributedFileSystemسازد می.DistributedFileSystemیکRPCصدا ایرب را زدنnamenodeدر جدیدی فایل که سازد میnamespaceبسازد. 2-namenodeس اجازه کالینت و است نداشته وجود قبل از فایل که شود مطمئن تا دهد می انجام مختلفی های بررسیاخت دارد را فایل.DistributedFileSystemیکFSDataOutputStreamگرداند میبر اطالعات نوشتن ایرب کالینت به را. 3-نویسد می را ها داده کالینت که وقتیDFSOutputStreamن به داخلی صف یک در که کند می تقسیم هایی بسته به را آنام data queueشود می نوشته.Data queueتوسطDataStreamerاز لیستی که شود می خواندهdatanodeایرب مناسب های دهد می را ها کپی داری نگه. 4-لیستdatanodeیک هاpipelineسازد می را.تعدادdatanodeهایpipelineاررتک درجه اندازه به(replication level) فرض پیش طور به که است3است.اولین از سپسdatanodeدرpipelineشود می استریم آن آخرین تا.به دومی ،دومی به اولی و سومی... 5-DFSOutputStreamصف یکackتوسط شدن شناختهمنتظر که هایی بسته لیست آن در که سازد میdatanodeهستند ها شود می وارد.لیست از صورتی در بسته یکackتمام توسط که شود می حذفdatanodeهایpipelineباشد شده شناسایی. 6-کند می تمام را ها داده نوشتن کالینت که وقتیclose()کند می اخوانیرف استریم روی را. 7-روی باقیمانده های بسته تمام عمل اینpipelineبه مربوطdatanodeبه راdatanodeبسته شدن شناختهمنتظر و فرستد می با ارتباط از قبل هاnamenodeشود می فایل تکمیل اعالن ایرب.Namenodeاند شده ساخته هایی بالک چه داند می قبل از.
21.
بالک اررتک سیاست •همان
در معموال بالک اولینnodeکالس از خارج کالینتاگر یا است فرستاده را نوشتن درخواست که شود می نوشته یبودتر یک درnodeشود می نوشته تصادفی. •در دوم بالکrackازغیر دیگریrackاولینnodeشود می نوشته. •در سوم بالکnodeاز تصادفیrackبه مربوطnodeشود می نوشته دوم. •در بعد های بالکnodeشود می نوشتهکالستر روی تصادفی های.
22.
موازی کپی •دستور از
توان میdistcpموازی کپی ایرب(نخی چند)کرد استفاده.کر کپی ایرب دستور این از توان می مثال ایربفایل دن کرد استفادهزیر شیوه به ها پوشه های: • % hadoop distcp dir1 dir2 •ازdistcpشود می استفاده گرفتن آپ بک یا کالسترها بین اطالعات انتقال ایرب معموال. • % hadoop distcp -update -delete -p hdfs://namenode1/foo hdfs://namenode2/foo •Hadoopباش شده توزیع یکنواخت صورت بهکالسترتاسررس در ای داده های بالک که کند می عمل بهینه زمانیند.
23.
منابع • White, Tom.
Hadoop: The definitive guide, 4th edition. " O'Reilly Media, Inc.", 2015.
Download