وقتی صحبت از همزمانی در مقابل موازی سازی به میان می آید، ممکن است آشکار باشد زیرا آنها به همان مفاهیم در اجرای برنامه های کامپیوتری در یک محیط چند رشته ای اشاره می کنند. خوب، پس از نگاهی به تعاریف آنها در فرهنگ لغت آکسفورد، ممکن است به این فکر کنید. با این حال، هنگامی که در رابطه با نحوه اجرای دستورالعمل های برنامه توسط CPU عمیق تر به این مفاهیم بروید، متوجه خواهید شد که همزمانی و موازی دو مفهوم متمایز هستند.
این مقاله عمیقتر به همزمانی و موازیسازی، نحوه تغییر آنها و نحوه همکاری آنها برای بهبود بهرهوری اجرای برنامه میپردازد. در نهایت، بحث خواهد شد که کدام دو استراتژی برای خراش دادن وب مناسبتر هستند. پس بیایید شروع کنیم.
اجرای همزمان چیست؟
ابتدا، برای سادهتر کردن کارها، با همزمانی در یک برنامه کاربردی که در یک پردازنده واحد اجرا میشود، شروع میکنیم. Dictionary.com همزمانی را به عنوان یک اقدام یا تلاش ترکیبی و وقوع رویدادهای همزمان تعریف می کند. با این حال، میتوان در مورد اجرای موازی بهعنوان همزمانی اجراها، همین را گفت، و بنابراین این تعریف در دنیای برنامهنویسی کامپیوتر تا حدودی گمراهکننده است. به عنوان مثال، میتوانید هنگام گوش دادن به موسیقی در Windows Media Player، یک مقاله وبلاگ را در مرورگر خود بخوانید. فرآیند دیگری در حال اجرا خواهد بود: دانلود یک فایل PDF از یک صفحه وب دیگر—همه این مثالها فرآیندهای جداگانه ای هستند. این نشان میدهد که دستورالعملهای یک برنامه باید قبل از اینکه CPU به برنامه بعدی منتقل شود، اجرا شوند.
در مقابل، اجرای همزمان مقدار کمی از هر فرآیند را تا زمانی که همه کامل شوند، جایگزین میکند.
در یک پردازنده واحد چند رشتهای. محیط اجرا، یک برنامه زمانی اجرا می شود که برنامه دیگری برای ورودی کاربر مسدود شده باشد. حال ممکن است بپرسید که محیط چند رشته ای چیست؟ این مجموعهای از رشتهها است که مستقل از یکدیگر اجرا میشوند—بیشتر در بخش بعدی. منظور ما از همزمانی در مثال های بالا این است که فرآیندها به صورت موازی اجرا نمی شوند.
در عوض، بیایید بگوییم که یک فرآیند نیاز به تکمیل یک عملیات ورودی/خروجی دارد، سپس سیستم عامل CPU را در حالی که عملیات I/O خود را کامل میکند، به فرآیند دیگری اختصاص میدهد. این رویه تا زمانی ادامه مییابد که همه فرآیندها اجرای خود را کامل کنند.
با این حال، از آنجایی که تعویض وظایف توسط سیستم عامل در یک نانو یا میکروثانیه اتفاق میافتد، زمانی که فرآیندها به صورت موازی اجرا میشوند، برای کاربر به نظر میرسد،
آیا یک Thread است؟
برخلاف اجرای متوالی، CPU ممکن است کل فرآیند/برنامه را یکجا با معماری های فعلی اجرا نکند. در عوض، اکثر کامپیوترها ممکن است کل فرآیند را به چندین مؤلفه سبک وزن تقسیم کنند که مستقل از یکدیگر به ترتیب دلخواه اجرا شوند. این اجزای سبک وزن هستند که رشته نامیده می شوند.
برای مثال، Google Docs ممکن است چندین رشته داشته باشد که به طور همزمان کار کنند. در حالی که یک رشته به طور خودکار کار شما را ذخیره می کند، دیگری ممکن است در پس زمینه اجرا شود و املا و دستور زبان را بررسی کند.
سیستم عامل ترتیب و اولویت بندی رشته ها را تعیین می کند، کدام یک به سیستم وابسته است.
اجرای موازی چیست؟ در مقابل، کامپیوترهای مدرن بسیاری از فرآیندها را به طور همزمان در چندین CPU اجرا می کنند که به عنوان اجرای موازی شناخته می شود. بیشتر معماریهای فعلی چندین CPU دارند.
همانطور که در نمودار زیر مشاهده میکنید، CPU هر رشتهای را که به یک فرآیند تعلق دارد بهطور موازی با یکدیگر اجرا میکند.

در موازی سازی، سیستم عامل رشته ها را به و از CPU در انشعابات ماکرو یا میکروثانیه بسته به معماری سیستم تغییر می دهد. برای اینکه سیستم عامل به اجرای موازی دست یابد، برنامه نویسان کامپیوتر از مفهومی به نام برنامه نویسی موازی استفاده می کنند. در برنامه نویسی موازی، برنامه نویسان کدی را برای بهترین استفاده از چندین CPU ایجاد می کنند.
چگونه همزمانی میتواند خراشهای وب را سرعت بخشد
با وجود دامنههای زیادی که از خراش دادن وب برای خراش دادن دادهها از وبسایتها استفاده میکنند، یک اشکال مهم زمانی است که برای خراش دادن مقادیر زیادی داده صرف میشود. اگر یک توسعهدهنده باتجربه نیستید، ممکن است در نهایت زمان زیادی را برای آزمایش تکنیکهای خاص تلف کنید قبل از اینکه در نهایت کد را بدون خطا و بهطور کامل اجرا کنید.
بخش زیر برخی از دلایل کندی اسکراپینگ وب را بیان میکند.[19659026]دلایل قابل توجهی برای اینکه چرا خراش دادن وب کند است؟
اولاً، اسکراپر باید به وب سایت مورد نظر در اسکراپینگ وب حرکت کند. سپس باید موجودیتها را از تگهای HTML که میخواهید از آنها پاک کنید، بکشد و بازیابی کند. در نهایت، در بیشتر شرایط، داده ها را در یک فایل خارجی مانند فرمت CSV ذخیره می کنید.
بنابراین همانطور که می بینید، اکثر وظایف فوق نیاز به عملیات ورودی/خروجی سنگین مانند کشیدن داده ها از وب سایت ها و سپس ذخیره آن در فایل های خارجی دارند. پیمایش به وبسایتهای هدف اغلب به عوامل خارجی مانند سرعت شبکه یا انتظار در هنگام در دسترس بودن شبکه بستگی دارد.
همانطور که در شکل زیر مشاهده میکنید، این مصرف بسیار آهسته زمان ممکن است فرآیند خراش دادن را در زمانی که مجبور به خراشیدن هستید، مختل کند. سه یا چند وب سایت فرض بر این است که شما عملیات تراشیدن را به صورت متوالی انجام دهید. ابتدا در بخش بعدی به موازیسازی نگاه میکنیم.
همزمانی در اسکراپینگ وب با استفاده از پایتون
مطمئن هستم که شما تا به حال یک نمای کلی از همزمانی و موازیسازی دارید. این بخش بر روی همزمانی در اسکرپینگ وب با یک مثال کد نویسی ساده در پایتون تمرکز خواهد کرد.
یک مثال ساده که بدون اجرای همزمان نشان می دهد
در این مثال، ما URL کشورها را با لیستی از شهرهای پایتخت بر اساس جمعیت از ویکی پدیا این برنامه لینک ها را ذخیره می کند و سپس به هر یک از 240 صفحه می رود و HTML آن صفحات را به صورت محلی ذخیره می کند.
برای نشان دادن اثرات همزمانی، ما دو برنامه را نشان خواهیم داد – یکی با اجرای متوالی و دیگری همزمان با چند رشته.
از واردات bs4 BeautifulSoup
از urllib.parse import urljoin
زمان واردات
def get_countries():
کشورها = 'https://en.wikipedia.org/wiki/List_of_national_capitals_by_population'
all_countries = []
پاسخ = requests.get(کشورها)
soup = BeautifulSoup (response.text، "html.parser")
country_pl = soup.select('th .flagicon+ a')
برای link_pl در country_pl:
پیوند = link_pl.get ("href")
پیوند = urljoin (کشورها، پیوند)
all_countries.append(لینک)
بازگشت همه_کشورها
def fetch(لینک):
res = requests.get(لینک)
با open(link.split("/")[-1]+".html، "wb") به صورت f:
f.write(res.content)
def main():
clinks = get_countries()
print(f"مجموع صفحات: {len(clinks)}")
start_time = time.time()
برای پیوند در کلیک ها:
واکشی لینک)
duration = time.time() – start_time
print(f"پیوندهای بارگیری شده {len(links)} در {دوره} ثانیه")
main()
توضیح کد
ابتدا، ما کتابخانهها، از جمله BeautifulSoap را برای استخراج دادههای HTML وارد میکنیم. کتابخانههای دیگر شامل درخواست دسترسی به وبسایت، urllib برای پیوستن به URLها همانطور که متوجه میشوید، و کتابخانه زمان برای یافتن کل زمان اجرای برنامه است.
درخواستهای واردات.
از واردات bs4 BeautifulSoup
از urllib.parse import urljoin
زمان واردات
برنامه ابتدا با ماژول اصلی شروع می شود که تابع get_countries() را فراخوانی می کند. سپس این تابع از طریق تجزیهکننده HTML به URL ویکیپدیا مشخصشده در متغیر کشورها از طریق نمونه BeautifulSoup دسترسی پیدا میکند.
سپس با استخراج مقدار در ویژگی href تگ anchor، URL را برای فهرست کشورهای موجود در جدول جستجو میکند.
پیوندهایی که بازیابی می کنید پیوندهای نسبی هستند. تابع urljoin آنها را به پیوندهای مطلق تبدیل می کند. سپس این پیوندها به آرایه all_countries اضافه میشوند که به تابع اصلی برمیگرداند
سپس تابع fetch محتوای HTML را در هر پیوند بهعنوان یک فایل HTML ذخیره میکند. این همان کاری است که این کدها انجام می دهند:
def fetch(link):
res = requests.get(لینک)
با open(link.split("/")[-1]+".html، "wb") به صورت f:
f.write(res.content)
در نهایت، تابع اصلی زمان ذخیره فایلها را در قالب HTML چاپ میکند. در رایانه شخصی ما، 131.22 ثانیه طول کشید. ما آن را در بخش بعدی خواهیم فهمید، جایی که همان برنامه با چندین رشته اجرا می شود. برنامه سریعتر اجرا می شود.
به یاد داشته باشید، همزمانی در مورد ایجاد چندین رشته و اجرای برنامه است. دو راه برای ایجاد رشته وجود دارد – به صورت دستی و با استفاده از کلاس ThreadPoolExecutor.
پس از ایجاد رشته ها به صورت دستی، می توانید از تابع join در همه رشته ها برای روش دستی استفاده کنید. با انجام این کار، متد main منتظر می ماند تا تمام رشته ها اجرای خود را کامل کنند.
در این برنامه، کد را با کلاس ThreadPoolExecutor که بخشی از همزمان است، اجرا می کنیم. ماژول آتی پس اول از همه باید خط زیر را در برنامه بالا قرار دهید.
from concurrent.futures import ThreadPoolExecutor
پس از آن، میتوانید حلقه for را که محتوای HTML را در قالب HTML ذخیره میکند به صورت زیر تغییر دهید:
با ThreadPoolExecutor(max_workers=32)
executor.map (واکشی، کلیک کردن)
کد بالا یک مخزن رشته با حداکثر 32 رشته ایجاد می کند. برای هر CPU، پارامتر max_workers متفاوت است و شما باید مقادیر مختلفی را آزمایش کنید. این لزوماً به معنی افزایش تعداد رشتهها در زمان اجرای سریعتر نیست.
بنابراین در رایانه شخصی ما خروجی 15.14 ثانیه تولید میشود که بسیار بهتر از زمانی است که آن را به صورت متوالی اجرا میکنیم. 19659002]بنابراین قبل از اینکه به بخش بعدی برویم، در اینجا کد نهایی برنامه با اجرای همزمان آمده است:
درخواستهای واردات
از واردات bs4 BeautifulSoup
از urllib.parse import urljoin
از concurrent.futures واردات ThreadPoolExecutor
زمان واردات
def get_countries():
کشورها = 'https://en.wikipedia.org/wiki/List_of_national_capitals_by_population'
all_countries = []
پاسخ = requests.get(کشورها)
soup = BeautifulSoup (response.text، "html.parser")
country_pl = soup.select('th .flagicon+ a')
برای link_pl در country_pl:
پیوند = link_pl.get ("href")
پیوند = urljoin (کشورها، پیوند)
all_countries.append(لینک)
بازگشت همه_کشورها
def fetch(لینک):
res = requests.get(لینک)
با open(link.split("/")[-1]+".html، "wb") به صورت f:
f.write(res.content)
def main():
clinks = get_countries()
print(f"مجموع صفحات: {len(clinks)}")
start_time = time.time()
با ThreadPoolExecutor(max_workers=32) به عنوان مجری:
executor.map (واکشی، کلیک کردن)
duration = time.time() -start_time
print(f"دانلود پیوندهای {len(clinks)} در {دوره} ثانیه")
main()
چگونه موازی سازی می تواند خراش دادن وب را سرعت بخشد
اکنون امیدواریم که درک درستی از اجرای همزمان به دست آورده باشید. برای کمک به تجزیه و تحلیل بهتر، بیایید به نحوه عملکرد یک برنامه مشابه در یک محیط چند پردازنده ای با فرآیندهایی که به طور موازی در چندین CPU اجرا می شوند، نگاه کنیم. پایتون متد ()cpu_count را ارائه میکند که تعداد CPUهای دستگاه شما را میشمرد. بدون شک برای تعیین تعداد دقیق وظایفی که می تواند به صورت موازی انجام دهد مفید است.
اکنون باید کد را با حلقه for در اجرای متوالی با این کد جایگزین کنید:
با Pool (cpu_count()) به صورت p. :
p.map (واکشی، کلیک کردن)
پس از اجرای این کد، زمان اجرای کلی 20.10 ثانیه تولید کرد که نسبتاً سریعتر از اجرای متوالی در برنامه اول است. شما ممکن است یک مرور کلی از برنامه نویسی موازی و متوالی داشته باشید—انتخاب استفاده از یکی بر دیگری در درجه اول به سناریوی خاصی که با آن روبرو شده اید بستگی دارد. یک راه حل موازی عالی خواهد بود. امیدواریم از خواندن این مقاله لذت برده باشید. همچنین فراموش نکنید که سایر مقالات مرتبط با اسکراپینگ وب مانند این مقاله را در وبلاگ ما بخوانید.