فهرست مطالب
خراش دادن وب مفهوم جدیدی نیست زیرا کل اینترنت بر اساس آن است. به عنوان مثال، وقتی پیوند یک ویدیوی یوتیوب را در فیس بوک به اشتراک می گذارید، داده های آن خراشیده می شود تا مردم بتوانند تصویر کوچک ویدیو را در پست شما ببینند. بنابراین راه های بی پایانی برای استفاده از خراش دادن داده ها به نفع همه وجود دارد. اما برخی جنبههای اخلاقی در حذف دادهها از وب وجود دارد.
فرض کنید برای یک طرح بیمه درمانی درخواست میکنید و با کمال میل اطلاعات شخصی خود را در ازای خدماتی که ارائه میدهند به ارائهدهنده میدهید. اما چه می شود اگر یک فرد غریبه با داده های شما جادوی وب را انجام دهد و از آن برای مقاصد شخصی استفاده کند. همه چیز ممکن است شروع به نامناسب شدن کند، درست است؟ اینجا نیاز به تمرین خراش دادن وب اخلاقی است.
در این مقاله، آیین نامه رفتار خراش دادن وب و ملاحظات قانونی و اخلاقی را مورد بحث قرار خواهیم داد.
برای تمرین اسکراپی وب قانونی، باید قوانین ساده زیر را رعایت کنید.

قوانین را زیر پا نگذارید. اینترنت – باید بدانید که همه وب سایت ها نمی توانند هزاران درخواست در ثانیه را تحمل کنند. برخی از وب سایت ها این اجازه را می دهند، اما برخی دیگر ممکن است در صورت ارسال چندین درخواست با استفاده از آدرس IP یکسان، شما را مسدود کنند. به عنوان مثال، اگر یک اسکراپر مینویسید که از لینکها پیروی میکند، باید ابتدا آن را روی یک مجموعه داده کوچکتر آزمایش کنید و مطمئن شوید که کاری را که قرار است انجام دهد انجام میدهد. علاوه بر این، باید تنظیمات اسکراپر خود را تنظیم کنید تا امکان تأخیر بین درخواستها وجود داشته باشد.
مشاهده فایل robots.txt – وبسایتها از فایلهای robots.txt استفاده میکنند تا به رباتها اطلاع دهند که آیا سایت قابل خزیدن است یا خیر. هنگام استخراج داده ها از وب، باید به طور انتقادی فایل robots.txt را درک کرده و به آن احترام بگذارید تا از عواقب قانونی جلوگیری کنید.
آنچه را که می توانید به اشتراک بگذارید – اگر اجازه دارید داده ها را در دامنه عمومی خراش دهید و آن را خراش دهید، می توانید آن را در آنجا قرار دهید (مثلاً در datahub.io) تا افراد دیگر از آن استفاده مجدد کنند . اگر یک وب اسکرپر می نویسید، می توانید کد آن را به اشتراک بگذارید (به عنوان مثال، در Github) تا دیگران بتوانند از آن بهره مند شوند.
محتوای دانلود شده را به صورت غیرقانونی به اشتراک نگذارید – گاهی اوقات پاک کردن داده ها برای مقاصد شخصی اشکالی ندارد، حتی اگر اطلاعات دارای حق نسخه برداری باشد. با این حال، اشتراکگذاری دادههایی که حق اشتراکگذاری آنها را ندارید، غیرقانونی است.
میتوانید به خوبی بپرسید – اگر به دادههایی از یک سازمان خاص برای پروژه خود نیاز دارید، میتوانید از آنها بپرسید. به طور مستقیم اگر آنها بتوانند داده های مورد نظر را در اختیار شما قرار دهند. در غیر این صورت میتوانید از اطلاعات اولیه سازمان در وبسایت آن استفاده کنید و خود را از مشکل ایجاد وباسکریپر نجات دهید.
باید در حین خراش دادن داده ها از وب، اصول اخلاقی زیر را در نظر داشته باشید.

داده ها را سرقت نکنید
باید بدانید که خراش دادن وب می تواند در شرایط خاصی غیرقانونی باشد. اگر شرایط و ضوابط وبسایتی که میخواهیم آن را پاک کنیم، کاربران را از کپی و دانلود محتوا منع میکند، پس نباید آن دادهها را پاک کنیم و به شرایط آن وبسایت احترام بگذاریم. در پشت سیستم احراز هویت محافظت شده با رمز عبور (داده های در دسترس عموم)، در نظر داشته باشید که وب سایت را خراب نکنید. با این حال، اگر داده های خراشیده شده را بیشتر به اشتراک بگذارید، می تواند یک مشکل بالقوه باشد. به عنوان مثال، اگر محتوایی را از یک وبسایت دانلود کنید و آن را در وبسایت دیگری ارسال کنید، خراش دادن شما غیرقانونی تلقی میشود و نقض حق چاپ است.
وب را نشکنید
هر زمان که یک وب اسکراپر می نویسید، به طور مکرر از یک وب سایت پرس و جو می کنید و به طور بالقوه به تعداد زیادی از صفحات آن دسترسی پیدا می کنید. برای هر صفحه یک درخواست به وب سروری که میزبان سایت است ارسال می شود. سرور درخواست را پردازش می کند و پاسخی را به رایانه ای که کد را اجرا می کند ارسال می کند. درخواست هایی که ما ارسال می کنیم منابع سرور را مصرف می کند. بنابراین، اگر درخواستهای زیادی را در یک بازه زمانی کوتاه ارسال کنیم، میتوانیم از دسترسی سایر کاربران عادی به سایت در طول آن زمان جلوگیری کنیم. برای خاموش کردن شبکه یا ماشین و غیرقابل دسترس کردن آن برای کاربران مورد نظر. آنها این کار را با ارسال اطلاعات به سروری که باعث خرابی می شود یا با پر کردن ترافیک وب سایت مورد نظر انجام می دهند.
اکثر وب سرورهای مدرن شامل اقداماتی برای جلوگیری از استفاده نامشروع از منابع خود هستند، زیرا حملات DoS در اینترنت رایج است. آنها مراقب تعداد زیادی درخواستی هستند که از یک آدرس IP منفرد می آیند. اگر چندین درخواست در یک بازه زمانی کوتاه ارسال کند، آنها میتوانند آن آدرس را مسدود کنند. . میتوانید از آنها بپرسید که آیا دادههایی در قالب ساختاریافته در دسترس دارند که میتواند با نیازهای پروژه شما مطابقت داشته باشد. اگر میخواهید از دادههای آنها برای اهداف تحقیقاتی به روشی استفاده کنید که میتواند به طور بالقوه مورد علاقه آنها باشد، میتوانید خود را از مشکل نوشتن یک وباسکریپر نجات دهید.
همچنین میتوانید دیگران را از دردسر نوشتن یک وباسکریپر نجات دهید. به عنوان مثال، اگر داده ها یا اسناد خود را به عنوان بخشی از پروژه تحقیقاتی منتشر می کنید، ممکن است شخصی بخواهد داده های شما را برای استفاده دریافت کند. اگر میخواهید، میتوانید راهی برای دانلود دادههای خام خود در قالبی ساختاریافته به دیگران ارائه دهید، بنابراین t
بهتر از متأسف بودن
حفظ حریم خصوصی دادهها و قوانین حق نسخهبرداری از کشوری به کشور دیگر متفاوت است. شما باید قوانینی را که در زمینه شما اعمال می شود بررسی کنید. به عنوان مثال، در کشورهایی مانند استرالیا، خراش دادن اطلاعات شخصی مانند شماره تلفن، آدرس ایمیل، و نام غیرقانونی است، حتی اگر در دسترس عموم باشد. استفاده کنید. با این حال، اگر میخواهید مقادیر زیادی از دادهها را برای اهداف تجاری یا تحقیقاتی جمعآوری کنید، احتمالاً باید به دنبال مشاوره حقوقی باشید. هدف اصلی آنها پنهان کردن آدرس IP و مکان کاربر است. پروکسی ها همچنین به کاربران اجازه می دهند هنگام گشت و گذار در اینترنت به محتوای محدود جغرافیایی دسترسی داشته باشند. بنابراین، کاربران میتوانند به صفحات مخفی دسترسی پیدا کنند، زیرا پراکسیها محتوا و محدودیتهای جغرافیایی را دور میزنند.

میتوانید از پراکسیها برای به حداکثر رساندن خروجی scraper استفاده کنید زیرا نرخ بلوک را کاهش میدهند. بدون آنها، می توانید حداقل داده ها را از وب خراش دهید. به این دلیل است که پروکسی ها از نرخ خزیدن پیشی می گیرند و به عنکبوت ها اجازه می دهد تا داده های بیشتری را استخراج کنند. نرخ خزیدن نشان دهنده تعداد درخواست هایی است که می توانید در یک بازه زمانی معین ارسال کنید. این نرخ از سایتی به سایت دیگر متفاوت است.
بسته به نیاز پروژه خود می توانید پروکسی را انتخاب کنید. شما می توانید از یک پراکسی خصوصی یا یک پراکسی مشترک استفاده کنید.
- پراکسی های خصوصی اگر پروژه شما به عملکرد بالا و حداکثر اتصال نیاز دارد، بهترین هستند. پروژه با بودجه محدود.
- پراکسی های رایگان هنگام استخراج داده ها از وب منع می شوند. به این دلیل است که آنها برای عموم باز هستند و اغلب برای فعالیت های غیرقانونی استفاده می شوند. سه دسته از سرورهای پروکسی وجود دارد.
Datacenter Proxies – اینها ارزانترین و کاربردیترین پروکسیها برای خراش دادن وب هستند. این IP ها بر روی سرورهای مستقل ایجاد می شوند و به طور موثر برای انجام پروژه های خراش دادن در مقیاس بزرگ استفاده می شوند.
پراکسیهای موبایل – گرانترین پروکسیها هستند و اگر مجبور به جمعآوری دادههایی هستید که فقط در دستگاههای تلفن همراه قابل مشاهده است، استفاده از آنها عالی است. اینترنت با در نظر گرفتن ملاحظات قانونی و اخلاقی. به عنوان مثال، شما نباید داده ها را از وب بدزدید. شما نمی توانید داده هایی را که حق آنها را ندارید به اشتراک بگذارید. اگر به داده های یک سازمان برای پروژه خود نیاز دارید، می توانید به خوبی از آنها بپرسید که آیا می توانند داده های خام خود را در قالبی ساختاریافته به اشتراک بگذارند. در غیر این صورت، می توانید در صورت اجازه، وب scraper خود را برای استخراج داده ها از وب سایت بنویسید. علاوه بر این، ما بحث کردیم که بسته به نیاز پروژه خود می توانید پروکسی های مختلفی را انتخاب کنید. شما می توانید از مرکز داده یا IP های مسکونی استفاده کنید زیرا آنها به طور گسترده برای خراش دادن وب استفاده می شوند.
