فهرست مطالب

خراش دادن وب مفهوم جدیدی نیست زیرا کل اینترنت بر اساس آن است. به عنوان مثال، وقتی پیوند یک ویدیوی یوتیوب را در فیس بوک به اشتراک می گذارید، داده های آن خراشیده می شود تا مردم بتوانند تصویر کوچک ویدیو را در پست شما ببینند. بنابراین راه های بی پایانی برای استفاده از خراش دادن داده ها به نفع همه وجود دارد. اما برخی جنبه‌های اخلاقی در حذف داده‌ها از وب وجود دارد.

فرض کنید برای یک طرح بیمه درمانی درخواست می‌کنید و با کمال میل اطلاعات شخصی خود را در ازای خدماتی که ارائه می‌دهند به ارائه‌دهنده می‌دهید. اما چه می شود اگر یک فرد غریبه با داده های شما جادوی وب را انجام دهد و از آن برای مقاصد شخصی استفاده کند. همه چیز ممکن است شروع به نامناسب شدن کند، درست است؟ اینجا نیاز به تمرین خراش دادن وب اخلاقی است.

در این مقاله، آیین نامه رفتار خراش دادن وب و ملاحظات قانونی و اخلاقی را مورد بحث قرار خواهیم داد.

برای تمرین اسکراپی وب قانونی، باید قوانین ساده زیر را رعایت کنید.

قوانین را زیر پا نگذارید. اینترنت – باید بدانید که همه وب سایت ها نمی توانند هزاران درخواست در ثانیه را تحمل کنند. برخی از وب سایت ها این اجازه را می دهند، اما برخی دیگر ممکن است در صورت ارسال چندین درخواست با استفاده از آدرس IP یکسان، شما را مسدود کنند. به عنوان مثال، اگر یک اسکراپر می‌نویسید که از لینک‌ها پیروی می‌کند، باید ابتدا آن را روی یک مجموعه داده کوچک‌تر آزمایش کنید و مطمئن شوید که کاری را که قرار است انجام دهد انجام می‌دهد. علاوه بر این، باید تنظیمات اسکراپر خود را تنظیم کنید تا امکان تأخیر بین درخواست‌ها وجود داشته باشد.

مشاهده فایل robots.txt – وب‌سایت‌ها از فایل‌های robots.txt استفاده می‌کنند تا به ربات‌ها اطلاع دهند که آیا سایت قابل خزیدن است یا خیر. هنگام استخراج داده ها از وب، باید به طور انتقادی فایل robots.txt را درک کرده و به آن احترام بگذارید تا از عواقب قانونی جلوگیری کنید.

آنچه را که می توانید به اشتراک بگذارید – اگر اجازه دارید داده ها را در دامنه عمومی خراش دهید و آن را خراش دهید، می توانید آن را در آنجا قرار دهید (مثلاً در datahub.io) تا افراد دیگر از آن استفاده مجدد کنند . اگر یک وب اسکرپر می نویسید، می توانید کد آن را به اشتراک بگذارید (به عنوان مثال، در Github) تا دیگران بتوانند از آن بهره مند شوند.

محتوای دانلود شده را به صورت غیرقانونی به اشتراک نگذارید – گاهی اوقات پاک کردن داده ها برای مقاصد شخصی اشکالی ندارد، حتی اگر اطلاعات دارای حق نسخه برداری باشد. با این حال، اشتراک‌گذاری داده‌هایی که حق اشتراک‌گذاری آن‌ها را ندارید، غیرقانونی است.

می‌توانید به خوبی بپرسید – اگر به داده‌هایی از یک سازمان خاص برای پروژه خود نیاز دارید، می‌توانید از آنها بپرسید. به طور مستقیم اگر آنها بتوانند داده های مورد نظر را در اختیار شما قرار دهند. در غیر این صورت می‌توانید از اطلاعات اولیه سازمان در وب‌سایت آن استفاده کنید و خود را از مشکل ایجاد وب‌اسکریپر نجات دهید.

باید در حین خراش دادن داده ها از وب، اصول اخلاقی زیر را در نظر داشته باشید.

داده ها را سرقت نکنید

باید بدانید که خراش دادن وب می تواند در شرایط خاصی غیرقانونی باشد. اگر شرایط و ضوابط وب‌سایتی که می‌خواهیم آن را پاک کنیم، کاربران را از کپی و دانلود محتوا منع می‌کند، پس نباید آن داده‌ها را پاک کنیم و به شرایط آن وب‌سایت احترام بگذاریم. در پشت سیستم احراز هویت محافظت شده با رمز عبور (داده های در دسترس عموم)، در نظر داشته باشید که وب سایت را خراب نکنید. با این حال، اگر داده های خراشیده شده را بیشتر به اشتراک بگذارید، می تواند یک مشکل بالقوه باشد. به عنوان مثال، اگر محتوایی را از یک وب‌سایت دانلود کنید و آن را در وب‌سایت دیگری ارسال کنید، خراش دادن شما غیرقانونی تلقی می‌شود و نقض حق چاپ است.

وب را نشکنید

هر زمان که یک وب اسکراپر می نویسید، به طور مکرر از یک وب سایت پرس و جو می کنید و به طور بالقوه به تعداد زیادی از صفحات آن دسترسی پیدا می کنید. برای هر صفحه یک درخواست به وب سروری که میزبان سایت است ارسال می شود. سرور درخواست را پردازش می کند و پاسخی را به رایانه ای که کد را اجرا می کند ارسال می کند. درخواست هایی که ما ارسال می کنیم منابع سرور را مصرف می کند. بنابراین، اگر درخواست‌های زیادی را در یک بازه زمانی کوتاه ارسال کنیم، می‌توانیم از دسترسی سایر کاربران عادی به سایت در طول آن زمان جلوگیری کنیم. برای خاموش کردن شبکه یا ماشین و غیرقابل دسترس کردن آن برای کاربران مورد نظر. آنها این کار را با ارسال اطلاعات به سروری که باعث خرابی می شود یا با پر کردن ترافیک وب سایت مورد نظر انجام می دهند.

اکثر وب سرورهای مدرن شامل اقداماتی برای جلوگیری از استفاده نامشروع از منابع خود هستند، زیرا حملات DoS در اینترنت رایج است. آنها مراقب تعداد زیادی درخواستی هستند که از یک آدرس IP منفرد می آیند. اگر چندین درخواست در یک بازه زمانی کوتاه ارسال کند، آن‌ها می‌توانند آن آدرس را مسدود کنند. . می‌توانید از آن‌ها بپرسید که آیا داده‌هایی در قالب ساختاریافته در دسترس دارند که می‌تواند با نیازهای پروژه شما مطابقت داشته باشد. اگر می‌خواهید از داده‌های آن‌ها برای اهداف تحقیقاتی به روشی استفاده کنید که می‌تواند به طور بالقوه مورد علاقه آنها باشد، می‌توانید خود را از مشکل نوشتن یک وب‌اسکریپر نجات دهید.

همچنین می‌توانید دیگران را از دردسر نوشتن یک وب‌اسکریپر نجات دهید. به عنوان مثال، اگر داده ها یا اسناد خود را به عنوان بخشی از پروژه تحقیقاتی منتشر می کنید، ممکن است شخصی بخواهد داده های شما را برای استفاده دریافت کند. اگر می‌خواهید، می‌توانید راهی برای دانلود داده‌های خام خود در قالبی ساختاریافته به دیگران ارائه دهید، بنابراین t

بهتر از متأسف بودن

حفظ حریم خصوصی داده‌ها و قوانین حق نسخه‌برداری از کشوری به کشور دیگر متفاوت است. شما باید قوانینی را که در زمینه شما اعمال می شود بررسی کنید. به عنوان مثال، در کشورهایی مانند استرالیا، خراش دادن اطلاعات شخصی مانند شماره تلفن، آدرس ایمیل، و نام غیرقانونی است، حتی اگر در دسترس عموم باشد. استفاده کنید. با این حال، اگر می‌خواهید مقادیر زیادی از داده‌ها را برای اهداف تجاری یا تحقیقاتی جمع‌آوری کنید، احتمالاً باید به دنبال مشاوره حقوقی باشید. هدف اصلی آنها پنهان کردن آدرس IP و مکان کاربر است. پروکسی ها همچنین به کاربران اجازه می دهند هنگام گشت و گذار در اینترنت به محتوای محدود جغرافیایی دسترسی داشته باشند. بنابراین، کاربران می‌توانند به صفحات مخفی دسترسی پیدا کنند، زیرا پراکسی‌ها محتوا و محدودیت‌های جغرافیایی را دور می‌زنند.

می‌توانید از پراکسی‌ها برای به حداکثر رساندن خروجی scraper استفاده کنید زیرا نرخ بلوک را کاهش می‌دهند. بدون آنها، می توانید حداقل داده ها را از وب خراش دهید. به این دلیل است که پروکسی ها از نرخ خزیدن پیشی می گیرند و به عنکبوت ها اجازه می دهد تا داده های بیشتری را استخراج کنند. نرخ خزیدن نشان دهنده تعداد درخواست هایی است که می توانید در یک بازه زمانی معین ارسال کنید. این نرخ از سایتی به سایت دیگر متفاوت است.

بسته به نیاز پروژه خود می توانید پروکسی را انتخاب کنید. شما می توانید از یک پراکسی خصوصی یا یک پراکسی مشترک استفاده کنید.

  • پراکسی های خصوصی اگر پروژه شما به عملکرد بالا و حداکثر اتصال نیاز دارد، بهترین هستند. پروژه با بودجه محدود.
  • پراکسی های رایگان هنگام استخراج داده ها از وب منع می شوند. به این دلیل است که آنها برای عموم باز هستند و اغلب برای فعالیت های غیرقانونی استفاده می شوند. سه دسته از سرورهای پروکسی وجود دارد.

    Datacenter Proxies – اینها ارزان‌ترین و کاربردی‌ترین پروکسی‌ها برای خراش دادن وب هستند. این IP ها بر روی سرورهای مستقل ایجاد می شوند و به طور موثر برای انجام پروژه های خراش دادن در مقیاس بزرگ استفاده می شوند.

    پراکسی‌های موبایل – گران‌ترین پروکسی‌ها هستند و اگر مجبور به جمع‌آوری داده‌هایی هستید که فقط در دستگاه‌های تلفن همراه قابل مشاهده است، استفاده از آنها عالی است. اینترنت با در نظر گرفتن ملاحظات قانونی و اخلاقی. به عنوان مثال، شما نباید داده ها را از وب بدزدید. شما نمی توانید داده هایی را که حق آنها را ندارید به اشتراک بگذارید. اگر به داده های یک سازمان برای پروژه خود نیاز دارید، می توانید به خوبی از آنها بپرسید که آیا می توانند داده های خام خود را در قالبی ساختاریافته به اشتراک بگذارند. در غیر این صورت، می توانید در صورت اجازه، وب scraper خود را برای استخراج داده ها از وب سایت بنویسید. علاوه بر این، ما بحث کردیم که بسته به نیاز پروژه خود می توانید پروکسی های مختلفی را انتخاب کنید. شما می توانید از مرکز داده یا IP های مسکونی استفاده کنید زیرا آنها به طور گسترده برای خراش دادن وب استفاده می شوند.