وقتی داده ها را از وب سایت های مقیاس بزرگ بیرون می آورید ، به احتمال زیاد نیازی نیست که برای اثبات انسان بودن خود با captcha روبرو شوید. به عنوان یک اسکرپر وب ، ممکن است قبلاً بدانید که چرا متخصصان امنیت سایبری مجبور به اختراع آنها شده اند. آنها در نتیجه ربات های شما به صورت خودکار درخواست وب سایت بی پایان برای دسترسی به آنها را ایجاد کردند. بنابراین حتی کاربران واقعی مجبور بودند دردهای مقابله با captcha را که به اشکال مختلف ظاهر می شوند ، تجربه کنند. با این حال ، شما می توانید captchas را دور بزنید ، چه یک وب گردان باشید یا نه ، که هدف این مقاله خواهد بود. اما ابتدا بیایید به این موضوع بپردازیم که کپچا چیست. این مخفف بسیار طولانی است ، اینطور نیست؟ حالا شاید برای شما این سوال پیش آمده باشد که آخرین قسمت این مخفف ، Turing Test یعنی چه – خوب ، این یک آزمایش ساده برای تعیین تعامل انسان یا ربات با صفحه وب یا سرور وب است.

پس از همه ، Captcha تفاوت می کند انسانها از روباتها ، به تحلیلگران امنیت سایبری کمک می کنند تا سرورهای وب را در برابر حملات بی رحمانه ، DDoS و در برخی موارد ، از بین بردن وب محافظت کنند.

بیایید دریابیم که چگونه captchas انسان ها را از ربات ها متمایز می کند.

captchas چگونه کار می کند؟

شما می توانید captchas را در فرم های یک وب سایت ، از جمله فرم تماس ، ثبت نام ، نظرات ، ثبت نام یا خروج پیدا کنید. .

کپچاهای سنتی شامل تصویری با حروف ، اعداد کشیده یا تار یا هر دو در یک جعبه با رنگ زمینه یا زمینه شفاف است. سپس باید شخصیت ها را شناسایی کرده و آنها را در قسمت متنی زیر تایپ کنید. این فرایند شناسایی کاراکترها برای انسان ها آسان تر است اما برای یک ربات تا حدودی پیچیده است.

ایده محو کردن یا تحریف متن captcha این است که تشخیص کاراکترها برای ربات سخت تر شود. در مقابل ، انسان می تواند شخصیت ها را در قالب های مختلف ، مانند فونت های مختلف ، دست خط و غیره تفسیر و رهگیری کند. با این وجود ، هر انسانی نمی تواند در اولین تلاش یک captcha را حل کند. بر اساس تحقیقات ، 8 of از کاربران در اولین تلاش خود اشتباه تایپ می کنند ، در حالی که 29 fail در صورت حساس بودن حروف بزرگنویس موفق نمی شوند. سال ها. در نتیجه ، برخی از شرکت ها مانند Google ، captcha های معمولی را با captcha پیچیده جایگزین کردند. یکی از این نمونه ها Recaptcha است که در قسمت بعدی خواهید یافت.

Recaptcha چیست؟

Recaptcha یک سرویس رایگان است که Google ارائه می دهد. از کاربران می خواهد که به جای تایپ متن ، حل معماها یا معادلات ریاضی ، جعبه ها را علامت بزنند. از تصاویر و متون واقعی مانند چراغ راهنمایی در خیابان ها ، متون روزنامه های قدیمی و کتابهای چاپی استفاده می کند. در نتیجه ، کاربران مجبور نیستند به نوشتارهای مبهم و تحریف شده به عکسهای قدیمی مدرسه تکیه کنند. بودن یا نبودن:

چک باکس

اینها Recaptchas هستند که از کاربران درخواست می کنند مانند تصویر بالا یک تیک گزینه "من یک روبات نیستم" را علامت بزنند. اگرچه ممکن است با چشم غیر مسلح به نظر برسد که حتی یک ربات می تواند این آزمایش را تکمیل کند ، عوامل متعددی در نظر گرفته می شود:

  • این آزمایش حرکات موش کاربر را هنگام نزدیک شدن به کادر چک بررسی می کند.
  • حرکات موش کاربر کار نمی کند مستقیم ، از جمله مستقیم ترین حرکت ماوس. تقلید از یک رفتار برای یک ربات چالش برانگیز است.
  • در نهایت ، ReCaptcha کوکی هایی را که مرورگر شما ذخیره می کند بررسی می کند.

اگر Recaptcha نتواند تأیید کند که شما یک انسان هستید ، دیگری را به شما ارائه می دهد. چالش.

تشخیص تصویر

این Recaptchas نه یا شانزده تصویر مربع در اختیار کاربران قرار می دهد ، همانطور که در تصویر بالا مشاهده می کنید. هر مربع بخشی از یک تصویر بزرگتر یا تصاویر مختلف را نشان می دهد. یک کاربر باید مربع هایی را انتخاب کند که نمایانگر اشیا ، حیوانات ، درختان ، وسایل نقلیه یا چراغ های راهنمایی هستند. در غیر این صورت ، Recaptcha یک آزمایش چالش برانگیز تر ارائه می دهد. ] مطمئناً با در نظر گرفتن سابقه کاربر در تعامل با وب سایت ها و رفتار عمومی کاربر در هنگام آنلاین ، این کار را انجام می دهد. در اکثر سناریوها ، با توجه به این عوامل ، سیستم قادر خواهد بود تعیین کند که شما یک ربات هستید. 19659003] اگر یک وب سایت فعالیتهای غیرمعمول شبیه به رفتار ربات را تشخیص دهد ، می توان کپچا را فعال کرد. چنین رفتارهای غیرمعمول شامل درخواست های نامحدود در عرض چند ثانیه و کلیک بر روی پیوندها با نرخ بسیار بیشتری نسبت به انسان می شود.

سپس برخی از وب سایت ها به طور خودکار برای محافظت از سیستم های خود دارای captcha هستند.

تا آنجا که به Recaptchas مربوط می شود ، دقیقاً مشخص نیست که چه چیزی باعث ایجاد آنها می شود. با این حال ، دلایل کلی عبارتند از حرکت موش ، سابقه مرور و ردیابی کوکی ها.

مواردی که باید در مورد دور زدن captchas هنگام اسکرپ وب بدانید

اکنون شما یک نمای کلی از آنچه captchas و Rechaptchas هستند ، نحوه عملکرد آنها و چه چیزی باید داشته باشید. آنها را تحریک می کند اکنون زمان آن فرا رسیده است که نحوه تأثیر captcha بر خراشیدن وب را مورد بررسی قرار دهیم. با این حال ، ناامید نشوید. همانطور که در ابتدای این مقاله ذکر شد ، راه هایی برای غلبه بر captchas هنگام خراش دادن وب وجود دارد. قبل از اینکه به آنها برسیم ، اجازه دهید توجه خود را به آنچه باید قبل از تراشیدن از آن آگاه باشید ، جلب کنیم. خراشنده/خزنده برای ارسال تعداد زیادی درخواست در یک دوره کوتاه. اکثر وب سایت ها در صفحات شرایط و ضوابط خود به تعداد درخواست های وب سایت اشاره کرده اند. قبل از شروع تراشیدن ، حتماً آنها را بخوانید. آنها ممکن است از این اطلاعات برای سفارشی سازی محتوا با مشخصات دستگاه شما و ردیابی متریک استفاده کنند. بنابراین وقتی متوجه می شوند که درخواست ها از یک دستگاه هستند ، هرگونه درخواستی که بعداً ارسال می کنید مسدود می شود.

بنابراین ، اگر وب سایت خراشنده/خزنده را به تنهایی ایجاد کرده باشید ، می توانید اطلاعات سرصفحه را تغییر دهید برای هر درخواستی که اسکرابر شما می کند. سپس به نظر می رسد که وب سایت مورد نظر چندین درخواست از دستگاه های مختلف دریافت می کند. برای اطلاعات بیشتر در مورد سرصفحه های HTTP اینجا را بخوانید.

آدرس IP

واقعیت دیگری که باید از آن آگاه باشید این است که وب سایت مورد نظر آدرس IP شما را در لیست سیاه قرار نداده است. هنگامی که درخواست های زیادی با خراشنده/خزنده خود ارسال می کنید ، احتمال دارد آدرس IP شما را در لیست سیاه قرار دهند.

برای غلبه بر مشکل فوق ، می توانید از سرور پروکسی استفاده کنید زیرا آدرس IP شما را پنهان می کند.

چرخاندن سرصفحه ها و پروکسی های HTTP (اطلاعات بیشتر در این مورد در بخش بعدی) با یک مجموعه باعث می شود که چندین دستگاه از مکان های مختلف به وب سایت دسترسی داشته باشند. بنابراین باید بتوانید خراش را بدون وقفه در captchas ادامه دهید. با این حال ، باید اطمینان حاصل کنید که به هیچ وجه به عملکرد وب سایت آسیبی نمی رسانید. و غیره فقط می تواند به شما کمک کند تا بر عکس هایی که وب سایت ها به دلیل رفتار ربات ایجاد می کنند غلبه کنید. برای اجتناب از کپچا در چنین اشکال ، ما در بخش آینده به حل کننده های کپچا می پردازیم. یک ربات:

Honeypots- Honeypot یک نوع captcha است که در یک فیلد یا پیوند فرم HTML محصور شده است ، اما نمای آن با CSS پنهان می شود. بنابراین وقتی یک ربات با آن تعامل می کند ، ناگزیر خود را به ربات باش بنابراین قبل از وادار کردن ربات به محتوا ، مطمئن شوید که ویژگی های CSS عنصر قابل مشاهده است. 3+7 "، به عنوان مثال. همچنین می توانید معماهای کلمه ای را حل کنید. با این حال ، آنها محبوب نیستند زیرا اکثر مدیران می دانند که مردم تمایلی به امضای آنها با حساب رسانه اجتماعی خود ندارند. پر کردن یک فرم برای تعیین اینکه آیا انسان است یا ربات.

نحوه دور زدن captchas برای وب اسکرپ

چرخاندن پروکسی ها و استفاده از آدرس های IP با کیفیت

همانطور که در قسمت قبل ذکر شد ، باید هر یک از پروکسی ها را بچرخانید زمان ارسال درخواست به وب سایت مورد نظر این یکی از راه های جلوگیری از captchas است که هنگام تراشیدن باعث ایجاد آن می شود. در این شرایط ، شما باید از پروکسی های IP مسکونی تمیز استفاده کنید. این به این دلیل است که برای هر درخواست ، آدرس IP پروکسی ها بیشتر از آدرس خود شما ظاهر می شود.

Rotate User Agents

از آنجا که برای تراشیدن وب از یک اسکرپر استفاده می کنید ، باید نماینده کاربر را به یک مرورگر وب محبوب یا ربات پشتیبانی شده-ربات هایی مانند ربات های موتورهای جستجو که وب سایت ها آنها را می شناسند.

تغییر فقط عامل کاربر کافی نخواهد بود زیرا شما باید فهرستی از رشته های عامل کاربر را داشته باشید و سپس آنها را بچرخانید. این چرخش باعث می شود وب سایت مورد نظر شما را به عنوان دستگاه های مختلف در صورتی ببیند که در واقع یک دستگاه همه درخواست ها را ارسال می کند. همچنین ، هنگامی که دیگر به کوکی ها احتیاج ندارید ، آنها را حذف کنید. آنها از هوش مصنوعی (AI) ، یادگیری ماشین (MI) و اوج فناوری های دیگر برای حل یک کپچا استفاده می کنند.

برخی از حل کننده های برجسته کپچا که در حال حاضر در صنعت موجود هستند Death by Captcha و Anti-Captcha هستند. ] از پیوندهای مستقیم اجتناب کنید

هنگامی که اجازه می دهید تراشه خود را مستقیماً به URL در هر ثانیه دسترسی پیدا کند ، وب سایت دریافت کننده مشکوک خواهد بود. در نتیجه ، وب سایت مورد نظر باعث ایجاد یک captcha می شود.

برای جلوگیری از چنین سناریویی ، می توانید سرصفحه داور را طوری تنظیم کنید که به نظر برسد که از صفحه دیگری ارجاع شده است. این امر احتمال شناسایی شدن به عنوان یک ربات را کاهش می دهد. متناوباً ، می توانید قبل از بازدید از پیوند مورد نظر ، از ربات ها بازدید کنید. اگرچه مرورگر HTML خود را ارائه می دهد ، اما ویژگیهای CSS آن مخفی است. با این حال ، بر خلاف انسان ها ، کد گلدان عسل برای ربات ها هنگامی که داده ها را خرد می کنند قابل مشاهده است. در نتیجه ، آنها به دام افتادن توسط honeypot افتادند.

بنابراین باید اطمینان حاصل کنید که قبل از شروع تراشیدن ، ویژگی CSS همه عناصر موجود در یک صفحه وب مخفی یا نامرئی است را بررسی کنید. تنها زمانی که مطمئن هستید هیچ یک از عناصر پنهان نشده است ، ربات خود را برای خراش دادن تنظیم می کنید.

نتیجه گیری

اکنون امیدواریم که ایده جامعی در مورد نحوه جلوگیری از کپچا در هنگام خراشیدن وب داشته باشید. اجتناب از captcha می تواند یک فرایند پیچیده باشد. با این حال ، با استفاده از تکنیک های خاص مورد بحث در این مقاله ، می توانید ربات را به گونه ای توسعه دهید که از کپچا جلوگیری شود.

ما امیدواریم که "از تمام تکنیک های مورد بحث در این مقاله استفاده کنید.