تحقیقات آکادمیک شامل جمع آوری انبوهی از داده ها از منابع مختلف است ، صرف نظر از این که تحقیقات شما کمی یا کیفی است. با توجه به ماهیت جامع این داده های آنلاین ، محققان دانشگاهی برای استخراج آنها باید به فناوری وابسته باشند. با این حال ، خراش وب به تنهایی نتایج مثبتی را به دنبال نخواهد داشت. شما باید با ملاحظات اخلاقی به نمایندگان وابسته نیز وابسته باشید.

اما ابتدا ، ماهیت این داده ها را بررسی می کنیم.

ویژگی های عمده داده های آنلاین برای تحقیقات دانشگاهی

برای تحقیقات دانشگاهی ، داده های موجود در وب شامل داده های کمی و کیفی ساختار یافته ، بدون ساختار و نیمه ساختار یافته است. آنها در وب در وبلاگ ها ، توییت ها ، ایمیل ها ، پایگاه های داده ، صفحات وب ، جداول HTML ، عکس ها ، فیلم ها و غیره پراکنده می شوند. چالش ها. این چالش ها به دلیل حجم ، تنوع ، صحت و سرعت داده ها است. بیایید هر یک از این متغیرها را بررسی کنیم:

حجم -تا آنجا که به حجم داده مربوط می شود ، آنها در Zettabytes (میلیاردها گیگابایت) اندازه گیری می شوند و به صورت مقادیر زیاد هستند. [19659002] تنوع -ثانیاً ، مخازن یا پایگاه های داده ای که این داده ها در آنها ذخیره می شوند در قالب های مختلف آمده و بر استانداردهای تکنولوژیکی و نظارتی متعددی تکیه می کنند.

سرعت- سپس سوم ، داده های موجود در وب پویا هستند زیرا با سرعت باورنکردنی تری تولید می شوند.

Veracity -آخرین ویژگی داده های موجود برای تحقیق صحت داده ها است از آنجا که داده ها به دلیل ماهیت آزاد و باز در وب به صورت ناشناس در تعامل هستند ، هیچ محقق نمی تواند تأیید کند که آیا اطلاعات مورد نیاز موجود در وب کافی است و کیفیت آن را تأیید می کند.

با توجه به متغیرهای فوق ، شروع جمع آوری داده ها به صورت دستی برای محققان دانشگاهی غیرممکن است. بنابراین ، نوظهورترین روش جمع آوری داده ها برای تحقیق از طریق خراش وب است. ما این موضوع را در قسمت بعدی بررسی خواهیم کرد.

چگونه وب اسکراپ می تواند به شما در تحقیقات دانشگاهی شما کمک کند؟

بنابراین خراشیدن وب استخراج خودکار داده های وب از منابع مانند مجلات دانشگاهی ، انجمن های تحقیقاتی ، مقالات دانشگاهی ، پایگاه های داده است ، و سایر منابع مورد نیاز برای تحقیقات دانشگاهی برای تجزیه و تحلیل بیشتر.

خراش وب شامل مراحل زیر است:

تجزیه و تحلیل وب سایت

این فرایند بررسی ساختار زیربنایی موجودیتی است که داده ها در آن قرار دارند. ذخیره شده این نهاد می تواند یک وب سایت یا مخزن مانند پایگاه داده باشد. هدف این تحقیق درک نحوه ذخیره سازی داده های مورد نیاز شما است. این نیاز به درک اجزای سازنده معماری وب دارد. HTML ، CSS ، XML و غیره ، برای زبانهای نشانه گذاری و MySQL برای پایگاههای داده وب. داده های مورد نیاز شما شما می توانید اسکریپت هایی را از ابتدا ایجاد کرده یا اسکریپتی را که قبلاً توسعه داده اید ، ایجاد کنید.

پایتون شامل کتابخانه هایی مانند Scrapy و Beautiful Soap Library برای خزیدن و تجزیه خودکار داده ها است. در این مقاله در مورد خزیدن و خراشیدن وب اطلاعات بیشتری بیابید. بنابراین ممکن است برای صرفه جویی در وقت شما یک رویکرد برنامه ای لازم باشد. یکبار دیگر ، زبان های برنامه نویسی مانند پایتون حاوی کتابخانه های پردازش زبان طبیعی (NLP) هستند که به شما در سازماندهی و پاکسازی داده ها کمک می کند.

در حال حاضر ، شما باید متوجه شده باشید که خودکارسازی کل فرایند خراش بسیار چالش برانگیز است. تا حدودی به نظارت انسان نیاز دارد.

اکنون شما یک نمای کلی از کل فرآیند خراشیدن وب به دست آورده اید. بنابراین زمان آن فرا رسیده است که برخی از جنبه های اخلاقی اسکراپ وب را بررسی کنید ، زیرا باید بدانید که هنگام اسکراپ چه کارهایی می توانید و نمی توانید انجام دهید.

جنبه های اخلاقی خراش وب برای تحقیقات دانشگاهی

فقط به این دلیل که ابزارهای خزنده خودکار را در اختیار دارید ، آیا این بدان معناست که می توانید هر جا را خراش دهید؟ از جمله داده های تحقیقی که در پشت یک صفحه ورود یا یک انجمن خصوصی قرار دارد؟

اگرچه در قانون مناطق خاکستری مربوط به خراشیدن وب وجود دارد ، اما باید توجه داشته باشید که تراشیدن داده هایی که قرار نیست کاربر عادی به آن دسترسی داشته باشد غیر اخلاقی است. ، که در زیر به آن خواهیم پرداخت.

به هر حال ، خراشیدن وب می تواند به عنوان مثال برای صاحبان وب سایت آسیب ناخواسته ایجاد کند. پیش بینی و تعریف این آسیب ها و خطرات به سختی امکان پذیر است.

در اینجا برخی از پیامدهای مخرب احتمالی اسکراپ وب آمده است:

حریم خصوصی فردی

یک پروژه تحقیقاتی که متکی به جمع آوری داده ها از یک وب سایت است ممکن است به طور تصادفی حریم خصوصی را به خطر بیندازد. افرادی که در فعالیت های وب سایت مشغول هستند. به عنوان مثال ، با مقایسه داده های جمع آوری شده از یک وب سایت با سایر منابع آنلاین و آفلاین ، یک محقق ناخواسته افشا می کند که چه کسی این داده ها را ایجاد کرده است. حق حفظ حریم خصوصی ، سازمانها همچنین حق دارند بخشهای خاصی از عملیات خود را خصوصی و محرمانه نگه دارند.

از طرف دیگر ، اسکن خودکار می تواند اسرار تجاری یا اطلاعات محرمانه در مورد سازمانی که وب سایت به آن تعلق دارد را فاش کند. به عنوان مثال ، با شمارش آگهی های استخدامی در یک وب سایت استخدام ، یک کاربر هوشمند تقریباً درآمد شرکت را تعیین می کند. چنین سناریویی منجر به شهرت شرکت می شود و حتی می تواند منجر به ضررهای مالی شود. شما خود را در معرض کمپین های بازاریابی قرار نمی دهید که یک وب سایت از آن برای افزایش درآمد استفاده می کند. به همین ترتیب ، یک پروژه اسکرپ وب ممکن است منجر به محصولی شود که بعید است مشتریان آن از مالک واقعی محصول خریداری کنند. این امر با کاهش ارزشهای سازمان باز هم منجر به ضررهای مالی برای سازمان خواهد شد. این به دلیل اطلاعات متفاوت از رفتار اجتماعی گرفته تا اخبار سیاسی است. با این حال ، از نظر اخلاقی ، جمع آوری تمام داده ها آنطور که ممکن است به نظر برسد چندان ساده نیست.

یکی از دلایل آن این است که رسانه های اجتماعی شامل تعداد زیادی از داده های شخصی است. انواع مقررات قانونی نیز از این داده ها محافظت می کند. علاوه بر این ، استانداردهای اخلاقی جامعه علمی به شما توصیه می کند که از حریم خصوصی کاربران محافظت کنید. این بدان معناست که شما باید از هرگونه آسیبی که به هر قیمتی ناشی از اتصال افراد واقعی که تحقیقات شما ذکر کرده اند ، اجتناب کنید. این قطعاً در مورد دسترسی به نمایه های فیس بوک ، دیوار یا پیامهای خصوصی آنها که به آنها دسترسی ندارید صدق می کند.

بدیهی است که هنگام انجام تحقیقات کمی ، شخص به دلیل نشت داده ها به شخصی آسیب نمی رسانید. بنابراین هنگام انجام تحقیقات کیفی ، مراقب افشای اطلاعات شخصی با ذکر پست های کاربر به عنوان شواهد باشید.

راه حل نهایی استفاده از تکنیک نام مستعار است ، که به شما امکان می دهد داده ها را جستجو کرده و فعالیت های موضوع را بدون آسیب رساندن به حریم خصوصی آنها پیگیری کنید. [[19659004] چگونه پراکسی ها می توانند به کاوش اخلاقی برای تحقیقات دانشگاهی کمک کنند

پروکسی ها می توانند نقش بزرگی در مورد حذف داده ها برای تحقیقات دانشگاهی ایفا کنند. مجموعه های عظیمی از داده ها از منابع مختلف برای انتخاب وجود دارد و محدودیت ها تحقیقات را پیچیده تر می کند. پروکسی می تواند به شما در غلبه بر بسیاری از این موانع کمک کند. بیایید چگونگی آن را بیابیم. با استفاده از پروکسی ، می توانید بر این محدودیت غلبه کنید زیرا آدرس IP شما را مخفی می کند. علاوه بر این ، می توانید پروکسی های مسکونی را از مکان های مختلف در سراسر جهان انتخاب کنید تا پروکسی ها مکان شما را نشان ندهند. داده های زیاد با این حال ، آنها قادر نخواهند بود از محدودیت های ایجاد شده توسط وب سایت هایی مانند captchas دور بزنند. پروکسی می تواند به شما در غلبه بر چنین محدودیت هایی کمک کند و به تراشه ها کمک می کند تا اکثر داده ها را برطرف کنند. هکرها این به این دلیل است که هکرها ممکن است ارتباط شما را رهگیری کرده و داده های محرمانه را سرقت کنند. با این حال ، هنگامی که پشت سرور پروکسی هستید ، ناشناس خواهید بود زیرا آدرس IP شما پنهان است. بنابراین مانع از سرقت اطلاعات شما توسط هکر می شود.

کدام نوع پروکسی مناسب تر است؟

شما می توانید از مرکز داده و پروکسی های مسکونی برای پنهان کردن آدرس IP خود در خارج از پراکسی های موجود استفاده کنید.

با پروکسی های مسکونی ، می توانید از مجموعه آدرس های IP چندین کشور استفاده کنید ، که قبلاً در بالا مورد بحث قرار گرفتیم.

علاوه بر این ، هنگامی که از مجموعه پروکسی ها استفاده می کنید ، می توانید آنها را بچرخانید تا در نظر گرفته شوند. وب سایت به عنوان منابع مختلف که به آن دسترسی دارند بنابراین شما به احتمال زیاد یک بلوک IP دریافت خواهید کرد.

همچنین ، برخی از وب سایت های تحقیقاتی اطلاعات متفاوتی را برای کاربران کشورهای مختلف نمایش می دهند. بنابراین یکی دیگر از مزایای چرخاندن پروکسی ها این است که می توانید مکان خود را تغییر داده و بررسی کنید که آیا داده ها نیز با این پراکسی های مختلف تغییر می کند. انجام این کار اطمینان می دهد که تحقیقات شما جامع و م fromثر از منابع متعدد از کشورهای مختلف است.

نیابتی ها در روزنامه نگاری داده

وقتی روزنامه نگاران داده ها داده های مجله را خرد می کنند ، اکثر روزنامه نگاران نگران شناسایی خود هستند. برخی روزنامه نگاران معتقدند که هنگام حذف داده ها از وب سایت های خاص ، شناسایی خود ضروری است. این شبیه به معرفی خود به کسی قبل از انجام مصاحبه است.

بنابراین اگر شما روزنامه نگاری هستید که ترجیح می دهید خودتان را معرفی کنید ، باید یک یادداشت در سربرگ HTTP حاوی نام خود بنویسید و شما یک روزنامه نگار هستید. همچنین اگر مدیر وب سایت بخواهد با شما تماس بگیرد ، می توانید شماره تلفن خود را بگذارید. از نیابتی ها با این حال ، شما باید به بهترین شیوه های اخلاقی پایبند باشید و قوانین وب سایت را دنبال کنید ، همانطور که در بالا بیان کردیم. این سناریویی شبیه به انجام مصاحبه مخفی زمانی است که فرد از مصاحبه شما بی اطلاع است.

نتیجه گیری

امیدواریم درک درستی از فرآیند تراش داده ها برای تحقیقات دانشگاهی داشته باشید. هنگام جمع آوری داده ها ، دستورالعمل های اخلاقی وجود دارد که باید بدون ایجاد هیچ گونه صدمه ای ناخواسته به صاحبان وب سایت ، آنها را رعایت کنید. 19659002] امیدواریم از خواندن این مطلب لذت ببرید و روشهای ذکر شده در این مقاله را برای حذف داده های تحقیق برای تحقیقات خود پیاده سازی کنید.