عملكرد خزنده هاي (crawler) گوگل چگونه است؟
برنامه هاي نرم افزاري كه در اينترنت جستجو مي كنند، خزنده يا خزنده وب ناميده مي شوند.
آنها محتواي وبسايتها مانند متن، عكس يا ويديو را تحليل و فهرستبندي ميكنند. اين عمدتاً ارائه دهندگان موتورهاي جستجو هستند كه از خزنده ها براي ايندكس وب سايت ها استفاده مي كنند. اصطلاحات ربات، عنكبوت يا ربات جستجو نيز به صورت مترادف استفاده مي شوند.
ظهور خزنده هاي وب
در دهه 1990، "World Wide Web Wanderer" توسعه يافت، خزنده اي كه كارش در ابتدا فقط براي اندازه گيري سرعت رشد اينترنت بود.
از اين انگيزه، يك موتور جستجو با نمايه تمام متن به نام "Webcrawler" در سال 1994 ايجاد شد كه براي اولين بار در دسترس عموم قرار گرفت. امروزه به تمامي برنامه هايي كه به صورت خودكار در اينترنت جستجو مي كنند، خزنده يا وب خزنده مي گويند.
جالب است كه فعاليت ربات هاي موتورهاي جستجو در مجموع بيش از يك سوم ترافيك جهان در اينترنت را تشكيل مي دهند.
چگونه يك خزنده كار مي كند
يك خزنده به طور متوالي وظايف تعريف شده قبلي مهدي نجاري سئوكار را پردازش مي كند. پس او ز. به عنوان مثال، برخي از URL ها در ابتدا داده مي شود كه او بايد بازديد كند.
به اين فهرست «مرز خزيدن» يا «محدوديت خزيدن» نيز ميگويند. هنگام جستجو در وب، او اساساً هر پيوندي را كه در يك وب سايت كشف مي كند دنبال مي كند. يك خزنده وب مي تواند هم لينك ها و هم كد HTML را در كار خود بررسي كند.
با اين حال، محدوديتها ويژگي پيوند rel="nofollow" يا زمان محدودي هستند كه خزنده ممكن است براي تجزيه و تحليل يك وب سايت از آن استفاده كند. بعد از اينكه يك صفحه جستجو شد، تقريباً مي توان آن را به طور كامل توسط يك ربات موتور جستجو كپي كرد تا بعداً در فهرست موتور جستجو سريعتر جستجو شود.
يك اسپايدر اينترنتي هميشه بسته به قوانين خاص و تعداد محدودي از صفحات و دانلودها كار مي كند. به همين دليل، ممكن است زماني اتفاق بيفتد كه صفحه اي محتواي به روزتري را ارائه دهد، زماني كه خزنده تمام كار خود را به پايان رسانده باشد.
قواعد رايج به سوالات زير پاسخ مي دهد:
- خزنده كدام صفحات را بايد دانلود كند؟
- چه زماني خزنده بايد دوباره از وب سايت مربوطه بازديد كند؟
- چگونه مي توانيد از بارگذاري بيش از حد سرور توسط عنكبوت جلوگيري كنيد؟
- چگونه مي توان كار ربات هايي كه به صورت موازي كار مي كنند هماهنگ كرد؟
حتي اگر فناوري رباتها بهتر و بهتر ميشود، تنها بخشهايي از اينترنت يا شبكه جهاني وب تا به امروز قابل جستجو هستند. با اين حال، خزندههاي بسيار كارآمد مانند Googlebot نيز بايد بتوانند از طريق عناصر به اصطلاح وب عميق جستجو كنند.
بدين وسيله z. B. بالاتر از همه به معني پايگاه داده هاي جداگانه است كه نمي توان مستقيماً از طريق URL به آنها دسترسي پيدا كرد.
عنكبوت هاي مختلف براي اهداف مختلف
حتي اگر امروزه بسياري از شركتها با خزندههاي وب كار ميكنند، اكثريت خزيدن توسط رباتهاي ارائهدهندگان موتورهاي جستجو انجام ميشود كه دائماً براي محتواي فعلي به اينترنت دسترسي دارند و بنابراين شاخصها را با دادههاي جديد تغذيه ميكنند.
با اين حال، وظايف ديگري وجود دارد كه يك خزنده مي تواند انجام دهد، كه در اينجا به طور خلاصه به آنها اشاره مي كنيم:
- خزنده متمركز: اين عنكبوت وب يك موضوع خاص را هدف قرار مي دهد. خزنده معمولاً به گونه اي برنامه ريزي مي شود كه هم وب سايت ها و هم لينك هاي يافت شده را طبقه بندي مي كند.
- داده كاوي: اين خزنده ها وب را در جستجوي داده هاي خاص جستجو مي كنند. اين مي تواند نمايه هاي كاربر و همچنين آدرس ايميل شركت ها باشد. رباتهايي كه فقط آدرسها را جمعآوري ميكنند به عنوان «دروگر» نيز شناخته ميشوند. اين عنكبوت ها به عنوان مثال استفاده مي كنند. T. همچنين سئوكاران را سياه مي كند تا بعداً نامه هاي اسپم را به آدرس هاي ايميل جمع آوري شده ارسال كنند.
- بررسي و تجزيه و تحليل اينترنت: اين ربات ها اغلب براي اهداف علمي استفاده مي شوند، به عنوان مثال. ب. اندازه گيري گسترش اينترنت.
- جستجو براي سرقت ادبي يا تحقيق در مورد مطالب داراي حق چاپ: اين ربات ها هميشه در مواقعي كه نياز به كشف نقض قانون وجود دارد استفاده مي شود.
- Scraping: وب سايت هاي زيادي در وب وجود دارند كه با محتواي كپي شده كار مي كنند. به اين ترتيب z را كپي كنيد. ب. برخي از پورتال هاي مقايسه قيمت محتواي ارائه دهندگان در صفحات آنها. با اين حال، برخي از وبسايتهاي هرزنامه براي به دست آوردن آسان محتوا، «خراش» ميكنند. با اين حال، اين معيار اخير توسط گوگل دستكاري تلقي مي شود و مي تواند منجر به حذف از فهرست جستجو شود.
نام خزنده هاي وب معروف
خزنده هاي موتورهاي جستجو معمولاً از يك شناسه ثابت به عنوان عامل كاربر استفاده مي كنند تا بتوانند توسط سرور شناسايي شوند.
به عنوان مثال، گوگل استفاده مي كند ب. چندين خزنده مختلف براي جستجوي وب، جستجوي تصوير، براي Google AdSense، براي Google Ads، و همچنين براي وب سايت هاي تلفن همراه. مثالها عبارتند از: googlebot، googlebot-mobile و غيره.
خزنده مورد استفاده ياهو Yahoo!Slurp نام دارد، موتور جستجوي Bing از bingbot استفاده مي كند. به عنوان يك وب سرويس، الكسا ربات خود را نيز دارد كه در وب جستجو مي كند. به آن ia_archiver مي گويند.
براي مديران وب سايت مهم است كه هر ربات شناسه خود را داشته باشد. زيرا ممكن است بازديد از crawlers خاصي مورد نظر نباشد. سپس مي توان اين موارد را از طريق robots.txt حذف كرد.
متا تگ ها براي كنترل خزنده ها
با كمك تگ هاي متا، كه در قسمت <head> يك وب سايت درج مي شوند، مي توان دستورالعمل هاي بيشتري را به خزنده ها داد. بنابراين شما مي توانيد z. ب. از ايندكس كردن يك صفحه توسط يك ربات جلوگيري كنيد. در عين حال، ويژگي "nofollow" ايجاب مي كند كه ربات پيوندهاي موجود در اين صفحه را دنبال نكند. در اينجا يك مثال براي Bingbot آورده شده است:
بهينه سازي موتور جستجو
همه وبمسترها و سئوكاران بايد به اين موضوع علاقه داشته باشند كه وبسايتهايشان توسط خزندهها بهطور بهينه جستجو شود تا همه محتوا نيز وارد فهرست موتورهاي جستجو شود. براي كنترل كار خزنده ها، اكيداً توصيه مي شود كه يك فايل قدرتمند robots.txt ايجاد كنيد. با اين حال، همچنين مهم است كه مناطق حساس به طور كامل از نمايه سازي حذف شوند. اين هدف را مي توان با ورود "noindex" در اطلاعات متا بدست آورد. كنترل ربات همچنين مي تواند از ورود صفحات دسته بندي و آرشيوهاي تكراري در CMS هاي وبلاگ مانند وردپرس به فهرست هاي موتور جستجو جلوگيري كند.
اساساً، مي توان فرض كرد كه ساختار URL كه تا حد ممكن صاف و منطقي باشد به اين معني است كه يك وب سايت مي تواند راحت تر خزيده شود. هرچه يك صفحه پيوند قويتري داشته باشد، خزندههاي وب بيشتر و طولانيتر از آن بازديد ميكنند. در نتيجه، دو عامل براي بازديد مكرر خزنده تعيين كننده است: تعداد بالاي بك لينك و لينك داخلي واضح.
https://biiut.com/read-blog/5083
https://theomnibuzz.com/%d8%a8%da%a9-%d9%84%db%8c%d9%86%da%a9/
https://www.click4r.com/posts/g/5417660/
https://blogfreely.net/faheemkhatri4/bkh-lynkh
http://y8space.com/members-2/faheemkhatri4/activity/3705321/
- یکشنبه ۰۶ شهریور ۰۱ | ۱۹:۳۰
- ۵۷ بازديد
- ۰ نظر