عملكرد خزنده هاي (crawler) گوگل چگونه است؟

عملكرد خزنده هاي (crawler) گوگل چگونه است؟

برنامه هاي نرم افزاري كه در اينترنت جستجو مي كنند، خزنده يا خزنده وب ناميده مي شوند.

 

آن‌ها محتواي وب‌سايت‌ها مانند متن، عكس يا ويديو را تحليل و فهرست‌بندي مي‌كنند. اين عمدتاً ارائه دهندگان موتورهاي جستجو هستند كه از خزنده ها براي ايندكس وب سايت ها استفاده مي كنند. اصطلاحات ربات، عنكبوت يا ربات جستجو نيز به صورت مترادف استفاده مي شوند.

 

ظهور خزنده هاي وب

 

در دهه 1990، "World Wide Web Wanderer" توسعه يافت، خزنده اي كه كارش در ابتدا فقط براي اندازه گيري سرعت رشد اينترنت بود.

 از اين انگيزه، يك موتور جستجو با نمايه تمام متن به نام "Webcrawler" در سال 1994 ايجاد شد كه براي اولين بار در دسترس عموم قرار گرفت. امروزه به تمامي برنامه هايي كه به صورت خودكار در اينترنت جستجو مي كنند، خزنده يا وب خزنده مي گويند.

 

جالب است كه فعاليت ربات هاي موتورهاي جستجو در مجموع بيش از يك سوم ترافيك جهان در اينترنت را تشكيل مي دهند.

 

چگونه يك خزنده كار مي كند

 

يك خزنده به طور متوالي وظايف تعريف شده قبلي مهدي نجاري سئوكار را پردازش مي كند. پس او ز. به عنوان مثال، برخي از URL ها در ابتدا داده مي شود كه او بايد بازديد كند.

 به اين فهرست «مرز خزيدن» يا «محدوديت خزيدن» نيز مي‌گويند. هنگام جستجو در وب، او اساساً هر پيوندي را كه در يك وب سايت كشف مي كند دنبال مي كند. يك خزنده وب مي تواند هم لينك ها و هم كد HTML را در كار خود بررسي كند.

 با اين حال، محدوديت‌ها ويژگي پيوند rel="nofollow" يا زمان محدودي هستند كه خزنده ممكن است براي تجزيه و تحليل يك وب سايت از آن استفاده كند. بعد از اينكه يك صفحه جستجو شد، تقريباً مي توان آن را به طور كامل توسط يك ربات موتور جستجو كپي كرد تا بعداً در فهرست موتور جستجو سريعتر جستجو شود.

 

يك اسپايدر اينترنتي هميشه بسته به قوانين خاص و تعداد محدودي از صفحات و دانلودها كار مي كند. به همين دليل، ممكن است زماني اتفاق بيفتد كه صفحه اي محتواي به روزتري را ارائه دهد، زماني كه خزنده تمام كار خود را به پايان رسانده باشد.

 

قواعد رايج به سوالات زير پاسخ مي دهد:

 

  • خزنده كدام صفحات را بايد دانلود كند؟
  • چه زماني خزنده بايد دوباره از وب سايت مربوطه بازديد كند؟
  • چگونه مي توانيد از بارگذاري بيش از حد سرور توسط عنكبوت جلوگيري كنيد؟
  • چگونه مي توان كار ربات هايي كه به صورت موازي كار مي كنند هماهنگ كرد؟

 

حتي اگر فناوري ربات‌ها بهتر و بهتر مي‌شود، تنها بخش‌هايي از اينترنت يا شبكه جهاني وب تا به امروز قابل جستجو هستند. با اين حال، خزنده‌هاي بسيار كارآمد مانند Googlebot نيز بايد بتوانند از طريق عناصر به اصطلاح وب عميق جستجو كنند.

بدين وسيله z. B. بالاتر از همه به معني پايگاه داده هاي جداگانه است كه نمي توان مستقيماً از طريق URL به آنها دسترسي پيدا كرد.

 

عنكبوت هاي مختلف براي اهداف مختلف

 

حتي اگر امروزه بسياري از شركت‌ها با خزنده‌هاي وب كار مي‌كنند، اكثريت خزيدن توسط ربات‌هاي ارائه‌دهندگان موتورهاي جستجو انجام مي‌شود كه دائماً براي محتواي فعلي به اينترنت دسترسي دارند و بنابراين شاخص‌ها را با داده‌هاي جديد تغذيه مي‌كنند.

 

با اين حال، وظايف ديگري وجود دارد كه يك خزنده مي تواند انجام دهد، كه در اينجا به طور خلاصه به آنها اشاره مي كنيم:

 

  1. خزنده متمركز: اين عنكبوت وب يك موضوع خاص را هدف قرار مي دهد. خزنده معمولاً به گونه اي برنامه ريزي مي شود كه هم وب سايت ها و هم لينك هاي يافت شده را طبقه بندي مي كند.
  2. داده كاوي: اين خزنده ها وب را در جستجوي داده هاي خاص جستجو مي كنند. اين مي تواند نمايه هاي كاربر و همچنين آدرس ايميل شركت ها باشد. ربات‌هايي كه فقط آدرس‌ها را جمع‌آوري مي‌كنند به عنوان «دروگر» نيز شناخته مي‌شوند. اين عنكبوت ها به عنوان مثال استفاده مي كنند. T. همچنين سئوكاران را سياه مي كند تا بعداً نامه هاي اسپم را به آدرس هاي ايميل جمع آوري شده ارسال كنند.
  3. بررسي و تجزيه و تحليل اينترنت: اين ربات ها اغلب براي اهداف علمي استفاده مي شوند، به عنوان مثال. ب. اندازه گيري گسترش اينترنت.
  4. جستجو براي سرقت ادبي يا تحقيق در مورد مطالب داراي حق چاپ: اين ربات ها هميشه در مواقعي كه نياز به كشف نقض قانون وجود دارد استفاده مي شود.
  5. Scraping: وب سايت هاي زيادي در وب وجود دارند كه با محتواي كپي شده كار مي كنند. به اين ترتيب z را كپي كنيد. ب. برخي از پورتال هاي مقايسه قيمت محتواي ارائه دهندگان در صفحات آنها. با اين حال، برخي از وب‌سايت‌هاي هرزنامه براي به دست آوردن آسان محتوا، «خراش» مي‌كنند. با اين حال، اين معيار اخير توسط گوگل دستكاري تلقي مي شود و مي تواند منجر به حذف از فهرست جستجو شود.

 

نام خزنده هاي وب معروف

 

خزنده هاي موتورهاي جستجو معمولاً از يك شناسه ثابت به عنوان عامل كاربر استفاده مي كنند تا بتوانند توسط سرور شناسايي شوند.

 

به عنوان مثال، گوگل استفاده مي كند ب. چندين خزنده مختلف براي جستجوي وب، جستجوي تصوير، براي Google AdSense، براي Google Ads، و همچنين براي وب سايت هاي تلفن همراه. مثالها عبارتند از: googlebot، googlebot-mobile و غيره.

 

خزنده مورد استفاده ياهو Yahoo!Slurp نام دارد، موتور جستجوي Bing از bingbot استفاده مي كند. به عنوان يك وب سرويس، الكسا ربات خود را نيز دارد كه در وب جستجو مي كند. به آن ia_archiver مي گويند.

 

براي مديران وب سايت مهم است كه هر ربات شناسه خود را داشته باشد. زيرا ممكن است بازديد از crawlers خاصي مورد نظر نباشد. سپس مي توان اين موارد را از طريق robots.txt حذف كرد.

 

متا تگ ها براي كنترل خزنده ها

 

با كمك تگ هاي متا، كه در قسمت <head> يك وب سايت درج مي شوند، مي توان دستورالعمل هاي بيشتري را به خزنده ها داد. بنابراين شما مي توانيد z. ب. از ايندكس كردن يك صفحه توسط يك ربات جلوگيري كنيد. در عين حال، ويژگي "nofollow" ايجاب مي كند كه ربات پيوندهاي موجود در اين صفحه را دنبال نكند. در اينجا يك مثال براي Bingbot آورده شده است:

 

بهينه سازي موتور جستجو

 

همه وب‌مسترها و سئوكاران بايد به اين موضوع علاقه داشته باشند كه وب‌سايت‌هايشان توسط خزنده‌ها به‌طور بهينه جستجو شود تا همه محتوا نيز وارد فهرست موتورهاي جستجو شود. براي كنترل كار خزنده ها، اكيداً توصيه مي شود كه يك فايل قدرتمند robots.txt ايجاد كنيد. با اين حال، همچنين مهم است كه مناطق حساس به طور كامل از نمايه سازي حذف شوند. اين هدف را مي توان با ورود "noindex" در اطلاعات متا بدست آورد. كنترل ربات همچنين مي تواند از ورود صفحات دسته بندي و آرشيوهاي تكراري در CMS هاي وبلاگ مانند وردپرس به فهرست هاي موتور جستجو جلوگيري كند.

 

اساساً، مي توان فرض كرد كه ساختار URL كه تا حد ممكن صاف و منطقي باشد به اين معني است كه يك وب سايت مي تواند راحت تر خزيده شود. هرچه يك صفحه پيوند قوي‌تري داشته باشد، خزنده‌هاي وب بيشتر و طولاني‌تر از آن بازديد مي‌كنند. در نتيجه، دو عامل براي بازديد مكرر خزنده تعيين كننده است: تعداد بالاي بك لينك و لينك داخلي واضح.

http://faheemkhatri4.bloggersdelight.dk/2022/08/07/%d8%a8%d9%87%db%8c%d9%86%d9%87-%d8%b3%d8%a7%d8%b2%db%8c-%d8%b1%d9%88%db%8c-%d8%b5%d9%81%d8%ad%d9%87/

https://biiut.com/read-blog/5083

https://theomnibuzz.com/%d8%a8%da%a9-%d9%84%db%8c%d9%86%da%a9/

https://www.click4r.com/posts/g/5417660/

https://blogfreely.net/faheemkhatri4/bkh-lynkh

http://y8space.com/members-2/faheemkhatri4/activity/3705321/

https://zenwriting.net/2asn2xlo45

تا كنون نظري ثبت نشده است
امکان ارسال نظر برای مطلب فوق وجود ندارد