Komputery ze współczesnym światem

Roboty wyszukiwarek. Roboty wyszukiwania - roboty wyszukiwarek Jak nazywa się robot Yandex

Każdego dnia w Internecie pojawia się ogromna ilość nowych materiałów: tworzone są strony internetowe, aktualizowane są stare strony internetowe, zamieszczane są zdjęcia i pliki wideo. Bez niewidzialnych robotów wyszukujących znalezienie żadnego z tych dokumentów w sieci WWW byłoby niemożliwe. Obecnie nie ma alternatywy dla takich programów robotycznych. Co to jest robot wyszukujący, dlaczego jest potrzebny i jak działa?

Co to jest robot wyszukiwania

Robot indeksujący strony internetowe ( Wyszukiwarki) to automatyczny program, który jest w stanie odwiedzić miliony stron internetowych, szybko poruszając się po Internecie bez interwencji operatora. Boty stale skanują przestrzeń, znajdują nowe strony internetowe i regularnie odwiedzają już zaindeksowane. Inne nazwy robotów wyszukujących: pająki, roboty, boty.

Dlaczego potrzebujemy robotów wyszukujących?

Główną funkcją robotów wyszukujących jest indeksowanie stron internetowych oraz znajdujących się na nich tekstów, obrazów, plików audio i wideo. Boty sprawdzają linki, witryny lustrzane (kopie) i aktualizacje. Roboty monitorują także kod HTML pod kątem zgodności ze standardami Światowej Organizacji, która opracowuje i wdraża standardy technologiczne dla sieci WWW.

Co to jest indeksowanie i dlaczego jest potrzebne?

Indeksowanie to tak naprawdę proces odwiedzania określonej strony internetowej przez roboty wyszukujące. Program skanuje teksty zamieszczone w serwisie, obrazy, filmy, linki wychodzące, po czym strona pojawia się w wynikach wyszukiwania. W niektórych przypadkach witryna nie może zostać przeszukana automatycznie, wówczas webmaster może dodać ją do wyszukiwarki ręcznie. Zwykle dzieje się tak, gdy brakuje określonej (często niedawno utworzonej) strony.

Jak działają roboty wyszukujące

Każda wyszukiwarka ma swojego bota, natomiast robot wyszukiwarki Google może znacząco różnić się mechanizmem działania od podobnego programu Yandexa czy innych systemów.

Ogólnie zasada działania robota jest następująca: program „wchodzi” na stronę za pomocą linków zewnętrznych i zaczynając od strona główna, „odczytuje” zasób sieciowy (w tym przegląda dane usługi, których użytkownik nie widzi). Bot może zarówno poruszać się pomiędzy stronami jednej witryny, jak i przechodzić do innych.

Jak program wybiera który? Najczęściej „podróż” pająka rozpoczyna się od serwisów informacyjnych lub dużych zasobów, katalogów i agregatorów o dużej masie referencyjnej. Robot wyszukiwania w sposób ciągły indeksuje strony jedna po drugiej, na szybkość i spójność indeksowania wpływają następujące czynniki:

  • wewnętrzny: odnowienie ( linki wewnętrzne między stronami tego samego zasobu), rozmiar witryny, poprawność kodu, przyjazność dla użytkownika itp.;
  • zewnętrzny: całkowita liczba linków prowadzących do witryny.

Przede wszystkim robot wyszukiwania wyszukuje plik robots.txt na dowolnej stronie internetowej. Dalsze indeksowanie zasobu odbywa się w oparciu o informacje otrzymane konkretnie z tego dokumentu. W pliku znajdują się dokładne instrukcje dla „pająków”, co pozwala zwiększyć szansę na odwiedzenie strony przez roboty wyszukiwarek, a co za tym idzie, zapewnić, że witryna jak najszybciej trafi do wyników Yandex lub Google.

Programy podobne do robotów wyszukujących

Pojęcie „robota wyszukującego” jest często mylone z agentami inteligentnymi, użytkownikami lub autonomicznymi, „mrówkami” lub „robakami”. Istotne różnice występują jedynie w porównaniu z agentami, inne definicje oznaczają podobne typy robotów.

Zatem agentami mogą być:

  • intelektualny: programy przenoszące się z witryny na witrynę, niezależnie decydujące, co robić dalej; nie są zbyt powszechne w Internecie;
  • autonomiczny: takie agenty pomagają użytkownikowi w wyborze produktu, wyszukiwaniu czy wypełnianiu formularzy, są to tzw. filtry, które z programami sieciowymi mają niewiele wspólnego;
  • zwyczaj: programy ułatwiają interakcję użytkownika z Sieć WWW, są to przeglądarki (na przykład Opera, IE, GoogleChrome, Firefox), komunikatory internetowe (Viber, Telegram) lub przesyłki pocztowe(MS Outlook lub Qualcomm).

„Mrówki” i „robaki” są bardziej podobne do wyszukiwania „pająków”. Te pierwsze tworzą między sobą sieć i współdziałają płynnie jak prawdziwa kolonia mrówek, natomiast „robaki” są zdolne do samoreprodukcji, poza tym zachowują się tak samo, jak standardowy robot poszukiwawczy.

Rodzaje robotów wyszukujących

Istnieje wiele rodzajów robotów wyszukujących. W zależności od przeznaczenia programu są to:

  • „Mirror” - wyświetl zduplikowane witryny.
  • Mobilny - skierowany do wersje mobilne Strony internetowe.
  • Szybko działające - poprawki Nowa informacja natychmiast, przeglądając najnowsze aktualizacje.
  • Referencyjne - indeksuj linki i policz ich liczbę.
  • Indeksatory różne rodzaje treść - osobne programy do nagrań tekstowych, audio i wideo, obrazów.
  • „Spyware” - wyszukuje strony, które nie są jeszcze wyświetlane w wyszukiwarce.
  • „Dzięcioły” - okresowo odwiedzaj witryny, aby sprawdzić ich trafność i wydajność.
  • Krajowe - przeglądaj zasoby internetowe znajdujące się w domenach jednego kraju (na przykład .ru, .kz lub .ua).
  • Globalny – indeksuje wszystkie strony krajowe.

Roboty głównych wyszukiwarek

Istnieją również osobne roboty wyszukiwarek. Teoretycznie ich funkcjonalność może się znacząco różnić, jednak w praktyce programy są niemal identyczne. Główne różnice pomiędzy indeksowaniem stron internetowych przez roboty dwóch głównych wyszukiwarek są następujące:

  • Rygoryzm weryfikacji. Uważa się, że mechanizm robota wyszukiwania Yandex ocenia witrynę nieco bardziej rygorystycznie pod kątem zgodności ze standardami sieci World Wide Web.
  • Utrzymanie integralności witryny. Robot wyszukiwarki Google indeksuje całą witrynę (łącznie z treścią multimedialną), natomiast Yandex może przeglądać strony selektywnie.
  • Szybkość sprawdzania nowych stron. Google dodaje nowy zasób do wyników wyszukiwania w ciągu kilku dni, w przypadku Yandexa proces ten może zająć dwa tygodnie lub dłużej.
  • Częstotliwość reindeksowania. Robot wyszukiwania Yandex sprawdza dostępność aktualizacji kilka razy w tygodniu, a Google raz na 14 dni.

Internet oczywiście nie ogranicza się do dwóch wyszukiwarek. Inne wyszukiwarki mają własne roboty, które śledzą własne parametry indeksowania. Ponadto istnieje kilka „pająków”, które nie są opracowywane przez duże zasoby wyszukiwania, ale przez pojedyncze zespoły lub webmasterów.

Wspólne nieporozumienia

Wbrew powszechnemu przekonaniu pająki nie przetwarzają otrzymanych informacji. Program jedynie skanuje i zapisuje strony internetowe, a dalsze przetwarzanie wykonują zupełnie inne roboty.

Wielu użytkowników uważa także, że roboty wyszukujące mają negatywny wpływ i są „szkodliwe” dla Internetu. Rzeczywiście, niektóre wersje „pająków” mogą znacznie przeciążać serwery. Dochodzi jeszcze czynnik ludzki – webmaster, który stworzył program, może popełnić błędy w ustawieniach robota. Jednak większość istniejących programów jest dobrze zaprojektowana i profesjonalnie zarządzana, a wszelkie pojawiające się problemy są natychmiast rozwiązywane.

Jak zarządzać indeksowaniem

Roboty wyszukujące są programy automatyczne, ale proces indeksowania może być częściowo kontrolowany przez webmastera. Zasoby zewnętrzne bardzo w tym pomagają. Ponadto możesz ręcznie dodać nową witrynę do wyszukiwarki: duże zasoby mają specjalne formularze do rejestracji stron internetowych.

Pająki wyszukiwarek to boty internetowe, których zadaniem jest systematyczne indeksowanie stron w sieci WWW w celu zapewnienia indeksowania sieci. Tradycyjnie skanowanie przestrzeni WWW odbywa się w celu aktualizacji informacji o treściach zamieszczanych w sieci, aby zapewnić użytkownikom aktualną informację o zawartości danego zasobu. Rodzaje robotów wyszukujących i ich funkcje zostaną omówione w tym artykule.

Pająki wyszukiwania można również nazwać inaczej: roboty, pająki internetowe, roboty indeksujące. Jednak niezależnie od nazwy, wszyscy oni zajmują się ciągłym i ciągłym badaniem zawartości wirtualnej przestrzeni. Robot utrzymuje listę adresów URL, z których na bieżąco pobierane są dokumenty. Jeśli pająk podczas procesu indeksowania znajdzie nowy link, zostanie dodany do tej listy.

Zatem działania robota można porównać do zwykła osoba za przeglądarką. Jedyna różnica jest taka, że ​​otwieramy tylko te linki, które nas interesują, a robot otwiera wszystko, o czym ma informacje. Dodatkowo robot po zapoznaniu się z zawartością zaindeksowanej strony przesyła w specjalnej formie dane na jej temat do serwerów wyszukiwarka do przechowywania do czasu zażądania przez użytkownika.

Jednocześnie każdy robot wykonuje swoje specyficzne zadanie: część treści indeksu jest tekstem, część grafiką indeksu, a jeszcze inni zapisują treść w archiwum itp.

Głównym zadaniem wyszukiwarek- stworzenie algorytmu, który pozwoli na szybkie i najpełniejsze pozyskanie informacji, gdyż nawet giganci wyszukiwarek nie są w stanie zapewnić kompleksowego procesu skanowania. Dlatego każda firma oferuje robotom unikalne formuły matematyczne, według których bot w kolejnym kroku wybiera stronę, którą chce odwiedzić. To, w połączeniu z algorytmami rankingowymi, jest jednym z najważniejszych kryteriów, według których użytkownicy wybierają wyszukiwarkę: gdzie informacje o witrynach są pełniejsze, świeże i przydatne.

Robot wyszukiwarki może nie wiedzieć o Twojej witrynie, jeśli nie ma do niej linków (co jest być może rzadkością - dziś, po zarejestrowaniu nazwy domeny, w Internecie znajdują się odniesienia do niej). Jeśli nie ma linków, musisz poinformować o tym wyszukiwarkę. W tym celu z reguły „ konta osobiste» webmasterzy.

Jakie jest główne zadanie robotów wyszukujących?

Nieważne, jak bardzo byśmy chcieli, ale główne zadanie Celem robota wyszukiwania wcale nie jest informowanie świata o istnieniu naszej witryny. Trudno to sformułować, ale bazując na tym, że wyszukiwarki działają tylko dzięki swoim klientom, czyli użytkownikom, robot musi zapewniać szybkie wyszukiwanie i indeksowanie danych zamieszczanych w sieci. Tylko to pozwala wyszukiwarce zaspokoić zapotrzebowanie odbiorców na trafne i trafne wyniki wyszukiwania.

Oczywiście roboty nie są w stanie zaindeksować 100% stron internetowych. Z badań wynika, że ​​liczba stron ładowanych przez liderów wyszukiwania nie przekracza 70% całkowitej liczby adresów URL zamieszczonych w Internecie. Jednak to, jak dokładnie Twój zasób zostanie zbadany przez bota, wpłynie również na liczbę użytkowników, którzy śledzą zapytania z wyszukiwania. Dlatego optymalizatorzy męczą się, próbując „nakarmić” robota, aby jak najszybciej zaznajomił się ze zmianami.

W Runecie dopiero w 2016 roku Yandex awansował na drugie miejsce pod względem miesięcznego zasięgu oglądalności, za Google. Nic więc dziwnego, że ma największą liczbę pająków eksplorujących kosmos wśród krajowych PS. Nie ma sensu wymieniać ich w całości: można to zobaczyć w sekcji „Pomoc dla webmastera” > Zarządzanie robotem wyszukiwania > Jak sprawdzić, czy robot należy do Yandex.

Wszystkie roboty wyszukiwarek mają ściśle regulowanego klienta użytkownika. Wśród tych, które twórca witryny z pewnością będzie musiał spełnić:

  • Mozilla/5.0 (kompatybilny; YandexBot/3.0; +http://yandex.com/bots) - główny bot indeksujący;
  • Mozilla/5.0 (iPhone; procesor iPhone OS 8_1 jak Mac OS X) AppleWebKit/600.1.4 (KHTML, jak Gecko) Wersja/8.0 Mobile/12B411 Safari/600.1.4 (kompatybilny; YandexBot/3.0; +http://yandex .com/bots) - pająk indeksujący;
  • Mozilla/5.0 (kompatybilna; YandexImages/3.0; +http://yandex.com/bots) - bot Yandex.Images;
  • Mozilla/5.0 (kompatybilny; YandexMedia/3.0; +http://yandex.com/bots) - indeksuje materiały multimedialne;
  • Mozilla/5.0 (kompatybilny; YandexFavicons/1.0; +http://yandex.com/bots) - indeksuje ikony witryn.

Aby przyciągnąć pająki Yandex do swojej witryny, zaleca się wykonanie kilku proste działania:

  • poprawnie skonfiguruj plik robots.txt;
  • utwórz kanał RSS;
  • umieść mapę witryny z pełną listą zaindeksowanych stron;
  • utwórz stronę (lub strony), która będzie zawierać linki do wszystkich dokumentów zasobu;
  • skonfigurować statusy HTTP;
  • zapewnić aktywność społeczną po publikacji materiałów (a nie tylko komentarzy, ale udostępnienia dokumentu);
  • intensywne umieszczanie nowych, unikalnych tekstów.

Za tym ostatnim argumentem przemawia zdolność botów do zapamiętywania szybkości aktualizacji treści i przychodzenia na stronę z wykrytą częstotliwością dodawania nowych materiałów.

Jeśli chcesz uniemożliwić robotom Yandex dostęp do stron (na przykład sekcji technicznych), musisz skonfigurować plik robots.txt. Pająki PS są w stanie zrozumieć standardowe wyjątki dla botów, więc zwykle nie ma trudności z utworzeniem pliku.

Agent użytkownika: Yandex

Uniemożliwić: /

zabrania PS indeksowania całej witryny.

Ponadto roboty Yandex są w stanie uwzględnić rekomendacje określone w metatagach. Przykład: zakaże demonstracji w wydawaniu linku do kopii dokumentu z archiwum. I dodanie tagu do kodu strony wskaże to ten dokument nie ma potrzeby indeksowania.

Pełna lista prawidłowe wartości można znaleźć w sekcji „Korzystanie z elementów HTML” w Pomocy dla webmasterów.

Roboty wyszukiwania Google

Główny mechanizm Google służący do indeksowania treści WWW nazywa się Googlebot. Jego silnik jest skonfigurowany tak, aby codziennie sprawdzać miliardy stron w poszukiwaniu nowych lub zmienionych dokumentów. Jednocześnie bot sam określa, które strony przeskanować, a które zignorować.

W przypadku tego robota ważne jest, aby witryna zawierała plik mapy witryny dostarczony przez właściciela zasobu. Sieć komputerów dbająca o jego funkcjonowanie jest na tyle potężna, że ​​bot może raz na kilka sekund wysyłać żądania do stron Twojej witryny. A bot jest skonfigurowany tak, aby analizować większą liczbę stron za jednym razem, aby nie powodować obciążenia serwera. Jeśli Twoja witryna jest spowalniana przez częste żądania pająków, możesz zmienić prędkość indeksowania, dostosowując ją w Search Console. Niestety nie ma możliwości zwiększenia szybkości skanowania.

Bot Google może zostać poproszony o ponowne zaindeksowanie witryny. Aby to zrobić, należy otworzyć Search Console i poszukać funkcji Dodaj do indeksu, która jest dostępna dla użytkowników narzędzia Przeglądaj jako Googlebot. Po zeskanowaniu pojawi się przycisk Dodaj do indeksu. Google nie gwarantuje jednak, że wszystkie zmiany zostaną zaindeksowane, ponieważ w procesie tym działają „skomplikowane algorytmy”.

Użyteczne narzędzia

Wyliczenie wszystkich narzędzi pomagających optymalizatorom w pracy z botami jest dość trudne, ponieważ jest ich mnóstwo. Oprócz wspomnianego wyżej „Wyświetl jako Googlebot” warto zwrócić uwagę na analizatory plików Google i Yandex robots.txt, analizatory plików map witryn oraz usługę „Sprawdzanie odpowiedzi serwera” z rosyjskiego PS. Dzięki ich możliwościom wyobrazisz sobie jak wygląda Twoja witryna oczami pająka, co pomoże Ci uniknąć błędów i zapewni najszybsze indeksowanie Twojej witryny.

Dowiedz się, jakich robotów używa Google do indeksowania zasobów w Internecie

Termin ten odnosi się do wszelkich programów, które automatycznie wykrywają i skanują strony internetowe, podążając za łączami ze strony na stronę. Nasz główny robot wyszukiwania nazywa się Googlebot. Poniższa tabela zawiera informacje o kluczowych robotach Google, które trafiają do dzienników źródeł linków. Dowiesz się także, jak określić dane tych robotów w pliku robots.txt, w metatagach robots i w poleceniach HTTP X-Robots-Tag.

Produkty i usługi Google wykorzystują następujące roboty indeksujące:

  • Token agenta użytkownika jest wskazany w wierszu User-agent: pliku robots.txt i służy do tworzenia reguł indeksowania dla określonych robotów wyszukujących. Jak widać z tabeli, niektórym robotom odpowiada więcej niż jeden token. Aby zastosować regułę wystarczy wpisać jedną opcję. Poniższa lista nie jest wyczerpująca, ale zawiera informacje na temat najpopularniejszych robotów.
  • – to pełny opis robota wyszukującego. Jest to wskazane w żądaniu i w logach.

Narzędzia atakującego mogą określać podobne tokeny i ciągi znaków. Aby upewnić się, że w Twojej witrynie był Googlebot, użyj wstecznego wyszukiwania DNS.

Szukaj robota Token agenta użytkownika (produkt Google) Pełna linia agent użytkownika
API-Google APIs-Google (+https://developers.google.com/webmasters/APIs-Google.html)
AdSense

Mediapartners-Google

Mediapartners-Google

AdsBot-Google-Mobile

Mozilla/5.0 (Linux; Android 5.0; SM-G920A) AppleWebKit (KHTML, jak Gecko) Chrome Mobile Safari (kompatybilny; AdsBot-Google-Mobile; +http://www.google.com/mobile/adsbot.html)

AdsBot-Google-Mobile

Mozilla/5.0 (iPhone; procesor iPhone OS 9_1 jak Mac OS X) AppleWebKit/601.1.46 (KHTML, jak Gecko) Wersja/9.0 Mobile/13B143 Safari/601.1 (kompatybilny; AdsBot-Google-Mobile; +http://www .google.com/mobile/adsbot.html)
AdsBot-Google (+http://www.google.com/adsbot.html)
Obrazy Googlebota
  • Obraz Googlebota
  • Googlebota
Googlebot-Image/1.0
Wiadomości o Googlebocie
  • Wiadomości Googlebota
  • Googlebota
Wiadomości Googlebota
Film Googlebota
  • Wideo Googlebota
  • Googlebota
Googlebot-Video/1.0

AdsBot-Google-Aplikacje mobilne

AdsBot-Google-Aplikacje mobilne

FeedFetcher-Google

FeedFetcher-Google; (+http://www.google.com/feedfetcher.html)

Google-czytaj-na głos

Nie uwzględnia reguł zawartych w pliku robots.txt.

  • Obecna wersja:
    Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, jak Gecko) Chrome/41.0.2272.118 Safari/537.36 (kompatybilny; Google-Read-Aloud; +https://site/webmasters/answer/1061943)
  • Poprzednia wersja (nie jest już obsługiwany):
    google-speakr
Dupleks w sieci

DuplexWeb-Google

Może zignorować symbol wieloznaczny *.

Mozilla/5.0 (Linux; Android 8.0; Pixel 2 Build/OPD3.170816.012; DuplexWeb-Google/1.0) AppleWebKit/537.36 (KHTML, jak Gecko) Chrome/74.0.3729.131 Mobile Safari/537.36

Favikona Google

Pobiera ikony dla różnych witryn.

W przypadku żądań użytkowników ignoruje reguły zawarte w pliku robots.txt.

Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, jak Gecko) Chrome/49.0.2623.75 Safari/537.36 Google Favicon

Klienty użytkownika w plikach robots.txt

Jeśli plik robots.txt zawiera instrukcje dla wielu programów użytkownika, Googlebot zastosuje te najbardziej restrykcyjne. Jeśli chcesz, aby nasze roboty mogły przeszukać całą Twoją witrynę, ten plik nie jest w ogóle potrzebny. Aby zablokować lub zezwolić wszystkim robotom Google na dostęp do określonej treści, jako klienta użytkownika określ Googlebota. Jeśli więc chcesz, aby wszystkie strony Twojej witryny pojawiały się w wynikach wyszukiwania Google, a także chcesz, aby na stronach pojawiały się reklamy AdSense, nie używaj pliku robots.txt. Jeśli chcesz zamknąć niektóre sekcje dla wszystkich Googlebotów, zrób to dla klienta użytkownika Googlebota. Spowoduje to zablokowanie wszystkich innych robotów.

Możesz także określić specjalne reguły dla konkretnych programów użytkownika. Załóżmy, że chcesz, aby wyświetlały się wszystkie strony Twojej witryny Wyszukiwarka Google, ale chcesz uniemożliwić skanowanie obrazów w swoim katalogu osobistym. W takim przypadku w pliku robots.txt należy uniemożliwić agentowi użytkownika Googlebot-Image indeksowanie plików w katalogu /personal. Jednak Googlebot nadal będzie miał dostęp do plików we wszystkich katalogach. Wpis powinien wyglądać następująco:

User-agent: Googlebot Disallow: User-agent: Googlebot-Image Disallow: /personal Spójrzmy na inny przykład. Chcesz umieścić reklamy na wszystkich stronach tak, aby nie wyświetlały się w Google. W tym celu zablokuj dostęp do treści agentowi użytkownika Googlebot, ale pozostaw ją dostępną dla agenta użytkownika Mediapartners-Google w następujący sposób: User-agent: Googlebot Disallow: / User-agent: Mediapartners-Google Disallow:

Agenty użytkownika w metatagach robots

Niektóre strony zawierają wiele metatagów zawierających instrukcje dla różnych robotów wyszukiwarek. Przykłady:

W takim przypadku Google użyje wszystkich instrukcji odmowy, a Googlebot wykona zarówno dyrektywy noindex, jak i nofollow.

Czy te informacje były przydatne?

Jak można ulepszyć ten artykuł?

Usuwanie całej witryny

Aby usunąć witrynę z wyszukiwarek i uniemożliwić w przyszłości indeksowanie jej przez wszystkie roboty, umieść następujący plik robots.txt w katalogu głównym serwera:

Agent użytkownika: *
Uniemożliwić: /

Aby usunąć witrynę samą z Google i uniemożliwić robotowi wyszukiwania Google jej przeszukiwanie w przyszłości, umieść plik robots.txt o następującej treści w katalogu głównym serwera:

Klient użytkownika: Googlebot
Uniemożliwić: /

Każdy port musi mieć własny plik robots.txt. W szczególności w przypadku korzystania z protokołów http i https dla każdego z nich wymagane będą osobne pliki robots.txt. Na przykład, aby umożliwić robotowi Google indeksowanie wszystkich stron http i uniemożliwić mu indeksowanie https, Twoje pliki robots.txt będą wyglądać następująco.

Dla protokołu http ( http://yourserver.com/robots.txt):

Agent użytkownika: *
Umożliwić: /

Dla protokołu https ( https://yourserver.com/robots.txt):

Agent użytkownika: *
Uniemożliwić: /

Jeśli plik robots.txt pozostanie w katalogu głównym serwera internetowego, Google nie będzie w przyszłości indeksować tej witryny ani jej katalogów. Jeśli nie masz dostępu do katalogu głównego serwera, możesz umieścić plik robots.txt na tym samym poziomie, co pliki, które chcesz usunąć. Gdy to zrobisz i skorzystasz z systemu automatycznego usuwania adresów URL, witryna zostanie tymczasowo usunięta z indeksu Google na 180 dni, niezależnie od tego, czy plik robots.txt zostanie usunięty po przetworzeniu żądania. (Jeśli pozostawisz plik robots.txt na tym samym poziomie, adres URL będzie musiał zostać usunięty za pomocą układ automatyczny co 180 dni.)

Usuwanie części witryny

Opcja 1. Plik robots.txt

Aby usunąć katalogi lub poszczególne strony witryny, możesz umieścić plik robots.txt w katalogu głównym serwera. Informacje na temat tworzenia pliku robots.txt można znaleźć w dokumencie Standard dotyczący wyjątków robotów. Tworząc plik robots.txt, pamiętaj o następujących kwestiach. Decydując, które strony mają być indeksowane na danym hoście, robot Google postępuje zgodnie z pierwszym wpisem w pliku robots.txt, gdzie parametr User-agent zaczyna się od słowa „Googlebot”. Jeżeli nie ma takiego wpisu, wykonywana jest pierwsza reguła, w której User-agent to „*”. Dodatkowo Google umożliwia bardziej elastyczne korzystanie z pliku robots.txt poprzez użycie gwiazdek. We wzorcach odmowy znak „*” może reprezentować dowolną sekwencję znaków. Wzorzec może kończyć się znakiem „$”, który oznacza koniec nazwy.

Aby usunąć wszystkie strony z określonego katalogu (na przykład „lemury”), dodaj następujący wpis do pliku robots.txt:

Klient użytkownika: Googlebot
Nie zezwalaj: /lemury

Aby usunąć wszystkie pliki określonego typu (na przykład .gif), dodaj następujący wpis do pliku robots.txt:

Klient użytkownika: Googlebot
Nie zezwalaj: /*.gif$

Aby usunąć dynamicznie utworzone strony, dodaj następujący wpis do pliku robots.txt:

Klient użytkownika: Googlebot
Uniemożliwić: /*?

Opcja 2. Metatagi

Inny standard, wygodniejszy w pracy ze stronami, przewiduje użycie na stronie HTML metatagu, który uniemożliwia robotom indeksowanie strony. Standard ten opisano na stronie.

Aby uniemożliwić wszystkim robotom indeksowanie strony witryny, dodaj następujący metatag do sekcji tej strony:

Aby uniemożliwić indeksowanie strony tylko robotom Google i pozwolić innym na jej indeksowanie, użyj następującego tagu:

Aby umożliwić robotom indeksowanie strony bez korzystania z linków zewnętrznych, użyj następującego tagu:

Notatka. Jeśli Twoje żądanie jest pilne i oczekiwanie na kolejne zaindeksowanie przez Google nie jest możliwe, skorzystaj z systemu automatycznego usuwania adresów URL. Aby uruchomić ten automatyczny proces, webmaster musi najpierw wstawić odpowiednie metatagi do kodu strony HTML. Następnie katalogi zostaną tymczasowo usunięte z indeksu Google na 180 dni, niezależnie od tego, czy po przetworzeniu żądania usuniesz plik robots.txt lub metatagi.

Usuwanie fragmentów (snippetów)

Fragment (fragment) to tekst pojawiający się pod tytułem strony na liście wyników wyszukiwania i opisujący zawartość strony.

Aby uniemożliwić Google wyświetlanie fragmentów Twojej strony, dodaj do sekcji następny tag:

Notatka. Po usunięciu fragmentów usuwane są także strony zapisane w pamięci podręcznej.

Usuwanie stron z pamięci podręcznej

Google automatycznie tworzy i archiwizuje migawkę każdej przeszukanej strony. Posiadanie tych wersji w pamięci podręcznej umożliwia użytkownikom końcowym znajdowanie stron, nawet jeśli są one niedostępne (z powodu tymczasowego problemu z serwerem hostującym stronę). Użytkownicy widzą strony w pamięci podręcznej w stanie, w jakim były indeksowane przez Google. U góry strony pojawi się komunikat informujący, że jest to wersja z pamięci podręcznej. Aby uzyskać dostęp do takiej strony, użytkownik musi wybrać link „Zapisane w pamięci podręcznej” na stronie wyników wyszukiwania.

Aby uniemożliwić wszystkim wyszukiwarkom wyświetlanie tego linku do Twojej witryny, dodaj go do sekcji następny tag:

Notatka. Jeśli Twoje zgłoszenie jest pilne i nie możesz czekać do kolejnej sesji indeksowania witryny Google, skorzystaj z systemu automatycznego usuwania adresów URL. Aby uruchomić ten automatyczny proces, webmaster musi najpierw wstawić kod Strony HTML odpowiednie metatagi.

Usuwanie obrazu z wyszukiwarki grafiki Google

Aby usunąć obraz z indeksu obrazów Google, umieść plik robots.txt w katalogu głównym serwera. (Jeśli nie jest to możliwe, umieść to na poziomie katalogu).

Przykład: Jeśli chcesz usunąć z indeksu Obraz Google sobaki.jpg, znajdujący się na Twojej stronie internetowej pod adresem www.vash-sajt.ru/kartinki/sobaki.jpg, utwórz stronę www.vash-sajt.ru/robots.txt i dodaj do niej następujący tekst:

Klient użytkownika: Googlebot-Image
Nie zezwalaj: /images/dogs.jpg

Aby usunąć z indeksu wszystkie obrazy znajdujące się w serwisie, należy w katalogu głównym serwera umieścić plik robots.txt o następującej zawartości:

Klient użytkownika: Googlebot-Image
Uniemożliwić: /

Jest to standardowy protokół stosowany przez większość skanerów; umożliwia usunięcie serwera lub katalogu z indeksu. Dodatkowe informacje Informacje na temat pliku robots.txt znajdują się na stronie

Google umożliwia także bardziej elastyczne korzystanie z pliku robots.txt dzięki zastosowaniu gwiazdek. We wzorcach odmowy znak „*” może reprezentować dowolną sekwencję znaków. Wzorzec może kończyć się znakiem „$”, który oznacza koniec nazwy. Aby usunąć wszystkie pliki określonego typu (na przykład pozostawić obrazy w formacie .jpg i usunąć te w formacie .gif), dodaj następujący wpis do pliku robots.txt:

Klient użytkownika: Googlebot-Image
Nie zezwalaj: /*.gif$

Notatka. Jeśli Twoje zgłoszenie jest pilne i nie możesz czekać do kolejnej sesji indeksowania witryny Google, skorzystaj z systemu automatycznego usuwania adresów URL. Aby rozpocząć ten automatyczny proces, webmaster musi najpierw utworzyć plik robots.txt i umieścić go w odpowiedniej witrynie.

Jeśli plik robots.txt pozostanie w katalogu głównym serwera internetowego, Google nie będzie już indeksować tej witryny ani jej katalogów. Jeśli nie masz dostępu do katalogu głównego serwera, możesz umieścić plik robots.txt na tym samym poziomie, co pliki, które chcesz usunąć. Gdy to zrobisz i skorzystasz z systemu automatycznego usuwania adresów URL, katalogi określone w pliku robots.txt zostaną tymczasowo usunięte z indeksu Google na 180 dni, niezależnie od tego, czy usuniesz plik robots.txt po przetworzeniu żądania. (Jeśli pozostawisz plik robots.txt na tym samym poziomie, adres URL będzie musiał być usuwany przez automatyczny system co 180 dni).

Czasami roboty mogą przebrać się za roboty Yandex, podając odpowiedniego klienta użytkownika. Możesz sprawdzić, czy robot jest tym, za kogo się podaje, korzystając z identyfikacji na podstawie wstecznych wyszukiwań DNS.

Aby to zrobić, musisz wykonać następujące czynności:

    Określ według adresu IP Nazwa domeny hosta przy użyciu wstecznego wyszukiwania DNS.

    Sprawdź, czy host należy do Yandex. Nazwy wszystkich robotów Yandex kończą się na stronie internetowej, yandex.net lub yandex.com. Jeśli nazwa hosta ma inną końcówkę, oznacza to, że robot nie należy do Yandex.

  1. Upewnij się, że nazwa, którą otrzymasz, jest prawidłowa. Aby to zrobić, musisz użyć wyszukiwania dalej DNS, aby uzyskać adres IP odpowiadający nazwie hosta. Musi być zgodny z adresem IP użytym przy odwrotnym wyszukiwaniu DNS. Jeśli adresy IP nie są zgodne, oznacza to, że otrzymana nazwa hosta jest fałszywa.

    1. Pytania i odpowiedzi

Roboty Yandex w logach serwera

Niektóre roboty Yandex pobierają dokumenty nie w celu ich późniejszego indeksowania, ale w innych określonych celach. Aby uniknąć niezamierzonego blokowania przez właścicieli witryn, mogą oni zignorować ograniczające dyrektywy pliku robots.txt, przeznaczonego dla dowolnych robotów (User-agent: * ).

Możliwe jest również częściowe zignorowanie ograniczeń pliku robots.txt w niektórych witrynach, jeśli istnieje odpowiednia umowa między Yandex a właścicielami tych witryn.

Notatka. Jeśli taki robot pobierze dokument, do którego nie ma dostępu główny robot Yandex, dokument ten nigdy nie zostanie zaindeksowany i nie pojawi się w wynikach wyszukiwania.

Aby ograniczyć dostęp takich robotów do witryny, użyj dyrektyw specjalnie dla nich, na przykład:

Agent użytkownika: YandexCalendar\nZabroń: /\n\nAgent użytkownika: YandexMobileBot\nZabroń: /private/*.txt$

Roboty korzystają z wielu adresów IP, które często się zmieniają. Dlatego ich lista nie jest ujawniana.

Pełna nazwa robota, łącznie z agentem użytkownika Cel robota Bierze pod uwagę Główne zasady określone w pliku robots.txt
Mozilla/5.0 (kompatybilna; YandexAccessibilityBot/3.0; +http://yandex.com/bots)

Pobiera strony, aby sprawdzić ich dostępność dla użytkowników.

Maksymalny współczynnik trafień w witrynie wynosi 3 trafienia na sekundę. Robot ignoruje również dyrektywę opóźnienia indeksowania.

NIE
Mozilla/5.0 (kompatybilna; YandexAdNet/1.0; +http://yandex.com/bots) Robot sieci reklamowej Yandex. Tak
Mozilla/5.0 (kompatybilny; YandexBlogs/0.99; robot; +http://yandex.com/bots) Robot przeszukujący blogi, który indeksuje komentarze do postów. Tak
Mozilla/5.0 (kompatybilna; YandexBot/3.0; +http://yandex.com/bots) Podstawowy robot indeksujący. Tak
Mozilla/5.0 (kompatybilny; YandexBot/3.0; MirrorDetector; +http://yandex.com/bots) Definiowanie witryn lustrzanych. Tak
Mozilla/5.0 (kompatybilny; YandexCalendar/1.0; +http://yandex.com/bots) Robot Yandex.Calendar. Z inicjatywy użytkowników pobiera pliki kalendarzy, które często znajdują się w katalogach zabronionych do indeksowania. NIE
Mozilla/5.0 (kompatybilny; YandexCatalog/3.0; +http://yandex.com/bots) Służy do tymczasowego usuwania niedostępnych witryn z publikacji w Yandex.Catalog. Tak
Mozilla/5.0 (kompatybilna; YandexDirect/3.0; +http://yandex.com/bots) Pobiera informacje o zawartości witryn partnerskich sieci reklamowej Yandex w celu wyjaśnienia ich tematyki i wybrania odpowiednich reklam. NIE
Mozilla/5.0 (kompatybilna; YandexDirectDyn/1.0; +http://yandex.com/bots Generuje dynamiczne banery. NIE
Mozilla/5.0 (kompatybilna; YandexFavicons/1.0; +http://yandex.com/bots) Pobiera plik favikony witryny do wyświetlenia w wynikach wyszukiwania. NIE
Mozilla/5.0 (kompatybilna; YaDirectFetcher/1.0; Dyatel; +http://yandex.com/bots) Pobiera strony docelowe reklamy aby sprawdzić ich dostępność i wyjaśnić tematy. Jest to konieczne do umieszczania reklam w wynikach wyszukiwania i na stronach partnerskich. NIE. Robot nie korzysta z pliku robots.txt
Mozilla/5.0 (kompatybilny; YandexForDomain/1.0; +http://yandex.com/bots) Robot pocztowy domeny, używany przy sprawdzaniu praw własności domeny. Tak
Mozilla/5.0 (kompatybilna; YandexImages/3.0; +http://yandex.com/bots) Indeksuje obrazy do wyświetlenia w Yandex.Images. Tak
Mozilla/5.0 (kompatybilny; YandexImageResizer/2.0; +http://yandex.com/bots) Robot usług mobilnych. Tak
Mozilla/5.0 (iPhone; procesor iPhone OS 8_1 jak Mac OS X) AppleWebKit/600.1.4 (KHTML, jak Gecko) Wersja/8.0 Mobile/12B411 Safari/600.1.4 (kompatybilny; YandexBot/3.0; +http://yandex .com/bots) Robot indeksujący. Tak
Mozilla/5.0 (iPhone; procesor iPhone OS 8_1 jak Mac OS X) AppleWebKit/600.1.4 (KHTML, jak Gecko) Wersja/8.0 Mobile/12B411 Safari/600.1.4 (kompatybilny; YandexMobileBot/3.0; +http://yandex .com/bots) Definiuje strony z układem odpowiednim dla urządzeń mobilnych. NIE
Mozilla/5.0 (kompatybilna; YandexMarket/1.0; +http://yandex.com/bots) Robot Yandex.Market. Tak
Mozilla/5.0 (kompatybilna; YandexMedia/3.0; +http://yandex.com/bots) Indeksuje dane multimedialne. Tak
Mozilla/5.0 (kompatybilna; YandexMetrika/2.0; +http://yandex.com/bots) Robot Yandex.Metrica NIE
Mozilla/5.0 (kompatybilna; YandexMetrika/4.0; +http://yandex.com/bots) Robot Yandex.Metrica. Pobiera i buforuje style CSS do renderowania stron witryny w Webvisorze. NIE. Robot nie korzysta z pliku robots.txt, więc ignoruje ustawione dla niego dyrektywy.
Mozilla/5.0 (kompatybilna; YandexMetrika/2.0; +http://yandex.com/bots yabs01) Pobiera strony witryny, aby sprawdzić ich dostępność, w tym sprawdzić strony docelowe reklam Yandex.Direct. NIE. Robot nie korzysta z pliku robots.txt, więc ignoruje ustawione dla niego dyrektywy.
Mozilla/5.0 (kompatybilna; YandexNews/4.0; +http://yandex.com/bots) Robot Yandex.News Tak
Mozilla/5.0 (kompatybilny; YandexOntoDB/1.0; +http://yandex.com/bots) Robot reagujący na obiekt. Tak
Mozilla/5.0 (kompatybilny; YandexOntoDBAPI/1.0; +http://yandex.com/bots) Robot reagujący na obiekt, który pobiera dane dynamiczne. NIE
Mozilla/5.0 (kompatybilny; YandexPagechecker/1.0; +http://yandex.com/bots) Dostęp do strony podczas sprawdzania poprawności mikroznaczników za pomocą formularza walidatora mikroznaczników. Tak
Mozilla/5.0 (kompatybilny; YandexSearchShop/1.0; +http://yandex.com/bots) Pobiera pliki YML z katalogami produktów (z inicjatywy użytkowników), które często znajdują się w katalogach zabronionych do indeksowania. NIE
Mozilla/5.0 (kompatybilny; YandexSitelinks; Dyatel; +http://yandex.com/bots) Sprawdza dostępność stron używanych jako szybkie linki. Tak
Mozilla/5.0 (kompatybilna; YandexSpravBot/1.0; +http://yandex.com/bots) Robot Yandex.Directory. Tak
Mozilla/5.0 (kompatybilna; YandexTurbo/1.0; +http://yandex.com/bots) Pomija kanał RSS utworzony w celu generowania stron Turbo. Maksymalny współczynnik trafień w witrynie wynosi 3 trafienia na sekundę. Robot ignoruje ustawienia interfejsu Yandex.Webmaster i dyrektywę opóźnienia indeksowania. Tak
Mozilla/5.0 (kompatybilna; YandexVertis/3.0; +http://yandex.com/bots) Robot branż wyszukiwania. Tak
Mozilla/5.0 (kompatybilny; YandexVerticals/1.0; +http://yandex.com/bots) Robot Yandex.Verticals: Auto.ru, Yandex.Real Estate, Yandex.Work, Yandex.Reviews. Tak
Mozilla/5.0 (kompatybilna; YandexVideo/3.0; +http://yandex.com/bots) Yandex.Wideo. Tak
Mozilla/5.0 (kompatybilny; YandexVideoParser/1.0; +http://yandex.com/bots) Indeksuje filmy do wyświetlenia

Powiązane publikacje