Wyszukiwarki są wyposażone w roboty, znane również jako pająki lub boty, które przemierzają i indeksują strony internetowe. Jeśli Twoja witryna lub strona jest w trakcie opracowywania lub zawiera poufne treści, możesz zablokować botom przeszukiwanie i indeksowanie Twojej witryny. Dowiedz się, jak blokować całe witryny, strony i linki za pomocą plików robots.txt oraz blokować określone strony i linki za pomocą tagów HTML. Czytaj dalej, aby dowiedzieć się, jak zablokować określone boty dostęp do Twoich treści.
Kroki
Metoda 1 z 2: Blokowanie wyszukiwarek za pomocą plików robots.txt
Krok 1. Zrozum pliki robots.txt
Plik robots.txt to zwykły plik tekstowy lub plik tekstowy ASCII, który informuje roboty-pająki wyszukiwarek, do czego mają dostęp w Twojej witrynie. Pliki i foldery wymienione w pliku robots.txt mogą nie być przeszukiwane i indeksowane przez roboty-pająki wyszukiwarek. Plik robots.txt może być potrzebny, jeśli:
- Chcesz zablokować określone treści przed pająkami wyszukiwarek.
- Tworzysz działającą witrynę i nie jesteś przygotowany na to, aby roboty wyszukiwarek przeszukiwały i indeksowały witrynę
- Chcesz ograniczyć dostęp do renomowanych botów.
Krok 2. Utwórz i zapisz plik robots.txt
Aby utworzyć plik, uruchom zwykły edytor tekstu lub edytor kodu. Zapisz plik jako: robots.txt. Nazwa pliku musi składać się wyłącznie z małych liter.
- Nie zapomnij o „s”.
- Podczas zapisywania pliku wybierz rozszerzenie „.txt”'. Jeśli używasz programu Word, wybierz opcję „Zwykły tekst”.
Krok 3. Napisz plik robots.txt z pełnym zakazem
Możliwe jest zablokowanie przeszukiwania i indeksowania Twojej witryny wszystkim renomowanym pająkom wyszukiwarek za pomocą pliku robots.txt z „pełnym zakazem”. Napisz następujące wiersze w swoim pliku tekstowym:
Klient użytkownika: * Nie zezwalaj: /
Krok 4. Napisz warunkowo zezwalający plik robots.txt
Zamiast blokować wszystkie boty, rozważ zablokowanie określonych pająków z określonych obszarów witryny. Typowe polecenia warunkowego zezwolenia obejmują:
- Zablokuj konkretnego bota: zastąp gwiazdki obok Agent użytkownika z googlebot, googlebot-wiadomości, obraz-googlebota, bingbot, lub teoma.
-
Zablokuj katalog i jego zawartość:
User-agent: * Disallow: /przykładowy-katalog/
-
Zablokuj stronę internetową:
Klient użytkownika: * Disallow: /private_file.html
-
Zablokuj obraz:
User-agent: googlebot-image Disallow: /images_mypicture.jpg
-
Blokuj wszystkie obrazy:
User-agent: googlebot-image Disallow: /
-
Zablokuj określony format pliku:
Klient użytkownika: * Disallow: /p*.gif$
Krok 5. Zachęć boty do indeksowania i indeksowania Twojej witryny
Wiele osób chce powitać, zamiast blokować, roboty-pająki wyszukiwarek, ponieważ chcą, aby cała ich witryna była indeksowana. Aby to osiągnąć, masz trzy opcje. Po pierwsze, możesz zrezygnować z tworzenia pliku robots.txt – gdy robot nie znajdzie pliku robots.txt, będzie nadal przemierzał i indeksował całą witrynę. Po drugie, możesz utworzyć pusty plik robots.txt - robot znajdzie plik robots.txt, rozpozna, że jest pusty i będzie kontynuował przeszukiwanie i indeksowanie Twojej witryny. Na koniec możesz napisać plik robots.txt w pełni zezwalający. Użyj kodu:
Klient użytkownika: * Nie zezwalaj:
Krok 6. Zapisz plik txt w katalogu głównym domeny
Po napisaniu pliku robots.txt zapisz zmiany. Prześlij plik do katalogu głównego witryny. Na przykład, jeśli Twoja domena to www.twojadomena.com, umieść plik robots.txt w www.twojadomena.com/robots.txt.
Metoda 2 z 2: Blokowanie wyszukiwarek za pomocą metatagów
Krok 1. Zrozum metatagi robotów HTML
Metatag robots umożliwia programistom ustawienie parametrów dla botów lub pająków wyszukiwarek. Tagi te służą do blokowania botów przed indeksowaniem i indeksowaniem całej witryny lub tylko jej części. Możesz również użyć tych tagów, aby zablokować określonemu pająkowi wyszukiwarek przed indeksowaniem Twoich treści. Te tagi pojawiają się w nagłówku Twojego pliku HTML.
Ta metoda jest powszechnie stosowana przez programistów, którzy nie mają dostępu do katalogu głównego witryny
Krok 2. Blokuj boty z jednej strony
Możliwe jest zablokowanie wszystkim botom indeksowania strony i/lub śledzenia linków do strony. Ten tag jest często używany, gdy działająca witryna jest w fazie rozwoju. Po ukończeniu witryny zdecydowanie zalecamy usunięcie tego tagu. Jeśli nie usuniesz tagu, Twoja strona nie będzie indeksowana ani nie będzie można przeszukiwać w wyszukiwarkach.
- Możesz zablokować botom indeksowanie strony i korzystanie z dowolnych linków:
- Możesz zablokować indeksowanie strony wszystkim botom:
- Możesz zablokować wszystkim botom śledzenie linków na stronie:
Krok 3. Pozwól botom indeksować stronę, ale nie podążaj za jej linkami
Jeśli pozwolisz botom na indeksowanie strony, strona zostanie zindeksowana; jeśli uniemożliwisz pająkom podążanie za łączami, ścieżka łącza z tej konkretnej strony do innych stron zostanie przerwana. Wstaw następujący wiersz kodu do nagłówka:
Krok 4. Niech roboty wyszukiwarek podążają za linkami, ale nie indeksują strony
Jeśli pozwolisz botom na podążanie za linkami, ścieżka łącza z tej konkretnej strony do innych stron pozostanie nienaruszona; jeśli ograniczysz im możliwość indeksowania strony, Twoja strona internetowa nie pojawi się w indeksie. Wstaw następujący wiersz kodu do nagłówka:
Krok 5. Zablokuj pojedynczy link wychodzący
Aby ukryć pojedynczy link na stronie, umieść rel tag w tagu linku. Możesz użyć tego tagu do blokowania linków na innych stronach, które prowadzą do konkretnej strony, którą chcesz zablokować.
Wstaw link do zablokowanej strony
Krok 6. Zablokuj określonego pająka wyszukiwarek
Zamiast blokować wszystkie boty ze swojej strony internetowej, możesz uniemożliwić jednemu botowi przemierzanie i indeksowanie strony. Aby to osiągnąć, zastąp „'robot”' w metatagu nazwą konkretnego bota. Przykłady obejmują: googlebot, googlebot-wiadomości, obraz-googlebota, bingbot, oraz teoma.
Krok 7. Zachęć boty do przeszukiwania i indeksowania Twojej strony
Jeśli chcesz mieć pewność, że Twoja strona zostanie zaindeksowana, a jej linki będą śledzone, możesz wstawić zezwolenie na śledzenie meta „robot” do nagłówka. Użyj następującego kodu: