2 na czym opiera się praca wyszukiwarek. Wyszukiwarka Yandex ru

Wyszukiwarki (SE) są od dłuższego czasu istotną częścią Internetu. Dziś są to ogromne i złożone mechanizmy, które są nie tylko narzędziem do wyszukiwania wszelkich niezbędnych informacji, ale także całkiem ekscytującymi obszarami dla biznesu.

Wielu użytkowników wyszukiwarek nigdy nie zastanawiało się nad zasadami ich działania, sposobem przetwarzania żądań użytkowników ani tym, jak te systemy są zbudowane i funkcjonują. Materiał ten pomoże osobom zajmującym się optymalizacją oraz zrozumieniem struktury i głównych funkcji wyszukiwarek.

Funkcje i koncepcja PS

System wyszukiwania to zespół sprzętu i oprogramowania przeznaczony do realizacji funkcji wyszukiwania w Internecie i odpowiadający na żądanie użytkownika, które zwykle jest określone w formie frazy tekstowej (a dokładniej zapytania wyszukiwania), wydając link lista do źródła informacji, przeprowadzane według trafności. Najpopularniejsze i największe wyszukiwarki: Google, Bing, Yahoo, Baidu. W RuNet - Yandex, Mail.Ru, Rambler.

Przyjrzyjmy się bliżej znaczeniu wyszukiwanego hasła, biorąc za przykład system Yandex.

Żądanie musi być sformułowane przez użytkownika w pełnej zgodności z przedmiotem jego wyszukiwania, możliwie najprościej i zwięźle. W tej wyszukiwarce chcemy na przykład znaleźć informację: „jak wybrać samochód dla siebie”. Aby to zrobić, otwórz strona główna i wpisz wyszukiwane hasło „jak wybrać samochód”. Wtedy nasze funkcje sprowadzają się do podążania za podanymi linkami do źródeł informacji w sieci.

Jednak nawet działając w ten sposób, możemy nie uzyskać potrzebnych informacji. Jeśli otrzymaliśmy tak negatywny wynik, wystarczy przeformułować nasze zapytanie, w przeciwnym razie w bazie wyszukiwania naprawdę nie ma przydatnych informacji ten gatunek zapytanie (jest to całkiem możliwe przy „wąskich” parametrach zapytania, jak np. „jak wybrać samochód w Anadyrze”).

Najbardziej podstawowym zadaniem każdej wyszukiwarki jest dostarczanie ludziom dokładnie takich informacji, jakich potrzebują. A nauczenie użytkowników tworzenia „właściwego” typu zapytań do wyszukiwarek, czyli fraz, które będą odpowiadać ich zasadom działania, jest praktycznie niemożliwe.

Dlatego też twórcy specjalistycznych wyszukiwarek tworzą zasady i algorytmy swojej pracy, które pozwolą użytkownikom znaleźć interesujące ich informacje. Oznacza to, że system musi „myśleć” tak samo, jak myśli człowiek poszukujący potrzebnych informacji w Internecie.

Wpisując zapytanie w wyszukiwarkę, chce jak najszybciej i łatwo znaleźć to, czego potrzebuje. Po otrzymaniu wyniku użytkownik dokonuje oceny działania systemu, kierując się kilkoma kryteriami. Czy udało mu się znaleźć potrzebne informacje? Jeśli nie, ile razy musiał ponownie sformatować tekst zapytania, aby go znaleźć? Jak aktualne były informacje, które otrzymali? Jak szybko wyszukiwarka przetworzyła jego żądanie? Jak przyjazne dla użytkownika były dostarczone wyniki wyszukiwania? Czy pożądany wynik był pierwszy, czy był na 30. miejscu? Ile „śmieci” (niepotrzebnych informacji) znaleziono wraz z przydatnymi informacjami? Czy przy korzystaniu z PS znajdą się dla niego istotne informacje za tydzień czy za miesiąc?

Aby uzyskać prawidłowe odpowiedzi na takie pytania, twórcy wyszukiwarek stale udoskonalają zasady rankingu i jego algorytmy, dodając do nich nowe cechy i funkcje oraz próbując w jakikolwiek sposób uczynić szybsza praca systemy.

Główne cechy wyszukiwarek

Wskażmy główne cechy wyszukiwania:

Kompletność.

Kompletność jest jedną z najważniejszych cech wyszukiwania; jest to stosunek liczb znalezionych dla zapytania dokumenty informacyjne do ich całkowitej liczby w Internecie związanej z tym żądaniem. Na przykład w Internecie jest 100 stron z frazą „jak wybrać samochód”, a dla tego samego zapytania wybrano tylko 60 z całości, wówczas w tym przypadku kompletność wyszukiwania wyniesie 0,6. Oczywiste jest, że im pełniejsze samo wyszukiwanie, tym większe prawdopodobieństwo, że użytkownik znajdzie dokładnie taki dokument, jakiego potrzebuje, oczywiście, jeśli w ogóle istnieje.

Dokładność.

Kolejną ważną funkcją wyszukiwarki jest dokładność. Określa stopień, w jakim strony znalezione w Internecie odpowiadają żądaniom użytkownika. Na przykład, jeśli dla frazy kluczowej „jak wybrać samochód” istnieje sto dokumentów, połowa z nich zawiera tę frazę, a reszta zawiera po prostu następujące słowa (jak prawidłowo wybrać radio samochodowe i zainstalować je w samochodzie ), wówczas dokładność wyszukiwania wynosi 50/100 = 0,5.

Im dokładniejsze wyszukiwanie, tym szybciej użytkownik znajdzie potrzebne mu informacje, im mniej różnorodnych „śmieci” znajdzie się wśród wyników, tym mniej znalezionych dokumentów nie będzie odpowiadać znaczeniu zapytania.

Znaczenie.

Jest to istotny element wyszukiwania, który charakteryzuje się czasem, jaki upływa od chwili opublikowania informacji w Internecie do momentu jej wpisania do bazy indeksowej wyszukiwarki.

Na przykład dzień po pojawieniu się informacji o premierze nowego iPada wielu użytkowników zaczęło szukać za pomocą odpowiednich typów zapytań. W większości przypadków informacja o tej wiadomości jest już dostępna w wyszukiwarce, chociaż od jej pojawienia się minęło bardzo niewiele czasu. Wynika to z obecności dużych Wyszukiwarki„szybka baza danych”, która jest aktualizowana kilka razy dziennie.

Szybkość wyszukiwania.

Taka funkcja jak prędkość wyszukiwania jest ściśle powiązana z tzw. „oporem obciążenia”. W każdej sekundzie z wyszukiwarki korzysta ogromna liczba osób, a takie obciążenie wymaga znacznego skrócenia czasu przetwarzania jednego żądania. Tutaj interesy zarówno wyszukiwarki, jak i użytkownika są całkowicie zbieżne: odwiedzający chce jak najszybciej uzyskać wyniki, a wyszukiwarka musi jak najszybciej przetworzyć jego żądanie, aby nie spowalniać przetwarzania kolejnych żądań.

Widoczność.

Reprezentacja wizualna wyniki są najważniejszym elementem wygody wyszukiwania. Na podstawie wielu zapytań wyszukiwarka znajduje tysiące, a w niektórych przypadkach miliony różnych dokumentów. Ze względu na niejasność zestawienia fraz kluczowych dla wyszukiwania lub jego niedokładność, nawet pierwsze wyniki zapytania nie zawsze zawierają jedynie niezbędne informacje.

Oznacza to, że często osoba musi przeprowadzić własne wyszukiwanie wśród dostarczonych wyników. Różne elementy stron wyników wyszukiwania ułatwiają poruszanie się po wynikach wyszukiwania.

Historia rozwoju wyszukiwarek

Kiedy Internet zaczął się rozwijać, liczba jego stałych użytkowników była niewielka, a ilość informacji, do których można było uzyskać dostęp, była stosunkowo niewielka. W zasadzie dostęp do tej sieci mieli wyłącznie specjaliści z dziedzin badawczych. Znalezienie informacji nie było wówczas tak pilne jak obecnie.

Jedną z pierwszych metod zorganizowania szerokiego dostępu do zasobów informacyjnych było utworzenie katalogów stron, a linki do nich zaczęto grupować tematycznie. Pierwszym projektem był zasób Yahoo.com, który został otwarty wiosną 1994 roku. Następnie, gdy liczba stron w katalogu Yahoo znacznie wzrosła, dodano możliwość wyszukiwania niezbędnych informacji w katalogu. Nie był to jeszcze pełny system wyszukiwania, gdyż zakres takiego wyszukiwania ograniczał się jedynie do stron znajdujących się w tym katalogu, a nie do wszystkich zasobów Internetu. Katalogi linków były powszechnie stosowane w przeszłości, obecnie jednak niemal całkowicie straciły na popularności.

W końcu nawet dzisiejsze katalogi, których objętość jest ogromna, zawierają informacje tylko o niewielkiej części witryn w Internecie. Najsłynniejszy i największy katalog na świecie zawiera informacje o pięciu milionach witryn, natomiast baza Google zawiera informacje o ponad 25 miliardach stron.

Pierwszą prawdziwą wyszukiwarką był WebCrawler, który pojawił się w 1994 roku.

W następnym roku pojawiły się AltaVista i Lycos. Co więcej, ten pierwszy był przez bardzo długi czas liderem w wyszukiwaniu informacji.

W 1997 roku Sergey Brin wraz z Larrym Page'em stworzyli samochód wyszukiwarka Google w ramach projektu badawczego na Uniwersytecie Stanforda. Dziś jest to Google, najpopularniejsza i najpopularniejsza wyszukiwarka na świecie.

We wrześniu 1997 roku ogłoszono (oficjalnie) Yandex PS, który jest obecnie najpopularniejszym systemem wyszukiwania w RuNet.

Według Wrzesień 2015, udziały wyszukiwarek na świecie rozkładają się następująco:

Google – 69,24%;
Bing – 12,26%;
Wieśniak! - 9,19%;
Baidu – 6,48%;
AOL – 1,11%;
Zapytaj - 0,23%;
Podekscytowanie - 0,00%

Według Grudzień 2016, udziały wyszukiwarek w Runet:

Yandex - 48,40%
Google – 45,10%
Search.Mail.ru - 5,70%
Wędrowiec - 0,40%
Bing – 0,30%
Yahoo – 0,10%

Jak działa wyszukiwarka

W Rosji główną wyszukiwarką jest Yandex, następnie Google, a następnie [email protected]. Wszystkie duże wyszukiwarki mają swoją własną strukturę, która znacznie różni się od innych. Jednak nadal możliwe jest zidentyfikowanie podstawowych elementów wspólnych dla wszystkich wyszukiwarek.

Moduł indeksujący.

Komponent ten składa się z trzech programów robota:

Pająk(w języku angielskim pająk) to program przeznaczony do pobierania stron internetowych. Pająk pobiera konkretną stronę, jednocześnie wyodrębniając z niej wszystkie linki. Ściąganie Kod HTML z niemal każdej strony. W tym celu roboty wykorzystują protokoły HTTP.

„Pająk” działa w następujący sposób. Robot wysyła do serwera żądanie „get/path/document” oraz inne polecenia żądania HTTP. W odpowiedzi program robota otrzymuje strumień tekstowy zawierający informacje o typie usługi i oczywiście sam dokument.

Adres URL pobranej strony;
data pobrania strony;
nagłówek odpowiedzi http serwera;
kod HTML, „treść” strony.

Gąsienica(„wędrujący” pająk). Ten program automatycznie odwiedza wszystkie linki, które znajdują się na stronie, a także je podświetla. Jego zadaniem jest podjęcie decyzji, dokąd pająk ma się dalej udać, na podstawie tych linków lub na podstawie podanej listy adresów.

Indeksator(robot indeksujący) to program analizujący strony pobrane przez pająki.

Indeksator całkowicie analizuje stronę na elementy składowe i analizuje je przy użyciu własnych algorytmów morfologicznych i leksykalnych.

Analizie podlegają różne części strony, takie jak nagłówki, tekst, linki, cechy stylistyczne i strukturalne, znaczniki HTML itp.

Dzięki temu moduł indeksujący umożliwia prześledzenie linków do określonej liczby zasobów, pobranie stron, wyodrębnienie linków do nowych stron z otrzymanych dokumentów i dokonanie ich szczegółowej analizy.

Baza danych

Baza danych(lub indeks wyszukiwarki) to kompleks przechowywania danych, tablica informacji, w której w określony sposób przechowywane są zmodyfikowane parametry każdego dokumentu przetwarzanego przez moduł indeksujący i pobieranego.

Wyszukaj serwer

To najważniejszy element całego systemu, gdyż szybkość i oczywiście jakość wyszukiwania zależą bezpośrednio od algorytmów leżących u podstaw jego funkcjonalności.

Serwer wyszukiwania działa w następujący sposób:

Żądanie pochodzące od użytkownika podlega analizie morfologicznej. Generowane jest środowisko informacyjne dowolnego dokumentu dostępnego w bazie (zostanie ono następnie wyświetlone jako wycinek, czyli pole informacyjne o treści odpowiadającej danemu żądaniu).
Otrzymane dane przekazywane są jako parametry wejściowe do specjalizowanego modułu rankingowego. Są one przetwarzane dla wszystkich dokumentów, w wyniku czego dla każdego takiego dokumentu wyliczana jest jego własna ocena, która charakteryzuje przydatność takiego dokumentu dla żądania użytkownika i inne elementy.
W zależności od warunków określonych przez użytkownika ocena ta może zostać skorygowana o dodatkowe.
Następnie generowany jest sam fragment, tj. W przypadku każdego znalezionego dokumentu tytuł, streszczenie najlepiej pasujące do zapytania i łącze do tego dokumentu są pobierane z odpowiedniej tabeli, a znalezione formy wyrazów i słowa są podświetlane.
Wyniki powstałego wyszukiwania przekazywane są osobie, która je przeprowadziła, w postaci strony, na której wyświetlane są wyniki wyszukiwania (SERP).

Wszystkie te elementy są ze sobą ściśle powiązane i funkcjonują, oddziałując na siebie, tworząc odrębny, choć dość złożony mechanizm funkcjonowania PS, wymagający ogromnych nakładów środków.

W ostatnich latach usługi Google i Yandex stały się częścią naszego życia. W związku z tym wielu prawdopodobnie zastanawia się, czym jest wyszukiwarka? Mówienie w prostych słowach, Ten systemu oprogramowania, przeznaczony do wyszukiwania informacji w sieci WWW. Wyniki są zwykle prezentowane w formie listy, często zwanej stronami wyników wyszukiwania (SERP). Informacje mogą stanowić kombinację stron internetowych, obrazów i innych typów plików. Niektóre wyszukiwarki zawierają także informacje dostępne w bazach danych lub publicznych katalogach.

W przeciwieństwie do katalogów internetowych, które są obsługiwane wyłącznie przez ich własnych redaktorów, wyszukiwarki również przechowują informacje w czasie rzeczywistym, uruchamiając algorytm w przeszukiwaczu sieci.

Historia pochodzenia

Same wyszukiwarki pojawiły się wcześniej niż sieć WWW - w grudniu 1990 r. Pierwsza taka usługa nosiła nazwę Archie i przeszukiwała zawartość plików FTP za pomocą poleceń.

Co to jest wyszukiwarka internetowa? Do września 1993 r. sieć WWW była indeksowana całkowicie ręcznie. Istniała lista serwerów internetowych edytowana przez Tima Bernersa-Lee, która była hostowana na serwerze internetowym CERN. W miarę jak coraz więcej serwerów przechodziło w tryb online, powyższa usługa nie była w stanie nadążyć z przetwarzaniem takiej ilości informacji.

Jedną z pierwszych wyszukiwarek opartych na wyszukiwaniu internetowym był WebCrawler, który został wydany w 1994 roku. W przeciwieństwie do swoich poprzedników umożliwiał użytkownikom wyszukiwanie dowolnego słowa na dowolnej stronie internetowej. Od tego czasu algorytm ten stał się standardem dla wszystkich głównych wyszukiwarek. Była to jednocześnie pierwsza decyzja powszechnie znana opinii publicznej. Również w 1994 roku uruchomiono usługę Lycos, która później stała się dużym projektem komercyjnym.

Wkrótce potem pojawiło się wiele wyszukiwarek, a ich popularność znacznie wzrosła. Należą do nich Magellan, Excite, Infoseek, Inktomi, Northern Light i AltaVista. Wieśniak! był jednym z najpopularniejszych sposobów wyszukiwania interesujących stron internetowych, ale jego algorytm wyszukiwania działał na własnym katalogu internetowym, a nie na pełnotekstowych kopiach stron. Osoby poszukujące informacji mogą również przeglądać katalog, zamiast przeprowadzać wyszukiwanie według słów kluczowych.

Nowa runda rozwoju

Google przyjął pomysł sprzedaży wyszukiwanych haseł w 1998 roku, zaczynając od małej firmy o nazwie goto.com. Posunięcie to miało znaczący wpływ na biznes SEO, który z czasem stał się jedną z najbardziej dochodowych działalności w Internecie.

Około 2000 roku wyszukiwarka Google stała się powszechnie znana. Firma osiągnęła lepsze wyniki w wielu wyszukiwaniach dzięki innowacji zwanej PageRank. Ten iteracyjny algorytm szereguje strony internetowe na podstawie ich połączeń z innymi witrynami i stronami, opierając się na założeniu, że inni często wspominają o dobrych lub pożądanych źródłach. Google utrzymało także minimalistyczny interfejs swojej wyszukiwarki. Wręcz przeciwnie, wielu konkurentów zbudowało wyszukiwarkę w portalu internetowym. W rzeczywistości Google stał się tak popularny, że pojawiły się silniki oszustwa, takie jak Mystery Seeker. Obecnie istnieje wiele regionalnych wersji tej usługi, w szczególności wyszukiwarka Google.ru przeznaczona dla użytkowników rosyjskojęzycznych.

Jak działają te usługi?

Jak wyświetlane są rankingi i wyniki? Czym są wyszukiwarki z punktu widzenia algorytmu działania? Uzyskują informacje poprzez przeszukiwanie sieci z witryny na witrynę. Robot lub pająk sprawdza adresowaną do niego standardową nazwę pliku robots.txt przed wysłaniem określonych informacji do indeksowania. Koncentruje się na wielu czynnikach, a mianowicie nagłówkach, zawartości strony, JavaScript, kaskadowych arkuszach stylów (CSS) i standardowych znacznikach HTML treści informacyjnych lub metadanych w metatagach HTML.

Indeksowanie oznacza łączenie słów i innych możliwych do zidentyfikowania tokenów znalezionych na stronach internetowych z ich treściami nazwy domen i pola oparte na HTML. Powiązania tworzone są w ogólnodostępnej bazie danych dostępnej dla zapytań wyszukiwarek internetowych. Żądanie użytkownika może składać się z jednego słowa. Indeks pomaga w jak najszybszym znalezieniu informacji związanych z zapytaniem.

Niektóre techniki indeksowania i buforowania stanowią tajemnicę handlową, natomiast indeksowanie sieci to prosty proces polegający na systematycznym odwiedzaniu wszystkich stron internetowych.

Pomiędzy wizytami robota buforowana wersja strony (część lub całość treści potrzebnych do jej wyświetlenia) przechowywana w pamięci roboczej wyszukiwarki jest szybko wysyłana do żądającego użytkownika. Jeśli wizyta jest spóźniona, wyszukiwarka może po prostu działać jako internetowy serwer proxy. W takim przypadku strona może różnić się od indeksów wyszukiwania. Źródło w pamięci podręcznej pokazuje wersję, której słowa zostały zaindeksowane, więc może być przydatne w przypadku utraty rzeczywistej strony.

Architektura na wysokim poziomie

Zazwyczaj użytkownik wprowadza do wyszukiwarki zapytanie w postaci kilku słów kluczowych. Indeks zawiera już nazwy witryn zawierających te słowa kluczowe i są one natychmiast wyświetlane. Prawdziwym nakładem pracy jest tworzenie stron internetowych będących listą wyników wyszukiwania. Każda strona w całym zestawieniu musi być uszeregowana zgodnie z informacjami zawartymi w indeksach.

W tym przypadku górny element wyniku wymaga przeszukania, zrekonstruowania i zaznaczenia fragmentów pokazujących kontekst z dopasowanych słów kluczowych. Jest to tylko część przetwarzania każdej strony internetowej w wynikach wyszukiwania, a dalsze strony (obok niej) wymagają większości tego późniejszego przetwarzania.

Oprócz prostego wyszukiwania słów kluczowych, wyszukiwarki oferują własne operatory oparte na graficznym interfejsie użytkownika lub poleceniach oraz parametry wyszukiwania w celu zawężenia wyników.

Zapewniają użytkownikowi niezbędną kontrolę za pomocą pętli informacja zwrotna, poprzez filtrowanie i ważenie podczas doprecyzowywania wymaganych danych, biorąc pod uwagę początkowe strony pierwszych wyników wyszukiwania. Na przykład od 2007 roku witryna Google.com umożliwia filtrowanie wynikowej listy według daty, klikając opcję „Pokaż narzędzia wyszukiwania” w skrajnej lewej kolumnie na oryginalnej stronie wyników, a następnie wybierając żądany zakres dat.

Różne prośby

Większość wyszukiwarek obsługuje operatory logiczne AND, OR i NOT, aby pomóc użytkownikom końcowym zawęzić zapytanie. Niektóre operatory są zaprojektowane dla literałów, które pozwalają użytkownikowi zawęzić i rozszerzyć wyszukiwane hasła. Robot wyszukuje słowa lub frazy w taki sam sposób, w jaki wyszukuje wprowadzane polecenia. Niektóre wyszukiwarki udostępniają zaawansowaną funkcję wyszukiwania, która pozwala użytkownikom określić odległość pomiędzy słowa kluczowe.

Istnieje również wyszukiwanie konceptualne, w którym badanie polega na wykorzystaniu analizy statystycznej na stronach zawierających szukane słowa lub frazy. Dodatkowo zapytania w języku naturalnym pozwalają użytkownikowi wpisać pytanie w taki sam sposób, w jaki zadałby to człowiekowi (najbardziej typowym przykładem jest Ask.com).

Przydatność wyszukiwarki zależy od trafności zestawu wyników, które zwraca. Mogą istnieć miliony stron internetowych zawierających określone słowo lub frazę, ale niektóre mogą być bardziej trafne, popularne lub wiarygodne niż inne. Większość wyszukiwarek korzysta z metod rankingowych, aby zapewnić najlepsze wyniki.

Sposób, w jaki wyszukiwarka decyduje, które strony najlepiej pasują do zapytania i w jakiej kolejności powinny być wyświetlane znalezione źródła, różni się znacznie w zależności od robota. Metody te również zmieniają się z biegiem czasu wraz ze zmianami w sposobie korzystania z Internetu i rozwojem nowych technologii.

Co to jest wyszukiwarka: odmiany

Istnieją dwa główne typy wyszukiwarek. Pierwszy to system predefiniowanych i hierarchicznie uporządkowanych słów kluczowych, za pomocą których ludzie masowo go zaprogramowali. Drugi to system, który na podstawie analizy znalezionych tekstów generuje „indeks odwrócony”.

Większość wyszukiwarek to usługi komercyjne utrzymywane z przychodów z reklam, dlatego niektóre pozwalają reklamodawcom na klasyfikowanie się w wyświetlanych wynikach za opłatą. Usługi, które nie przyjmują pieniędzy za ranking, zarabiają, wyświetlając reklamy kontekstowe obok wyświetlanych witryn. Promocja w wyszukiwarkach to dziś jeden z najbardziej dochodowych zarobków w Internecie.

Jakie usługi są najczęstsze?

Google to najpopularniejsza wyszukiwarka na świecie z udziałem w rynku wynoszącym 80,52% według stanu na marzec 2017 r.

Google – 80,52%
Bing – 6,92%
Baidu – 5,94%
Wieśniak! - 5,35%

Wyszukiwarki w Rosji i Azji Wschodniej

W Rosji i niektórych krajach Azji Wschodniej Google nie jest najpopularniejszą usługą. Wśród rosyjskich użytkowników największą popularnością cieszy się wyszukiwarka Yandex (61,9%) w porównaniu z Google (28,3%). W Chinach najpopularniejszą usługą jest Baidu. Z południowokoreańskiego portalu wyszukiwania Naver korzysta się w 70% procent wyszukiwań online w tym kraju. Również Yahoo! w Japonii i na Tajwanie jest to najpopularniejsze narzędzie do wyszukiwania niezbędnych danych.

Inne znane rosyjskie wyszukiwarki to Mail i Rambler. Wraz z początkiem rozwoju Runeta cieszyły się dużą popularnością, jednak obecnie znacznie straciły swoją pozycję.

Ograniczenia i kryteria wyszukiwania

Chociaż wyszukiwarki są zaprogramowane tak, aby oceniać strony internetowe na podstawie ich popularności i trafności, badania empiryczne wskazują na różne kryteria polityczne, ekonomiczne i społeczne służące do wyboru dostarczanych przez nie informacji. Te uprzedzenia mogą wynikać bezpośrednio z procesów ekonomicznych (na przykład firmy reklamujące wyszukiwarkę mogą również zyskać większą popularność w bezpłatnych wynikach wyszukiwania) i politycznych (na przykład usunięcie wyników wyszukiwania ze względu na lokalne przepisy). Na przykład Google nie będzie wyświetlać niektórych witryn neonazistowskich we Francji i Niemczech, gdzie negowanie Holokaustu jest nielegalne.

Wyszukiwarki chrześcijańskie, islamskie i żydowskie

Globalny rozwój Internetu i środki elektroniczne Doniesienia medialne w świecie muzułmańskim w ciągu ostatniej dekady skłoniły wyznawców islamu na Bliskim Wschodzie i na subkontynencie azjatyckim do podjęcia próby stworzenia własnych wyszukiwarek i portali z filtrami, które umożliwiłyby użytkownikom przeprowadzanie bezpiecznych wyszukiwań.

Takie usługi zawierają filtry, które dodatkowo klasyfikują strony internetowe jako „halal” lub „haram” w oparciu o współczesną, ekspercką interpretację „Prawa islamu”.

Portal ImHalal pojawił się w Internecie we wrześniu 2011 r., a Halalgoogling w lipcu 2013 r. Wykorzystują filtry haram oparte na algorytmach Google i Bing.

Inne wyszukiwarki zorientowane na religię to Jewgle (Jewish Wersja Google'a), a także Christian SeekFind.org. Odfiltrowują witryny, które zaprzeczają lub poniżają ich wiarę.

Z definicji wyszukiwarka internetowa to system wyszukiwania informacji, który pomaga nam znaleźć informacje sieć światowa. Ułatwia to globalną wymianę informacji. Ale Internet to nieustrukturyzowana baza danych. Rośnie wykładniczo i stał się ogromnym repozytorium informacji. Wyszukiwanie informacji w Internecie jest trudnym zadaniem. Istnieje potrzeba posiadania narzędzia do zarządzania, filtrowania i wyszukiwania informacji o oceanach. Do tego celu służy wyszukiwarka.

Jak działa wyszukiwarka?

Wyszukiwarki internetowe to wyszukiwarki, które wyszukują i pobierają informacje w Internecie. Większość z nich korzysta z architektury indeksatora przeszukiwacza. Zależą od modułów torów. Roboty indeksujące, zwane także pająkami, to małe programy przeszukujące strony internetowe.

Roboty indeksujące odwiedzają początkowy zestaw adresów URL. Wydobywają adresy URL pojawiające się na przeszukiwanych stronach i wysyłają te informacje do modułu sterującego przeszukiwacza. Robot decyduje, które strony odwiedzić jako następne i przekazuje te adresy URL robotom.

Tematy poruszane przez różne wyszukiwarki różnią się w zależności od używanych przez nie algorytmów. Niektóre wyszukiwarki są zaprogramowane do wyszukiwania witryn o określonej tematyce, podczas gdy roboty innych mogą odwiedzać jak najwięcej miejsc.

Moduł indeksujący wyodrębnia informacje z każdej odwiedzanej strony i wprowadza adres URL do bazy danych. W rezultacie powstaje ogromna tabela przeglądowa z listą adresów URL prowadzących do stron zawierających informacje. Tabela pokazuje strony, które zostały uwzględnione podczas indeksowania.

Moduł analityczny to kolejna ważna część architektury wyszukiwarki. Tworzy indeks użyteczności. Narzędzie indeksujące może zapewnić dostęp do stron o określonej długości lub stron zawierających określoną liczbę zdjęć.

Podczas procesu przeszukiwania i indeksowania wyszukiwarka przechowuje pobrane strony. Są one tymczasowo przechowywane w pamięci strony. Wyszukiwarki przechowują pamięć podręczną odwiedzanych stron, aby przyspieszyć wyszukiwanie stron, które zostały już odwiedzone.

Moduł zapytań wyszukiwarki otrzymuje zapytania od użytkowników w formie słów kluczowych. Moduł rankingowy sortuje wyniki.

Architektura indeksatora przeszukiwacza ma wiele odmian. Zmieniają się w architekturze rozproszonej wyszukiwarki. Architektury te składają się z kolektorów i brokerów. Kolektory zbierają informacje o indeksowaniu z serwerów internetowych, podczas gdy brokerzy zapewniają silnik indeksowania i interfejs zapytań. Brokerzy indeksują aktualizację na podstawie informacji otrzymanych od kolekcjonerów i innych brokerów. Potrafią filtrować informacje. Wiele wyszukiwarek korzysta obecnie z tego typu architektury.

Wyszukiwarki i ranking stron

Kiedy tworzymy zapytanie w wyszukiwarce, wyniki wyświetlają się w określonej kolejności. Większość z nas ma tendencję do odwiedzania górnych stron i ignorowania dolnych. Dzieje się tak, ponieważ uważamy, że kilka pierwszych stron jest bardziej trafnych dla naszego zapytania. Dlatego każdy jest zainteresowany tym, aby jego strony znajdowały się w pierwszej dziesiątce wyników wyszukiwania.

Słowa wymienione w interfejsie zapytań wyszukiwarki to słowa kluczowe żądane w wyszukiwarkach. Stanowią one listę stron powiązanych z żądanymi słowami kluczowymi. Podczas tego procesu wyszukiwarki pobierają te strony, na których często występują te słowa kluczowe. Szukają relacji pomiędzy słowami kluczowymi. Liczy się także umiejscowienie słów kluczowych i ranking stron je zawierających. Słowa kluczowe pojawiające się w tytułach stron lub adresach URL otrzymują większą wagę. Strony, do których prowadzą linki, zwiększają ich popularność. Jeśli wiele innych witryn zawiera linki do danej strony, jest ona postrzegana jako wartościowa i trafniejsza.

Istnieje algorytm rankingowy, z którego korzysta każda wyszukiwarka. Algorytm to skomputeryzowana formuła zaprojektowana w celu zapewnienia odpowiednich stron na żądanie użytkownika. Każda wyszukiwarka może mieć inny algorytm rankingowy, który analizuje strony w bazie danych wyszukiwarki w celu określenia odpowiednich odpowiedzi na wyszukiwane hasła. Wyszukiwarki różnie indeksują różne informacje. Oznacza to, że dane zapytanie skierowane do dwóch różnych wyszukiwarek może zwrócić strony w różnej kolejności lub pobrać różne strony. Popularność strony internetowej to czynniki decydujące o jej trafności. Popularność witryny po kliknięciu to kolejny czynnik decydujący o jej rankingu. Jest to miara częstotliwości odwiedzania witryny.

Webmasterzy próbują oszukać algorytmy wyszukiwarek, aby zwiększyć ranking swojej witryny w wynikach wyszukiwania. Wypełnianie stron internetowych słowami kluczowymi lub używanie metatagów do oszukiwania strategii rankingu wyszukiwarek. Ale wyszukiwarki są wystarczająco inteligentne! Udoskonalają swoje algorytmy, aby machinacje webmasterów nie wpływały na wyniki wyszukiwania.

Musisz zrozumieć, że nawet strony znajdujące się po kilku pierwszych na liście mogą zawierać dokładnie te informacje, których szukałeś. Ale bądź pewien, że dobre wyszukiwarki zawsze będą wyświetlać bardzo trafne strony w najwyższej kolejności!

Dzień dobry, drodzy czytelnicy mojego bloga SEO. . Ten artykuł jest o jak działa wyszukiwarka Yandex jakich technologii i algorytmów używa do rankingu witryn i co robi, aby przygotować odpowiedź dla użytkowników. Wiele osób wie, że ten flagowy produkt rosyjskiej wyszukiwarki nadaje ton Runetowi, jest właścicielem największej bazy danych w Eurazji, obsługuje zawartość ponad miliarda stron i zna odpowiedź na każde pytanie. Według danych Liveinternet za sierpień 2012 r. Udział Yandexu w Rosji wynosi 60,5%. Miesięczna publiczność portalu to 48,9 mln osób. Jednak dla nas, blogerów, najważniejsze jest to, w jaki sposób wyszukiwarka otrzymuje nasze żądania, jak je przetwarza i jaki jest w rezultacie wynik. Z jednej strony znajomość i zrozumienie tych informacji ułatwia nam korzystanie ze wszystkich zasobów Yandex, z drugiej strony łatwiej jest promować nasze blogi. Dlatego proponuję patrzeć ze mną jak najbardziej ważne technologie najlepsza wyszukiwarka w Runecie.

Kiedy internauta po raz pierwszy chce zwrócić się do wyszukiwarki po informacje, może pojawić się jedno pytanie: „Jak działa wyszukiwarka?” Ale kiedy je otrzymuje, to pytanie często zmienia się w inne: „Dlaczego tak szybko?” I tak naprawdę, dlaczego wyszukiwanie pliku na komputerze zajmuje 20 sekund, a wynik żądania z całej sieci komputerów na całym świecie pojawia się w ciągu sekundy? Najciekawsze jest to, że na dwa pierwsze pytania (jak następuje wyszukiwanie i dlaczego 1 sekunda) można odpowiedzieć w jednej odpowiedzi - wyszukiwarka przygotowała się wcześniej na żądanie użytkownika.

Aby zrozumieć zasadę działania Yandexa, podobnie jak innych wyszukiwarek, przeprowadźmy analogię z książka telefoniczna. Aby znaleźć dowolny numer telefonu, trzeba znać nazwisko abonenta, a każde wyszukiwanie w tym przypadku zajmuje maksymalnie minutę, ponieważ wszystkie strony książki telefonicznej stanowią ciągły indeks alfabetyczny. Wyobraźmy sobie jednak, że wyszukiwanie przeprowadzono przy użyciu innej opcji, w której numery telefonów byłyby sortowane według samych numerów. Po takich poszukiwaniach, które będą się przeciągać przez dłuższy czas, liczby pozostaną przed oczami poszukującego przez bardzo długi czas. 🙂

Podobnie wyszukiwarka wyświetla wszystkie informacje z Internetu w dogodnej dla niej formie. A co najważniejsze, wszystkie te dane są umieszczane w jej katalogu z wyprzedzeniem, zanim odwiedzający przybędzie ze swoimi prośbami. Oznacza to, że kiedy zadajemy pytanie Yandexowi, on już zna naszą odpowiedź. I daje nam to w sekundę. Ale ta druga obejmuje szereg ważnych procesów, które teraz rozważymy szczegółowo.

Indeksowanie Internetu

Yandex ru gromadzi wszystkie informacje, jakie może zdobyć w Internecie. Za pomocą specjalnego sprzętu sprawdzane są wszystkie treści, w tym obrazy, na podstawie parametrów wizualnych. Takim gromadzeniem zajmuje się wyszukiwarka, a proces zbierania i przygotowywania danych nazywa się indeksowaniem. Podstawą takiej maszyny jest system komputerowy, który inaczej nazywany jest robotem wyszukującym. Regularnie przeszukuje zaindeksowane witryny, sprawdza je pod kątem nowych treści, a także skanuje Internet w poszukiwaniu usunięte strony. Jeśli odkryje, że taka strona już nie istnieje lub została zamknięta z indeksowania, usuwa ją z wyszukiwania.

W jaki sposób robot wyszukiwania znajduje nowe witryny? Po pierwsze, dzięki linkom z innych stron. Bo jeśli link zostanie umieszczony w nowym zasobie sieciowym z witryny już zaindeksowanej, to przy kolejnej wizycie na drugiej stronie robot odwiedzi pierwszą. Po drugie, istnieje wspaniała usługa, popularnie zwana „addurilką” (od frazy w język angielski-addurl - dodaj adres). Możesz w nim wpisać adres swojej nowej witryny, którą po chwili odwiedzi robot wyszukiwania. Po trzecie, z pomocą specjalny program Yandex.Bar śledzi wizyty użytkowników, którzy z niego korzystają. W związku z tym, jeśli osoba trafi na nowy zasób sieciowy, wkrótce pojawi się tam robot.

Czy wszystkie strony są uwzględnione w wyszukiwaniu? Każdego dnia indeksowane są miliony stron. Wśród nich znajdują się strony o różnej jakości, które mogą zawierać różne informacje – m.in unikalne treści dokończyć śmieci. Co więcej, jak mówią statystyki, w Internecie jest znacznie więcej śmieci. Robot wyszukiwania analizuje każdy dokument za pomocą specjalnych algorytmów. On ustala, czy je posiada pomocna informacja czy może odpowiedzieć na żądanie użytkownika. Jeśli nie, to takie strony nie są akceptowane jako „kosmonauci”, ale jeśli tak, to są uwzględniane w wyszukiwaniu.

Gdy robot odwiedzi stronę i określi jej przydatność, pojawia się ona w pamięci wyszukiwarki. Tutaj analizujemy każdy dokument aż do podstaw, jak mówią mistrzowie centrum samochodowego – aż do trybów. Strona zostaje oczyszczona ze znaczników HTML, czysty tekst przechodzi pełną inwentaryzację – obliczana jest lokalizacja każdego słowa. W tej zdemontowanej formie strona zamienia się w tabelę z cyframi i literami, zwaną inaczej indeksem. Teraz, niezależnie od tego, co stanie się z zasobem internetowym zawierającym tę stronę, w wyszukiwaniu zawsze będzie dostępna jego najnowsza kopia. Nawet jeśli strona już nie istnieje, kopie jej dokumentów są przez pewien czas przechowywane w Internecie.

Każdy indeks wraz z danymi o rodzajach dokumentów, kodowaniu, języku oraz kopiach stanowi przeszukaj bazę danych . Jest ona okresowo aktualizowana, dlatego znajduje się na specjalnych serwerach, za pomocą których przetwarzane są żądania użytkowników wyszukiwarek.

Jak często odbywa się proces indeksowania? Przede wszystkim zależy to od rodzaju witryn. Pierwszy typ zasobu sieciowego bardzo często zmienia zawartość swoich stron. Oznacza to, że gdy robot wyszukiwania za każdym razem odwiedza te strony, za każdym razem zawierają one inną treść. Następnym razem nie będziesz w stanie niczego znaleźć za ich pomocą, dlatego takie witryny nie są uwzględniane w indeksie. Drugi rodzaj serwisu to hurtownia danych, na której stronach okresowo dodawane są linki do dokumentów do pobrania. Zawartość takiej witryny zwykle się nie zmienia, dlatego robot odwiedza ją niezwykle rzadko. Inne strony zależą od częstotliwości aktualizacji materiału. Oznacza to, co następuje: im szybciej się pojawia Nowa treść na stronie, tym częściej pojawia się robot wyszukiwania. Pierwszeństwo mają najważniejsze zasoby sieciowe (na przykład witryna z wiadomościami jest o rząd wielkości ważniejsza niż jakikolwiek blog).

Indeksowanie pozwala na realizację pierwszej funkcji wyszukiwarki – zbierania informacji o nowych stronach w Internecie. Ale Yandex ma też drugą funkcję – szukanie odpowiedzi na zapytanie użytkownika w przygotowanej już bazie wyszukiwania.

Yandex przygotowuje odpowiedź

Procesem rozpatrywania wniosku i udzielania stosownych odpowiedzi zajmuje się system komputerowy „Metasearch” . Do swojej pracy najpierw zbiera wszystkie informacje wejściowe: z jakiego regionu wysłano żądanie, do jakiej klasy należy, czy w żądaniu występują błędy itp. Po takim przetworzeniu metawyszukiwarka sprawdza, czy w bazie danych znajdują się dokładnie te same zapytania o tych samych parametrach. Jeżeli odpowiedź brzmi tak, to system pokaże użytkownikowi zapisane wcześniej wyniki. Jeśli takiego pytania nie ma w bazie danych, metawyszukiwarka adresuje bazę wyszukiwania zawierającą dane indeksowe.

I tu dzieją się niesamowite rzeczy. Wyobraź sobie, że istnieje jeden superpotężny komputer, w którym przechowywany jest cały Internet przetworzony przez roboty wyszukujące. Użytkownik ustawia zapytanie i rozpoczyna się wyszukiwanie w komórkach pamięci wszystkich dokumentów objętych zapytaniem. Odpowiedź została znaleziona i wszyscy są szczęśliwi. Ale weźmy inny przypadek, gdy istnieje wiele żądań zawierających te same słowa w treści. System musi za każdym razem przechodzić przez te same komórki pamięci, co może znacznie wydłużyć czas przetwarzania danych. W związku z tym czas wzrasta, co może prowadzić do utraty użytkownika - zwróci się on o pomoc do innej wyszukiwarki.

Aby uniknąć takich opóźnień, wszystkie kopie w indeksie witryny są rozproszone różne komputery. Po przesłaniu żądania metawyszukiwarka instruuje takie serwery, aby wyszukały ich fragment tekstu. Następnie wszystkie dane z tych maszyn są zwracane do komputera centralnego, który łączy wszystkie uzyskane wyniki i podaje użytkownikowi pierwszą dziesiątkę najlepszych odpowiedzi. Dzięki tej technologii od razu giną dwie pieczenie: czas poszukiwań ulega kilkukrotnemu skróceniu (odpowiedź uzyskiwana jest w ułamku sekundy), a dzięki zwiększeniu liczby platform informacje są powielane (dane nie są tracone w wyniku nagłych awarii) . Same komputery ze zduplikowanymi informacjami tworzą centrum danych - jest to pomieszczenie z serwerami.

Kiedy użytkownik wyszukiwarki zadaje pytanie, 20 razy na 100, cele zawarte w pytaniu są niejednoznaczne. Na przykład, jeśli w pasku wyszukiwania napisze słowo „Napoleon”, nie wiadomo jeszcze, jakiej odpowiedzi oczekuje - przepisu na ciasto czy biografii wielkiego dowódcy. Lub wyrażenie „Bracia Grimm” - bajki, filmy, grupa muzyczna. Aby zawęzić taki możliwy zakres celów do konkretnych odpowiedzi, Yandex dysponuje specjalną technologią Zakres. Uwzględnia potrzeby użytkowników wykorzystując statystyki wyszukiwanych haseł. Ze wszystkich pytań zadawanych przez odwiedzających w Yandexie Spectrum identyfikuje w nich różne obiekty (imiona osób, tytuły książek, modele samochodów itp.). Obiekty te są podzielone na określone kategorie. Obecnie istnieje ponad 60 takich kategorii. Za ich pomocą wyszukiwarka ma w swojej bazie różne znaczenia słów w zapytaniach użytkowników. Co ciekawe, kategorie te są okresowo sprawdzane (analiza odbywa się kilka razy w tygodniu), co pozwala Yandexowi na dokładniejsze udzielanie odpowiedzi na zadawane pytania.

W oparciu o technologię Spectrum firma Yandex zorganizowała monity dialogowe. Pojawiają się pod pasek wyszukiwania, w którym użytkownik wpisuje swoje niejednoznaczne żądanie. Ta linia odzwierciedla kategorie, do których może należeć temat pytania. Dalsze wyniki wyszukiwania zależą od wyboru danej kategorii przez użytkownika.

Od 15 do 30% wszystkich użytkowników wyszukiwarki Yandex chce otrzymywać wyłącznie informacje lokalne (dane z regionu, w którym mieszkają). Na przykład o nowych filmach w kinach w Twoim mieście. Dlatego odpowiedź na taki wniosek powinna być inna dla każdego regionu. W związku z tym Yandex wykorzystuje swoją technologię wyszukiwanie według regionów . Oto przykładowe odpowiedzi, jakie mogą otrzymać mieszkańcy poszukujący repertuaru filmowego w swoim kinie Oktyabr:

Ale taki jest wynik, który mieszkańcy miasta Stawropol otrzymają za tę samą prośbę:

Region użytkownika jest określany przede wszystkim na podstawie jego adresu IP. Czasami dane te nie są dokładne, ponieważ wielu dostawców może działać w kilku regionach jednocześnie i w związku z tym zmieniać adresy IP swoich użytkowników. W zasadzie, jeśli przydarzy Ci się taka sytuacja, możesz łatwo zmienić swój region w ustawieniach wyszukiwarki. Jest on wymieniony w prawym górnym rogu strony wyników. Możesz to zmienić.

Wyszukiwarka Yandex ru - wyniki odpowiedzi

Gdy Metasearch przygotuje odpowiedź, wyszukiwarka Yandex powinna wyświetlić ją na stronie wyników. Jest to lista linków do znalezionych dokumentów z krótkimi informacjami na temat każdego z nich. Zadaniem technologii wydawania wyników jest dostarczenie użytkownikowi najbardziej trafnych odpowiedzi w jak najbardziej informacyjny sposób. Szablon jednego takiego łącza wygląda następująco:

Przyjrzyjmy się tej formie wyniku bardziej szczegółowo. Dla tytuł wyniku wyszukiwania Yandex często używa nazwy tytułu strony (co optymalizatorzy piszą w tagu tytułowym). Jeśli go tam nie ma, pojawiają się tutaj słowa z tytułu artykułu lub wpisu. Jeżeli tekst tytułu jest duży, wyszukiwarka umieszcza w tym polu fragment najbardziej odpowiedni dla danego zapytania.

Bardzo rzadko, ale zdarza się, że tytuł nie jest zgodny z treścią zapytania. W takim przypadku Yandex tworzy tytuł wyniku wyszukiwania na podstawie tekstu artykułu lub posta. Z pewnością będzie zawierał słowa zapytania.

Dla skrawek wyszukiwarka wykorzystuje cały tekst na stronie. Zaznacza wszystkie fragmenty, w których znajduje się odpowiedź na zapytanie, a następnie wybiera ten najbardziej odpowiedni i wstawia odnośniki do dokumentu w polu formularza. Dzięki takiemu podejściu kompetentny optymalizator może po zobaczeniu fragmentu przerobić go, poprawiając tym samym atrakcyjność linku.

Aby lepiej zrozumieć wynik żądania użytkownika, nagłówki są sformatowane jako linki w tekście (podświetlone na niebiesko z podkreśleniem). Aby zasób sieciowy był atrakcyjny i rozpoznawalny, dodano faviconę - małą ikonę korporacyjną witryny. Pojawia się po lewej stronie tekstu w pierwszym wierszu przed nagłówkiem. Wszystkie słowa zawarte w żądaniu w odpowiedzi zostały również wyróżnione pogrubioną czcionką, aby ułatwić ich postrzeganie.

W Ostatnio wyszukiwarka Yandex dodaje do fragmentu różne informacje, co pomoże użytkownikowi znaleźć odpowiedź jeszcze szybciej i dokładniej. Na przykład, jeśli użytkownik w swoim żądaniu wpisze nazwę organizacji, Yandex doda we fragmencie jej adres, numery kontaktowe i link do lokalizacji na mapach geograficznych. Jeśli wyszukiwarka zna strukturę witryny, która zawiera dokument z odpowiedzią dla użytkownika, na pewno to pokaże. Ponadto Yandex może natychmiast dodać do fragmentu najczęściej odwiedzane strony takiego zasobu internetowego, aby w razie potrzeby odwiedzający mógł natychmiast przejść do potrzebnej sekcji, oszczędzając swój czas.

Istnieją wycinki, które zawierają cenę produktu dla sklepu internetowego, ocenę hotelu lub restauracji w postaci gwiazdek i inne ciekawe informacje z różną liczbą o obiektach w dokumentach wyszukiwania. Celem takich informacji jest dostarczenie pełnej listy danych o tych przedmiotach lub przedmiotach, które są interesujące dla użytkownika.

Ogólnie rzecz biorąc, z różnymi przykładami, strona z odpowiedziami będzie wyglądać następująco:

Rankingi i asesorzy

Zadaniem Yandexa jest nie tylko wyszukiwanie wszystkiego możliwe opcje odpowiedzi, ale także wybór najlepszych (istotnych). Przecież użytkownik nie będzie przeszukiwał wszystkich linków, które Yandex poda mu jako wynik wyszukiwania. Proces porządkowania wyników wyszukiwania nazywa się zaszeregowanie . Oznacza to, że to ranking decyduje o jakości proponowanych odpowiedzi.

Istnieją zasady, według których Yandex określa odpowiednie strony:

Pozycje witryn pogarszających jakość wyszukiwania zostaną obniżone na stronie wyników. Zwykle są to zasoby internetowe, których właściciele próbują oszukać wyszukiwarkę. Są to na przykład witryny zawierające strony zawierające bezsensowny lub niewidoczny tekst. Oczywiście jest widoczny i zrozumiały szukaj robota, ale nie dla gościa czytającego ten dokument. Lub witryny, które po kliknięciu linku w obszarze wyników wyszukiwania natychmiast przenoszą użytkownika do zupełnie innej witryny.
Witryny zawierające treści erotyczne nie są uwzględniane w wynikach lub mają znacznie obniżoną pozycję w rankingu. Wynika to z faktu, że tego typu zasoby internetowe często wykorzystują agresywne metody promocji.
Strony zainfekowane wirusami nie są obniżane w wynikach wyszukiwania i nie są z nich wykluczane - w takim przypadku użytkownik jest informowany o niebezpieczeństwie za pomocą specjalnej ikony. Wynika to z faktu, że Yandex zakłada, że takie zasoby sieciowe mogą zawierać ważne dokumenty na żądanie osoby odwiedzającej wyszukiwarkę.

Na przykład tak Yandex będzie oceniać witryny pod kątem zapytania „jabłko”:

Oprócz czynników rankingowych Yandex wykorzystuje specjalne próbki z zapytaniami i odpowiedziami, które użytkownicy wyszukiwarek uważają za najbardziej odpowiednie. Żadna maszyna nie jest obecnie w stanie wykonać takich próbek - jest to przywilej człowieka. W Yandex nazywa się takich specjalistów asesorzy. Ich zadaniem jest pełna analiza wszystkich dokumentów wyszukiwania i ocena odpowiedzi na określone zapytania. Wybierają najlepsze odpowiedzi i tworzą specjalny zestaw treningowy. W nim wyszukiwarka widzi powiązania pomiędzy odpowiednimi stronami i ich właściwościami. Mając takie informacje, Yandex może wybrać optymalną formułę rankingu dla każdego żądania. Metoda konstruowania takiej formuły nazywa się Matrixnet. Zaletą tego systemu jest to, że jest odporny na nadmierne dopasowanie, co pozwala na uwzględnienie dużej liczby czynników rankingowych bez zwiększania liczby zbędnych ocen i wzorców.

Na koniec mojego wpisu chcę pokazać Państwu ciekawe statystyki zbierane przez wyszukiwarkę Yandex w trakcie jej pracy.

1. Popularność imion osobistych w Rosji i rosyjskich miastach (dane pobrane z blogerów i kont użytkowników portale społecznościowe w marcu 2012 r.).

Wielki Widzący

W 1863 roku wielki pisarz Juliusz Verne stworzył swoją kolejną książkę „Paryż w XX wieku”. Opisał w nim szczegółowo metro, samochód, krzesło elektryczne, komputer, a nawet Internet. Wydawca jednak odmówił druku książki i leżała tam przez ponad 120 lat, aż w 1989 roku odnalazł ją prawnuk Juliusza Verne’a. Książka ukazała się w 1994 roku.

Wyszukiwarka lub po prostu „wyszukiwarka” to taka, która przeszukuje strony internetowe zgodnie z żądaniem użytkownika. Najsłynniejszą wyszukiwarką na świecie jest Google, najpopularniejszą w Rosji jest Yandex, a jedną z najstarszych wyszukiwarek jest Yahoo. W architekturze wyszukiwarki możemy wyróżnić wyszukiwarka– rdzeń systemu, reprezentowany przez zbiór moduły oprogramowania; baza danych lub indeks, który przechowuje informacje o wszystkich znanych wyszukiwarce zasobach Internetu; i zestaw witryn, które są punkty wejścia użytkowników do systemu (www.google.com, www.yandex.ru, ru.yahoo.com itp.). Wszystko to odpowiada klasycznej trójpoziomowej architekturze systemów informatycznych: jest interfejs użytkownika, logika biznesowa, którą w tym przypadku reprezentuje implementacja algorytmów wyszukiwania i bazy danych.

Specyfika wyszukiwania w Internecie

Na pierwszy rzut oka wyszukiwanie w Internecie nie różni się zbytnio od zwykłego wyszukiwania informacji, na przykład od przetworzenia do bazy danych lub od zadania wyszukania pliku w formacie . Tak też myśleli twórcy pierwszych wyszukiwarek internetowych, jednak z czasem zrozumieli, że się mylili…

Pierwsza różnica pomiędzy wyszukiwarką internetową a wyszukiwarką zwykłą polega na tym, że algorytm przeszukiwania tej samej bazy danych zakłada, że jej struktura jest z góry znana wyszukiwarce i autorowi zapytania. W Internecie z oczywistych powodów tak nie jest. Strony internetowe nie tworzą struktury katalogów, ale sieć, co wpływa także na algorytmy wyszukiwania, a format danych zamieszczanych w zasobach Internetu nie jest przez nikogo kontrolowany.

Druga różnica, będąca jedną z konsekwencji pierwszej, polega na tym, że żądanie jest prezentowane nie jako zbiór wartości parametrów (kryteriów wyszukiwania), ale jako tekst napisany przez osobę w jej naturalnym języku. Dlatego zanim zaczniesz szukać, musisz jeszcze zrozumieć, czego dokładnie chce autor żądania. Pragnę zauważyć, że zrozumienie tego nie jest zadaniem innej osoby, ale komputera.

Trzecia różnica jest mniej oczywista, ale nie mniej fundamentalna: w katalogu lub bazie danych wszystkie elementy mają równe prawa. W Internecie panuje konkurencja, a co za tym idzie podział na bardziej „rzetelnych dostawców informacji” i źródła o statusie zbliżonym do „śmieci informacyjnych”. W ten sposób ludzie klasyfikują zasoby i dotyczy to również wyszukiwarek.

I na zakończenie należy dodać, że obszar poszukiwań to miliardy stron, każda po kilka kilobajtów lub więcej. Codziennie dodawanych jest około dziesięciu milionów stron i tyle samo jest aktualizowanych. Wszystko to prezentowane jest w różnych formatach cyfrowych. Niestety nawet nowoczesne technologie a zasoby, którymi dysponują liderzy rynku usług wyszukiwania w Internecie, nie pozwalają im na przetwarzanie całej tej różnorodności „w locie” i w całości.

Z czego składa się wyszukiwarka?

Przede wszystkim należy zdać sobie sprawę z jeszcze jednej i prawdopodobnie najważniejszej różnicy między pracą wyszukiwarki w Internecie a pracą jakiejkolwiek innej System informacyjny, który przeszukuje różne katalogi i bazy danych. wyszukiwarka internetowa maszyna nie wyszukuje informacji wśród tego, co znajduje się w Internecie w chwili otrzymania żądania, ale próbuje wygenerować odpowiedź w oparciu o własny magazyn informacji – bazę danych zwaną indeksem, w której przechowuje dokumentację dotyczącą wszystkiego, co jest jej znane i okresowo go aktualizuje. Innymi słowy wyszukiwarka nie działa z oryginałem, ale z projekcją zakresu akceptowalnych wartości wyszukiwania. Wszystkie najnowsze zmiany w Internecie mogą zostać odzwierciedlone w wynikach wyszukiwania dopiero po przejściu odpowiednich stron indeksowane- dodano do indeksu wyszukiwarki. Tak więc system wyszukiwania, w pierwszym przybliżeniu, składa się z wyszukiwarki, bazy danych lub indeksu (indeksu) i punktów wejścia do systemu.

Teraz krótko o tym, z czego składa się wyszukiwarka:

Pająk lub pająk. Aplikacja pobierająca strony zasobów internetowych. Pająk nigdzie się nie „czołga” – jedynie odpytuje zawartość stron w taki sam sposób, jak robi to zwykła przeglądarka internetowa, wysyłając żądanie do serwera HTTP i otrzymując od niego odpowiedź. Po pobraniu zawartość strony jest wysyłana do modułu indeksującego i robota, co omówiono poniżej.

Indeksator. Indeksator dokonuje wstępnej analizy zawartości pobranej strony, wybiera główne części (tytuł strony, opis, linki, nagłówki itp.) i porządkuje to wszystko w sekcje bazy wyszukiwania - umieszcza je w indeksie wyszukiwarki. Proces ten nazywa się indeksowanie zasobów Internetu, stąd nazwa samego podsystemu. Na podstawie wyników wstępnej analizy indeksator może także zdecydować, że strona w ogóle nie jest „godna” znalezienia się w indeksie. Powody tej decyzji mogą być różne: strona nie ma nazwy, tak jest dokładna kopia inna strona już w indeksie lub zawiera linki do zasobów zabronionych przez prawo.

Gąsienica. To „zwierzę” ma za zadanie „pełzać” po linkach dostępnych na stronie pobranej przez pająka. Robot analizuje ścieżki prowadzące z bieżącej strony do innych sekcji serwisu lub do stron zewnętrznych zasobów Internetu i określa dalszą kolejność, w jakiej pająk przemierza wątki sieci WWW. To robot znajduje strony, które są nowe dla wyszukiwarki i przesyła je do pająka. Praca robota opiera się na algorytmach przeszukiwania wykresów wszerz i w głąb.

Podsystem przetwarzania i wydawania wyników (Wyszukiwarka i Silnik Wyników). Najważniejsza część każdej wyszukiwarki. Twórcy firmy utrzymują algorytmy działania tego podsystemu w ścisłej tajemnicy, ponieważ stanowią one tajemnicę handlową. To właśnie ta część wyszukiwarki odpowiada za adekwatność reakcji wyszukiwarki na zapytanie użytkownika. Istnieją tutaj dwa główne elementy:
- Podsystem rankingowy. Nośny– są to strony serwisów internetowych zgodnie z ich przydatnością dla konkretnego zapytania. Znaczenie strony– to z kolei stopień, w jakim treść strony odpowiada znaczeniu zapytania, a wyszukiwarka samodzielnie określa tę wartość, w oparciu o ogromną liczbę parametrów. Ranking to najbardziej tajemnicza i kontrowersyjna część „sztucznej inteligencji” wyszukiwarki. Na ranking strony, oprócz jej struktury i zawartości (treści), wpływ mają także: liczba i jakość linków prowadzących do tej strony z innych serwisów; wiek domeny samej witryny; charakter zachowań użytkowników przeglądających stronę i wiele innych czynników.
- Podsystem wystawiania wyników. Do zadań tego podsystemu należy interpretacja żądania użytkownika, tłumaczenie go na język ustrukturyzowanych zapytań indeksowych oraz generowanie stron wyników wyszukiwania. Oprócz analizowania samego tekstu zapytania wyszukiwarka może uwzględniać także:
  - Kontekst żądania, uformowany w oparciu o znaczenie wcześniej zgłoszonych przez użytkownika żądań. Na przykład, jeśli użytkownik często odwiedza strony o tematyce motoryzacyjnej, to zapytany o słowo „Wołga” lub „Oka”, prawdopodobnie chce otrzymać informacje o samochodach tych marek, a nie o tym, gdzie zaczynają się Rosjanie o tej samej nazwie i gdzie płyną rzeki. Nazywa się to spersonalizowane wyszukiwanie, gdy dane wyjściowe tego samego żądania dla różnych użytkowników znacznie się różnią.
  - Preferencje użytkownika, o czym ona (wyszukiwarka) może się „odgadnąć”, analizowanie linków wybranych przez użytkownika na stronach wyników wyszukiwania. To kolejny sposób na dostosowanie kontekstu żądania: użytkownik swoimi działaniami wydaje się mówić maszynie, co dokładnie chciał znaleźć. Z reguły wyszukiwarki starają się dodać do wyników wyszukiwania strony, które są istotne dla zapytania, ale dotyczą zupełnie innych dziedzin życia. Załóżmy, że użytkownik interesuje się filmami i dlatego często wybiera linki do stron z ogłoszeniami o filmach, nawet jeśli te strony nie są w pełni powiązane z pierwotnym żądaniem. Generując odpowiedź na jego kolejne zapytanie, system może preferować strony z opisami filmów, których tytuły zawierają słowa z treści zapytania.
  - Region co jest bardzo istotne przy przetwarzaniu zapytań handlowych związanych z zakupem towarów i usług od lokalnych dostawców. Jeśli interesują Cię wyprzedaże i rabaty i jesteś w Moskwie, najprawdopodobniej w ogóle nie interesuje Cię, jakie promocje na ten temat odbywają się w Petersburgu, chyba że wyraźnie wskażesz to w tekście zapytania. Przede wszystkim w wynikach wyszukiwania powinny pojawić się informacje o sprzedaży w Moskwie. Dlatego nowoczesne wyszukiwarki dzielą zapytania na zależne od położenia geograficznego I niezależny geograficznie. Najprawdopodobniej, jeśli wyszukiwarka uzna, że Twoje zapytanie jest zależne od lokalizacji geograficznej, automatycznie doda do niego wskaźnik regionu, który próbuje określić na podstawie informacji o Twoim dostawcy Internetu.
  - Czas. Wyszukiwarki czasami muszą analizować, kiedy miały miejsce zdarzenia opisane na stronie. Przecież informacje stale się dezaktualizują, a użytkownikowi potrzebne są przede wszystkim linki do najświeższych wiadomości, aktualnych prognoz i zapowiedzi wydarzeń, które jeszcze się nie zakończyły lub które mają nastąpić w przyszłości. Zrozumienie, że trafność strony zależy od czasu i porównanie jej z momentem wykonania żądania, również wymaga sporej dawki inteligencji ze strony wyszukiwarki.
  Następnie wyszukiwarka szuka hasła najbliższego znaczeniu kluczowe zapytanie w indeksie i generuje wyniki, sortując linki w kolejności malejącej według ich trafności. Każde kluczowe zapytanie w indeksie ma osobny ranking dla odpowiednich dla niego stron. System nie tworzy nowego zapytania kluczowego dla każdej kombinacji liter i cyfr, ale robi to na podstawie analizy częstotliwości określonych zapytań użytkowników. Wyszukiwarka może również pomylić rankingi z różnych kluczowych zapytań w wynikach wyszukiwania, jeśli uzna, że tego właśnie szuka użytkownik.

Ogólne zasady działania wyszukiwarki

Musisz zrozumieć, że usługi wyszukiwania w Internecie to bardzo, bardzo dochodowy biznes. Nie musisz wdawać się w szczegóły dotyczące życia firm takich jak Google i Yandex, ponieważ główną część ich zysków stanowią przychody z reklam kontekstowych. A ponieważ wyszukiwanie w Internecie jest niezwykle dochodowym biznesem, konkurencja między takimi firmami jest bardzo poważna. Co decyduje o konkurencyjności na rynku wyszukiwarek internetowych? Odpowiedzią jest jakość wyników wyszukiwania. Logiczne jest, że im jest on wyższy, tym więcej nowych użytkowników zyskuje system i tym bardziej wartościowy jest on umieszczany na stronach tych samych wyników wyszukiwania. reklama kontekstowa. Twórcy wyszukiwarek wkładają wiele wysiłku w „oczyszczanie” wyników wyszukiwania z różnego rodzaju śmieci informacyjnych, popularnie zwanych spamem. Jak to się robi, opiszemy bardziej szczegółowo w osobnym artykule, ale tutaj podam ogólne zasady zachowania wyszukiwarek, formułowane w formie wniosków na podstawie wszystkich powyższych.

Wyszukiwarka, reprezentowana przez swoje pająki i roboty, stale skanuje Internet w poszukiwaniu nowych stron i aktualizacji istniejących, ponieważ nieistotne informacje są niżej cenione.

Wyszukiwarka okresowo aktualizuje ranking zasobów na podstawie ich trafności dla kluczowych zapytań, gdyż w indeksie stale pojawiają się nowe strony. Proces ten nazywany jest aktualizacją wyników wyszukiwania.

Ze względu na ogromną ilość informacji zamieszczanych w sieci WWW oraz ograniczone zasoby samej wyszukiwarki, wyszukiwarka zawsze stara się pobrać tylko to, co jest (jej zdaniem) niezbędne. W jego arsenale znajdują się wszelkiego rodzaju filtry, które odcinają wiele, co jest niepotrzebne już na etapie indeksowania lub wyrzucają spam z indeksu na podstawie wyników aktualizacji wyników wyszukiwania.

Analizując żądanie, nowoczesne wyszukiwarki starają się wziąć pod uwagę nie tylko treść samego żądania, ale także jego otoczenie: wspomniany wcześniej kontekst i preferencje użytkownika, a także czas żądania, region , i wiele więcej.

Na trafność konkretnej strony wpływają nie tylko jej parametry wewnętrzne (struktura, treść), ale także parametry zewnętrzne, takie jak linki do strony z innych serwisów oraz zachowanie użytkowników podczas jej przeglądania.

Praca wyszukiwarek jest stale udoskonalana. Idealne działanie wyszukiwarki (dla człowieka) jest możliwe tylko wtedy, gdy wszelkie decyzje dotyczące indeksowania i rankingu podejmowane są przez komisję złożoną z dużej liczby specjalistów ze wszystkich dziedzin i obszarów działalności człowieka. Ponieważ jest to nierealne, taką prowizję zastępują systemy ekspertowe, algorytmy wyszukiwania heurystycznego i inne elementy sztucznej inteligencji. Prawdopodobnie praca wszystkich tych podsystemów mogłaby również dać bardziej adekwatne wyniki, gdyby udało się przetworzyć absolutnie wszystkie dane dostępne w otwarty dostęp w Internecie, ale jest to prawie niemożliwe. Niedoskonała sztuczna inteligencja i ograniczone zasoby to dwa główne powody, dla których wyniki wyszukiwania nie zawsze zadowalają użytkowników, ale wszystko to można z czasem wyleczyć. Dziś moim zdaniem działanie najsłynniejszych i największych wyszukiwarek w pełni odpowiada potrzebom i oczekiwaniom ich użytkowników.