Trendy rozwoju wyszukiwarek. Wyszukiwarki Perspektywy rozwoju wyszukiwarek

Algorytmy rankingu wyszukiwarek nieustannie ewoluują i ulepszają. Głównymi celami tego rozwoju są: Wysoka jakość wyszukiwanie użytkowników i tworzenie maksymalnych trudności w manipulacji wyniki wyszukiwania optymalizatory stron internetowych.

Cele te są ze sobą powiązane, ponieważ jakość wyszukiwania bezpośrednio zależy od możliwości lub niemożności wpływania na nie przez zainteresowane strony.

Kiedy wyszukiwarki Yandex i Google dopiero zaczynały swój rozwój, ich algorytmy rankingowe były prymitywne, co ułatwiało manipulowanie nimi. Na trafność strony duży wpływ miały następujące czynniki: metatagi, gęstość słowa kluczowe na stronie i podświetl tagi. Pozwoliło to jednak „czarnym” optymalizatorom, którzy promowali witryny skoncentrowane nie na ludziach, ale na wyszukiwarkach, aby wykorzystać przepływ odwiedzających, pogorszyć ogólną jakość wyszukiwania.

W rezultacie wyszukiwarki nie biorą już pod uwagę metatagu Keywords i najwyraźniej tagu Description, który jest teraz używany tylko do tworzenia fragmentu ( krótki opis stron) w Google. Zmniejszyło się również znaczenie innych wewnętrznych czynników optymalizacyjnych, które umożliwiały złośliwe manipulowanie wynikami wyszukiwania.

Następnie optymalizatorzy stwierdzili, że liczba Zewnętrzne linki w witrynie, a także ich kotwice wpływają na pozycję witryny w wynikach wyszukiwania. Od razu pojawiły się tysiące katalogów stron i programów do automatycznego przesyłania do nich (najsłynniejszym tego typu programem jest AllSubmitter).

Wyszukiwarki dość szybko wykluczono większość katalogów witryny, drastycznie zmniejszając wydajność przebiegów przez katalogi, które zaczęły być masowo wykorzystywane przez optymalizatory.

Odtąd skuteczne próby manipulowania wynikami wyszukiwania zaczęły polegać głównie na kupowaniu linków ze zwykłych witryn, które nie zostały utworzone na skryptach katalogowych.

Bardzo szybko wyszukiwarki nauczyły się rozpoznawać ciężką pracę związaną ze sprzedażą linków i nakładane sankcje w postaci filtra lub bana na strony stworzone wyłącznie do sprzedaży linków. Ponadto w niektórych przypadkach strony, do których kupowane są linki, mogą podlegać sankcjom.

Wszystkie etapy rozwoju wyszukiwarek reprezentują następujący logiczny łańcuch:

1. Tworzony jest podstawowy algorytm rankingu.

2. Optymalizatory identyfikują w nim słabe punkty i zaczynają masowo manipulować wynikami wyszukiwania.

3. Wyszukiwarki poważnie dostosowują algorytm rankingu, zmieniając stopień wpływu niektórych czynników.

4. Optymalizatory analizują te zmiany, dostosowują się do nowych warunków i ponownie zaczynają masowo manipulować wyszukiwaniem.

Jednak algorytmy rankingu wyszukiwarek w ostatnie czasy nie tylko zmieniają znaczenie różnych czynników, ale także ogólnie zmieniają się jakościowo.

Wszechstronne uwzględnienie setek różnych czynników staje się istotne i znosi się jedną formułę rankingową, zamiast której stosuje się system macierzy. Przykładem tego jest algorytm Yandex „Snezhinsk” (opis tego algorytmu znajduje się na stronie http://seo-in.ru/poiskovaya-optimizaciya/62-snezhinsk.html).

Za pomocą nowy system, dla każdego indywidualnego żądania generowana jest własna formuła rankingu, która może być zupełnie inna niż formuła rankingu dla innych żądań. Jeśli wcześniej dość łatwo było zidentyfikować pewne wspólne zależności w zasadach rankingu wyszukiwarek, to w przyszłości po prostu nie będzie wspólnych zależności.

Płatne narzędzia do promocji strony najprawdopodobniej pozostaną, ale ich użycie najprawdopodobniej stanie się nieopłacalne. Taką właśnie sytuację obserwujemy obecnie w anglojęzycznym sektorze Internetu.

W niedalekiej przyszłości największy wpływ na promocję witryny będzie miała kombinacja następujących głównych czynników:

szeroki wachlarz wysokiej jakości treści (wyjątkowych i użytecznych);
zaufanie do witryny;
wiek witryny;
rozsądna optymalizacja wewnętrzna.

Wszelkie szczególne postępy techniczne oparte na identyfikacji słabych punktów algorytmów rankingowych prawdopodobnie stracą na znaczeniu. Przynajmniej o to chodzi.

PAŃSTWOWA AKADEMIA TECHNOLOGICZNA KOVROV

Informacje i informacje analityczne z zakresu informatyki

na temat: „Nowoczesne wyszukiwarki, trendy rozwojowe jednego z liderów rynku Yandex”.

Ukończone przez: studenta I roku

3 grupy akademickie

Makarow Iwan

Wstęp. 3

Główną częścią. cztery

Wniosek. jedenaście

Wstęp.

Yandex to rosyjska firma informatyczna, która posiada wyszukiwarkę o tej samej nazwie w sieci i portalu internetowym. Wyszukiwarka Yandex jest ósmą co do wielkości witryną wyszukiwania na świecie pod względem liczby przetworzonych zapytań (1,290 miliarda, statystyki z sierpnia 2009 r.) i drugim co do wielkości serwerem wyszukiwania nieanglojęzycznym po chińskim Baidu.

Strona internetowa firmy została otwarta 23 września 1997 roku. 2000 to rok powstania Yandex. Yandex został założony przez CompTek (firmę, która opracowała i wspierała wyszukiwarkę Yandex). Firma osiągnęła samowystarczalność w 2002 roku, obroty za rok 2006 - 72,6 mln dolarów, zysk netto - 29,9 mln, za 2005 - 35,6 mln dolarów, zysk netto - 13,6 mln.

Głównym i priorytetowym kierunkiem firmy jest rozwój wyszukiwarki, ale z biegiem lat Yandex stał się multiportalem. W 2009 roku Yandex ma ponad 30 usług. Najpopularniejsze to: Yandex.News, Yandex.Fotki, Yandex.Toys i inne.

Siedziba firmy znajduje się w Moskwie. Firma posiada biura w Petersburgu, Jekaterynburgu, Odessie, Symferopolu i Kijowie. W połowie czerwca 2008 firma ogłosiła otwarcie Yandex Labs - biura w USA w Kalifornii.

Główną częścią.

Historia firmy.

Wyszukiwarka Yandex.Ru została oficjalnie ogłoszona 23 września 1997 roku na wystawie Softool. Głównymi cechami wyróżniającymi Yandex.Ru w tym czasie było sprawdzanie wyjątkowości dokumentów (z wyłączeniem kopii w różnych kodowaniach), a także kluczowe właściwości wyszukiwarki Yandex, a mianowicie: uwzględnienie morfologii języka rosyjskiego (w tym wyszukiwanie dokładnej formy wyrazowej), wyszukiwanie z uwzględnieniem odległości (w tym w akapicie, dokładna fraza) oraz starannie opracowany algorytm oceny trafności (korespondencji odpowiedzi na zapytanie), uwzględniający nie tylko ilość zapytanie o słowa znalezione w tekście, ale także o „kontrast” słowa (jego względną częstotliwość w tym dokumencie), odstępy między słowami i pozycję słowa w dokumencie.

Nieco później w dziale „Opowieści” (obserwacje na temat treści rosyjskiego Internetu) pojawiła się pierwsza opowieść o Runecie - „Sieć - humanizm czy chernukha?”. A w sekcji „Liczby” - pierwsze oszacowanie objętości Runetu, 5 tysięcy serwerów i 4 GB tekstów.

Dwa miesiące później, w listopadzie 1997 roku, zostało zaimplementowane zapytanie w języku naturalnym. Od teraz Yandex.Ru można uzyskać po prostu „po rosyjsku”, zadając długie zapytania, na przykład: „gdzie kupić komputer”, „produkty modyfikowane genetycznie” lub „międzynarodowe”. połączenie telefoniczne i uzyskaj dokładne odpowiedzi. Średnia długość zapytania w Yandex.Ru wynosi teraz 2,7 słowa. W 1997 roku było to 1,2 słowa, kiedy użytkownicy wyszukiwarek byli przyzwyczajeni do stylu telegraficznego.

W 1998 roku Yandex.Ru wprowadził możliwość „znalezienia podobnego dokumentu”, listy znalezionych serwerów, wyszukiwania w określonym zakresie dat i sortowania wyników wyszukiwania według czasu. Ostatnia zmiana. W ciągu tego roku „wolumen” rosyjskiego Internetu podwoił się, co doprowadziło do konieczności optymalizacji wyszukiwarek. Zarówno wtedy, jak i teraz (przy objętości 200 GB) szybkość wyszukiwania na Yandex.Ru wynosi ułamek sekundy.

W 1999 r. Runet urósł o rząd wielkości, zarówno pod względem objętości tekstów, jak i liczby użytkowników. Był to również rok szybkiego rozwoju dla Yandex.Ru. Nowy robot wyszukiwania umożliwił optymalizację i przyspieszenie ominięcia witryn Runet. Dziś baza wyszukiwania Yandex.Ru jest dwukrotnie większa niż u najbliższych konkurentów.

Nowy robot umożliwił udostępnienie użytkownikom nowych funkcji - wyszukiwanie w różnych obszarach tekstowych (nagłówki, linki, adnotacje, adresy, podpisy do zdjęć), ograniczenie wyszukiwania do grupy witryn, wyszukiwanie linków i obrazów oraz wyróżnianie dokumentów po rosyjsku. Przeszukano kategorie katalogu i po raz pierwszy w Runecie wprowadzono pojęcie „indeksu cytowań” - liczby zasobów, które odnoszą się do tego.

Przez cały rok trwały prace nad ilościową i jakościową analizą Runetu. Otwarto indeks NINI (indeks „Niezgodność interesów ludności Internetu”), pokazujący dynamikę zmian zainteresowań internautów. Otwarto forum wyszukiwania i nową usługę - subskrypcję wniosku, to znaczy możesz zostawić swoją prośbę na Yandex.Ru i regularnie otrzymywać informacje e-mailem o pojawieniu się nowych i / lub zmodyfikowanych dokumentów odpowiadających temu żądanie. Na początku roku szkolnego otwarto „Family Yandex”, filtrując wyniki wyszukiwania z obscenicznego języka i pornografii.

Pochodzenie słowa „Yandex”.

Dziś „Yandex” to słowo z codziennego życia internauty. Często można go znaleźć w Internecie „Co, Yandex został już anulowany?”, „Samotność jest wtedy, gdy Yandex jako pierwszy pogratuluje ci urodzin”, „Wszystkie pytania do Yandex”. Wielu już myśli, że tak było od zawsze. W pewnym sensie to prawda – Yandex tak naprawdę pojawił się jednocześnie z masowym Internetem, kiedy dostęp do sieci przestał być udziałem wybranych specjalistów technicznych. Ale samo słowo „Yandex” jest sztuczne, ma swoich autorów i własną historię.

W 1993 roku Arkady Volozh, przyszły dyrektor generalny przyszłej firmy Yandex, i Ilya Segalovich, przyszły dyrektor technologiczny firmy, opracowali, jak się później okazało, główną technologię - wyszukiwanie nieustrukturyzowanych informacji, z uwzględnieniem języka rosyjskiego.

Osiedle trzeba było jakoś nazwać. Ilya pamięta, jak zapisał w kolumnie różne pochodne słów opisujących znaczenie technologii. Szybko stało się jasne, że wyszukiwanie („szukaj”) w języku rosyjskim brzmi zbyt dysonansowo i nie można na jego podstawie stworzyć udanej kombinacji. Indeks słów był bardziej odpowiedni. Tak więc na liście nazw pojawił się yandex - jeszcze jeden indeksator ("inny indeksator" lub indeks języka). Zarówno Ilya, jak i Arkady polubiły tę opcję - jest łatwa do wymówienia, łatwa do napisania. Ponadto Arkady zasugerował literę „I” w nazwie – konkretnie rosyjsko – rosyjską i zostaw ją dla jasności. Tak więc wymyślono słowo „Yandex”. A plik programu nazywał się odpowiednio yandex.exe.

W 1996 roku, kiedy wyszukiwanie zostało po raz pierwszy zaoferowane ogółowi społeczeństwa jako technologia, a nie jako część produktu treściowego (wcześniej istniał International Classifier of Inventions i Bible Computer Reference), linia programów została o nazwie Yandex, a nazwa ta została wyjaśniona jako Language iNDEX. Pierwszymi programami w linii były Yandex.Site (wyszukaj na jednej z własnych witryn - ten produkt nazywa się teraz Yandex.Server) i Yandex.Dict (prefiks morfologiczny dla AltaVista, jedynej wyszukiwarki, która w tamtym czasie wiedziała, jak to jakoś pracować z cyrylicą) .

Ale oczywiście słowo „Yandex” stało się powszechne od września 1997 r., Po uruchomieniu wyszukiwarki www.yandex.ru. Od tego czasu użytkownicy systemu proponują nam swoje interpretacje. Na przykład Tyoma Lebedev, przygotowująca się do narysowania pierwszej wersji strona główna Witryna Yandex powiedziała: „Ach, rozumiem, że jeśli pierwsze „ja” w indeksie słów zostanie przetłumaczone na język rosyjski, będzie to „ja”, czyli będzie to „Yandex”. Autorzy uczciwie przyznali, że nie myśleli o tym, ale - dobra interpretacja jest akceptowana. Wtedy ktoś w sieci zasugerował inną opcję, widząc dwie strony Internetu, INdex i YANDEX. To słowo pojawiło się już jako pochodne, na przykład pracownicy Yandex są często nazywani „Yandexoidami”, a rzadziej „Yandexianami”.

Wyszukaj „Yandeks”.

Wyszukiwanie Yandex umożliwia wyszukiwanie w Runet, Uanet i Kaznet (od 14 października 2009 r.) dokumentów w języku rosyjskim, ukraińskim, białoruskim, rumuńskim, angielskim, niemieckim i francuskim, biorąc pod uwagę morfologię języka rosyjskiego i język angielski i bliskość słów w zdaniu. Od początku 2006 r. Wyszukiwanie Yandex jest instalowane w portalu Mail.ru.

Oprócz stron internetowych Format HTML, Yandex indeksuje dokumenty w formacie PDF (Adobe Acrobat), Rich Text Format (RTF), formatach binarnych Microsoft Word, Microsoft Excel, Microsoft PowerPoint, SWF (Macromedia Flash), RSS (blogi i fora).

Charakterystyczną cechą Yandex jest możliwość dostrojenia zapytania wyszukiwania. Jest to realizowane za pomocą elastycznego języka zapytań. Na przykład dla operacji wykluczenia można określić zakres: zapytanie A ~ ~ B znajdzie dokumenty (strony), w których występuje A, ale nie ma C, a zapytanie A ~ B znajdzie dokumenty, w których słowo B nie występuje ze słowem A w jednym zdaniu. Podobnie operator & szuka kombinacji słów kluczowych w zdaniu, a && szuka całego dokumentu.

Operator! pozwala również na wyłączenie morfologii dla określonego słowa!! pozwala określić formę normalną, co pozwala ominąć niektóre problemy związane z homonimią. Na przykład zapytanie !!Iwanow znajdzie Iwanowa i Iwanowa, ale nie Iwanowa.

Domyślnie Yandex wyświetla 10 linków na każdej stronie wyników, w ustawieniach wyników wyszukiwania możesz zwiększyć rozmiar strony do 20, 30 lub 50 znalezionych dokumentów. Czasami kolejność witryn na tych stronach może się różnić, ponieważ bazy danych dla tych wyników nie są aktualizowane w tym samym czasie.

Jeśli dla zapytania znaleziono dużo linków, strona wyników sugeruje ograniczenie zakresu wyszukiwania - według regionu (czyli według zakresu IP) lub daty. Jeśli nic nie zostanie znalezione dla żadnego słowa lub słów, proponuje się zastąpienie go / ich podobnymi (ponieważ proponowane opcje zależą od częstotliwości znajdowania podobnych słów, czasami pojawiają się zabawne sytuacje). Proponuje się również poprawienie słów wpisanych w złym układzie klawiatury.

Od czasu do czasu zmieniają się algorytmy Yandex odpowiedzialne za istotność problemu, co prowadzi do zmian w wynikach zapytań wyszukiwania. Ostatnie oficjalnie ogłoszone zmiany miały miejsce w marcu 2004, kwietniu 2005 i styczniu 2007; według nieoficjalnych informacji jest ich znacznie więcej (np. ostatni w sierpniu-wrześniu 2007 r.).

W szczególności zmiany te są skierowane przeciwko spamowi wyszukiwania, co prowadzi do nieistotnych wyników dla niektórych zapytań (rzadziej dla całych rodzin zapytań). Przeciwko spamowi wyszukiwawczemu, który nie jest automatycznie odfiltrowywany, stosuje się półautomatyczną i ręczną moderację emisji (za pomocą tzw. „optymalizatorów białego kapelusza”), a także bezpośrednią odmowę indeksowania „złośliwych” witryn .

Właściciele, zarządzanie i wskaźniki wydajności.

Ponad 30% firmy, według własnych danych, należy do funduszy inwestycyjnych ru-Net Holdings i Baring Vostok Capital Partners, 15% - do funduszu Tiger Technologies, około 30% - do założycieli firmy i 20 % - menedżerom i innym udziałowcom mniejszościowym.

W połowie września 2009 r. okazało się, że spółka-matka Yandex, holenderska firma Yandex N.V., wyemitowała akcję uprzywilejowaną, która została przekazana Sbierbankowi za symboliczne 1 euro. Jedynym prawem, jakie daje akcja, jest zawetowanie sprzedaży ponad 25% akcji spółki.

Kierownictwo: Rkady Volozh - Dyrektor Generalny, Ilya Segalovich - Dyrektor Techniczny, Elena Kolmanovskaya - Redaktor Naczelny, Aleksiej Tretiakow - Dyrektor Handlowy, Svetlana Kondrashova - Dyrektor ds. Reklamy.

Wszystkie usługi Yandex.

Wyszukiwanie informacji:

Szukaj i ya.ru

Katalog - katalog stron internetowych posortowany według indeksu cytowań. Jest uzupełniany ręcznie przez redaktorów katalogu, istnieje możliwość odpłatnej rejestracji.

Wiadomości — najważniejsze wiadomości dnia, pochodzące z mediów głównego nurtu prezentowanych w Internecie. Możliwe jest wyszukiwanie według wiadomości, a także subskrybowanie wiadomości dla danego zapytania.

Yandex.XML - korzystając z tej usługi, możesz wykonywać automatyczne zapytania wyszukiwania do Yandex w formacie xml.

Szukaj na blogach i forach - szukaj zasobów, które mają reprezentację RSS, a także ocenę bieżących zapytań, popularnych kategorii i wiadomości.

Market - wyszukiwanie ofert sprzedaży towarów i usług, wybór modeli.

Wyszukiwanie „medytacyjne” to jedyna usługa wyszukiwania na świecie, która ma przycisk „Szukaj”, ale nie ma paska wyszukiwania.

Słowniki - encyklopedie, informatory, słowniki tłumaczeniowe.

Zdjęcia - wyszukiwanie obrazów.

Wideo - wyszukiwanie wideo.

Mapy - mapy Europy i Rosji, mapy głównych miast Federacji Rosyjskiej (do domu), wyszukiwanie na mapie, a także możliwość "wędrowania" po ulicach niektórych miast.[źródło?]

Adresy - szukaj informacji kontaktowych po nazwach firm i organizacji.

Plakat - informacje o dostępnych wydarzeniach: kinie, teatrze, koncertach, sporcie, klubach itp.

Pogoda - prognoza pogody.

Program TV - programy centralne, regionalne i kanały satelitarne TELEWIZJA.

Rozkłady jazdy - rozkłady jazdy pociągów i samolotów.

Spersonalizowane:

Yandex.Video - hosting wideo i wyszukiwanie wideo.

Poczta - e-mail.

Ya.ru to serwis blogowy.

Yandex.Fotki - hosting zdjęć.

Ochrona przed spamem - filtrowanie spamu.

Ludzie - darmowy hosting dla osobistych stron internetowych, a także usługa przechowywania plików.

Pieniądze Yandex - system płatności, który pozwala płacić za towary i usługi w Internecie.

Zakładki to system przechowywania zakładek zintegrowany z Yandex. bar."

Subskrypcje - subskrypcja nowości.

Kanał - czytnik RSS online

Yandex.Direct to system do umieszczania reklam kontekstowych za opłatą za kliknięcie.

Puchar to regularne zawody w wyszukiwarkach internetowych.

Miasta - internetowe indeksy miast rosyjskich.

Taryfa - szukaj według taryf dostawców Internetu.

Pocztówki

Wiosna - automatyczne generowanie esejów filozoficznych.

Internet - mierzy szybkość połączenia internetowego.

Mirror — kopia lustrzana głównych dystrybucji systemu operacyjnego Linux, a także FreeBSD i innych projektów.

Yandex. Sieć lokalna - zapewnia możliwość korzystania ze wszystkich usług Yandex nie według stawki federalnej, ale według stawki lokalnej.

Metrica - pozwala mierzyć ruch, analizować zachowania użytkowników oraz oceniać skuteczność kampanii reklamowych.

Produkty programowe:

Filtr antyspamowy Spamodefense do użytku korporacyjnego (płatny).

Program do wyszukiwania plików Yandex Desktop Search na komputerze.

Komunikator internetowy Ya.Online oparty na Jabberze. Umożliwia także otrzymywanie powiadomień o nowych listach od Yandex. Poczta o nowych wydarzeniach ze stron Odnoklassniki.ru i VKontakte.

Program Punto Switcher to automatyczny przełącznik układów.

Widżety dla systemów operacyjnych Mac OS X i Windows Vista, a także dla Przeglądarka Opera: wyszukiwanie, ruch, zegar, wiadomości.

Yandex ICQ - specjalna wersja klienta ICQ z symbolami i integracją niektórych usług Yandex.

Interesujące fakty.

1) Średnia długość zapytania w Yandex.Ru wynosi teraz 2,7 słowa. W 1997 roku było to 1,2 słowa, kiedy użytkownicy wyszukiwarek byli przyzwyczajeni do stylu telegraficznego.

2) Yandex pojawił się przed www.yandex.ru. Słowo Yandex zostało wynalezione w 1993 roku i zostało publicznie wypowiedziane w 1996 roku, a następnie oznaczało nie firmę ani wyszukiwarkę, ale technologię wyszukiwania na własnym serwerze i morfologiczny przedrostek wyszukiwarki Altavista.com.

3) www.yandex.ru został uruchomiony, aby zademonstrować możliwości technologii Yandex, nikt nie myślał o zarabianiu na reklamie.

4) Hasło „Jest wszystko” zostało wymyślone w 2000 roku. W tym samym roku Yandex uruchomił pierwszą reklamę strony internetowej w rosyjskiej telewizji.

5) Według samego Yandexu około 80 procent jego odbiorców pochodzi z Rosji, około 3 procent z Europy i nieco ponad 1 procent ze Stanów Zjednoczonych.

6) Część personelu technicznego Yandex działa pod wspólnym pseudonimem „Platon Shchukin”.

Wniosek.

Więc teraz mamy pełna informacja o Yandexie. Wiemy kto nim zarządza, jak działa od środka, jaka jest historia rozwoju firmy i wiele więcej. Teraz możemy łatwo zrozumieć, dlaczego Yandex jest liderem na rynku rosyjskim i światowym. Myślę, że głównym powodem sukcesu Yandexa jest to, że wyszukiwarka dobrze radzi sobie ze złożonością języka rosyjskiego. Dlatego wyszukiwarki opracowane dla języka angielskiego nie mogą indeksować i klasyfikować również dokumentów w języku rosyjskim. Drugą zaletą, jaką widzę, są kreatywne, przyjazne, wesołe hasła, którymi Yandex zachęca użytkowników do korzystania z jego usług.Tematyczne zdjęcia, które Yandex umieszcza w pobliżu swojej linii wyszukiwania, są znacznie bardziej dostępne dla rosyjskiego użytkownika.

Liderzy, tendencja wzrost liczby wniosków będzie kontynuowany. Obecni dzisiaj rynek Płatność elektroniczna systemy... jeszcze jeden przełomowe wydarzenie: Paycash podpisał umowę z największym wyszukiwarka system ...

Okręg Federalny Wołgi: współczesny status i perspektywy rozwój(na przykładzie Republiki Tatarstanu)

Zajęcia >> Ekonomia

... trendy dalej rozwój. ... lider. ... rozwój jeden z najważniejsze... złożone Szukaj i akrobacyjne... rynek. Rozwój ... współczesny technologie, sprzęt o wysokiej wydajności, współczesny... supertoksyny; - rozwój systemy monitorowanie terenu...

Nowoczesny socjologiczne problemy kultury fizycznej i sportu

Streszczenie >> Socjologia

Aby promować politykę liderzy, partie, ... całość podmiot-przedmiot system społeczno-pedagogiczne ... kreatywne wyszukiwarka działalność... rynek i państwo. Rynek ... Trendy rozwój współczesny Ruch Olimpijski Rosja to jeden z ...

Trendy rozwój przemysł naftowy w światowej gospodarce

Streszczenie >> Ekonomia

Świat rynek olej: trendy rozwój i... już przeprowadzone Szukaj-prace poszukiwawcze, ... Ocena wstępna. lider w światowej konsumpcji... jest jeden z niezbędne elementy współczesnyświatowa ekonomia... światowa ekonomia system, wtedy...

Aby przeszukać indeks, użytkownik musi sformułować zapytanie i wysłać je do wyszukiwarki. Żądanie może być bardzo proste, przynajmniej powinno składać się z jednego słowa. Aby zbudować bardziej złożone zapytanie, musisz użyć operatorów logicznych, które umożliwiają doprecyzowanie i rozszerzenie warunków wyszukiwania.

Najczęściej używane operatory logiczne to:

AND - wszystkie wyrażenia połączone operatorem "AND" muszą znajdować się na przeszukiwanych stronach lub dokumentach. Niektóre wyszukiwarki używają operatora „+” zamiast słowa AND.
OR - co najmniej jedno z wyrażeń połączonych operatorem „OR” musi znajdować się na przeszukiwanych stronach lub dokumentach.
NIE - wyrażenie lub wyrażenia następujące po operatorze "NIE" nie powinny (nie powinny) pojawiać się na przeszukiwanych stronach lub dokumentach. Niektóre wyszukiwarki używają operatora „-” zamiast słowa NIE.
FOLLOWED BY - jedno z wyrażeń musi natychmiast następować po drugim.
NEAR - jedno z wyrażeń musi znajdować się w odległości nie większej niż określona liczba słów.
Cytaty — cytowane słowa są traktowane jako fraza, którą można znaleźć w dokumencie lub pliku.

Perspektywy rozwoju wyszukiwarek

Wyszukiwanie podawane przez operatory logiczne jest dosłowne - maszyna wyszukuje słowa lub frazy dokładnie tak, jak zostały wprowadzone. Może to powodować problemy, gdy wprowadzone słowa są niejednoznaczne. Na przykład, angielskie słowo„Łóżko” może oznaczać łóżko, kwietnik, miejsce tarła ryb i wiele więcej. Jeśli użytkownik jest zainteresowany tylko jednym z tych znaczeń, nie potrzebuje stron ze słowem, które ma inne znaczenia. Możliwe jest zbudowanie dosłownego zapytania mającego na celu odcięcie niechcianych wartości, ale dobrze by było, gdyby sama wyszukiwarka zapewniła odpowiednią pomoc.

Jednym z wariantów wyszukiwarki jest wyszukiwanie koncepcyjne. Część tego wyszukiwania obejmuje wykorzystanie analizy statystycznej stron zawierających słowa lub frazy wprowadzone przez użytkownika w celu znalezienia innych stron, które mogą go zainteresować. Oczywiste jest, że wyszukiwanie koncepcyjne musi przechowywać więcej informacji o każdej stronie, a każde zapytanie wyszukiwania będzie wymagało jeszcze przetwarzanie danych. Wiele zespołów programistycznych pracuje obecnie nad poprawą wydajności i wydajności tego typu wyszukiwarek. Inni badacze skupili się na innym obszarze, który nazywa się zapytaniami w języku naturalnym (zapytania w języku naturalnym).

Ideą zapytań w języku naturalnym jest to, aby użytkownik formułował zapytanie w taki sam sposób, w jaki pytałby osobę siedzącą obok - bez konieczności śledzenia operatorów logicznych lub złożonych struktur zapytań. Najpopularniejsza nowoczesna witryna z językiem naturalnym Zapytania to AskJeeves.com, który analizuje zapytanie w celu zidentyfikowania słów kluczowych, które są następnie wykorzystywane do wyszukiwania w indeksie witryn zbudowanych przez tę wyszukiwarkę. Ta witryna obsługuje tylko proste wyszukiwania, ale programiści pracują w wysoce konkurencyjnym środowisku, opracowując wyszukiwarkę w języku naturalnym zdolną do obsługi bardzo złożonych zapytań.

Różnorodne technologie i metody powstałe na przestrzeni lat rozwoju teorii i praktyki wyszukiwania informacji znajdują zastosowanie we współczesnych systemach informatycznych. Wraz z udoskonalaną klasyczną biblioteką IPS następuje intensywny rozwój w dziedzinie globalnego Internetu IPS, który stał się główną siłą napędową nowoczesne technologie wyszukiwanie informacji. Gigantyczna ilość dostępnych zasobów informacyjnych wymaga zastosowania skalowalnych algorytmów wyszukiwania. Hiperteksty pozwalają na wykorzystanie całkowicie nowych modeli wyszukiwania opartych na analizie semantycznej zbiorów dokumentów. Duża szybkość aktualizacji stron, ich swobodne umieszczanie oraz brak gwarancji stałego dostępu prowadzi do konieczności ciągłego ponownego indeksowania odpowiednich zasobów informacji.

Wreszcie niejednorodny skład użytkowników, którzy często nie mają umiejętności pracy z wyszukiwarką, zmusza nas do szukania skutecznych sposobów formułowania zapytań, które działają z minimalną ilością informacji początkowych.

6.1. Słownikowe systemy wyszukiwania informacji

Słownik IPS to zdecydowanie najszybsze i najbardziej wydajne wyszukiwarki, które są najczęściej używane w Internecie. Wyszukiwanie niezbędnych informacji w słowniku IPS odbywa się za pomocą słów kluczowych. Wyniki wyszukiwania są generowane w trakcie pracy takiego lub innego algorytmu wyszukiwania ze słownikiem i zapytaniem skompilowanym przez użytkownika w IPL.

Struktura słownictwa IPS (Rysunek 13) składa się z następujących komponentów: przeglądarka dokumentów, interfejs użytkownika, wyszukiwarka, baza danych wyszukiwania obrazów i agent indeksowania.

Tablica informacyjna zawiera zasoby informacyjne potencjalnie dostępne dla użytkownika. Obejmuje to dokumenty tekstowe i graficzne, informacje multimedialne itp. Dla globalnego IPS jest to cały Internet, gdzie wszystkie dokumenty charakteryzują się unikalnym adresem URL (URL - Uniform Resource Locator).

Interfejs wyszukiwarki określa sposób interakcji użytkownika z IPS. Dotyczy to m.in. zasad generowania zapytań, mechanizmu przeglądania wyników wyszukiwania itp. Interfejs wyszukiwarek internetowych jest zazwyczaj zaimplementowany w środowisku przeglądarki internetowej. Do pracy z informacjami dźwiękowymi i wideo wykorzystywane jest odpowiednie oprogramowanie.

Główną funkcją wyszukiwarki jest implementacja przyjętego modelu wyszukiwania. Najpierw wniosek użytkownika, przygotowany w ILP, jest tłumaczony zgodnie z ustalonymi zasadami na wniosek formalny. Następnie, podczas wykonywania algorytmu wyszukiwania, zapytanie jest porównywane z obrazami wyszukiwania dokumentów z bazy danych. Na podstawie wyników porównania tworzona jest ostateczna lista znalezionych dokumentów. Zwykle zawiera nazwę, rozmiar, datę powstania i krótką adnotację dokumentu, link do niego, a także wartość miary podobieństwa dokumentu i zapytania.

Rys.13. Struktura słownictwa IPS.

Lista podlega rankingowi (uporządkowaniu według jakiegoś kryterium, zwykle według wartości formalnej).

Baza obrazów wyszukiwania dokumentów służy do przechowywania opisów zindeksowanych dokumentów. Struktura typowej bazy słownictwa IPS została szczegółowo opisana w Części 1 Wytycznych.

Agent indeksowania wykonuje indeksowanie dostępnych dokumentów w celu skompilowania ich obrazów wyszukiwania. W systemach lokalnych ta operacja jest zwykle wykonywana jednorazowo: po zakończeniu tworzenia tablicy dokumentów wszystkie informacje są indeksowane, a obrazy wyszukiwania są wprowadzane do bazy danych. W dynamicznej zdecentralizowanej tablicy informacyjnej w Internecie stosowane jest inne podejście. Specjalny program robota, zwany pająkiem (pająkiem) lub robotem (pełzaczem), stale omija sieć. Przejścia między różnymi dokumentami odbywają się za pomocą zawartych w nich hiperłączy. Szybkość aktualizacji informacji w bazie danych wyszukiwarki jest bezpośrednio związana z szybkością przeszukiwania sieci. Na przykład potężny robot indeksujący może przemierzać cały Internet w ciągu kilku tygodni. Z każdym nowym cyklem przeszukiwania baza danych jest aktualizowana, a stare nieprawidłowe adresy są usuwane.

Niektóre dokumenty dla wyszukiwarek są zamknięte. Są to informacje, do których można uzyskać dostęp lub uzyskać dostęp nie za pośrednictwem łącza, ale na żądanie z formularza. Obecnie opracowywane są inteligentne metody skanowania ukrytej części Internetu, ale nie zostały jeszcze szeroko rozpowszechnione.

Do indeksowania dokumentów hipertekstowych programy agentowe wykorzystują źródła: łącza hipertekstowe (href), nagłówki (tytuł), nagłówki (H1, H2 itd.), adnotacje, listy słów kluczowych (słowa kluczowe), podpisy do obrazów. Adresy URL służą do indeksowania informacji nietekstowych (na przykład plików przesyłanych przez protokół ftp).

Wykorzystywane są również możliwości indeksowania półautomatycznego lub ręcznego.

W pierwszym przypadku administratorzy zostawiają wiadomości o swoich dokumentach, które agent indeksujący po pewnym czasie przetwarza, w drugim administratorzy samodzielnie wprowadzają niezbędne informacje do bazy IPS.

Coraz więcej IPS wykonuje indeksowanie pełnotekstowe. W takim przypadku do kompilacji obrazu wyszukiwania używany jest cały tekst dokumentu. Formatowanie, linki itp. stają się w tym przypadku dodatkowym czynnikiem wpływającym na znaczenie danego terminu. Termin tytułowy będzie miał większą wagę niż termin tytułowy rysunku.

Nowoczesne, duże systemy IS muszą przetwarzać setki żądań w ciągu sekundy. Dlatego każde opóźnienie może prowadzić do odpływu użytkowników, a w konsekwencji do niepopularności systemu i awarii komercyjnych. Z punktu widzenia architektury takie IPS są realizowane jako rozproszone systemy obliczeniowe składające się z setek komputerów rozmieszczonych na całym świecie. Algorytmy wyszukiwania i kod programowania są wysoce zoptymalizowane.

W IPS z dużą bazą dokumentów wykorzystywane są technologie przyspieszające ich pracę. separacja i przycinanie .

separacja polega na podzieleniu bazy danych na oczywiście bardziej istotne i mniej istotne części. Najpierw IPS wyszukuje dokumenty w pierwszej części bazy danych. Jeśli nie znaleziono żadnych dokumentów lub znaleziono za mało dokumentów, wyszukiwanie odbywa się w drugiej części.

Za pomocą przycinanie (Pruning - angielskie skrócenie, usunięcie) przetwarzanie wniosku jest automatycznie przerywane po znalezieniu wystarczającej liczby odpowiednich dokumentów.

Również szeroko stosowany modele wyszukiwania progowego , które określają pewne wartości progowe dla cech dokumentów wydawanych użytkownikowi. Na przykład trafność dokumentów jest zwykle ograniczona do pewnej wartości trafności

Wszystkie dokumenty o istotnej wartości są oferowane do uwagi użytkownika

W przypadku rankingu wyników wyszukiwania według daty, wartości progowe określają przedział czasowy dla daty modyfikacji dokumentów. Na przykład IPS może automatycznie odcinać dokumenty, które nie zmieniły się w ciągu ostatnich trzech lat.

Główną zaletą IPS typu słownikowego jest jego prawie całkowita automatyzacja. System samodzielnie analizuje zasoby wyszukiwania, opracowuje i przechowuje ich opisy oraz przeszukuje między tymi opisami. Zaletą takich systemów jest również szeroki zasięg zasobów internetowych. Znaczne ilości baz danych sprawiają, że IPS słownictwa jest szczególnie przydatny do wyczerpujących poszukiwań, złożonych zapytań lub do lokalizowania niejasnych informacji.

Jednocześnie ogromna liczba dokumentów w bazie danych systemu często prowadzi do znalezienia zbyt wielu dokumentów. Utrudnia to większości użytkowników analizę znalezionych informacji i uniemożliwia szybkie wyszukiwanie. Metody automatycznego indeksowania nie mogą uwzględniać specyfiki konkretnych dokumentów oraz liczby nieistotnych dokumentów wśród

znaleziony przez taki system jest często duży.

Kolejną wadą słownika IPS jest konieczność formułowania zapytań do systemu w specjalnym języku. Chociaż istnieje tendencja do konwergencji ISL z językami naturalnymi, dziś użytkownik musi posiadać pewne umiejętności w formułowaniu zapytań.