Гитика — вариант поисковой системы созданной в рамках одноимённого проекта.

С поправкой на несопоставимые масштабы системы (количество серверов и, соответственно, число индексируемых сайтов), клиент получает функциональные возможности поиска сравнимые с предоставляемыми традиционными системами (Google, Yandex, Bing), но здесь привычный поиск по ключевым словам сочетается с концептуальным поиском.

В этом смысле, Гитика "не хуже" прочих поисковых систем, и лучше их настолько, насколько пользователю нужен концептуальный поиск.

Отличие концептуального поиска от традиционного можно проиллюстрировать следующими примерами:

  • если мы набираем в поисковом запросе "управления фнс россии", традиционная система выдаст документы, содержащие данный набор слов. Система концептуального поиска, покажет документы о всех региональных структурах фнс, районных и межрайонных инспекциях, руководстве уфнс и т.д.
  • документ, описывающий "столкновение автомобилей в Ливерпуле", с точки зрения концептуального поиска вполне релевантен запросу "ДТП в Великобритании", и не имеет никакого отношения к этому запросу при обычном поиске по ключевым словам.

Интерфейс системы имеет два поля для набора поискового запроса: "Словарный поиск" и "Концептуальный поиск". Первое поле служит для задания обычного текстового запроса, то есть для поиска документов с указанными словами. А второе поле — для поиска "по понятиям". Сначала система ищет в базе знаний понятия, соотвествующие такому запросу, а уже потом документы, которые найденные понятия содержат.

Так, например, если пользователь в поле "Концептуальный поиск" набрал "ЖКХ" и в поле "Словарный поиск" — "мусор", система выдаст документы, связанные с жилищно-коммунальным хозяйством и со словами: мусор, мусора, мусоре, мусором, мусору. Если пользователь не согласен с этой интерпретацией, он может снять соответствующий значок и получить все статьи, содержащие только слово "мусор".

В текущей версии Гитика различает около 600 тысяч понятий, которые диагностирует, используя более 3-х миллионов слов и словосочетаний. Исходную информацию об актуальных понятиях и их взаимосвязях система получает от экспертной системы , которая пополняется из множества источников. Наибольший вклад в пополнение базы знаний вносит экстракция данных из Википедии. Хотя данная версия системы ориентирована только на русскоязычные тексты, применяемый метод позволяет также работать с любыми языками, представленными в Википедии. В этом смысле можно говорить, что пополнением базы знаний системы занимаются несколько миллионов экспертов.

Данная версия ежечасно индексирует около 3000 источников интернета. Индекс включает материалы с начала 1994 года по настоящее время — более 200 млн.документов из более чем 7000 источников.


Copyright © 2007-2019 ООО «RelTeam»