В разделе "Тест-поиск" вы можете посмотреть демо-версию данной поисковой системы, показывающую наши возможности по сканированию сайтов с помощью робота ООО "Деликс", а также осуществлению полноценного поиска по проиндексированным страницам.
Техническое задание на разработку тематической поисковой системы
Оглавление
1.Функциональность поисковой системы для пользователя
1.2.Расширенный поиск
1.3.Язык поисковых запросов
2.Функциональность каталога поисковой системы для пользователя
3.Сканирование сайтов из каталога.
4.Возможность влияния на ранжирование сайтов в поиске
4.1.Релевантность текста страниц
4.2.Изменение ранжирование степенью доверия сайта
4.3.Ссылочное ранжирование сайта
4.4.Непосредственное изменение ранжирования для конкретного запроса (жёстко заданная выборка)
5.Функциональность контекстной рекламы для работодателя
6.Статистика и управление контекстной рекламой для администратора
7.Другие виды рекламы на сайте
8.Технические средства реализации
8.1.Расчётные данные поисковой системы
9.Стоимость и сроки разработки
1.Функциональность поисковой системы для пользователя
Пользователь вводит поисковый запрос, поставленный в произвольной форме в поле вверху сайта
Сразу же после нажатия кнопки «Поиск» выдаётся список найденных сайтов. При этом для каждого сайта отображается текст страницы, содержащей искомый запрос, и часть текста до и после. Искомый запрос выделяется цветом. Может показываться до двух вхождений запроса в текст страницы.
Заголовок сайта является ссылкой на этот сайт.
Кроме этого, также выводится:
- Ссылка на сайт с «http://»
- Дата обновления сайта
- Ссылка «Ещё с сайта». При щелчке о ней выводится тот же поисковый запрос, но при этом поиск будет осуществляться только на заданном сайте
- Рубрика сайта в каталоге
- Тематика сайта (если она для него определена)
Слева на странице будет выводится контекстная реклама, подходящая для данного запроса.
1.2. Расширенный поиск
В режиме расширенного поиска, пользователь может указать, на каком именно сайте осуществлять поиск. Также можно будет выбирать раздел каталога для поиска и параметр поиска – по текстам страниц, или только по текстам заголовков.
1.3. Язык поисковых запросов
- «+», поставленный перед каким-либо словом в запросе, сделает ранжирование по этому слову наиболее приоритетным
- «-», поставленный перед каким-либо словом в запросе, выдаст вы выборке все те сайты, в которых данное слово не встречается (но, в которых встречаются слова, без знака «-»)
- «~». Если перед каким-либо словом будет стоять знак тильды, то это означает, что наличие данного слова не очень важно для пользователя, хотя и желательно
Пример:
Нефтяное оборудование -(Интернет магазин)
2. Функциональность каталога поисковой системы для пользователя
В каждом разделе будут размещены сайты, принятые и подтверждённые администратором.
Также, на первой странице раздела будут показываться новые сайты в разделе (последние добавленные)
Строка поиска доступна из любой страницы каталога. При этом существует возможность задать галочку «Искать только в заданной рубрике».
Для каждого раздела может быть показан свой рекламный блок.
Сортировка сайтов в каталоге осуществляется согласно ранжированию, заданному администратором.
3. Сканирование сайтов из каталога
Робот представляется как бот поисковой системы, и указывает ссылку на сайт с самой поисковой системой. После этого начинает сканировать страницы сайта
Все сайты в каталоге делятся на четыре группы:
- Очень часто обновляемые
- Часто обновляемые
- Обычные
- Редко обновляемые
Данный параметр присваивается сайту по результатам сканирований. Если за заданный промежуток времени (2 недели), содержимое сайта не изменилось, то он переносится в категорию «Редко обновляемые».
Если изменилась только одна или две страницы, то он относится к категории «Обычные».
Если изменилось более 10% страниц сайта, то к категории «Часто обновляемые»
Если более 25% страниц, то к категории «Очень часто обновляемые».
Робот-паук поисковой системы сканирует сайты с разной периодичностью, в зависимости от категории:
- Очень часто обновляемые – каждые 2 дня
- Часто обновляемые – каждую неделю
- Обычные – каждые 2 недели
- Редко обновляемые – каждый месяц
После сканирования каждой страницы на сайте, робот делает 3х секундную паузу, чтобы не перегружать сервер индексируемого сайта.
Если при сканировании сайта робот получил ошибку 404 (страница не найдена), то он снова зайдёт на сайт через 2 дня.
Страницы, на которых был получен редирект 301, исключаются из индекса. Вместо них включаются те страницы, на которые указывает редирект.
4. Возможность влияния на ранжирование сайтов в поиске
Ранжирование страниц на сайте осуществляется по следующей формуле:
(Оценка сайта администратором «Степень доверия») * А + (Ссылочный рейтинг сайта) * B + ((Релевантность выборки одной из жёстко заданных выборок) * Релевантность сайта в жёстко заданной выборке)) * С + (Релевантность текста страницы заданному запросу) * (1 – А – B – C)
А + B + C < 1.
Коэффициенты А, B и C будут подбираться опытным путём, для обеспечения наилучшего результата.
Очевидно, что С > A + B.
4.1. Релевантность текста страниц
4.2. Изменение ранжирование степенью доверия сайта
Для каждого сайта администратор устанавливает «Степень доверия». Этот параметр указывается при добавлении сайта в каталог, и может быть впоследствии изменён в любой момент.
Данный параметр нормализуется для всех сайтов в каталоге. Т.е. результирующая степень доверия вычисляется по формуле:
4.3. Ссылочное ранжирование сайта
Для каждого сайта подсчитывается общее количество ссылок на него из других сайтов в каталоге.
Данный параметр также нормализуется по формуле:
4.4. Непосредственное изменение ранжирования для конкретного запроса (жёстко заданная выборка)
Для некоторых из наиболее часто задаваемых запросов будет существовать возможность жёстко задать порядок следования сайтов в выдаче. Администратор в панели управления сможет прописать сайты, выдаваемые для данного запроса. Тот порядок, в котором он их добавит и будет определяющим для ранжирования.
Процент «жёсткости» задаётся коэффициентом С.
5. Функциональность контекстной рекламы для работодателя
Клиент сможет зарегистрироваться в системе и подать заявку на добавление его сайта в систему контекстной рекламы поисковой системы. После одобрения модератором (или администратором), контекстная реклама будет показываться.
При наборе посетителем поискового запроса, похожего на указанный клиентом (совпадающие при удалении из запроса стоп-слов, и в отсортированном по алфавиту порядке), в правом верхнем углу, будет выводится поисковое объявление клиента.
Параметрами поискового объявления являются:
- Url страницы клиента
- Название страницы
- Кратное описание
При подборе слов клиенту будет показываться, сколько раз в данном месяце указанное слово или запрос искали в поисковой системе.
При подборе слов для поисковой рекламы, клиент указывает сумму, которую он готов заплатить за переход посетителя на его сайт (но не менее заданной администратором суммы), а также сумму, которую он собирается потратить в данном месяце.
Каждый клиент может видеть количество показов своей рекламы, количество переходов на сайт, потраченную сумму, рейтинг запросов, после поиска которых посетители перешли на сайт клиента.
Рекламные объявления ранжируются при показе в зависимости от указанной заказчиком цены перехода на его сайт. Чем она выше, тем чаще показывается объявление клиента.
При отсутствии средств на личном счету клиента, показ его контекстной рекламы приостанавливается.
6. Статистика и управление контекстной рекламой для администратора
Администратор для каждого клиента может видеть количество показов, количество переходов, сумму потраченных денег, сумму оставшихся на счету денег, рейтинг самых прибыльных для поисковой системы запросов.
Общую сумму показов, общую сумму переходов, общую сумму потраченных клиентами денег, общую сумму денег, оставшихся на счётах клиентов.
Администратор может подтвердить добавление аккаунта нового клиента. Также он может в любой момент удалить любой аккаунт.
Возможно также будет приостановить показ рекламы с какого-либо аккаунта на некоторое время.
Также, администратор подтверждает приход денег на счёт клиента.
7. Другие виды рекламы на сайте
На сайте также будет присутствовать:
- сквозная баннерная реклама. Для этого и других видов баннеров, администратор указывает url одного баннера, размером 468х60, размещённого вверху страницы, а также ссылку, которая будет открываться по щелчку.
- Реклама в разделах каталога. Для каждого раздела каталога можно будет разместить свой рекламных блок, размером 100х500.
- Размещение платных текстовых, либо графических ссылок напротив каждого наименования раздела в каталоге.
8. Технические средства реализации
Разработка будет вестись с помощью бесплатных систем с открытым кодом. Операционная система – Linux, языки программирования – PHP, C++, Perl, Java. База данных – MySQL. Программное управление сайтом будет осуществляться с помощью SSH-канала. Административное управление сайтом будет осуществляться посредством HTTP-интерфейса. Защита Apache, будет описываться файлами «.htaccess»
Для работы поисковой системы будет необходим vip-хостинг (по тарифам провайдера СпейсВэб).
Расчётные данные поисковой системы
Среднее место, занимаемое веб-сайтом в индексе: 4 Мегабайт (данные получены в результате исследования поисковых систем DataparkSearch и собственной поисковой системы ООО «Деликс»).
Расчетное среднее количество сканирований сайтов из каталога (в месяц): 2 раза. (Будет вестись оптимизированное сканирование, что позволит частообновляемые сайты сканировать чаще, а режеобновляемые – реже (см. п. 3))
Т.о. для 500 сайтов в поисковой системе потребуется:
2 Гигабайта данных в базе данных.
4 Гигабайта входящего трафика (возможность наличия такого объёма бесплатного входящего трафика, без наличия исходящего и дополнительной оплаты обусловлено исключительно личной договорённостью между СпейсВэб и Деликс. Данная услуга является платной у всех провайдеров).
Наличие исходящего трафика (т.е. поисковых запросов) на данном тарифе будет осуществляться по принципу «чем больше, тем лучше», т.к. он увеличивает наличие доступного входящего трафика, и, при текущих параметрах хостинга, не должен перегружать сервер.
Все эти параметры вполне удовлетворяют параметрам vip-хостинга. В случае увеличения количества сайтов в каталоге, со временем может потребоваться наличие выделенного сервера.
9. Стоимость и сроки разработки
Общая стоимость разработки: 120000 рублей. Предоплата составляет 50% от стоимости разработки (60000 рублей).
Срок выполнения: 2 месяца с момента подписания договора.