Пока что функционал, который разрабатывается или уже разработан планируется такой:
- Один воркер обрабатывает множество доменов. Т.е. скрипт ставится на vps/vds и сразу обрабатывает сотни доменов.
- Поддержка парсинга всех современных социальных сетей, поисковых систем.
- Встроенная tds с возможностью подсчёта посетителей на дорах
- Автоматическая перелинковка в приделах одного дора или множества, на основе собирающейся статистики по поисковым запросам с поддержкой хлебных крошек.
- Автоматическое пополнение базы ключей по тематикам.
- Многопоточный парсинг данных для запрашиваемой страницы на лету с задержкой не больше 2 сек. Все данные парсятся один раз и в дальнейшем кэшируются в базе.
- В качестве веб сервера nginx, бэкенд — tornado.
- Хранение данных — mysql, postgresql или mongodb.
- Промежуточные данные хранятся в redis.
- Хранение тасков — celery+ rabbitmq.
- Асинхроный парсинг — celery+eventlet.
- Автоматическая уникализация шаблонов.
- Автоматический расчет веса перелинковки.
- Ротация способов слива и рекламных блоков.
- Частичное обновление контента по запросу.
- Возможность размещения на фрихостингах с помощью php скрипта.
- Автоматическая очистка не дающих трафик или забаненных дорвеев
- Встроенная статистика по индексации
- Хранение всей возможной статистики для определения средней температуры по больнице. (Скорость индексации, время жизни, трафик и т.д.)