Если слово Xapian вам незнакомо, рекомендую ознакомиться с небольшой статьей. Вкратце же, Xapian — представляет собой написанный на с++ набор инструментов для индексирования текстовой информации, с возможностью поиска по базе индексированной информации. Для работы не требует установленного сервера, достаточно наличия его библиотек. Может обрабатывать огромные массивы информации(проверено до 1.5Тб), измеряемой миллионами документов. Является конкурирующим продуктом Sphinx и Apache Lucene. Мной он был выбран из этих трех продуктов за возможность использования из .Net.
Рабочая группа Aot.ru разрабатывает программное обеспечение в области автоматической обработки текста. В круг наших интересов в основном входит анализ русского языка.
Наш подход скорее можно назвать консервативным, чем революционным. Мы не верим ни в какую общую суперидею, объясняющую сущность естественного языка. Вместе с тем мы считаем, что только грамотная декомпиляция языковых механизмов позволит максимально приблизить человеческий язык к современному компьютеру.
Начиная с 2002 года мы выкладываем наши разработки с лицензией LGPL. Теперь каждый может бесплатно использовать наши библиотеки в своих программах, в том числе и в коммерческих приложениях.
Мы призываем всех, кто заинтересован в развитии компьютерной лингвистики, к широкому сотрудничеству.