GreenCat Dictionary System | ||||
На главную | Загрузка | Словари | Справка | Гостевая |
О проекте GreenCat Dictionary System1. Постановка задачиВ условиях непрерывного роста информационных потоков становится все более очевидной потребность в новых эффективных средствах поиска необходимых сведений и доступа к ним. Одним из важных источников информации являются словарные и справочно-специальные издания, зачастую доступные и в электронном виде. На данный момент существует несколько программных продуктов, представляющих электронные версии справочных изданий, при этом лишь часть из них допускает расширение информационной базы, по которой осуществляется поиск. Но и в этом случае на добавляемые данные накладывается ряд существенных ограничений: они должны быть представлены в специальном виде, допускающем интеграцию в оболочку словаря (пример - необходимость особой разметки для компиляции словаря в случае ABBYY Lingvo). С другой стороны, существует большое количество оцифрованных версий бумажных изданий, зачастую доступных в простом текстовом формате. Работать с такими данными не всегда удобно в силу их большого объема и низкой структурированности. По этой же причине затруднительна и интеграция этих данных в существующие словарные оболочки. Налицо проблема, для решения которой требуется программное средство, обладающее следующими возможностями:
В частности, второй пункт подразумевает возможность расширения списка поддерживаемых форматов данных и методов их обработки. В качестве дополнительных, но также важных требований можно упомянуть следующее:
Результатом решения поставленной задачи должен быть законченный программный продукт, обеспечивающий индексацию, эффективный поиск, доступ и управление крупными массивами текстовых данных. 2. Промежуточный результатНа данный момент разработана общая схема обработки данных и реализован программный прототип системы. В рамках этой схемы возможно создание электронных словарей на основе данных в произвольном формате за счет подключаемых модулей. Единственное требование к типу исходных данных - это возможность их разбиения на однотипные блоки (статьи), каждый из которых идентифицируется одним или несколькими строковыми ключами. Под это требование попадает большинство справочных и словарных изданий, а также некоторые другие типы данных (например, log-файлы), что позволяет решать с помощью системы ряд дополнительных задач. Примерами таких задач могут быть анализ и поиск в log-файлах, вычисление лингвистических характеристик текстов и др. Реализован модуль индексации, реализующий основной механизм обработки текста. Разработаны алгоритмы обработки простых текстовых файлов с учетом различного форматирования текста статей и ключей внутри статьи. Реализован модуль управления созданными словарями и графический интерфейс для него (программа GreenCat Shell). Этот модуль представлят собой словарную оболочку, позволяющую производить поиск по подключенным словарям и получать доступ к тексту статей по их ключу. 3. Перспективы развитияПланируется дальнейшее активное развитие системы. В частности, планируется реализовать перечисленные ниже пункты.
Все из перечисленных пунктов не требуют существенных изменений структуры системы и могут быть реализованы в рамках предложенного подхода. 4. ЗаключениеЭтот проект нацелен на создание удобного инструмента, облегчающего нашу с вами жизнь. Хочется верить, что система будет быстро равзиваться и совершенствоваться. Вариант обретения популярности также возможен и крайне желателен :) Призываю всех желающих участовать в разработке системы. |
||||
Документация | ||||
GreenCat :: Indexer - описание состава пакета и принципов работы |
||||
GreenCat :: Shell - описание программы и инструкция по использовнаию | ||||
Поддержите проект |
||||
GreenCat Dictionary
System
|