GreenCat DS :: О проекте

GreenCat Dictionary System
На главную	Загрузка	Словари	Справка	Гостевая
Подписка на новости проекта:	О проекте GreenCat Dictionary System 1. Постановка задачи В условиях непрерывного роста информационных потоков становится все более очевидной потребность в новых эффективных средствах поиска необходимых сведений и доступа к ним. Одним из важных источников информации являются словарные и справочно-специальные издания, зачастую доступные и в электронном виде. На данный момент существует несколько программных продуктов, представляющих электронные версии справочных изданий, при этом лишь часть из них допускает расширение информационной базы, по которой осуществляется поиск. Но и в этом случае на добавляемые данные накладывается ряд существенных ограничений: они должны быть представлены в специальном виде, допускающем интеграцию в оболочку словаря (пример - необходимость особой разметки для компиляции словаря в случае ABBYY Lingvo). С другой стороны, существует большое количество оцифрованных версий бумажных изданий, зачастую доступных в простом текстовом формате. Работать с такими данными не всегда удобно в силу их большого объема и низкой структурированности. По этой же причине затруднительна и интеграция этих данных в существующие словарные оболочки. Налицо проблема, для решения которой требуется программное средство, обладающее следующими возможностями: возможность быстрого поиска и удобного доступа к информации в текстовом виде; возможность простого добавления к массиву поиска новых данных в произвольном формате, используя встроенные средства. В частности, второй пункт подразумевает возможность расширения списка поддерживаемых форматов данных и методов их обработки. В качестве дополнительных, но также важных требований можно упомянуть следующее: возможность использования единой оболочки для доступа ко всему массиву данных; доступность всех функций программы с наименьшими затратами ресурсов, надежность, простота в использовании, возможность осуществления большинства операций автоматически. Результатом решения поставленной задачи должен быть законченный программный продукт, обеспечивающий индексацию, эффективный поиск, доступ и управление крупными массивами текстовых данных. 2. Промежуточный результат На данный момент разработана общая схема обработки данных и реализован программный прототип системы. В рамках этой схемы возможно создание электронных словарей на основе данных в произвольном формате за счет подключаемых модулей. Единственное требование к типу исходных данных - это возможность их разбиения на однотипные блоки (статьи), каждый из которых идентифицируется одним или несколькими строковыми ключами. Под это требование попадает большинство справочных и словарных изданий, а также некоторые другие типы данных (например, log-файлы), что позволяет решать с помощью системы ряд дополнительных задач. Примерами таких задач могут быть анализ и поиск в log-файлах, вычисление лингвистических характеристик текстов и др. Реализован модуль индексации, реализующий основной механизм обработки текста. Разработаны алгоритмы обработки простых текстовых файлов с учетом различного форматирования текста статей и ключей внутри статьи. Реализован модуль управления созданными словарями и графический интерфейс для него (программа GreenCat Shell). Этот модуль представлят собой словарную оболочку, позволяющую производить поиск по подключенным словарям и получать доступ к тексту статей по их ключу. 3. Перспективы развития Планируется дальнейшее активное развитие системы. В частности, планируется реализовать перечисленные ниже пункты. Реализация "Мастера" для создания словарей. На данный момент система довольно сложна в освоении, что ограничивает число потенциальных пользователей. Необходимо попытаться автоматизировать большинство выполняемых действий (например, реализовать автоопределение типа исходного файла и его форматирования) и попытаться максимально упростить понимание и использование системы. Поддержка сложных SQL-подобных поисковых запросов. Существенно усилит поисковые возможности системы, позволяя осуществлять поиск с условиями. Возможность добавления и извлечения мультимедийных и других данных. На данный момент все существующие словари представлены в текстовом (HTML) виде. Возможность хранения и отображения графических данных позволила бы существенно расширить область применения системы. В частности, стало бы возможным применение GreenCat DS в качестве основы для мультимедийных энциклопедий, специализированных БД, и др. Поддержка большего числа форматов исходных файлов. Сделает доступным большее количество словарей и справочников. Развитие идеи дополнительных применений системы. Сделает возможным решение различных задач по обработке текста и поспособствует развитию алгоритмов обработки. Возможно также создание специализированных инструментариев, нацеленных на решение задач, отличных от создания словарно-справочных систем. Все из перечисленных пунктов не требуют существенных изменений структуры системы и могут быть реализованы в рамках предложенного подхода. 4. Заключение Этот проект нацелен на создание удобного инструмента, облегчающего нашу с вами жизнь. Хочется верить, что система будет быстро равзиваться и совершенствоваться. Вариант обретения популярности также возможен и крайне желателен :) Призываю всех желающих участовать в разработке системы. Затрачено большое количество усилий на разработку общей схемы и создание рабочего программного прототипа, однако предстоит сделать еще не мало. В случае нескольких разработчиков шансы на успешное развитие системы будут значительно выше. Формальная сторона сотрудничества (публикация под GPL-лицензией, предоставление исходного кода и документации) при необходимости будет решена.
Документация
GreenCat :: Indexer - описание состава пакета и принципов работы
GreenCat :: Shell - описание программы и инструкция по использовнаию
Поддержите проект WM-кошелек: R204763647997

GreenCat Dictionary System Wavy © 2004-2007

Используются технологии uCoz