GreenCat Dictionary System
На главную Загрузка Словари Справка Гостевая
Подписка на новости проекта:

О проекте GreenCat Dictionary System

1. Постановка задачи

В условиях непрерывного роста информационных потоков становится все более очевидной потребность в новых эффективных средствах поиска необходимых сведений и доступа к ним.

Одним из важных источников информации являются словарные и справочно-специальные издания, зачастую доступные и в электронном виде. На данный момент существует несколько программных продуктов, представляющих электронные версии справочных изданий, при этом лишь часть из них допускает расширение информационной базы, по которой осуществляется поиск. Но и в этом случае на добавляемые данные накладывается ряд существенных ограничений: они должны быть представлены в специальном виде, допускающем интеграцию в оболочку словаря (пример - необходимость особой разметки для компиляции словаря в случае ABBYY Lingvo).

С другой стороны, существует большое количество оцифрованных версий бумажных изданий, зачастую доступных в простом текстовом формате. Работать с такими данными не всегда удобно в силу их большого объема и низкой структурированности. По этой же причине затруднительна и интеграция этих данных в существующие словарные оболочки.

Налицо проблема, для решения которой требуется программное средство, обладающее следующими возможностями:

  1. возможность быстрого поиска и удобного доступа к информации в текстовом виде;
  2. возможность простого добавления к массиву поиска новых данных в произвольном формате, используя встроенные средства.

В частности, второй пункт подразумевает возможность расширения списка поддерживаемых форматов данных и методов их обработки.

В качестве дополнительных, но также важных требований можно упомянуть следующее:

  • возможность использования единой оболочки для доступа ко всему массиву данных;
  • доступность всех функций программы с наименьшими затратами ресурсов, надежность, простота в использовании, возможность осуществления большинства операций автоматически.

Результатом решения поставленной задачи должен быть законченный программный продукт, обеспечивающий индексацию, эффективный поиск, доступ и управление крупными массивами текстовых данных.

2. Промежуточный результат

На данный момент разработана общая схема обработки данных и реализован программный прототип системы. В рамках этой схемы возможно создание электронных словарей на основе данных в произвольном формате за счет подключаемых модулей. Единственное требование к типу исходных данных - это возможность их разбиения на однотипные блоки (статьи), каждый из которых идентифицируется одним или несколькими строковыми ключами.

Под это требование попадает большинство справочных и словарных изданий, а также некоторые другие типы данных (например, log-файлы), что позволяет решать с помощью системы ряд дополнительных задач. Примерами таких задач могут быть анализ и поиск в log-файлах, вычисление лингвистических характеристик текстов и др.

Реализован модуль индексации, реализующий основной механизм обработки текста. Разработаны алгоритмы обработки простых текстовых файлов с учетом различного форматирования текста статей и ключей внутри статьи.

Реализован модуль управления созданными словарями и графический интерфейс для него (программа GreenCat Shell). Этот модуль представлят собой словарную оболочку, позволяющую производить поиск по подключенным словарям и получать доступ к тексту статей по их ключу.

3. Перспективы развития

Планируется дальнейшее активное развитие системы. В частности, планируется реализовать перечисленные ниже пункты.

  • Реализация "Мастера" для создания словарей.
    На данный момент система довольно сложна в освоении, что ограничивает число потенциальных пользователей. Необходимо попытаться автоматизировать большинство выполняемых действий (например, реализовать автоопределение типа исходного файла и его форматирования) и попытаться максимально упростить понимание и использование системы.
  • Поддержка сложных SQL-подобных поисковых запросов.
    Существенно усилит поисковые возможности системы, позволяя осуществлять поиск с условиями.
  • Возможность добавления и извлечения мультимедийных и других данных.
    На данный момент все существующие словари представлены в текстовом (HTML) виде. Возможность хранения и отображения графических данных позволила бы существенно расширить область применения системы. В частности, стало бы возможным применение GreenCat DS в качестве основы для мультимедийных энциклопедий, специализированных БД, и др.
  • Поддержка большего числа форматов исходных файлов.
    Сделает доступным большее количество словарей и справочников.
  • Развитие идеи дополнительных применений системы.
    Сделает возможным решение различных задач по обработке текста и поспособствует развитию алгоритмов обработки. Возможно также создание специализированных инструментариев, нацеленных на решение задач, отличных от создания словарно-справочных систем.

Все из перечисленных пунктов не требуют существенных изменений структуры системы и могут быть реализованы в рамках предложенного подхода.

4. Заключение

Этот проект нацелен на создание удобного инструмента, облегчающего нашу с вами жизнь. Хочется верить, что система будет быстро равзиваться и совершенствоваться. Вариант обретения популярности также возможен и крайне желателен :)

Призываю всех желающих участовать в разработке системы.
Затрачено большое количество усилий на разработку общей схемы и создание рабочего программного прототипа, однако предстоит сделать еще не мало. В случае нескольких разработчиков шансы на успешное развитие системы будут значительно выше. Формальная сторона сотрудничества (публикация под GPL-лицензией, предоставление исходного кода и документации) при необходимости будет решена.


Документация

GreenCat :: Indexer - описание состава пакета и принципов работы

GreenCat :: Shell - описание программы и инструкция по использовнаию
Поддержите проект
WM-кошелек: R204763647997
Просмотры и закачки программы на SOFT@Mail.Ru
GreenCat Dictionary System
Wavy © 2004-2007



Используются технологии uCoz