Библиотека разработок

Документооборот 61
Наука/образование 21
Бухгалтерский учет. Финансы 31
Обработка и хранение данных 33
Решения для бизнеса 48
Игры и развлечения, анализ и тестирование 5
Домашние дела 4
Культура, спорт, здоровье 5
Инструменты для разработчика 42

Конкурс

Правила участия
Победители
Тестовая лаборатория

Разработчикам

Форум
Статьи
Советы
Андрей Волков

МорфоСтатистик

Разработка рекомендована к использованию экспертами журнала PC Magazine/RE

28.05.06

Картинка исходного размера PC Magazine: It works!

Эта разработка предназначается для тех, кто работает с языковыми средствами. Пакет "МорфоСтатистик" позволяет оперативно вытащить из целевого текста словарную составляющую, рассортированную по частям речи, с выделением нормальной формы слов, выделением морфологической информации.

Пакет использует для морфоанализа великолепный модуль RusLemmatizer (скажем огромное спасибо ребятам из группы www.aot.tu), привязка к Microsoft Office, в том числе и версии 2003 -- моя, все претензии по работе самого расширения предъявлять мне, по работе ядра морфоанализа -- им (правда, поскольку программа создавалась для сугубо личных целей, я кое-что упростил, в частности не стал реализовывать разбор анкодов, выдаваемых при задействовании режима "предсказательного" разбора).


Исходный код: не доступен
Способ распространения: бесплатно

СкачатьGrammar.zip 8,2 МБ

Журнал PC Magazine/REРейтинг разработки: 5

PC Magazine/RE:

Программа имеет узкоспециальную направленность, адресуясь, прежде всего лингвистам. Задача этой утилиты – проанализировать текущий документ, открытый в Microsoft Word, извлекая из него список слов, а затем автоматически создать в Excel соответствующую таблицу. При этом автоматически определяется (с хорошей точностью) часть речи и морфологическая информация по поданной на вход анализатора словоформе, в частности, определяется исходная форма слова, его падеж, род, склонение, лицо, залог, время действия. После завершения анализа пользователь имеет полную текстовую базу, удобную в обработке стандартными средствами Excel. Программа реализована в виде макросценария Word, вызывающего Excel для формирования отчета. Это обстоятельство создает определенные сложности, в частности, может потребоваться вручную подключить объектную библиотеку Excel (по умолчанию в Word 2003 она отключена). Впрочем, автор рассматривает этот вопрос в документации (хотя и крайне лаконичной). Кроме того, в исходном тексте программы жестко «зашит» путь к файлу определений (ancode.txt), что может создать некоторые неудобства.

В то же время, эта разработка – весьма интересный пример «расширения». По утверждению автора, стандартные средства Word оказались недостаточно гибкими для решения его задач, с чем и связана необходимость подключения внешнего модуля. Исходные тексты программы доступны (хотя модуль защищен от просмотра, автор предоставляет их по запросу) и могут служить хорошим примером для иллюстрации техники подключения и работы с интерфейсами COM-объектов, в том числе, и для извлечения данных из «коллекций».

Разработка опубликована в следующих разделах:

Работа (операции) над текстом

Технологии обработки и хранения данных

Технологические разработки для создания новых систем

Научно-прикладные разработки

Www.klenmarket.ru/design/bar/ www.klenmarket.ru/design/bar/.