Рассчитай точную стоимость своей работы и получи промокод на скидку 500 ₽
Автор24

Информация о работе

Подробнее о работе

Страница работы

Разработка и программная реализация статистической обработки текста с использованием морфологического анализа

  • 75 страниц
  • 2013 год
  • 733 просмотра
  • 4 покупки
Автор работы

Wednesday

Преподаю. Занимаюсь программированием в С# и php.

100 ₽

Работа будет доступна в твоём личном кабинете после покупки

Гарантия сервиса Автор24

Уникальность не ниже 50%

Фрагменты работ

Автоматическая обработка текстовой информации важна для работы поисковых систем, систем классификации и реферирования, извлечения знаний, текстмайнинга, парсинга и т.д., в общем, практически для большинства систем обработки информации, поскольку большая ее часть находится в текстовой форме.
К основным задачам обработки текста относятся:
 извлечение смысла;
 классификация и категоризация;
 документооборот;
 автореферирование;
 извлечение знаний, текстмайнинг;
 автоматическая генерация текста;
 определение авторства, стиля, уникальности и прочих характеристик;
 поиск по запросу, по ключевым словам, поиск по образцу;
 парсинг и грабберство.
Помимо этих основных задач можно отметить и такие актуальные те-мы, как сравнение контента, определение копипаста, дублей документов, а также отсеет из выдачи поисковых систем практически идентичных документов.

В современных информационных системах, а особенно работающих как непосредственно с текстами, невозможно обойтись без методов и средств обработки текстов.
Интересной и достаточно новой сферой приложения такого анализа являются социальные сети, дающие возможность не только извлекать данные, но и знания, а также анализировать разноплановую информацию как в научных, так и в деловых целях.

В представленной дипломной работе рассматриваются основные направления и методы обработки текстов, а также подробно рассмотрена структура и основные понятия морфологических модулей, сделан обзор морфологических модулей и библиотек на русском языке.

Содержание 3
Введение 6
1 Средства и задачи обработки и анализа текста 8
1.1 Сферы применения обработки и анализа текста 8
1.2 Статистический анализ текста 9
1.2.1 Классификация по ключевым словам 10
1.2.2 Вероятностный метод, основанный на классификаторе Байеса 12
1.2.3 Анализ контекста 13
1.2.4 Автоматическое выделение коллокаций 14
1.2.5 N-граммные методы обработки текстовой информации 15
1.3 Лингвистические методы 16
1.4 Семантический анализ текста и системы, построенные на его основе 18
1.5 Морфологический анализ 25
1.5.1 Основные понятия морфологического анализа 27
2 Анализ средств и методов морфологического анализа 31
2.1 Обзор морфологизаторов, библиотек и модулей 31
2.2 Морфологический анализ и его компоненты 34
2.2.1 Стеммер 35
2.2.2 Лемматизация 36
2.2.3 Вероятностная лемматизация с учетом контекста 37
2.2.4 Отличие лемматизатора от функций морфологического разбора 38
2.3 Русский морфологический словарь 39
2.4 Основные интерфейсы компонента морфологического анализа 42
2.4.1 Интерфейс IParadigm 42
2.4.2 Интерфейсы IParadigmCollection и IPLMLineCollection 44
2.4.3 Интерфейс ILemmatizer 46
3 Программная реализация статистической обработки текста с использованием морфологического анализа 49
3.1 Постановка задачи на дипломное проектирование 49
3.2 Обобщенный алгоритм работы программы 50
3.3 Подключение библиотек морфологического анализатора 50
3.4 Построение морфологической интерпретации слов входного текста 53
3.5 Обработка массива слов и получение кода текущей словоформы 55
3.6 Применение обобщенного типа коллекции List 56
3.7 Подсчет статистики употребления частей речи 57
3.8 Тестирование программы 59
4 Экономическое обоснование целесообразности разработки программы для статистического анализа с использованием морфологического анализа 63
4.1 Расход трудоемкости разработки программного продукта 63
4.2 Расход на оплату труда разработчика программы 65
4.3 Общие затраты на создание программного продукта 66
4.4 Целесообразность создания продукта 67
Выводы и рекомендации 68
Библиографический список 69
Приложение А. Исходный код программы 73

Дипломная работа посвящена разработке и созданию модуля статистической обработки текста с использованием морфологического анализа. Модуль реализован на языке С#.
Данная дипломная работа содержит также исходный код программы на языке С# (рабочий) в Приложении. Для корректной работы необходима установка морфологического модуля, доступного в свободном доступе. Процесс подключения в проект описан, исходный код программы содержит все необходимое.

Работа была защищена в Волгодонском институте сервиса в 2013 г. по специальности "Информационные технологии" (специалисты), оценка -отлично.

Библиографический список
1. Мешкова Е.В. Анализ современных методов обработки текстовой ин-формации для автоматической классификации документов / Информационные системы и технологии. Теория и практика: cб. науч. тр. / редкол.: А.Н. Береза [и др.]. – Шахты: ГОУ ВПО «ЮРГУЭС», 2009. – 210 с.
2. Статистическая обработка текстов и сборка N-грамм [Электронный ресурс]: Все о статистической обработке, 2009. URL: http://www.solarix.ru/
3. Что такое тезаурус?(Обзор терминологии) [Электронный ресурс]: Минерва Плюс, 2011. URL: http://www.minervaplus.ru/
4. Лившиц Ю.В. Курс лекций «Алгоритмы для интернета» Автоматиче-ская классификация текстов, СПбГУ ИТМО, 2006.
5. Ягунова Е.В., Пивоварова Л.М Извлечение и классификация коллокаций на материале научных текстов [Электронный ресурс]: Проект Мониторинга Рунета, 2012. URL: http://www.webground.su
6. Мазов Н.А. N-граммные методы обработки текстовой информации. [Электронный ресурс]:Государственная публичная научно-техническая библиотека, 2010. URL: http://www.gpntb.ru

При подготовке к работе использовались материалы компании АОТ, так как именно их морфологический модуль использован в работе, а также материалы, посвященные построению систем для семантического и морфологического анализа (например, SyTech, Сyc – проект по созданию объёмной онтологической базы знаний, SNePS, Диалог и т.д.). Также использовались научные статьи, посвященные анализу и обработке текстов. Для основных определений использовалась Википедия.

15. Леонтьева Н.Н. Система французско-русского автоматического перевода (ФРАП): лингвистические решения, состав, реализация. Проблемы создания системы автоматического перевода: Сб. научн. трудов МГПИИЯ им. М. Тореза. – М., 1987. – С. 6 – 25.
16. Леонтьева Н.Н. ПОЛИТекст: информационный анализ политических текстов: Сб. НТИ. – 1995

Форма заказа новой работы

Не подошла эта работа?

Закажи новую работу, сделанную по твоим требованиям

Оставляя свои контактные данные и нажимая «Заказать Дипломную работу», я соглашаюсь пройти процедуру регистрации на Платформе, принимаю условия Пользовательского соглашения и Политики конфиденциальности в целях заключения соглашения.

Фрагменты работ

Автоматическая обработка текстовой информации важна для работы поисковых систем, систем классификации и реферирования, извлечения знаний, текстмайнинга, парсинга и т.д., в общем, практически для большинства систем обработки информации, поскольку большая ее часть находится в текстовой форме.
К основным задачам обработки текста относятся:
 извлечение смысла;
 классификация и категоризация;
 документооборот;
 автореферирование;
 извлечение знаний, текстмайнинг;
 автоматическая генерация текста;
 определение авторства, стиля, уникальности и прочих характеристик;
 поиск по запросу, по ключевым словам, поиск по образцу;
 парсинг и грабберство.
Помимо этих основных задач можно отметить и такие актуальные те-мы, как сравнение контента, определение копипаста, дублей документов, а также отсеет из выдачи поисковых систем практически идентичных документов.

В современных информационных системах, а особенно работающих как непосредственно с текстами, невозможно обойтись без методов и средств обработки текстов.
Интересной и достаточно новой сферой приложения такого анализа являются социальные сети, дающие возможность не только извлекать данные, но и знания, а также анализировать разноплановую информацию как в научных, так и в деловых целях.

В представленной дипломной работе рассматриваются основные направления и методы обработки текстов, а также подробно рассмотрена структура и основные понятия морфологических модулей, сделан обзор морфологических модулей и библиотек на русском языке.

Содержание 3
Введение 6
1 Средства и задачи обработки и анализа текста 8
1.1 Сферы применения обработки и анализа текста 8
1.2 Статистический анализ текста 9
1.2.1 Классификация по ключевым словам 10
1.2.2 Вероятностный метод, основанный на классификаторе Байеса 12
1.2.3 Анализ контекста 13
1.2.4 Автоматическое выделение коллокаций 14
1.2.5 N-граммные методы обработки текстовой информации 15
1.3 Лингвистические методы 16
1.4 Семантический анализ текста и системы, построенные на его основе 18
1.5 Морфологический анализ 25
1.5.1 Основные понятия морфологического анализа 27
2 Анализ средств и методов морфологического анализа 31
2.1 Обзор морфологизаторов, библиотек и модулей 31
2.2 Морфологический анализ и его компоненты 34
2.2.1 Стеммер 35
2.2.2 Лемматизация 36
2.2.3 Вероятностная лемматизация с учетом контекста 37
2.2.4 Отличие лемматизатора от функций морфологического разбора 38
2.3 Русский морфологический словарь 39
2.4 Основные интерфейсы компонента морфологического анализа 42
2.4.1 Интерфейс IParadigm 42
2.4.2 Интерфейсы IParadigmCollection и IPLMLineCollection 44
2.4.3 Интерфейс ILemmatizer 46
3 Программная реализация статистической обработки текста с использованием морфологического анализа 49
3.1 Постановка задачи на дипломное проектирование 49
3.2 Обобщенный алгоритм работы программы 50
3.3 Подключение библиотек морфологического анализатора 50
3.4 Построение морфологической интерпретации слов входного текста 53
3.5 Обработка массива слов и получение кода текущей словоформы 55
3.6 Применение обобщенного типа коллекции List 56
3.7 Подсчет статистики употребления частей речи 57
3.8 Тестирование программы 59
4 Экономическое обоснование целесообразности разработки программы для статистического анализа с использованием морфологического анализа 63
4.1 Расход трудоемкости разработки программного продукта 63
4.2 Расход на оплату труда разработчика программы 65
4.3 Общие затраты на создание программного продукта 66
4.4 Целесообразность создания продукта 67
Выводы и рекомендации 68
Библиографический список 69
Приложение А. Исходный код программы 73

Дипломная работа посвящена разработке и созданию модуля статистической обработки текста с использованием морфологического анализа. Модуль реализован на языке С#.
Данная дипломная работа содержит также исходный код программы на языке С# (рабочий) в Приложении. Для корректной работы необходима установка морфологического модуля, доступного в свободном доступе. Процесс подключения в проект описан, исходный код программы содержит все необходимое.

Работа была защищена в Волгодонском институте сервиса в 2013 г. по специальности "Информационные технологии" (специалисты), оценка -отлично.

Библиографический список
1. Мешкова Е.В. Анализ современных методов обработки текстовой ин-формации для автоматической классификации документов / Информационные системы и технологии. Теория и практика: cб. науч. тр. / редкол.: А.Н. Береза [и др.]. – Шахты: ГОУ ВПО «ЮРГУЭС», 2009. – 210 с.
2. Статистическая обработка текстов и сборка N-грамм [Электронный ресурс]: Все о статистической обработке, 2009. URL: http://www.solarix.ru/
3. Что такое тезаурус?(Обзор терминологии) [Электронный ресурс]: Минерва Плюс, 2011. URL: http://www.minervaplus.ru/
4. Лившиц Ю.В. Курс лекций «Алгоритмы для интернета» Автоматиче-ская классификация текстов, СПбГУ ИТМО, 2006.
5. Ягунова Е.В., Пивоварова Л.М Извлечение и классификация коллокаций на материале научных текстов [Электронный ресурс]: Проект Мониторинга Рунета, 2012. URL: http://www.webground.su
6. Мазов Н.А. N-граммные методы обработки текстовой информации. [Электронный ресурс]:Государственная публичная научно-техническая библиотека, 2010. URL: http://www.gpntb.ru

При подготовке к работе использовались материалы компании АОТ, так как именно их морфологический модуль использован в работе, а также материалы, посвященные построению систем для семантического и морфологического анализа (например, SyTech, Сyc – проект по созданию объёмной онтологической базы знаний, SNePS, Диалог и т.д.). Также использовались научные статьи, посвященные анализу и обработке текстов. Для основных определений использовалась Википедия.

15. Леонтьева Н.Н. Система французско-русского автоматического перевода (ФРАП): лингвистические решения, состав, реализация. Проблемы создания системы автоматического перевода: Сб. научн. трудов МГПИИЯ им. М. Тореза. – М., 1987. – С. 6 – 25.
16. Леонтьева Н.Н. ПОЛИТекст: информационный анализ политических текстов: Сб. НТИ. – 1995

Купить эту работу

Разработка и программная реализация статистической обработки текста с использованием морфологического анализа

100 ₽

или заказать новую

Лучшие эксперты сервиса ждут твоего задания

от 3000 ₽

Гарантии Автор24

Изображения работ

Страница работы
Страница работы
Страница работы

Понравилась эта работа?

или

3 марта 2015 заказчик разместил работу

Выбранный эксперт:

Автор работы
Wednesday
4.9
Преподаю. Занимаюсь программированием в С# и php.
Купить эту работу vs Заказать новую
4 раза Куплено Выполняется индивидуально
Не менее 40%
Исполнитель, загружая работу в «Банк готовых работ» подтверждает, что уровень оригинальности работы составляет не менее 40%
Уникальность Выполняется индивидуально
Сразу в личном кабинете Доступность Срок 1—6 дней
100 ₽ Цена от 3000 ₽

5 Похожих работ

Дипломная работа

Информационные технологии в обработке результатов лабораторных исследований

Уникальность: от 40%
Доступность: сразу
2240 ₽
Дипломная работа

Теория компьютерных сетей

Уникальность: от 40%
Доступность: сразу
1790 ₽
Дипломная работа

Разработка модуля ИС 1С:Предприятие 7.7: «Сборка, обслуживание ПК и оргтехники

Уникальность: от 40%
Доступность: сразу
2240 ₽
Дипломная работа

Разработка и внедрение локально-вычислительной сети с применением технологии Gigabytes Ethernet

Уникальность: от 40%
Доступность: сразу
3000 ₽
Дипломная работа

Информационные технологии в психологии

Уникальность: от 40%
Доступность: сразу
5000 ₽

Отзывы студентов

Отзыв михаил об авторе Wednesday 2014-04-27
Дипломная работа

Автор молодец выполнил работу раньше срока. Спасибо

Общая оценка 5
Отзыв Геннадий Полушкин об авторе Wednesday 2016-06-03
Дипломная работа

Спасибо!

Общая оценка 5
Отзыв user9445 об авторе Wednesday 2016-05-18
Дипломная работа

Ребята, Автор - просто бомба! Как же мне с ним повезло!!! Инициативный, грамотный, всегда на связи! Gigavector даже после окончания гарантийного срока дорабатывает расчеты к моей дипломной работе "Разработка информационной системы для объектов дорожной сети" по замечаниям моего придирчивого препода! Надеюсь на благополучную защиту!!!

Общая оценка 5
Отзыв Вера302 об авторе Wednesday 2017-05-24
Дипломная работа

Все отлично! Спасибо за продуктивную работу и подробные пояснения что и как!

Общая оценка 5

другие учебные работы по предмету

Готовая работа

Высокоскоростная корпоративная, локальная вычислительная сеть предприятия

Уникальность: от 40%
Доступность: сразу
1490 ₽
Готовая работа

Программный комплекс задач поддержки процесса использования смарт-карт клиентами АЗС

Уникальность: от 40%
Доступность: сразу
2000 ₽
Готовая работа

Защита локальной сети программными средствами microsoft

Уникальность: от 40%
Доступность: сразу
1000 ₽
Готовая работа

РАЗРАБОТКА МОБИЛЬНОГО ПРИЛОЖЕНИЯ ДЛЯ ОРГАНИЗАЦИИ ПАО «РОССЕТИ КУБАНЬ»

Уникальность: от 40%
Доступность: сразу
2300 ₽
Готовая работа

Обзор рынка программных средств self-service BI инструментов

Уникальность: от 40%
Доступность: сразу
600 ₽
Готовая работа

Применение архитектурных методов и средств при разработке ИТстратегии компании

Уникальность: от 40%
Доступность: сразу
1650 ₽
Готовая работа

Конфигурирование поисковых серверов для сети Интернет и локальной сети

Уникальность: от 40%
Доступность: сразу
1000 ₽
Готовая работа

Коммутации в телеграфных сетях

Уникальность: от 40%
Доступность: сразу
1500 ₽
Готовая работа

Динамические структуры данных

Уникальность: от 40%
Доступность: сразу
600 ₽
Готовая работа

Разработка и интегрирование в технические компании информационных веб-ресурсов

Уникальность: от 40%
Доступность: сразу
2000 ₽
Готовая работа

Выбор и внедрение системы мониторинга сетевого трафика для корпоративной информационной системы

Уникальность: от 40%
Доступность: сразу
7700 ₽
Готовая работа

Программный опрос первичных преобразователей» в среде LabVIEW

Уникальность: от 40%
Доступность: сразу
500 ₽