Автор24

Информация о работе

Подробнее о работе

Страница работы

Разработка и программная реализация статистической обработки текста с использованием морфологического анализа

  • 75 страниц
  • 2013 год
  • 729 просмотров
  • 3 покупки
Автор работы

Wednesday

Преподаю. Занимаюсь программированием в С# и php.

100 ₽

Работа будет доступна в твоём личном кабинете после покупки

Гарантия сервиса Автор24

Уникальность не ниже 50%

Фрагменты работ

Автоматическая обработка текстовой информации важна для работы поисковых систем, систем классификации и реферирования, извлечения знаний, текстмайнинга, парсинга и т.д., в общем, практически для большинства систем обработки информации, поскольку большая ее часть находится в текстовой форме.
К основным задачам обработки текста относятся:
 извлечение смысла;
 классификация и категоризация;
 документооборот;
 автореферирование;
 извлечение знаний, текстмайнинг;
 автоматическая генерация текста;
 определение авторства, стиля, уникальности и прочих характеристик;
 поиск по запросу, по ключевым словам, поиск по образцу;
 парсинг и грабберство.
Помимо этих основных задач можно отметить и такие актуальные те-мы, как сравнение контента, определение копипаста, дублей документов, а также отсеет из выдачи поисковых систем практически идентичных документов.

В современных информационных системах, а особенно работающих как непосредственно с текстами, невозможно обойтись без методов и средств обработки текстов.
Интересной и достаточно новой сферой приложения такого анализа являются социальные сети, дающие возможность не только извлекать данные, но и знания, а также анализировать разноплановую информацию как в научных, так и в деловых целях.

В представленной дипломной работе рассматриваются основные направления и методы обработки текстов, а также подробно рассмотрена структура и основные понятия морфологических модулей, сделан обзор морфологических модулей и библиотек на русском языке.

Содержание 3
Введение 6
1 Средства и задачи обработки и анализа текста 8
1.1 Сферы применения обработки и анализа текста 8
1.2 Статистический анализ текста 9
1.2.1 Классификация по ключевым словам 10
1.2.2 Вероятностный метод, основанный на классификаторе Байеса 12
1.2.3 Анализ контекста 13
1.2.4 Автоматическое выделение коллокаций 14
1.2.5 N-граммные методы обработки текстовой информации 15
1.3 Лингвистические методы 16
1.4 Семантический анализ текста и системы, построенные на его основе 18
1.5 Морфологический анализ 25
1.5.1 Основные понятия морфологического анализа 27
2 Анализ средств и методов морфологического анализа 31
2.1 Обзор морфологизаторов, библиотек и модулей 31
2.2 Морфологический анализ и его компоненты 34
2.2.1 Стеммер 35
2.2.2 Лемматизация 36
2.2.3 Вероятностная лемматизация с учетом контекста 37
2.2.4 Отличие лемматизатора от функций морфологического разбора 38
2.3 Русский морфологический словарь 39
2.4 Основные интерфейсы компонента морфологического анализа 42
2.4.1 Интерфейс IParadigm 42
2.4.2 Интерфейсы IParadigmCollection и IPLMLineCollection 44
2.4.3 Интерфейс ILemmatizer 46
3 Программная реализация статистической обработки текста с использованием морфологического анализа 49
3.1 Постановка задачи на дипломное проектирование 49
3.2 Обобщенный алгоритм работы программы 50
3.3 Подключение библиотек морфологического анализатора 50
3.4 Построение морфологической интерпретации слов входного текста 53
3.5 Обработка массива слов и получение кода текущей словоформы 55
3.6 Применение обобщенного типа коллекции List 56
3.7 Подсчет статистики употребления частей речи 57
3.8 Тестирование программы 59
4 Экономическое обоснование целесообразности разработки программы для статистического анализа с использованием морфологического анализа 63
4.1 Расход трудоемкости разработки программного продукта 63
4.2 Расход на оплату труда разработчика программы 65
4.3 Общие затраты на создание программного продукта 66
4.4 Целесообразность создания продукта 67
Выводы и рекомендации 68
Библиографический список 69
Приложение А. Исходный код программы 73

Дипломная работа посвящена разработке и созданию модуля статистической обработки текста с использованием морфологического анализа. Модуль реализован на языке С#.
Данная дипломная работа содержит также исходный код программы на языке С# (рабочий) в Приложении. Для корректной работы необходима установка морфологического модуля, доступного в свободном доступе. Процесс подключения в проект описан, исходный код программы содержит все необходимое.

Работа была защищена в Волгодонском институте сервиса в 2013 г. по специальности "Информационные технологии" (специалисты), оценка -отлично.

Библиографический список
1. Мешкова Е.В. Анализ современных методов обработки текстовой ин-формации для автоматической классификации документов / Информационные системы и технологии. Теория и практика: cб. науч. тр. / редкол.: А.Н. Береза [и др.]. – Шахты: ГОУ ВПО «ЮРГУЭС», 2009. – 210 с.
2. Статистическая обработка текстов и сборка N-грамм [Электронный ресурс]: Все о статистической обработке, 2009. URL: http://www.solarix.ru/
3. Что такое тезаурус?(Обзор терминологии) [Электронный ресурс]: Минерва Плюс, 2011. URL: http://www.minervaplus.ru/
4. Лившиц Ю.В. Курс лекций «Алгоритмы для интернета» Автоматиче-ская классификация текстов, СПбГУ ИТМО, 2006.
5. Ягунова Е.В., Пивоварова Л.М Извлечение и классификация коллокаций на материале научных текстов [Электронный ресурс]: Проект Мониторинга Рунета, 2012. URL: http://www.webground.su
6. Мазов Н.А. N-граммные методы обработки текстовой информации. [Электронный ресурс]:Государственная публичная научно-техническая библиотека, 2010. URL: http://www.gpntb.ru

При подготовке к работе использовались материалы компании АОТ, так как именно их морфологический модуль использован в работе, а также материалы, посвященные построению систем для семантического и морфологического анализа (например, SyTech, Сyc – проект по созданию объёмной онтологической базы знаний, SNePS, Диалог и т.д.). Также использовались научные статьи, посвященные анализу и обработке текстов. Для основных определений использовалась Википедия.

15. Леонтьева Н.Н. Система французско-русского автоматического перевода (ФРАП): лингвистические решения, состав, реализация. Проблемы создания системы автоматического перевода: Сб. научн. трудов МГПИИЯ им. М. Тореза. – М., 1987. – С. 6 – 25.
16. Леонтьева Н.Н. ПОЛИТекст: информационный анализ политических текстов: Сб. НТИ. – 1995

Форма заказа новой работы

Не подошла эта работа?

Закажи новую работу, сделанную по твоим требованиям

Согласен с условиями политики конфиденциальности и  пользовательского соглашения

Фрагменты работ

Автоматическая обработка текстовой информации важна для работы поисковых систем, систем классификации и реферирования, извлечения знаний, текстмайнинга, парсинга и т.д., в общем, практически для большинства систем обработки информации, поскольку большая ее часть находится в текстовой форме.
К основным задачам обработки текста относятся:
 извлечение смысла;
 классификация и категоризация;
 документооборот;
 автореферирование;
 извлечение знаний, текстмайнинг;
 автоматическая генерация текста;
 определение авторства, стиля, уникальности и прочих характеристик;
 поиск по запросу, по ключевым словам, поиск по образцу;
 парсинг и грабберство.
Помимо этих основных задач можно отметить и такие актуальные те-мы, как сравнение контента, определение копипаста, дублей документов, а также отсеет из выдачи поисковых систем практически идентичных документов.

В современных информационных системах, а особенно работающих как непосредственно с текстами, невозможно обойтись без методов и средств обработки текстов.
Интересной и достаточно новой сферой приложения такого анализа являются социальные сети, дающие возможность не только извлекать данные, но и знания, а также анализировать разноплановую информацию как в научных, так и в деловых целях.

В представленной дипломной работе рассматриваются основные направления и методы обработки текстов, а также подробно рассмотрена структура и основные понятия морфологических модулей, сделан обзор морфологических модулей и библиотек на русском языке.

Содержание 3
Введение 6
1 Средства и задачи обработки и анализа текста 8
1.1 Сферы применения обработки и анализа текста 8
1.2 Статистический анализ текста 9
1.2.1 Классификация по ключевым словам 10
1.2.2 Вероятностный метод, основанный на классификаторе Байеса 12
1.2.3 Анализ контекста 13
1.2.4 Автоматическое выделение коллокаций 14
1.2.5 N-граммные методы обработки текстовой информации 15
1.3 Лингвистические методы 16
1.4 Семантический анализ текста и системы, построенные на его основе 18
1.5 Морфологический анализ 25
1.5.1 Основные понятия морфологического анализа 27
2 Анализ средств и методов морфологического анализа 31
2.1 Обзор морфологизаторов, библиотек и модулей 31
2.2 Морфологический анализ и его компоненты 34
2.2.1 Стеммер 35
2.2.2 Лемматизация 36
2.2.3 Вероятностная лемматизация с учетом контекста 37
2.2.4 Отличие лемматизатора от функций морфологического разбора 38
2.3 Русский морфологический словарь 39
2.4 Основные интерфейсы компонента морфологического анализа 42
2.4.1 Интерфейс IParadigm 42
2.4.2 Интерфейсы IParadigmCollection и IPLMLineCollection 44
2.4.3 Интерфейс ILemmatizer 46
3 Программная реализация статистической обработки текста с использованием морфологического анализа 49
3.1 Постановка задачи на дипломное проектирование 49
3.2 Обобщенный алгоритм работы программы 50
3.3 Подключение библиотек морфологического анализатора 50
3.4 Построение морфологической интерпретации слов входного текста 53
3.5 Обработка массива слов и получение кода текущей словоформы 55
3.6 Применение обобщенного типа коллекции List 56
3.7 Подсчет статистики употребления частей речи 57
3.8 Тестирование программы 59
4 Экономическое обоснование целесообразности разработки программы для статистического анализа с использованием морфологического анализа 63
4.1 Расход трудоемкости разработки программного продукта 63
4.2 Расход на оплату труда разработчика программы 65
4.3 Общие затраты на создание программного продукта 66
4.4 Целесообразность создания продукта 67
Выводы и рекомендации 68
Библиографический список 69
Приложение А. Исходный код программы 73

Дипломная работа посвящена разработке и созданию модуля статистической обработки текста с использованием морфологического анализа. Модуль реализован на языке С#.
Данная дипломная работа содержит также исходный код программы на языке С# (рабочий) в Приложении. Для корректной работы необходима установка морфологического модуля, доступного в свободном доступе. Процесс подключения в проект описан, исходный код программы содержит все необходимое.

Работа была защищена в Волгодонском институте сервиса в 2013 г. по специальности "Информационные технологии" (специалисты), оценка -отлично.

Библиографический список
1. Мешкова Е.В. Анализ современных методов обработки текстовой ин-формации для автоматической классификации документов / Информационные системы и технологии. Теория и практика: cб. науч. тр. / редкол.: А.Н. Береза [и др.]. – Шахты: ГОУ ВПО «ЮРГУЭС», 2009. – 210 с.
2. Статистическая обработка текстов и сборка N-грамм [Электронный ресурс]: Все о статистической обработке, 2009. URL: http://www.solarix.ru/
3. Что такое тезаурус?(Обзор терминологии) [Электронный ресурс]: Минерва Плюс, 2011. URL: http://www.minervaplus.ru/
4. Лившиц Ю.В. Курс лекций «Алгоритмы для интернета» Автоматиче-ская классификация текстов, СПбГУ ИТМО, 2006.
5. Ягунова Е.В., Пивоварова Л.М Извлечение и классификация коллокаций на материале научных текстов [Электронный ресурс]: Проект Мониторинга Рунета, 2012. URL: http://www.webground.su
6. Мазов Н.А. N-граммные методы обработки текстовой информации. [Электронный ресурс]:Государственная публичная научно-техническая библиотека, 2010. URL: http://www.gpntb.ru

При подготовке к работе использовались материалы компании АОТ, так как именно их морфологический модуль использован в работе, а также материалы, посвященные построению систем для семантического и морфологического анализа (например, SyTech, Сyc – проект по созданию объёмной онтологической базы знаний, SNePS, Диалог и т.д.). Также использовались научные статьи, посвященные анализу и обработке текстов. Для основных определений использовалась Википедия.

15. Леонтьева Н.Н. Система французско-русского автоматического перевода (ФРАП): лингвистические решения, состав, реализация. Проблемы создания системы автоматического перевода: Сб. научн. трудов МГПИИЯ им. М. Тореза. – М., 1987. – С. 6 – 25.
16. Леонтьева Н.Н. ПОЛИТекст: информационный анализ политических текстов: Сб. НТИ. – 1995

Купить эту работу

Разработка и программная реализация статистической обработки текста с использованием морфологического анализа

100 ₽

или заказать новую

Лучшие эксперты сервиса ждут твоего задания

от 3000 ₽

Гарантии Автор24

Изображения работ

Страница работы
Страница работы
Страница работы

Понравилась эта работа?

или

3 марта 2015 заказчик разместил работу

Выбранный эксперт:

Автор работы
Wednesday
4.9
Преподаю. Занимаюсь программированием в С# и php.
Купить эту работу vs Заказать новую
3 раза Куплено Выполняется индивидуально
Не менее 40%
Исполнитель, загружая работу в «Банк готовых работ» подтверждает, что уровень оригинальности работы составляет не менее 40%
Уникальность Выполняется индивидуально
Сразу в личном кабинете Доступность Срок 1—6 дней
100 ₽ Цена от 3000 ₽

5 Похожих работ

Дипломная работа

Разработка инфокоммуникационной системы управления крупным радиотелескопом

Уникальность: от 40%
Доступность: сразу
3300 ₽
Дипломная работа

Разработка комплекса рекомендаций по технической защите конфиденциальной информации хозяйствующего субъекта- мед.центра (на конкретном примере)

Уникальность: от 40%
Доступность: сразу
3300 ₽
Дипломная работа

Разработка мультисервисной сети городского микрорайона

Уникальность: от 40%
Доступность: сразу
2800 ₽
Дипломная работа

Разработка автоматизированной системы учета пациентов

Уникальность: от 40%
Доступность: сразу
3750 ₽
Дипломная работа

Разработка Автоматизированной Системы Ведения Электронного Архива

Уникальность: от 40%
Доступность: сразу
2000 ₽

Отзывы студентов

Отзыв михаил об авторе Wednesday 2014-04-27
Дипломная работа

Автор молодец выполнил работу раньше срока. Спасибо

Общая оценка 5
Отзыв Геннадий Полушкин об авторе Wednesday 2016-06-03
Дипломная работа

Спасибо!

Общая оценка 5
Отзыв user9445 об авторе Wednesday 2016-05-18
Дипломная работа

Ребята, Автор - просто бомба! Как же мне с ним повезло!!! Инициативный, грамотный, всегда на связи! Gigavector даже после окончания гарантийного срока дорабатывает расчеты к моей дипломной работе "Разработка информационной системы для объектов дорожной сети" по замечаниям моего придирчивого препода! Надеюсь на благополучную защиту!!!

Общая оценка 5
Отзыв Вера302 об авторе Wednesday 2017-05-24
Дипломная работа

Все отлично! Спасибо за продуктивную работу и подробные пояснения что и как!

Общая оценка 5

другие учебные работы по предмету

Готовая работа

База данных в СУБД MS ACCESS

Уникальность: от 40%
Доступность: сразу
300 ₽
Готовая работа

Сетевые базы данных и СУБД

Уникальность: от 40%
Доступность: сразу
300 ₽
Готовая работа

СУБД Access

Уникальность: от 40%
Доступность: сразу
450 ₽
Готовая работа

Разработка базы данных

Уникальность: от 40%
Доступность: сразу
150 ₽
Готовая работа

Цифровая линия передачи

Уникальность: от 40%
Доступность: сразу
500 ₽
Готовая работа

Курсовой проект на тему "Разработка АРМ менеджера по снабжению с использованием средств СУБД Access"

Уникальность: от 40%
Доступность: сразу
550 ₽
Готовая работа

Работа с контактами и клиентской базой в системе взаимодействия с клиентами парикмахерской

Уникальность: от 40%
Доступность: сразу
1000 ₽
Готовая работа

Проектирование АС "Автокомплекс"

Уникальность: от 40%
Доступность: сразу
900 ₽
Готовая работа

Проектирование информационной системы «Детский сад Онлайн»

Уникальность: от 40%
Доступность: сразу
1100 ₽
Готовая работа

Разработка подсистемы управления файлами с непрерывным способом физической организации файла

Уникальность: от 40%
Доступность: сразу
1000 ₽
Готовая работа

Проектирование веб сайта (на примере CRM-системы в сфере сетевого маркетинга)

Уникальность: от 40%
Доступность: сразу
400 ₽
Готовая работа

Курсовая работа СУБД "Создание информационной системы ресторана"

Уникальность: от 40%
Доступность: сразу
1500 ₽