Автор24

Информация о работе

Подробнее о работе

Страница работы

Разработка и реализация программы для статистической обработки текста

  • 95 страниц
  • 2012 год
  • 410 просмотров
  • 0 покупок
Автор работы

Wednesday

Преподаю. Занимаюсь программированием в С# и php.

100 ₽

Работа будет доступна в твоём личном кабинете после покупки

Гарантия сервиса Автор24

Уникальность не ниже 50%

Фрагменты работ

важными задачами являются поиск подобных документов, документов по образцу, автозаполнение контента и т.п. Выделение значимых терминов в тексте помогает определить его тему, быстрое сравнение текстов помогает установить, относится ли текст к теме, сравнивая его с образцом. Также статистический анализ используется для выделения наиболее часто исполь-зуемых терминов в тексте, что применяется для классификации.
Также статистика текста используется пользователями-переводчиками, и теми, кто изучает иностранный язык, с целью пополнения словарного запаса и составления собственных словарей и шаблонов.
Помимо частотного анализа, хорошо характеризует значимость терминов и относительная частота, показывающая значимость более наглядно, а общий показатель на основе относительной частоты и обратной инверсной частоты в выборке является популярной и часто используемой мерой.

Введение 3
1 ОБРАБОТКА ТЕКСТОВЫХ ДОКУМЕНТОВ 4
1.1 Обработка текстовых документов, цели, задачи и область применения 4
1.2 Классификация и категоризация текстовых документов 5
1.3 Поиск по запросу, по ключевым словам, поиск по образцу, парсинг 12
1.4 Информационная модель базы документов 18
2 ОБЗОР ПРОГРАММНЫХ СРЕДСТВ 21
2.1 Среда разработки Visual Studio .Net 21
2.2 Язык программирования С# 25
2.3 Переменные типа String 29
2.4 Массивы и коллекции 36
3 РЕАЛИЗАЦИЯ ПРОГРАММЫ ДЛЯ СТАТИСТИЧЕСКОЙ ОБРАБОТКИ ТЕКСТА 45
3.1 Анализ задачи дипломного проектирования 45
3.2 Разработка алгоритма программы для статистической обработки текста 45
3.3 Первичная обработка текста: загрузка текста из файла, разбиение на слова и подсчет частот 47
3.4 Создание классов и массивов объектов пользовательских классов 50
3.5 Удаление одинаковых элементов из массива объектов пользовательского класса 52
3.6 Внешний вид программы 54
3.7 Тестирование программы 56
4 ИНФОРМАЦИОННАЯ БЕЗОПАСНОСТЬ 57
4.1 Понятие информационной безопасности 57



4.2 Системный подход к информационной безопасности 59
4.3 Требования к безопасности программного обеспечения 64
4.4 Программно-технические способы и средства обеспечения информационной безопасности 65
4.5 Основные принципы контроля доступа к средствам вычислительной техники (СВТ) 70
4.6 Пассивные и активные системы обнаружения вторжений 74
5 Экономическая часть 78
5.1 Расход трудоемкости разработки программного продукта 78
5.2 Расход на оплату труда разработчика программы 80
5.3 Расчет полных затрат на эксплуатацию 81
5.4 Общие затраты на создание программного продукта 84
5.5 Целесообразность создания продукта 84
Заключение 86
Библиографический список 87
Приложение А 90

При вычислении весов термов учитывается их частота встречаемости в тексте документа. Порядок термов, как правило, не учитывается. Наиболее распространенный общий подход к вычислению веса терма реализует формула:
Mij =TFij ∙ IDFi (1.4)

где:
TF – относительная частота встречаемости терма в данном документе;
IDF– величина, обратная частоте встречаемости терма в остальных документах.
В дипломной работе рассчитывается также показатель относительной частоты, который более нагляден, чем просто частота.
В данной случае, под частотой понимается относительная доля слова i в тексте j, то есть отношение частоты терма к общему количеству слов в тексте, в отличие от абсолютной частоты – количества вхождений. В векторной модели термин «частота терма» аналогичен вероятности () в законах Зипфа [6].
Основывается вычисление этой величины, прежде всего на законах Зипфа, благодаря которым рассчитывается вероятность встретить слово в тексте. В размеченных текстах может также учитываться наличие терма в заголовке, выделение терма цветом и т.п.
Поскольку количество слов, выделенных из текстов документов, очень велико, то применяют различные способы уменьшения размерности пространства признаков: как неинформативные исключаются из рассмотрения слова с наибольшими и наименьшими частотами встречаемости; все словоформы и некоторые однокоренные слова заменяются одним словом; используется словарь синонимов. Таким образом, в общем случае терм представляет собой не слово (термин), а класс слов, объединенных по общему признаку (корню, значению).
1.4 Информационная модель базы документов

Хотя в дипломной работе напрямую не используются матрицы «документ-термин», строится подобная таблица для найденных пересечений между двумя текстами, за основу сравнения текстов берется показатель в матрице М.
Существуют разные способы сравнения текстов, однако часто используется именно относительный вес термина в документе.

Данная дипломная работа посвящена разработке программы для статистического анализа текстов и сравнения двух текстов. На основе полученных пересечений слов из двух текстов, а также значений расчетных показателей делается вывод о степени их схожести. В приложении -исходный (рабочий) код программы на С#
Защищалась в 2012 г в Волгодонском институте сервиса, специалист, оценка-отлично.

В основном используются научные статьи и обзоры по статистической обработке текстов и ее методикам, а также книги по программированию на языке С#

1. Статистическая обработка текстов и сборка N-грамм [Электронный ресурс]: Все о статистической обработке, 2009. URL: http://www.solarix.ru/
2. Ву Ш.-Х., Цай Ц.-В., Сюй В.-Л. Текстовая категоризация с использованием автоматически построенных онтологий [Электронный ресурс]: Инженерия знаний, 2011. URL: http://asp.mmc.nsu.ru
3. Агеев А.М. Обзор современных направлений развития автоматической классификации текстов [Электронный ресурс]: УИС Россия, 2008. URL: http://www.cir.ru/
4. Грэхем П. Применение «наивного» Байеса для фильтрации спама в сервисах электронной почты [Электронный ресурс]: Хабрахабр, 2010. URL: http://www.habrahabr.ru
5. Мерзленко А.А. Автоклассификация текста с помощью нейронных сетей [Электронный ресурс]: ДонНГГ, 2011. URL: http://masters.donntu.edu.ua

Форма заказа новой работы

Не подошла эта работа?

Закажи новую работу, сделанную по твоим требованиям

Согласен с условиями политики конфиденциальности и  пользовательского соглашения

Фрагменты работ

важными задачами являются поиск подобных документов, документов по образцу, автозаполнение контента и т.п. Выделение значимых терминов в тексте помогает определить его тему, быстрое сравнение текстов помогает установить, относится ли текст к теме, сравнивая его с образцом. Также статистический анализ используется для выделения наиболее часто исполь-зуемых терминов в тексте, что применяется для классификации.
Также статистика текста используется пользователями-переводчиками, и теми, кто изучает иностранный язык, с целью пополнения словарного запаса и составления собственных словарей и шаблонов.
Помимо частотного анализа, хорошо характеризует значимость терминов и относительная частота, показывающая значимость более наглядно, а общий показатель на основе относительной частоты и обратной инверсной частоты в выборке является популярной и часто используемой мерой.

Введение 3
1 ОБРАБОТКА ТЕКСТОВЫХ ДОКУМЕНТОВ 4
1.1 Обработка текстовых документов, цели, задачи и область применения 4
1.2 Классификация и категоризация текстовых документов 5
1.3 Поиск по запросу, по ключевым словам, поиск по образцу, парсинг 12
1.4 Информационная модель базы документов 18
2 ОБЗОР ПРОГРАММНЫХ СРЕДСТВ 21
2.1 Среда разработки Visual Studio .Net 21
2.2 Язык программирования С# 25
2.3 Переменные типа String 29
2.4 Массивы и коллекции 36
3 РЕАЛИЗАЦИЯ ПРОГРАММЫ ДЛЯ СТАТИСТИЧЕСКОЙ ОБРАБОТКИ ТЕКСТА 45
3.1 Анализ задачи дипломного проектирования 45
3.2 Разработка алгоритма программы для статистической обработки текста 45
3.3 Первичная обработка текста: загрузка текста из файла, разбиение на слова и подсчет частот 47
3.4 Создание классов и массивов объектов пользовательских классов 50
3.5 Удаление одинаковых элементов из массива объектов пользовательского класса 52
3.6 Внешний вид программы 54
3.7 Тестирование программы 56
4 ИНФОРМАЦИОННАЯ БЕЗОПАСНОСТЬ 57
4.1 Понятие информационной безопасности 57



4.2 Системный подход к информационной безопасности 59
4.3 Требования к безопасности программного обеспечения 64
4.4 Программно-технические способы и средства обеспечения информационной безопасности 65
4.5 Основные принципы контроля доступа к средствам вычислительной техники (СВТ) 70
4.6 Пассивные и активные системы обнаружения вторжений 74
5 Экономическая часть 78
5.1 Расход трудоемкости разработки программного продукта 78
5.2 Расход на оплату труда разработчика программы 80
5.3 Расчет полных затрат на эксплуатацию 81
5.4 Общие затраты на создание программного продукта 84
5.5 Целесообразность создания продукта 84
Заключение 86
Библиографический список 87
Приложение А 90

При вычислении весов термов учитывается их частота встречаемости в тексте документа. Порядок термов, как правило, не учитывается. Наиболее распространенный общий подход к вычислению веса терма реализует формула:
Mij =TFij ∙ IDFi (1.4)

где:
TF – относительная частота встречаемости терма в данном документе;
IDF– величина, обратная частоте встречаемости терма в остальных документах.
В дипломной работе рассчитывается также показатель относительной частоты, который более нагляден, чем просто частота.
В данной случае, под частотой понимается относительная доля слова i в тексте j, то есть отношение частоты терма к общему количеству слов в тексте, в отличие от абсолютной частоты – количества вхождений. В векторной модели термин «частота терма» аналогичен вероятности () в законах Зипфа [6].
Основывается вычисление этой величины, прежде всего на законах Зипфа, благодаря которым рассчитывается вероятность встретить слово в тексте. В размеченных текстах может также учитываться наличие терма в заголовке, выделение терма цветом и т.п.
Поскольку количество слов, выделенных из текстов документов, очень велико, то применяют различные способы уменьшения размерности пространства признаков: как неинформативные исключаются из рассмотрения слова с наибольшими и наименьшими частотами встречаемости; все словоформы и некоторые однокоренные слова заменяются одним словом; используется словарь синонимов. Таким образом, в общем случае терм представляет собой не слово (термин), а класс слов, объединенных по общему признаку (корню, значению).
1.4 Информационная модель базы документов

Хотя в дипломной работе напрямую не используются матрицы «документ-термин», строится подобная таблица для найденных пересечений между двумя текстами, за основу сравнения текстов берется показатель в матрице М.
Существуют разные способы сравнения текстов, однако часто используется именно относительный вес термина в документе.

Данная дипломная работа посвящена разработке программы для статистического анализа текстов и сравнения двух текстов. На основе полученных пересечений слов из двух текстов, а также значений расчетных показателей делается вывод о степени их схожести. В приложении -исходный (рабочий) код программы на С#
Защищалась в 2012 г в Волгодонском институте сервиса, специалист, оценка-отлично.

В основном используются научные статьи и обзоры по статистической обработке текстов и ее методикам, а также книги по программированию на языке С#

1. Статистическая обработка текстов и сборка N-грамм [Электронный ресурс]: Все о статистической обработке, 2009. URL: http://www.solarix.ru/
2. Ву Ш.-Х., Цай Ц.-В., Сюй В.-Л. Текстовая категоризация с использованием автоматически построенных онтологий [Электронный ресурс]: Инженерия знаний, 2011. URL: http://asp.mmc.nsu.ru
3. Агеев А.М. Обзор современных направлений развития автоматической классификации текстов [Электронный ресурс]: УИС Россия, 2008. URL: http://www.cir.ru/
4. Грэхем П. Применение «наивного» Байеса для фильтрации спама в сервисах электронной почты [Электронный ресурс]: Хабрахабр, 2010. URL: http://www.habrahabr.ru
5. Мерзленко А.А. Автоклассификация текста с помощью нейронных сетей [Электронный ресурс]: ДонНГГ, 2011. URL: http://masters.donntu.edu.ua

Купить эту работу

Разработка и реализация программы для статистической обработки текста

100 ₽

или заказать новую

Лучшие эксперты сервиса ждут твоего задания

от 3000 ₽

Гарантии Автор24

Изображения работ

Страница работы
Страница работы
Страница работы

Понравилась эта работа?

или

3 марта 2015 заказчик разместил работу

Выбранный эксперт:

Автор работы
Wednesday
4.9
Преподаю. Занимаюсь программированием в С# и php.
Купить эту работу vs Заказать новую
0 раз Куплено Выполняется индивидуально
Не менее 40%
Исполнитель, загружая работу в «Банк готовых работ» подтверждает, что уровень оригинальности работы составляет не менее 40%
Уникальность Выполняется индивидуально
Сразу в личном кабинете Доступность Срок 1—6 дней
100 ₽ Цена от 3000 ₽

5 Похожих работ

Дипломная работа

Разработка инфокоммуникационной системы управления крупным радиотелескопом

Уникальность: от 40%
Доступность: сразу
3300 ₽
Дипломная работа

Разработка комплекса рекомендаций по технической защите конфиденциальной информации хозяйствующего субъекта- мед.центра (на конкретном примере)

Уникальность: от 40%
Доступность: сразу
3300 ₽
Дипломная работа

Разработка мультисервисной сети городского микрорайона

Уникальность: от 40%
Доступность: сразу
2800 ₽
Дипломная работа

Разработка автоматизированной системы учета пациентов

Уникальность: от 40%
Доступность: сразу
3750 ₽
Дипломная работа

Разработка Автоматизированной Системы Ведения Электронного Архива

Уникальность: от 40%
Доступность: сразу
2000 ₽

Отзывы студентов

Отзыв михаил об авторе Wednesday 2014-04-27
Дипломная работа

Автор молодец выполнил работу раньше срока. Спасибо

Общая оценка 5
Отзыв Геннадий Полушкин об авторе Wednesday 2016-06-03
Дипломная работа

Спасибо!

Общая оценка 5
Отзыв user9445 об авторе Wednesday 2016-05-18
Дипломная работа

Ребята, Автор - просто бомба! Как же мне с ним повезло!!! Инициативный, грамотный, всегда на связи! Gigavector даже после окончания гарантийного срока дорабатывает расчеты к моей дипломной работе "Разработка информационной системы для объектов дорожной сети" по замечаниям моего придирчивого препода! Надеюсь на благополучную защиту!!!

Общая оценка 5
Отзыв Вера302 об авторе Wednesday 2017-05-24
Дипломная работа

Все отлично! Спасибо за продуктивную работу и подробные пояснения что и как!

Общая оценка 5

другие учебные работы по предмету

Готовая работа

Высокоскоростная корпоративная, локальная вычислительная сеть предприятия

Уникальность: от 40%
Доступность: сразу
1490 ₽
Готовая работа

Программный комплекс задач поддержки процесса использования смарт-карт клиентами АЗС

Уникальность: от 40%
Доступность: сразу
2000 ₽
Готовая работа

Защита локальной сети программными средствами microsoft

Уникальность: от 40%
Доступность: сразу
1000 ₽
Готовая работа

Разработка мобильного приложения для планирования и организации задач пользователя

Уникальность: от 40%
Доступность: сразу
2400 ₽
Готовая работа

Разработка и программная реализация статистической обработки текста с использованием морфологического анализа

Уникальность: от 40%
Доступность: сразу
100 ₽
Готовая работа

Информационная веб-система организации процесса чартеринга яхт

Уникальность: от 40%
Доступность: сразу
2000 ₽
Готовая работа

Обзор рынка программных средств self-service BI инструментов

Уникальность: от 40%
Доступность: сразу
600 ₽
Готовая работа

Разработка голосового чата для локальной сети

Уникальность: от 40%
Доступность: сразу
1800 ₽
Готовая работа

Конфигурирование поисковых серверов для сети Интернет и локальной сети

Уникальность: от 40%
Доступность: сразу
1000 ₽
Готовая работа

Коммутации в телеграфных сетях

Уникальность: от 40%
Доступность: сразу
1500 ₽
Готовая работа

Разработка программной системы персонализации доступа для охранных структур

Уникальность: от 40%
Доступность: сразу
2300 ₽
Готовая работа

Динамические структуры данных

Уникальность: от 40%
Доступность: сразу
600 ₽