Подробнее о работе

Разработка и реализация программы для статистической обработки текста

95 страниц
2012 год
414 просмотров
0 покупок

Wednesday

Преподаю. Занимаюсь программированием в С# и php.

100 ₽

Работа будет доступна в твоём личном кабинете после покупки

Гарантия сервиса Автор24

Уникальность не ниже 50%

важными задачами являются поиск подобных документов, документов по образцу, автозаполнение контента и т.п. Выделение значимых терминов в тексте помогает определить его тему, быстрое сравнение текстов помогает установить, относится ли текст к теме, сравнивая его с образцом. Также статистический анализ используется для выделения наиболее часто исполь-зуемых терминов в тексте, что применяется для классификации.
Также статистика текста используется пользователями-переводчиками, и теми, кто изучает иностранный язык, с целью пополнения словарного запаса и составления собственных словарей и шаблонов.
Помимо частотного анализа, хорошо характеризует значимость терминов и относительная частота, показывающая значимость более наглядно, а общий показатель на основе относительной частоты и обратной инверсной частоты в выборке является популярной и часто используемой мерой.

Введение 3
1 ОБРАБОТКА ТЕКСТОВЫХ ДОКУМЕНТОВ 4
1.1 Обработка текстовых документов, цели, задачи и область применения 4
1.2 Классификация и категоризация текстовых документов 5
1.3 Поиск по запросу, по ключевым словам, поиск по образцу, парсинг 12
1.4 Информационная модель базы документов 18
2 ОБЗОР ПРОГРАММНЫХ СРЕДСТВ 21
2.1 Среда разработки Visual Studio .Net 21
2.2 Язык программирования С# 25
2.3 Переменные типа String 29
2.4 Массивы и коллекции 36
3 РЕАЛИЗАЦИЯ ПРОГРАММЫ ДЛЯ СТАТИСТИЧЕСКОЙ ОБРАБОТКИ ТЕКСТА 45
3.1 Анализ задачи дипломного проектирования 45
3.2 Разработка алгоритма программы для статистической обработки текста 45
3.3 Первичная обработка текста: загрузка текста из файла, разбиение на слова и подсчет частот 47
3.4 Создание классов и массивов объектов пользовательских классов 50
3.5 Удаление одинаковых элементов из массива объектов пользовательского класса 52
3.6 Внешний вид программы 54
3.7 Тестирование программы 56
4 ИНФОРМАЦИОННАЯ БЕЗОПАСНОСТЬ 57
4.1 Понятие информационной безопасности 57

4.2 Системный подход к информационной безопасности 59
4.3 Требования к безопасности программного обеспечения 64
4.4 Программно-технические способы и средства обеспечения информационной безопасности 65
4.5 Основные принципы контроля доступа к средствам вычислительной техники (СВТ) 70
4.6 Пассивные и активные системы обнаружения вторжений 74
5 Экономическая часть 78
5.1 Расход трудоемкости разработки программного продукта 78
5.2 Расход на оплату труда разработчика программы 80
5.3 Расчет полных затрат на эксплуатацию 81
5.4 Общие затраты на создание программного продукта 84
5.5 Целесообразность создания продукта 84
Заключение 86
Библиографический список 87
Приложение А 90

При вычислении весов термов учитывается их частота встречаемости в тексте документа. Порядок термов, как правило, не учитывается. Наиболее распространенный общий подход к вычислению веса терма реализует формула:
Mij =TFij ∙ IDFi (1.4)

где:
TF – относительная частота встречаемости терма в данном документе;
IDF– величина, обратная частоте встречаемости терма в остальных документах.
В дипломной работе рассчитывается также показатель относительной частоты, который более нагляден, чем просто частота.
В данной случае, под частотой понимается относительная доля слова i в тексте j, то есть отношение частоты терма к общему количеству слов в тексте, в отличие от абсолютной частоты – количества вхождений. В векторной модели термин «частота терма» аналогичен вероятности () в законах Зипфа [6].
Основывается вычисление этой величины, прежде всего на законах Зипфа, благодаря которым рассчитывается вероятность встретить слово в тексте. В размеченных текстах может также учитываться наличие терма в заголовке, выделение терма цветом и т.п.
Поскольку количество слов, выделенных из текстов документов, очень велико, то применяют различные способы уменьшения размерности пространства признаков: как неинформативные исключаются из рассмотрения слова с наибольшими и наименьшими частотами встречаемости; все словоформы и некоторые однокоренные слова заменяются одним словом; используется словарь синонимов. Таким образом, в общем случае терм представляет собой не слово (термин), а класс слов, объединенных по общему признаку (корню, значению).
1.4 Информационная модель базы документов

Хотя в дипломной работе напрямую не используются матрицы «документ-термин», строится подобная таблица для найденных пересечений между двумя текстами, за основу сравнения текстов берется показатель в матрице М.
Существуют разные способы сравнения текстов, однако часто используется именно относительный вес термина в документе.

Данная дипломная работа посвящена разработке программы для статистического анализа текстов и сравнения двух текстов. На основе полученных пересечений слов из двух текстов, а также значений расчетных показателей делается вывод о степени их схожести. В приложении -исходный (рабочий) код программы на С#
Защищалась в 2012 г в Волгодонском институте сервиса, специалист, оценка-отлично.

В основном используются научные статьи и обзоры по статистической обработке текстов и ее методикам, а также книги по программированию на языке С#

1. Статистическая обработка текстов и сборка N-грамм [Электронный ресурс]: Все о статистической обработке, 2009. URL: http://www.solarix.ru/
2. Ву Ш.-Х., Цай Ц.-В., Сюй В.-Л. Текстовая категоризация с использованием автоматически построенных онтологий [Электронный ресурс]: Инженерия знаний, 2011. URL: http://asp.mmc.nsu.ru
3. Агеев А.М. Обзор современных направлений развития автоматической классификации текстов [Электронный ресурс]: УИС Россия, 2008. URL: http://www.cir.ru/
4. Грэхем П. Применение «наивного» Байеса для фильтрации спама в сервисах электронной почты [Электронный ресурс]: Хабрахабр, 2010. URL: http://www.habrahabr.ru
5. Мерзленко А.А. Автоклассификация текста с помощью нейронных сетей [Электронный ресурс]: ДонНГГ, 2011. URL: http://masters.donntu.edu.ua

Не подошла эта работа?

Закажи новую работу, сделанную по твоим требованиям

Оставляя свои контактные данные и нажимая «Заказать Дипломную работу», я соглашаюсь пройти процедуру регистрации на Платформе, принимаю условия Пользовательского соглашения и Политики конфиденциальности в целях заключения соглашения.

Купить эту работу

Разработка и реализация программы для статистической обработки текста

100 ₽

или заказать новую

Лучшие эксперты сервиса ждут твоего задания

от 3000 ₽

Гарантии Автор24

Гарантийный срок

10 дней с момента оплаты работы
Критерии обращения по гарантии

Работа не соответствует заявленному описанию или уникальность менее 50%
Куда обращаться

Оформить жалобу в личном кабинете

Инструкция
Ознакомиться с подробной инструкцией можно по ссылке

Понравилась эта работа?

или

3 марта 2015 заказчик разместил работу

Выбранный эксперт:

Wednesday

4.9

Преподаю. Занимаюсь программированием в С# и php.

Разработка и реализация программы для статистической обработки текста .docx

Купить эту работу vs Заказать новую

0 раз	Куплено	Выполняется индивидуально
Не менее 40% Исполнитель, загружая работу в «Банк готовых работ» подтверждает, что уровень оригинальности работы составляет не менее 40%	Уникальность	Выполняется индивидуально
Сразу в личном кабинете	Доступность	Срок 1—6 дней
100 ₽	Цена	от 3000 ₽

Не подошла эта работа?

В нашей базе 55644 Дипломной работы — поможем найти подходящую

Тема работы

Тип работы

Выбери тип

Отчёт по практике

Курсовая работа

Реферат

Контрольная работа

Решение задач

Статья

Выпускная квалификационная работа (ВКР)

Другое

Дипломная работа

Презентации

Ответы на вопросы

Эссе

Научно-исследовательская работа (НИР)

Магистерская диссертация

Помощь on-line

Повышение уникальности текста

Статья ВАК/Scopus

Анализ

Доклад

Индивидуальный проект

Чертёж

Лабораторная работа

Кандидатская диссертация

Творческая работа

Набор текста

Проверка работы

Маркетинговое исследование

Автореферат

Расчётно-графическая работа (РГР)

Бизнес-план

Сочинения

Копирайтинг

Задача по программированию

Маркетинг и продвижение

Рецензия

Монография

Подбор темы работы

Аннотация

Сопроводительное письмо

Дизайн и визуализация

Перевод

Вычитка и рецензирование работ

Онлайн-консультация

Гуманизация работы

Разбор отчёта Антиплагиат

Предмет

Выбери предмет

Технические

Авиационная и ракетно-космическая техника

Автоматизация технологических процессов

Автоматика и управление

Архитектура и строительство

Базы данных

Военное дело

Высшая математика

Геометрия

Гидравлика

Горное дело

Детали машин

Железнодорожный транспорт

Инженерные сети и оборудование

Информатика

Информационная безопасность

Информационные технологии

Искусственный интеллект

Материаловедение

Машиностроение

Металлургия

Метрология

Механика

Микропроцессорная техника

Начертательная геометрия

Пожарная безопасность

Приборостроение и оптотехника

Программирование

Процессы и аппараты

Сварка и сварочное производство

Сопротивление материалов

Судостроение

Текстильная промышленность

Теоретическая механика

Теория вероятностей

Теория игр

Теория машин и механизмов

Теплоэнергетика и теплотехника

Техническая механика

Технологические машины и оборудование

Технология продовольственных продуктов и товаров

Транспортные средства

Физика

Черчение

Школьная математика

Электроника, электротехника, радиотехника

Энергетическое машиностроение

Ядерные физика и технологии

Другое

Естественные

Агрохимия и агропочвоведение

Анатомия

Астрономия

Безопасность жизнедеятельности

Биология

Ветеринария

Водные биоресурсы и аквакультура

География

Геодезия

Геология

Естествознание

Землеустройство и кадастр

Медицина

Нефтегазовое дело

Садоводство

Стоматология

Фармация

Химия

Хирургия

Экология

Гуманитарные

Актерское мастерство

Английский язык

Библиотечно-информационная деятельность

Дефектология

Дизайн

Документоведение и архивоведение

Дошкольное образование

Журналистика

Искусство

История

Китайский язык

Конфликтология

Краеведение

Криминалистика

Кулинария

Культурология

Лингвистика

Литература

Логика

Международные отношения

Методика преподавания

Музыка

Немецкий язык

Обществознание

Охрана труда

Парикмахерское искусство

Педагогика

Политология

Право и юриспруденция

Проектная деятельность

Психология

Режиссура

Реклама и PR

Религия

Русский язык

Связи с общественностью

Социальная работа

Социология

Физическая культура

Философия

Французский язык

Эстетика

Этика

Языки (переводы)

Языкознание и филология

Экономические

Анализ хозяйственной деятельности

Антикризисное управление

Банковское дело

Бизнес-планирование

Бухгалтерский учет и аудит

Внешнеэкономическая деятельность

Гостиничное дело

Государственное и муниципальное управление

Деньги

Инвестиции

Инновационный менеджмент

Кредит

Логистика

Маркетинг

Менеджмент

Менеджмент организации

Микро-, макроэкономика

Налоги

Организационное развитие

Производственный маркетинг и менеджмент

Рынок ценных бумаг

Стандартизация

Статистика

Стратегический менеджмент

Страхование

Таможенное дело

Теория управления

Товароведение

Торговое дело

Туризм

Управление качеством

Управление персоналом

Управление проектами

Финансовый менеджмент

Финансы

Ценообразование и оценка бизнеса

Эконометрика

Экономика

Экономика предприятия

Экономика труда

Экономическая теория

Экономический анализ

EVIEWS

SPSS

STATA

От

До

От

Информационные технологии Дипломная работа

Уникальность: от 40%

Доступность: сразу

5000 ₽

Отзывы студентов

Дипломная работа

Автор молодец выполнил работу раньше срока. Спасибо

Дипломная работа

Спасибо!

Дипломная работа

Информационные технологии Дипломная работа

Уникальность: от 40%

Доступность: сразу

7700 ₽

Информация о работе

Разработка и реализация программы для статистической обработки текста

Фрагменты работ

Форма заказа новой работы

Фрагменты работ

Купить эту работу

или заказать новую

Гарантии Автор24

Изображения работ

Выбранный эксперт:

Поиск подходящей работы

5 Похожих работ

Отзывы студентов

другие учебные работы по предмету

Получи деньги за свои студенческие работы