Подробнее о работе

Разработка и реализация программы для определения схожести текстов и поиска нечетких дубликатов на основе алгоритма шинглов

54 страниц
2016 год
458 просмотров
1 покупка

Wednesday

Преподаю. Занимаюсь программированием в С# и php.

100 ₽

Работа будет доступна в твоём личном кабинете после покупки

Гарантия сервиса Автор24

Уникальность не ниже 50%

Задача определения заимствований и дубликатов является сложной и сильно зависит от типа заимствования: плагиат, использование идеи, копи-паст, рерайтинг и т.д. При этом существуют множество ее разновидностей: установление приоритета в сетевых публикациях, удаление частично измененного копипаста, сравнение документа по контенту, установление смысловой близости документа.

Введение 2
1 Задача определения близости текстов и способы ее решения 4
1.1 Цели, задачи и методы сравнения текстов 4
1.2 Обзор методов определения сходства документов 7
1.3 Алгоритм шинглов 11
2 Разработка и реализация программы для определения близости текстов методом шинглов 24
2.1 Анализ задания и архитектурное проектирование программы 24
2.2 Программная реализация алгоритма шинглов для определения близости текстов 31
2.3 Разработка интерфейса в WindowsForms 40
2.4 Тестирование и отладка программы 44
3 Экономическая часть 48
3.1 Расход трудоемкости разработки программного продукта 48
3.2 Расход на оплату труда разработчика программы 50
3.3 Общие затраты на создание программного продукта 51
Выводы и рекомендации 52
Библиографический список 53
Приложение А. 56
Исходный код программы для сравнения документов по алгоритму шинглов. 56

Раздел 1.2
Помимо алгоритма шинглов, программная реализация которого представлена в данной работе, существуют следующие способы определения сходства текстовых документов:
1) Векторная модель, метод «мешка слов». TFij ∙ IDFi меры;
2) Вероятностные методы: метод Байеса, латентное распределение Дирихле (ЛДА);
3) Семантические методы: ассоциативно-семантический подход, латент-но-семантический анализ (ЛСА) и т.д.;
4) Нейронные сети.

Векторная модель и меры TF-IDF используется в поисковых и других системах хранения и сбора информации. Ее частный случай называют модель «мешка слов» (bag of words). Ее отличительная черта – независимость от места слова в тексте.

Раздел 2.3.
Теперь, когда сама программа отлажена, осталось создать интерфейс и перенести ее в WindowsForms. Разработанный интерфейс представлен на рис.2.2.
Как видно на рис.2.2, настройки программы содержат выбор алгоритма хеширования, длины шингла и сдвига. Существует очевидное ограничение: длина сдвига не должна быть больше, чем длина шингла, так как тогда будут неучтенные слова текста. Эта функция подстройки длины шингла и сдвига должна быть реализована в интерфейсе.
При выборе с помощью Radiobutton длины шингла, NumericUpDown для настройки сдвига должен блокировать варианты больше, чем длина шингла. Сдвиг может равняться длине, тогда не будет нахлеста. Конечно, это менее надежный способ, но возможный и используемый. На рис 2.8 показано, где должна быть блокировка.

В данной работе рассмотрено создание программы для определения схожести текстов и поиска нечетких дубликатов на основе алгоритма шинглов. Сделан подробный обзор методов и средств решения задачи анализа подобия. Рассмотрен алгоритм шинглов, его сильные и слабые стороны, задачи, в которых его применение наиболее эффективно. Подробно описан процесс создания программы, приведены фрагменты кода, скриншоты и результаты тестирования. Программа выполнена на языке C#, содержит рабочий исходный код в приложении

1. Лексин В. Рекомендательная система: полезные задачи текстмайнинга. Поиск дубликатов и плагиата среди веб-страниц [Электронный ресурс]: Хабрахабр. Блог компании Surfingbird, 2013. URL: http://www.habrahabr.ru.
2. Мешкова Е.В. Анализ современных методов обработки текстовой информации для автоматической классификации документов / Информационные системы и технологии. Теория и практика: cб. науч. тр. / редкол.: А.Н. Береза [и др.]. – Шахты: ГОУ ВПО «ЮРГУЭС», 2009. – 210 с.
3. Попов А. Поиск в Интернете, внутри и снаружи [Электронный ресурс]: Корабли в бутылках, 2005. URL: http://www.shipbottle.ru
4. Грэхем П. Применение «наивного» Байеса для фильтрации спама в сервисах электронной почты [Электронный ресурс]: Хабрахабр, 2010. URL: http://www.habrahabr.ru
5. Байесовский классификатор. [Электронный ресурс]: Портал о машинном обучении, 2013. URL: http://www.machinelearning.ru
6. Латентное размещение Дирихле (LDA) [Электронный ресурс]: Википедия, 2011. URL: wikihttp://ru.wikipedia.org/wiki
7. Автоматический анализ текста TextAnalyst 2.0[Электронный ресурс]: MicroSystem. Персональная система автоматического анализа текста TextAnalyst, 2012. URL: http://www.analyst.ru
8. Латентно-семантический анализ (ЛСА) [Электронный ресурс]: Вики-педия, 2011. URL: wikihttp://ru.wikipedia.org/wiki,
9. Readings in Latent Semantic Analysis for Cognitive Science and Education [Электронный ресурс]: Сборник статей и публикаций по ЛСА, 2012. URL: http://www.timc.imag.fr/Benoit.Lemaire/lsa.html
10. Мерзленко А.А. Автоклассификация текста с помощью нейронных сетей [Электронный ресурс]: ДонНГУ, 2011. URL: http://masters.donntu.edu.ua
11. Иванов Р. Алгоритм шинглов. Поиск дубликатов текста [Электронный ресурс]: Блог OrionXL, 15.01.2010. URL: www.orionxl.ru
12. Зеленков Ю. Г., Сегалович И.В. «Сравнительный анализ методов определения нечетких дубликатов для Web-документов»// Материалы Всероссийской научной конференции «Электронные библиотеки, перспективные методы и технологии, электронные коллекции», Переславль-Залесский, 2007.
13. Алгоритм шинглов [Электронный ресурс]: Студия дизайна Uniweb, 2015. URL: http:\\www.uniweb.ru
14. Родненко В. Python: Алгоритм Шинглов – поиск нечетких дубликатов текста [Электронный ресурс]: Код – это искусство, 2009. URL: http://www.codeisart.ru
15. Кнут Д., Искусство программирования, т.3. М.: Вильямс, 2000.
16. Петров А.А., Хеширование и хеш-таблицы. [Электронный ресурс]: Файловый архив для студентов, 2014. URL: http://www.studfiles.ru
17. Чмора А., Современная прикладная криптография., М.: Гелиос АРВ, 2006.
18. К.Уотсон, К. Нейгел, Я. Хю Педерсен, Д. Д. Рид, М. Скиннер, Э. Уайт. Visual C# 2008: базовый курс: изд-во "Диалектика", 2009.
19. Шилдгт Г. Полное руководство по С# - 2-e изд., М.:Вильямс, 2010, -1024 с.
20. Хэширование и криптография [Электронный ресурс]: Профессор Web. Руководство по C#, 2015. URL: http://professorweb.ru
21. Пространство имен System.Security.Cryptography [Электронный ресурс]: MSDN – сеть разработчиков Microsoft, 2016. URL: http://msdn.microsoft.com
22. Фридл Дж. Регулярные выражения. – 3-е изд., М.:Символ-Плюс,2012. -560 с.
23. Регулярные выражения в примерах и теории. [Электронный ресурс]: Блог доброго программиста C#, 2014. URL: http://foolsoft.ru
24. Методические указания по выполнению экономической части дипломной работы. – Волгодонск, 2014.

Не подошла эта работа?

Закажи новую работу, сделанную по твоим требованиям

Оставляя свои контактные данные и нажимая «Заказать Дипломную работу», я соглашаюсь пройти процедуру регистрации на Платформе, принимаю условия Пользовательского соглашения и Политики конфиденциальности в целях заключения соглашения.

Купить эту работу

Разработка и реализация программы для определения схожести текстов и поиска нечетких дубликатов на основе алгоритма шинглов

100 ₽

или заказать новую

Лучшие эксперты сервиса ждут твоего задания

от 3000 ₽

Гарантии Автор24

Гарантийный срок

10 дней с момента оплаты работы
Критерии обращения по гарантии

Работа не соответствует заявленному описанию или уникальность менее 50%
Куда обращаться

Оформить жалобу в личном кабинете

Инструкция
Ознакомиться с подробной инструкцией можно по ссылке

Понравилась эта работа?

или

27 мая 2017 заказчик разместил работу

Выбранный эксперт:

Wednesday

4.9

Преподаю. Занимаюсь программированием в С# и php.

Разработка и реализация программы для определения схожести текстов и поиска нечетких дубликатов на основе алгоритма шинглов .docx

Купить эту работу vs Заказать новую

1 раз	Куплено	Выполняется индивидуально
Не менее 40% Исполнитель, загружая работу в «Банк готовых работ» подтверждает, что уровень оригинальности работы составляет не менее 40%	Уникальность	Выполняется индивидуально
Сразу в личном кабинете	Доступность	Срок 1—6 дней
100 ₽	Цена	от 3000 ₽

Не подошла эта работа?

В нашей базе 55695 Дипломных работ — поможем найти подходящую

Тема работы

Тип работы

Выбери тип

Курсовая работа

Решение задач

Другое

Контрольная работа

Реферат

Статья

Презентации

Ответы на вопросы

Отчёт по практике

Выпускная квалификационная работа

Доклад

Эссе

Лабораторная работа

Дипломная работа

Творческая работа

Помощь on-line

Сочинения

Чертёж

Повышение уникальности текста

Задача по программированию

Рецензия

Бизнес-план

Набор текста

Перевод

Копирайтинг

Маркетинговое исследование

Подбор темы работы

Вычитка и рецензирование работ

Монография

Предмет

Выбери предмет

Технические

Авиационная и ракетно-космическая техника

Автоматизация технологических процессов

Автоматика и управление

Архитектура и строительство

Базы данных

Военное дело

Высшая математика

Геометрия

Гидравлика

Горное дело

Детали машин

Железнодорожный транспорт

Инженерные сети и оборудование

Информатика

Информационная безопасность

Информационные технологии

Искусственный интеллект

Материаловедение

Машиностроение

Металлургия

Метрология

Механика

Микропроцессорная техника

Начертательная геометрия

Пожарная безопасность

Приборостроение и оптотехника

Программирование

Процессы и аппараты

Сварка и сварочное производство

Сопротивление материалов

Судостроение

Текстильная промышленность

Теоретическая механика

Теория вероятностей

Теория игр

Теория машин и механизмов

Теплоэнергетика и теплотехника

Технологические машины и оборудование

Технология продовольственных продуктов и товаров

Транспортные средства

Физика

Черчение

Школьная математика

Электроника, электротехника, радиотехника

Энергетическое машиностроение

Ядерные физика и технологии

Другое

Естественные

Агрохимия и агропочвоведение

Анатомия

Астрономия

Безопасность жизнедеятельности

Биология

Ветеринария

Водные биоресурсы и аквакультура

География

Геодезия

Геология

Естествознание

Землеустройство и кадастр

Медицина

Нефтегазовое дело

Садоводство

Стоматология

Фармация

Химия

Хирургия

Экология

Гуманитарные

Актерское мастерство

Английский язык

Библиотечно-информационная деятельность

Дефектология

Дизайн

Документоведение и архивоведение

Дошкольное образование

Журналистика

Искусство

История

Китайский язык

Конфликтология

Краеведение

Криминалистика

Кулинария

Культурология

Лингвистика

Литература

Логика

Международные отношения

Методика преподавания

Музыка

Немецкий язык

Обществознание

Охрана труда

Парикмахерское искусство

Педагогика

Политология

Право и юриспруденция

Проектная деятельность

Психология

Режиссура

Реклама и PR

Религия

Русский язык

Связи с общественностью

Социальная работа

Социология

Физическая культура

Философия

Французский язык

Эстетика

Этика

Языки (переводы)

Языкознание и филология

Экономические

Анализ хозяйственной деятельности

Антикризисное управление

Банковское дело

Бизнес-планирование

Бухгалтерский учет и аудит

Внешнеэкономическая деятельность

Гостиничное дело

Государственное и муниципальное управление

Деньги

Инвестиции

Инновационный менеджмент

Кредит

Логистика

Маркетинг

Менеджмент

Менеджмент организации

Микро-, макроэкономика

Налоги

Организационное развитие

Производственный маркетинг и менеджмент

Рынок ценных бумаг

Стандартизация

Статистика

Стратегический менеджмент

Страхование

Таможенное дело

Теория управления

Товароведение

Торговое дело

Туризм

Управление качеством

Управление персоналом

Управление проектами

Финансовый менеджмент

Финансы

Ценообразование и оценка бизнеса

Эконометрика

Экономика

Экономика предприятия

Экономика труда

Экономическая теория

Экономический анализ

EVIEWS

SPSS

STATA

От

До

От

Информационные технологии Дипломная работа

Уникальность: от 40%

Доступность: сразу

2000 ₽

Отзывы студентов

Дипломная работа

Автор молодец выполнил работу раньше срока. Спасибо

Дипломная работа

Спасибо!

Дипломная работа

Информационные технологии Дипломная работа

Уникальность: от 40%

Доступность: сразу

1000 ₽

Информация о работе

Разработка и реализация программы для определения схожести текстов и поиска нечетких дубликатов на основе алгоритма шинглов

Фрагменты работ

Форма заказа новой работы

Фрагменты работ

Купить эту работу

или заказать новую

Гарантии Автор24

Изображения работ

Выбранный эксперт:

Поиск подходящей работы

5 Похожих работ

Отзывы студентов

другие учебные работы по предмету

Получи деньги за свои студенческие работы