Автор24

Информация о работе

Подробнее о работе

Страница работы

Разработка и реализация программы для определения схожести текстов и поиска нечетких дубликатов на основе алгоритма шинглов

  • 54 страниц
  • 2016 год
  • 458 просмотров
  • 1 покупка
Автор работы

Wednesday

Преподаю. Занимаюсь программированием в С# и php.

100 ₽

Работа будет доступна в твоём личном кабинете после покупки

Гарантия сервиса Автор24

Уникальность не ниже 50%

Фрагменты работ

Задача определения заимствований и дубликатов является сложной и сильно зависит от типа заимствования: плагиат, использование идеи, копи-паст, рерайтинг и т.д. При этом существуют множество ее разновидностей: установление приоритета в сетевых публикациях, удаление частично измененного копипаста, сравнение документа по контенту, установление смысловой близости документа.

Введение 2
1 Задача определения близости текстов и способы ее решения 4
1.1 Цели, задачи и методы сравнения текстов 4
1.2 Обзор методов определения сходства документов 7
1.3 Алгоритм шинглов 11
2 Разработка и реализация программы для определения близости текстов методом шинглов 24
2.1 Анализ задания и архитектурное проектирование программы 24
2.2 Программная реализация алгоритма шинглов для определения близости текстов 31
2.3 Разработка интерфейса в WindowsForms 40
2.4 Тестирование и отладка программы 44
3 Экономическая часть 48
3.1 Расход трудоемкости разработки программного продукта 48
3.2 Расход на оплату труда разработчика программы 50
3.3 Общие затраты на создание программного продукта 51
Выводы и рекомендации 52
Библиографический список 53
Приложение А. 56
Исходный код программы для сравнения документов по алгоритму шинглов. 56

Раздел 1.2
Помимо алгоритма шинглов, программная реализация которого представлена в данной работе, существуют следующие способы определения сходства текстовых документов:
1) Векторная модель, метод «мешка слов». TFij ∙ IDFi меры;
2) Вероятностные методы: метод Байеса, латентное распределение Дирихле (ЛДА);
3) Семантические методы: ассоциативно-семантический подход, латент-но-семантический анализ (ЛСА) и т.д.;
4) Нейронные сети.

Векторная модель и меры TF-IDF используется в поисковых и других системах хранения и сбора информации. Ее частный случай называют модель «мешка слов» (bag of words). Ее отличительная черта – независимость от места слова в тексте.

Раздел 2.3.
Теперь, когда сама программа отлажена, осталось создать интерфейс и перенести ее в WindowsForms. Разработанный интерфейс представлен на рис.2.2.
Как видно на рис.2.2, настройки программы содержат выбор алгоритма хеширования, длины шингла и сдвига. Существует очевидное ограничение: длина сдвига не должна быть больше, чем длина шингла, так как тогда будут неучтенные слова текста. Эта функция подстройки длины шингла и сдвига должна быть реализована в интерфейсе.
При выборе с помощью Radiobutton длины шингла, NumericUpDown для настройки сдвига должен блокировать варианты больше, чем длина шингла. Сдвиг может равняться длине, тогда не будет нахлеста. Конечно, это менее надежный способ, но возможный и используемый. На рис 2.8 показано, где должна быть блокировка.

В данной работе рассмотрено создание программы для определения схожести текстов и поиска нечетких дубликатов на основе алгоритма шинглов. Сделан подробный обзор методов и средств решения задачи анализа подобия. Рассмотрен алгоритм шинглов, его сильные и слабые стороны, задачи, в которых его применение наиболее эффективно. Подробно описан процесс создания программы, приведены фрагменты кода, скриншоты и результаты тестирования. Программа выполнена на языке C#, содержит рабочий исходный код в приложении

1. Лексин В. Рекомендательная система: полезные задачи текстмайнинга. Поиск дубликатов и плагиата среди веб-страниц [Электронный ресурс]: Хабрахабр. Блог компании Surfingbird, 2013. URL: http://www.habrahabr.ru.
2. Мешкова Е.В. Анализ современных методов обработки текстовой информации для автоматической классификации документов / Информационные системы и технологии. Теория и практика: cб. науч. тр. / редкол.: А.Н. Береза [и др.]. – Шахты: ГОУ ВПО «ЮРГУЭС», 2009. – 210 с.
3. Попов А. Поиск в Интернете, внутри и снаружи [Электронный ресурс]: Корабли в бутылках, 2005. URL: http://www.shipbottle.ru
4. Грэхем П. Применение «наивного» Байеса для фильтрации спама в сервисах электронной почты [Электронный ресурс]: Хабрахабр, 2010. URL: http://www.habrahabr.ru
5. Байесовский классификатор. [Электронный ресурс]: Портал о машинном обучении, 2013. URL: http://www.machinelearning.ru
6. Латентное размещение Дирихле (LDA) [Электронный ресурс]: Википедия, 2011. URL: wikihttp://ru.wikipedia.org/wiki
7. Автоматический анализ текста TextAnalyst 2.0[Электронный ресурс]: MicroSystem. Персональная система автоматического анализа текста TextAnalyst, 2012. URL: http://www.analyst.ru
8. Латентно-семантический анализ (ЛСА) [Электронный ресурс]: Вики-педия, 2011. URL: wikihttp://ru.wikipedia.org/wiki,
9. Readings in Latent Semantic Analysis for Cognitive Science and Education [Электронный ресурс]: Сборник статей и публикаций по ЛСА, 2012. URL: http://www.timc.imag.fr/Benoit.Lemaire/lsa.html
10. Мерзленко А.А. Автоклассификация текста с помощью нейронных сетей [Электронный ресурс]: ДонНГУ, 2011. URL: http://masters.donntu.edu.ua
11. Иванов Р. Алгоритм шинглов. Поиск дубликатов текста [Электронный ресурс]: Блог OrionXL, 15.01.2010. URL: www.orionxl.ru
12. Зеленков Ю. Г., Сегалович И.В. «Сравнительный анализ методов определения нечетких дубликатов для Web-документов»// Материалы Всероссийской научной конференции «Электронные библиотеки, перспективные методы и технологии, электронные коллекции», Переславль-Залесский, 2007.
13. Алгоритм шинглов [Электронный ресурс]: Студия дизайна Uniweb, 2015. URL: http:\\www.uniweb.ru
14. Родненко В. Python: Алгоритм Шинглов – поиск нечетких дубликатов текста [Электронный ресурс]: Код – это искусство, 2009. URL: http://www.codeisart.ru
15. Кнут Д., Искусство программирования, т.3. М.: Вильямс, 2000.
16. Петров А.А., Хеширование и хеш-таблицы. [Электронный ресурс]: Файловый архив для студентов, 2014. URL: http://www.studfiles.ru
17. Чмора А., Современная прикладная криптография., М.: Гелиос АРВ, 2006.
18. К.Уотсон, К. Нейгел, Я. Хю Педерсен, Д. Д. Рид, М. Скиннер, Э. Уайт. Visual C# 2008: базовый курс: изд-во "Диалектика", 2009.
19. Шилдгт Г. Полное руководство по С# - 2-e изд., М.:Вильямс, 2010, -1024 с.
20. Хэширование и криптография [Электронный ресурс]: Профессор Web. Руководство по C#, 2015. URL: http://professorweb.ru
21. Пространство имен System.Security.Cryptography [Электронный ресурс]: MSDN – сеть разработчиков Microsoft, 2016. URL: http://msdn.microsoft.com
22. Фридл Дж. Регулярные выражения. – 3-е изд., М.:Символ-Плюс,2012. -560 с.
23. Регулярные выражения в примерах и теории. [Электронный ресурс]: Блог доброго программиста C#, 2014. URL: http://foolsoft.ru
24. Методические указания по выполнению экономической части дипломной работы. – Волгодонск, 2014.

Форма заказа новой работы

Не подошла эта работа?

Закажи новую работу, сделанную по твоим требованиям

Оставляя свои контактные данные и нажимая «Заказать Дипломную работу», я соглашаюсь пройти процедуру регистрации на Платформе, принимаю условия Пользовательского соглашения и Политики конфиденциальности в целях заключения соглашения.

Фрагменты работ

Задача определения заимствований и дубликатов является сложной и сильно зависит от типа заимствования: плагиат, использование идеи, копи-паст, рерайтинг и т.д. При этом существуют множество ее разновидностей: установление приоритета в сетевых публикациях, удаление частично измененного копипаста, сравнение документа по контенту, установление смысловой близости документа.

Введение 2
1 Задача определения близости текстов и способы ее решения 4
1.1 Цели, задачи и методы сравнения текстов 4
1.2 Обзор методов определения сходства документов 7
1.3 Алгоритм шинглов 11
2 Разработка и реализация программы для определения близости текстов методом шинглов 24
2.1 Анализ задания и архитектурное проектирование программы 24
2.2 Программная реализация алгоритма шинглов для определения близости текстов 31
2.3 Разработка интерфейса в WindowsForms 40
2.4 Тестирование и отладка программы 44
3 Экономическая часть 48
3.1 Расход трудоемкости разработки программного продукта 48
3.2 Расход на оплату труда разработчика программы 50
3.3 Общие затраты на создание программного продукта 51
Выводы и рекомендации 52
Библиографический список 53
Приложение А. 56
Исходный код программы для сравнения документов по алгоритму шинглов. 56

Раздел 1.2
Помимо алгоритма шинглов, программная реализация которого представлена в данной работе, существуют следующие способы определения сходства текстовых документов:
1) Векторная модель, метод «мешка слов». TFij ∙ IDFi меры;
2) Вероятностные методы: метод Байеса, латентное распределение Дирихле (ЛДА);
3) Семантические методы: ассоциативно-семантический подход, латент-но-семантический анализ (ЛСА) и т.д.;
4) Нейронные сети.

Векторная модель и меры TF-IDF используется в поисковых и других системах хранения и сбора информации. Ее частный случай называют модель «мешка слов» (bag of words). Ее отличительная черта – независимость от места слова в тексте.

Раздел 2.3.
Теперь, когда сама программа отлажена, осталось создать интерфейс и перенести ее в WindowsForms. Разработанный интерфейс представлен на рис.2.2.
Как видно на рис.2.2, настройки программы содержат выбор алгоритма хеширования, длины шингла и сдвига. Существует очевидное ограничение: длина сдвига не должна быть больше, чем длина шингла, так как тогда будут неучтенные слова текста. Эта функция подстройки длины шингла и сдвига должна быть реализована в интерфейсе.
При выборе с помощью Radiobutton длины шингла, NumericUpDown для настройки сдвига должен блокировать варианты больше, чем длина шингла. Сдвиг может равняться длине, тогда не будет нахлеста. Конечно, это менее надежный способ, но возможный и используемый. На рис 2.8 показано, где должна быть блокировка.

В данной работе рассмотрено создание программы для определения схожести текстов и поиска нечетких дубликатов на основе алгоритма шинглов. Сделан подробный обзор методов и средств решения задачи анализа подобия. Рассмотрен алгоритм шинглов, его сильные и слабые стороны, задачи, в которых его применение наиболее эффективно. Подробно описан процесс создания программы, приведены фрагменты кода, скриншоты и результаты тестирования. Программа выполнена на языке C#, содержит рабочий исходный код в приложении

1. Лексин В. Рекомендательная система: полезные задачи текстмайнинга. Поиск дубликатов и плагиата среди веб-страниц [Электронный ресурс]: Хабрахабр. Блог компании Surfingbird, 2013. URL: http://www.habrahabr.ru.
2. Мешкова Е.В. Анализ современных методов обработки текстовой информации для автоматической классификации документов / Информационные системы и технологии. Теория и практика: cб. науч. тр. / редкол.: А.Н. Береза [и др.]. – Шахты: ГОУ ВПО «ЮРГУЭС», 2009. – 210 с.
3. Попов А. Поиск в Интернете, внутри и снаружи [Электронный ресурс]: Корабли в бутылках, 2005. URL: http://www.shipbottle.ru
4. Грэхем П. Применение «наивного» Байеса для фильтрации спама в сервисах электронной почты [Электронный ресурс]: Хабрахабр, 2010. URL: http://www.habrahabr.ru
5. Байесовский классификатор. [Электронный ресурс]: Портал о машинном обучении, 2013. URL: http://www.machinelearning.ru
6. Латентное размещение Дирихле (LDA) [Электронный ресурс]: Википедия, 2011. URL: wikihttp://ru.wikipedia.org/wiki
7. Автоматический анализ текста TextAnalyst 2.0[Электронный ресурс]: MicroSystem. Персональная система автоматического анализа текста TextAnalyst, 2012. URL: http://www.analyst.ru
8. Латентно-семантический анализ (ЛСА) [Электронный ресурс]: Вики-педия, 2011. URL: wikihttp://ru.wikipedia.org/wiki,
9. Readings in Latent Semantic Analysis for Cognitive Science and Education [Электронный ресурс]: Сборник статей и публикаций по ЛСА, 2012. URL: http://www.timc.imag.fr/Benoit.Lemaire/lsa.html
10. Мерзленко А.А. Автоклассификация текста с помощью нейронных сетей [Электронный ресурс]: ДонНГУ, 2011. URL: http://masters.donntu.edu.ua
11. Иванов Р. Алгоритм шинглов. Поиск дубликатов текста [Электронный ресурс]: Блог OrionXL, 15.01.2010. URL: www.orionxl.ru
12. Зеленков Ю. Г., Сегалович И.В. «Сравнительный анализ методов определения нечетких дубликатов для Web-документов»// Материалы Всероссийской научной конференции «Электронные библиотеки, перспективные методы и технологии, электронные коллекции», Переславль-Залесский, 2007.
13. Алгоритм шинглов [Электронный ресурс]: Студия дизайна Uniweb, 2015. URL: http:\\www.uniweb.ru
14. Родненко В. Python: Алгоритм Шинглов – поиск нечетких дубликатов текста [Электронный ресурс]: Код – это искусство, 2009. URL: http://www.codeisart.ru
15. Кнут Д., Искусство программирования, т.3. М.: Вильямс, 2000.
16. Петров А.А., Хеширование и хеш-таблицы. [Электронный ресурс]: Файловый архив для студентов, 2014. URL: http://www.studfiles.ru
17. Чмора А., Современная прикладная криптография., М.: Гелиос АРВ, 2006.
18. К.Уотсон, К. Нейгел, Я. Хю Педерсен, Д. Д. Рид, М. Скиннер, Э. Уайт. Visual C# 2008: базовый курс: изд-во "Диалектика", 2009.
19. Шилдгт Г. Полное руководство по С# - 2-e изд., М.:Вильямс, 2010, -1024 с.
20. Хэширование и криптография [Электронный ресурс]: Профессор Web. Руководство по C#, 2015. URL: http://professorweb.ru
21. Пространство имен System.Security.Cryptography [Электронный ресурс]: MSDN – сеть разработчиков Microsoft, 2016. URL: http://msdn.microsoft.com
22. Фридл Дж. Регулярные выражения. – 3-е изд., М.:Символ-Плюс,2012. -560 с.
23. Регулярные выражения в примерах и теории. [Электронный ресурс]: Блог доброго программиста C#, 2014. URL: http://foolsoft.ru
24. Методические указания по выполнению экономической части дипломной работы. – Волгодонск, 2014.

Купить эту работу

Разработка и реализация программы для определения схожести текстов и поиска нечетких дубликатов на основе алгоритма шинглов

100 ₽

или заказать новую

Лучшие эксперты сервиса ждут твоего задания

от 3000 ₽

Гарантии Автор24

Изображения работ

Страница работы
Страница работы
Страница работы

Понравилась эта работа?

или

27 мая 2017 заказчик разместил работу

Выбранный эксперт:

Автор работы
Wednesday
4.9
Преподаю. Занимаюсь программированием в С# и php.
Купить эту работу vs Заказать новую
1 раз Куплено Выполняется индивидуально
Не менее 40%
Исполнитель, загружая работу в «Банк готовых работ» подтверждает, что уровень оригинальности работы составляет не менее 40%
Уникальность Выполняется индивидуально
Сразу в личном кабинете Доступность Срок 1—6 дней
100 ₽ Цена от 3000 ₽

5 Похожих работ

Дипломная работа

Разработка инфокоммуникационной системы управления крупным радиотелескопом

Уникальность: от 40%
Доступность: сразу
3300 ₽
Дипломная работа

Разработка комплекса рекомендаций по технической защите конфиденциальной информации хозяйствующего субъекта- мед.центра (на конкретном примере)

Уникальность: от 40%
Доступность: сразу
3300 ₽
Дипломная работа

Разработка мультисервисной сети городского микрорайона

Уникальность: от 40%
Доступность: сразу
2800 ₽
Дипломная работа

Разработка автоматизированной системы учета пациентов

Уникальность: от 40%
Доступность: сразу
3750 ₽
Дипломная работа

Разработка Автоматизированной Системы Ведения Электронного Архива

Уникальность: от 40%
Доступность: сразу
2000 ₽

Отзывы студентов

Отзыв михаил об авторе Wednesday 2014-04-27
Дипломная работа

Автор молодец выполнил работу раньше срока. Спасибо

Общая оценка 5
Отзыв Геннадий Полушкин об авторе Wednesday 2016-06-03
Дипломная работа

Спасибо!

Общая оценка 5
Отзыв user9445 об авторе Wednesday 2016-05-18
Дипломная работа

Ребята, Автор - просто бомба! Как же мне с ним повезло!!! Инициативный, грамотный, всегда на связи! Gigavector даже после окончания гарантийного срока дорабатывает расчеты к моей дипломной работе "Разработка информационной системы для объектов дорожной сети" по замечаниям моего придирчивого препода! Надеюсь на благополучную защиту!!!

Общая оценка 5
Отзыв Вера302 об авторе Wednesday 2017-05-24
Дипломная работа

Все отлично! Спасибо за продуктивную работу и подробные пояснения что и как!

Общая оценка 5

другие учебные работы по предмету

Готовая работа

ПОСЛЕДОВАТЕЛЬНЫЙ ИНТЕРФЕЙС

Уникальность: от 40%
Доступность: сразу
500 ₽
Готовая работа

Квантовые компьютеры в кибернетике

Уникальность: от 40%
Доступность: сразу
200 ₽
Готовая работа

ДИСКОВЫЕ НАКОПИТЕЛИ НА СМЕННЫХ НОСИТЕЛЯХ ИНФОРМАЦИИ

Уникальность: от 40%
Доступность: сразу
200 ₽
Готовая работа

ВИДЕОТЕРМИНАЛЫ ПЭВМ

Уникальность: от 40%
Доступность: сразу
200 ₽
Готовая работа

Описание информационной системы "Спортзал"

Уникальность: от 40%
Доступность: сразу
250 ₽
Готовая работа

ОСОБЕННОСТИ ЭКСПЛУАТАЦИИ ДИСКОВОЙ ПОДСИСТЕМЫ ПЭВМ

Уникальность: от 40%
Доступность: сразу
200 ₽
Готовая работа

Технология баз данных (в т.ч удаленных) и системы управления базами данных. Сущность, достоинства и недостатки, области применения

Уникальность: от 40%
Доступность: сразу
400 ₽
Готовая работа

Использование нейросетей в ручном тестировании

Уникальность: от 40%
Доступность: сразу
400 ₽
Готовая работа

Анализ и оценка электронных средств обучения

Уникальность: от 40%
Доступность: сразу
150 ₽
Готовая работа

Интернет вещей: возможности для публичного управления

Уникальность: от 40%
Доступность: сразу
250 ₽
Готовая работа

НАКОПИТЕЛИ НА ЖЕСТКИХ МАГНИТНЫХ ДИСКАХ

Уникальность: от 40%
Доступность: сразу
200 ₽
Готовая работа

КОНФИГУРИРОВАНИЕ И ТЕСТИРОВАНИЕ ПОСЛЕДОВАТЕЛЬНОГО ИНТЕРФЕЙСА

Уникальность: от 40%
Доступность: сразу
400 ₽