Подробнее о работе

Разработка системы сравнительного анализа текстов научных публикаций в некоторых предметных областях

Специальность

Программная инженерия

Университет

Казанский (Приволжский) федеральный университет

56 страниц
2018 год
44 просмотра
0 покупок

ksfei121

В основном сосредоточен на продажу готовых своих личных работ по символическим ценам.

850 ₽

Работа будет доступна в твоём личном кабинете после покупки

Гарантия сервиса Автор24

Уникальность не ниже 50%

ТЕРМИНЫ, ОПРЕДЕЛЕНИЯ И СОКРАЩЕНИЯ 3
ВВЕДЕНИЕ 4
ГЛАВА 1. ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ТЕКСТА 6
1.1. Общие понятие 6
1.2. Методы Интеллектуального Анализа Данных 7
1.3. Этапы интеллектуального анализа данных 13
1.4. Подходы к анализу близости текста 17
1.5. Анализ аналогов 21
1.6. Технологии и инструменты интеллектуального анализа текста 25
ГЛАВА 2. НАЗНАЧЕНИЕ И СПЕЦИФИКАФИЯ ТРЕБОВАНИЙ 33
2.1. Назначение 33
2.2. Требовании к системе 34
2.3. Ограничении системы 35
ГЛАВА 3. АРХИТЕКТУРА, СХЕМА И АЛГОРИТМЫ СИСТЕМЫ 36
3.1. Архитектура Системы 36
3.2. Схемы работы системы 38
ГЛАВА 4. РАЗРАБОТКА СИСТЕМЫ 41
4.1. Использованные технологии 41
4.2 Интерфейс системы 41
4.3. Модель Машинного Обучения 43
ГЛАВА 5. АНАЛИЗ РЕЗУЛЬТАТОВ 44
5.1. Этапы анализа результатов 44
5.2. Тест даты 44
5.3. Оценки эксперта и системы 44
5.4. Формула метода Пирсона и граф результата 46
5.5. Измерение результата 48
5.6. Результат сравнение использование метода Пирсона. 48
ГЛАВА 6. ЗАКЛЮЧЕНИЕ 50
СПИСОК ЛИТЕРАТУРЫ 51
ПРИЛОЖЕНИИ 56

ВВЕДЕНИЕ

Цель диссертационной работы:

Разработка системы сравнительного анализа текстов научных публикаций которая поможет распознать сходства между научными работами.
Актуальность работы:

Технологии интеллектуального анализа текста дают нам много возможностей для анализа гигантских текстовых баз данных, которые с каждым днем растут все больше и больше. В академической среде эта технология используется для многих причин, таких как плагиат и т. д. научных статей. Но есть научные исследования, которые проводятся без знания о существовании других исследований, связанных с темой исследования (без ссылки друг на друга). В результате, не выявленные результаты исследований, которые связанные с исследуемой сфере не используются в других работах, которые могли бы предоставить больше информации, не повторяя их. По этой причине существует потребность в системе, которая будет определять связь сходства, между статьями, которые исследуют похожей сфере не ссылаясь друг на друга.
...

1.1. Общие понятие

Научные исследования помогают углубить знания и открыть научные достижении, которые в результате принесут пользу человечеству. С прошлых веков и до наших дней было проведено много научных исследований и их рост в наши дни огромен. Исследователи Борнманн и Мутц [1] проанализировали 15,435,641 публикации изданные с 1980 по 2012 годов, и соответствующие 379,294,777 приведенных ссылок от 1650 до 2012 года. Они обнаружили, что после Второй мировой войны и до 2012 года рост научных исследований составляет от 8 до 9%, что означает, что каждые 9 лет научные исследовании удваиваются.
Рост объема академических исследований сегодня неоспорим. Результат этих исследований в основном сохраняется в виде текстового файла или документов, и их количество также становится все больше и больше. В результате этого, чтобы обнаружить необходимые данные, которые также могут быть упомянуты как, высококачественные данные, становится все труднее.
...

1.3. Этапы интеллектуального анализа данных

В основном, этапы которые следуют для анализа текстовых документов, следующие [2]:
1) Сбор документов
2) Маркирование
3) Выделение признаков
4) Обработка естественного языка
5) Уменьшение признаков
6) Тренировка данных
7) Классификация

1.3.1. Сбор документов

Процесс интеллектуального анализа данных начинается со сбора документов или данных, которые будут обработаны. Это могут быть текстовые документы с различными типами документов или данные, полученные приложениями так называемых пауков.
1.3.2. Токенизация

Токенизация применяется для замены элементов конфиденциальных данных другими эквивалентными данными, которые называются токенами. Токен не имеет смысла, который может быть связан с какой-либо другой информацией.
1.3.3.
...

1.4. Подходы к анализу близости текста

В нашем исследовании мы попытались сравнить и проанализировать близости между двумя или более текстовых документов. Анализируя близости текста, можно догадаться, как текстовые документы соотносятся друг с другом. Сходство текстовых документов можно вычислить проанализировав сходство используемых в них слов. Слова можно сравнить, используя лексические и семантические близости. Лексическое сходство слов - это значит, что слова имеют одинаковую последовательность символов. Семантическое сходство слов заключается в том, что слова означают одно и то же или противоположное друг другу, используются одинаково и в одном контексте или являются одинаковыми типами слов. Для расчета лексической близости используются алгоритмы близости на основе строк, а для семантической близости – корпусное и наукоемкое сходство.
1.4.1.
...

1.5. Анализ аналогов

Методы интеллектуального анализа текста используются во многих областях. Полученные результаты дают возможность анализировать или прогнозировать события, что очень полезно для интересов во многих областях деятельности. Одним из таких практических применений является выявление плагиата в научном или другом используемом тексте. Наша система не является системой плагиата, потому что мы анализируем научные статьи, которые уже прошли проверку на плагиат. Кроме того, мы анализируем сходство слов, используемых в статьях, чтобы обнаружить терминологическое сходство. Для выявления плагиата анализируется сочетание слов (N-грамм,

предложений) [25]. Но в нашей системе можно использовать и методы текстового майнинга, и методы выявления плагиата.
Ученые из Чили Габриэль Оберройтер и Хуан Д. Веласкес, в своих исследованиях пытались использовать методы текстового майнинга для анализа лингвистических особенностей текста и моделирования стиля письма автора [25].
...

1.6. Технологии и инструменты интеллектуального анализа текста

Технологии и инструменты стремительно развиваются, и рассмотреть их актуальную версию практически невозможно. Здесь рассматриваются технологии и инструменты, которые в основном используются при разработке приложений интеллектуального анализа данных.
1.6.1. Языки программирования

Согласно статистике [30], в основном при разработке систем интеллектуального анализа данных использовались языки программирования python, java, R и SAS.
1) Язык программирования Java

Java – это язык компьютерного программирования, специально разработанный для того, чтобы иметь меньше зависимостей реализации, он также является классовым, параллельным и объектно-ориентированным языком. Все платформы, поддерживающие Java, могут запускать скомпилированный код Java без перекомпиляции. Коды приложений Java компилируются в байт-код и могут быть запущены с помощью JVM (Java Virtual Machine).
...

2.1. Назначение

В академической среде число научных работ растёт все больше и больше. Следить за новыми исследовательскими работы парой становиться невозможно. Среди этого огромного количество данных исследователи могут не выявит исследовании связанные с их темой исследовании. Это проведёт к неиспользованию результатов других работ, которые помогли бы исходу исследовании. По этой причине существует потребность в системе, которая будет определять связь сходства, между статьями, которые исследуют похожей сфере не ссылаясь друг на друга.
Разработанная система интеллектуального анализа данных предназначена для осуществления обработки научных документов и выявление сходства между текстами документов. Пользователи системы могут загрузить выбранные документы и в результате получат статистическое сравнение 2-х или более текстов.
В системе анализируются научные работы общего доступа, которые прошли все проверки системы антиплагиата.
...

2.2. Требовании к системе

Для достижения ожидаемых результатов установлены требования для разработки системы.

Бизнес требовании
1
Система должна обработать документы в соответствии с настроенными алгоритмами
2
Система должна показать результаты обработки данных.
3
Система должно показать результаты обработки данных.
...

2.3. Ограничении системы

Чтобы не выходить за рамки определённого времени и для достижения поставленных целей определяется ограничение системы. Ограничениями системы являются:
▪ Система может одновременно анализировать не менее 2-х и не более 5 документов.
▪ Система обрабатывает и анализирует документы только с форматом PDF.

ГЛАВА 3. АРХИТЕКТУРА, СХЕМА И АЛГОРИТМЫ СИСТЕМЫ

3.1. Архитектура системы

Архитектура системы состоит из интерфейса взаимодействие пользователя и серверная часть системы. Сервер взаимодействует с системой для ввода информации (документов) и для получения результатов обработки вводных данных.
В серверной части системы вводные данные обрабатываются из двух этапов. Это предварительная обработка и процесс анализа данных. Предварительная обработка осуществляется в несколько этапов:
1) Удаление определённых слов, которые не имеют ценности для анализа текста. Слова предварительно определены автором.
...

3.2. Схемы работы системы.

3.2.1. UML диаграмма системы

Рисунок-3: UML класс диаграмма системы
3.2.2. Диаграмма последовательности работы системы

Рисунок-4: Диаграмма последовательности работы системы

3.3. Алгоритмы системы

В начале производится предварительная обработка данных, где выполняются эти шаги:
◦ Чтение файлов из входных данных
◦ Извлечение текста из pdf-файлов
◦ Удалить верхний и нижний колонтитулы из текстов, удалить стоп- слова
Потом начинается статистический анализ данных, репрезентация текста на векторы и подсчет сходства. Шаги для выполнение этих задач:
◦ Подсчитать матрицу TF-IDF для текстов и выберите 10 лучших слов с наибольшим количеством повторение.
◦ Морфологический поиск или стемминг текста.
◦ Подсчет вектора внедрения для каждого текста с помощью обученных даты.
◦ Подсчет косинусного сходства для этих вложений.
◦ Вывод результатов в виде таблицы HTML.
ГЛАВА 4.
...

[1] L. Bornmann, R. Mutz. Growth rates of modern science: A bibliometric analysis based on the number of publications and cited references // Journal of the Association for Information Science and Technology. 2015. V.66. № 11. - p. 2215-2222.
[2] S. Inzalkar, J. Sharma. A survey on text mining-techniques and application // International Journal of Research in Science & Engineering. 2015. V.24. -p.1- 14.
[3] U. Singh, S. Hasan. Survey paper on document classification and classifiers // Int. J. Comput. Sci. Trends Technol. 2015. V.3. №2. -p.83-87.
[4] A. Kao, S.R. Poteet. Natural language processing and text mining // Springer Science & Business Media. 2007.
[5] R. Kohavi, F. Provost. Glossary of terms // Machine Learning. 1998. V.30. -p. 271–274.
[6] S. Arthur. Some Studies in Machine Learning Using the Game of Checkers // IBM Journal of Research and Development. 1959. V.3. №3. -p. 210–229.
[7] J.H. Friedman. Data Mining and Statistics: What's the connection? // Computing Science and Statistics. 1998. V.29. №1. -p. 3–9.
[8] S.K. Mohamad, Z. Tasir. Educational data mining: A review // Procedia-Social and Behavioral Sciences. 2013. V.97. -p.320-324.
[9] A. Joshi, R. Kaur. A review: Comparative study of various clustering techniques in data mining // International Journal of Advanced Research in Computer Science and Software Engineering. 2013. V.3. № 3.
[10] K. Varun, C. Anupama. An Empirical Study of the Applications of Data Mining // Techniques in Higher Education. 2011.

[11] N.R. Mabroukeh, C.I. Ezeife. A taxonomy of sequential pattern mining algorithms // ACM Computing Surveys. 2010. V.43. -p.1–41.
[12] A.B.E.D. Ahmed, I.S. Elaraby. Data Mining: A prediction for Student's Performance Using Classification Method // World Journal of Computer Application and Technology. 2014. V.2. № 2. -p.43-47.
[13] J.D. Rennie, L. Shih, J. Teevan, D.R. Karger. Tackling the poor assumptions of naive bayes text classifiers // In Proceedings of the 20th international conference on machine learning (ICML-03). 2003. -p. 616-623.
[14] S.J. Russell, P. Norvig. Artificial intelligence: a modern approach (International Edition). 2002.
[15] W. Cherif, A. Madani, M. Kissi. Towards an efficient opinion measurement in Arabic comments // Procedia Computer Science. 2015. V.73. -p. 122-129.
[16] R.R. Larson. Introduction to information retrieval // Journal of the American Society for Information Science and Technology. 2010. V.61. № 4. -p.852- 853.
[17] T.K. Ho. The random subspace method for constructing decision forests // IEEE transactions on pattern analysis and machine intelligence. 1998. V.20.
№8. -p. 832-844.

[18] J. Friedman, T. Hastie, R. Tibshirani. Sparse inverse covariance estimation with the graphical lasso // Biostatistics. 2008. V.9. № 3. -p. 432-441.
[19] J. Leskovec, A. Rajaraman, J.D. Ullman. Mining of massive datasets // Cambridge university press. 2014.
[20] C. Breitinger, B. Gipp, S. Langer. Research-paper recommender systems: a literature survey // International Journal on Digital Libraries. 2015. V.17. № 4. -p. 305-338.

[23] W.H. Gomaa, A.A. Fahmy. A survey of text similarity approaches // International Journal of Computer Applications. 2013. V.68. № 13.
[24] E.S. Pramukantoro, M.A. Fauzi. Comparative analysis of string similarity and corpus-based similarity for automatic essay scoring system on e-learning gamification // In Advanced Computer Science and Information Systems (ICACSIS). 2016. -p. 149-155.
[22] D.S. Hunnisett, W.J. Teahan. Context-based methods for text categorization // In Proceedings of the 27th annual international ACM SIGIR conference on Research and development in information retrieval. ACM Press, Sheffield, United Kingdom. 2004. -p. 578-579.
[21] H. Liu, H. Motoda. Feature Selection for Knowledge Discovery and Data Mining // Kluwer Academic Publisher. 1998.
[25] G. Oberreuter, J.D. VeláSquez. Text mining applied to plagiarism detection: The use of words for detecting deviations in the writing style // Expert Systems with Applications. 2013. V.40. № 9. -p.3756-3763.
[26] M. Szczuka, A. Janusz. Semantic clustering of scientific articles using explicit semantic analysis // In Transactions on Rough Sets XVI Springer. Berlin. Hiedelberg. 2013. -p. 83-102.
[27] Y. Shinyama. PDFMiner: Python PDF parser and analyzer. 2010. Режим доступа: http://www.unixuser.org/~euske/python/pdfminer/.
[28] K.S. Jones, P. Willet. Readings in Information Retrieval // Morgan Kaufmann, San Francisco. 1997.
[29] A. Shetty, R. Bajaj. Auto Text Summarization with Categorization and Sentiment Analysis // International Journal of Computer Applications. 2015. V.130. № 7. -p. 57-60.
[30] https://analyticsindiamag.com/top-10-programming-languages-data-scientists- learn-2018/

[31] S. Tippmann. Programming tools: Adventures with R // Nature. 2014. V.517.
-p. 109–110. Режим доступа: https://www.nature.com/news/programming- tools-adventures-with-r-1.16609 (дата обращения 22.05.2018).
[32] TIOBE Index for May 2018 // www.tiobe.com. Режим доступа: https://www.tiobe.com/tiobe-index/ (дата обращения 22.05.2018).
[33] D. Kuhlman. A python book: Beginning python, advanced python, and python exercises // Dave Kuhlman. 2009. -p. 1-227.
[34] M. Lutz. Learning Python: Powerful Object-Oriented Programming // O'Reilly Media, Inc. 2013.
[35] Python frameworks: full stack vs micro framework. Режим доступа: https://dzone.com/articles/python-frameworks-full-stack-vs-micro-framework (дата обращения 22.05.2018).
[36] Режим доступа: http://snowball.tartarus.org/algorithms/english/stemmer.html (дата обрашение 26.05.2018)
[37] Корпусы NLTK. Режим доступа: https://raw.githubusercontent.com/nltk/nltk_data/gh- pages/packages/corpora/stopwords.zip (дата обрашение 26.05.2018).
[38] Режим доступа: http://scikit- learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVecto rizer.html. (дата обрашение 26.05.2018)
[39] Режим доступа: https://www.kaggle.com/benhamner/nips-papers/data (дата обрашение. 26.05.2018)
[40] Pearson correlation coefficient statistical guide. Режим доступа: https://statistics.laerd.com/statistical-guides/pearson-correlation-coefficient- statistical-guide.php (дата обрашение. 17.06.2018)

[41] B. Li, L. Han. Distance weighted cosine similarity measure for text classification // In International Conference on Intelligent Data Engineering and Automated Learning. Springer, Berlin, Heidelberg. 2013. -p. 611-618.

Не подошла эта работа?

Закажи новую работу, сделанную по твоим требованиям

Оставляя свои контактные данные и нажимая «Заказать Дипломную работу», я соглашаюсь пройти процедуру регистрации на Платформе, принимаю условия Пользовательского соглашения и Политики конфиденциальности в целях заключения соглашения.

Купить эту работу

Разработка системы сравнительного анализа текстов научных публикаций в некоторых предметных областях

850 ₽

или заказать новую

Лучшие эксперты сервиса ждут твоего задания

от 3000 ₽

Гарантии Автор24

Гарантийный срок

10 дней с момента оплаты работы
Критерии обращения по гарантии

Работа не соответствует заявленному описанию или уникальность менее 50%
Куда обращаться

Оформить жалобу в личном кабинете

Инструкция
Ознакомиться с подробной инструкцией можно по ссылке

Понравилась эта работа?

или

25 июля 2020 заказчик разместил работу

Выбранный эксперт:

ksfei121

4.7

В основном сосредоточен на продажу готовых своих личных работ по символическим ценам.

Разработка системы сравнительного анализа текстов научных публикаций в некоторых предметных областях .docx

Купить эту работу vs Заказать новую

0 раз	Куплено	Выполняется индивидуально
Не менее 40% Исполнитель, загружая работу в «Банк готовых работ» подтверждает, что уровень оригинальности работы составляет не менее 40%	Уникальность	Выполняется индивидуально
Сразу в личном кабинете	Доступность	Срок 1—6 дней
850 ₽	Цена	от 3000 ₽

Не подошла эта работа?

В нашей базе 55548 Дипломных работ — поможем найти подходящую

Тема работы

Тип работы

Выбери тип

Отчёт по практике

Реферат

Курсовая работа

Решение задач

Презентации

Контрольная работа

Другое

Выпускная квалификационная работа (ВКР)

Дипломная работа

Статья

Доклад

Ответы на вопросы

Лабораторная работа

Индивидуальный проект

Эссе

Повышение уникальности текста

Научно-исследовательская работа (НИР)

Чертёж

Магистерская диссертация

Расчётно-графическая работа (РГР)

Помощь on-line

Статья ВАК/Scopus

Набор текста

Кандидатская диссертация

Творческая работа

Проверка работы

Анализ

Копирайтинг

Рецензия

Задача по программированию

Автореферат

Бизнес-план

Маркетинговое исследование

Перевод

Аннотация

Онлайн-консультация

Сочинения

Вычитка и рецензирование работ

Подбор темы работы

Гуманизация работы

Разбор отчёта Антиплагиат

Монография

Дизайн и визуализация

Сопроводительное письмо

Маркетинг и продвижение

Предмет

Выбери предмет

Технические

Авиационная и ракетно-космическая техника

Автоматизация технологических процессов

Автоматика и управление

Архитектура и строительство

Базы данных

Военное дело

Высшая математика

Геометрия

Гидравлика

Горное дело

Детали машин

Железнодорожный транспорт

Инженерные сети и оборудование

Информатика

Информационная безопасность

Информационные технологии

Искусственный интеллект

Материаловедение

Машиностроение

Металлургия

Метрология

Механика

Микропроцессорная техника

Начертательная геометрия

Пожарная безопасность

Приборостроение и оптотехника

Программирование

Процессы и аппараты

Сварка и сварочное производство

Сопротивление материалов

Судостроение

Текстильная промышленность

Теоретическая механика

Теория вероятностей

Теория игр

Теория машин и механизмов

Теплоэнергетика и теплотехника

Техническая механика

Технологические машины и оборудование

Технология продовольственных продуктов и товаров

Транспортные средства

Физика

Черчение

Школьная математика

Электроника, электротехника, радиотехника

Энергетическое машиностроение

Ядерные физика и технологии

Другое

Естественные

Агрохимия и агропочвоведение

Анатомия

Астрономия

Безопасность жизнедеятельности

Биология

Ветеринария

Водные биоресурсы и аквакультура

География

Геодезия

Геология

Естествознание

Землеустройство и кадастр

Медицина

Нефтегазовое дело

Садоводство

Стоматология

Фармация

Химия

Хирургия

Экология

Гуманитарные

Актерское мастерство

Английский язык

Библиотечно-информационная деятельность

Дефектология

Дизайн

Документоведение и архивоведение

Дошкольное образование

Журналистика

Искусство

История

Китайский язык

Конфликтология

Краеведение

Криминалистика

Кулинария

Культурология

Лингвистика

Литература

Логика

Международные отношения

Методика преподавания

Музыка

Немецкий язык

Обществознание

Охрана труда

Парикмахерское искусство

Педагогика

Политология

Право и юриспруденция

Проектная деятельность

Психология

Режиссура

Реклама и PR

Религия

Русский язык

Связи с общественностью

Социальная работа

Социология

Физическая культура

Философия

Французский язык

Эстетика

Этика

Языки (переводы)

Языкознание и филология

Экономические

Анализ хозяйственной деятельности

Антикризисное управление

Банковское дело

Бизнес-планирование

Бухгалтерский учет и аудит

Внешнеэкономическая деятельность

Гостиничное дело

Государственное и муниципальное управление

Деньги

Инвестиции

Инновационный менеджмент

Кредит

Логистика

Маркетинг

Менеджмент

Менеджмент организации

Микро-, макроэкономика

Налоги

Организационное развитие

Производственный маркетинг и менеджмент

Рынок ценных бумаг

Стандартизация

Статистика

Стратегический менеджмент

Страхование

Таможенное дело

Теория управления

Товароведение

Торговое дело

Туризм

Управление качеством

Управление персоналом

Управление проектами

Финансовый менеджмент

Финансы

Ценообразование и оценка бизнеса

Эконометрика

Экономика

Экономика предприятия

Экономика труда

Экономическая теория

Экономический анализ

EVIEWS

SPSS

STATA

От

До

От

Программирование Дипломная работа

Уникальность: от 40%

Доступность: сразу

350 ₽

Отзывы студентов

Дипломная работа

Автор молодец, просто работа не нужна больше

Дипломная работа

Работа сложная, диплом по программированию. Большое спасибо за ответственный подход.

Дипломная работа

Программирование Дипломная работа

Уникальность: от 40%

Доступность: сразу

1799 ₽

Информация о работе

Разработка системы сравнительного анализа текстов научных публикаций в некоторых предметных областях

Фрагменты работ

Форма заказа новой работы

Фрагменты работ

Купить эту работу

или заказать новую

Гарантии Автор24

Изображения работ

Выбранный эксперт:

Поиск подходящей работы

5 Похожих работ

Отзывы студентов

другие учебные работы по предмету

Получи деньги за свои студенческие работы