Автор24

Информация о работе

Подробнее о работе

Страница работы

Разработка системы сравнительного анализа текстов научных публикаций в некоторых предметных областях

  • 56 страниц
  • 2018 год
  • 44 просмотра
  • 0 покупок
Автор работы

ksfei121

В основном сосредоточен на продажу готовых своих личных работ по символическим ценам.

850 ₽

Работа будет доступна в твоём личном кабинете после покупки

Гарантия сервиса Автор24

Уникальность не ниже 50%

Фрагменты работ

ТЕРМИНЫ, ОПРЕДЕЛЕНИЯ И СОКРАЩЕНИЯ 3
ВВЕДЕНИЕ 4
ГЛАВА 1. ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ТЕКСТА 6
1.1. Общие понятие 6
1.2. Методы Интеллектуального Анализа Данных 7
1.3. Этапы интеллектуального анализа данных 13
1.4. Подходы к анализу близости текста 17
1.5. Анализ аналогов 21
1.6. Технологии и инструменты интеллектуального анализа текста 25
ГЛАВА 2. НАЗНАЧЕНИЕ И СПЕЦИФИКАФИЯ ТРЕБОВАНИЙ 33
2.1. Назначение 33
2.2. Требовании к системе 34
2.3. Ограничении системы 35
ГЛАВА 3. АРХИТЕКТУРА, СХЕМА И АЛГОРИТМЫ СИСТЕМЫ 36
3.1. Архитектура Системы 36
3.2. Схемы работы системы 38
ГЛАВА 4. РАЗРАБОТКА СИСТЕМЫ 41
4.1. Использованные технологии 41
4.2 Интерфейс системы 41
4.3. Модель Машинного Обучения 43
ГЛАВА 5. АНАЛИЗ РЕЗУЛЬТАТОВ 44
5.1. Этапы анализа результатов 44
5.2. Тест даты 44
5.3. Оценки эксперта и системы 44
5.4. Формула метода Пирсона и граф результата 46
5.5. Измерение результата 48
5.6. Результат сравнение использование метода Пирсона. 48
ГЛАВА 6. ЗАКЛЮЧЕНИЕ 50
СПИСОК ЛИТЕРАТУРЫ 51
ПРИЛОЖЕНИИ 56

ВВЕДЕНИЕ

Цель диссертационной работы:

Разработка системы сравнительного анализа текстов научных публикаций которая поможет распознать сходства между научными работами.
Актуальность работы:

Технологии интеллектуального анализа текста дают нам много возможностей для анализа гигантских текстовых баз данных, которые с каждым днем растут все больше и больше. В академической среде эта технология используется для многих причин, таких как плагиат и т. д. научных статей. Но есть научные исследования, которые проводятся без знания о существовании других исследований, связанных с темой исследования (без ссылки друг на друга). В результате, не выявленные результаты исследований, которые связанные с исследуемой сфере не используются в других работах, которые могли бы предоставить больше информации, не повторяя их. По этой причине существует потребность в системе, которая будет определять связь сходства, между статьями, которые исследуют похожей сфере не ссылаясь друг на друга.
...

1.1. Общие понятие

Научные исследования помогают углубить знания и открыть научные достижении, которые в результате принесут пользу человечеству. С прошлых веков и до наших дней было проведено много научных исследований и их рост в наши дни огромен. Исследователи Борнманн и Мутц [1] проанализировали 15,435,641 публикации изданные с 1980 по 2012 годов, и соответствующие 379,294,777 приведенных ссылок от 1650 до 2012 года. Они обнаружили, что после Второй мировой войны и до 2012 года рост научных исследований составляет от 8 до 9%, что означает, что каждые 9 лет научные исследовании удваиваются.
Рост объема академических исследований сегодня неоспорим. Результат этих исследований в основном сохраняется в виде текстового файла или документов, и их количество также становится все больше и больше. В результате этого, чтобы обнаружить необходимые данные, которые также могут быть упомянуты как, высококачественные данные, становится все труднее.
...

1.3. Этапы интеллектуального анализа данных

В основном, этапы которые следуют для анализа текстовых документов, следующие [2]:
1) Сбор документов
2) Маркирование
3) Выделение признаков
4) Обработка естественного языка
5) Уменьшение признаков
6) Тренировка данных
7) Классификация

1.3.1. Сбор документов

Процесс интеллектуального анализа данных начинается со сбора документов или данных, которые будут обработаны. Это могут быть текстовые документы с различными типами документов или данные, полученные приложениями так называемых пауков.
1.3.2. Токенизация

Токенизация применяется для замены элементов конфиденциальных данных другими эквивалентными данными, которые называются токенами. Токен не имеет смысла, который может быть связан с какой-либо другой информацией.
1.3.3.
...

1.4. Подходы к анализу близости текста

В нашем исследовании мы попытались сравнить и проанализировать близости между двумя или более текстовых документов. Анализируя близости текста, можно догадаться, как текстовые документы соотносятся друг с другом. Сходство текстовых документов можно вычислить проанализировав сходство используемых в них слов. Слова можно сравнить, используя лексические и семантические близости. Лексическое сходство слов - это значит, что слова имеют одинаковую последовательность символов. Семантическое сходство слов заключается в том, что слова означают одно и то же или противоположное друг другу, используются одинаково и в одном контексте или являются одинаковыми типами слов. Для расчета лексической близости используются алгоритмы близости на основе строк, а для семантической близости – корпусное и наукоемкое сходство.
1.4.1.
...

1.5. Анализ аналогов

Методы интеллектуального анализа текста используются во многих областях. Полученные результаты дают возможность анализировать или прогнозировать события, что очень полезно для интересов во многих областях деятельности. Одним из таких практических применений является выявление плагиата в научном или другом используемом тексте. Наша система не является системой плагиата, потому что мы анализируем научные статьи, которые уже прошли проверку на плагиат. Кроме того, мы анализируем сходство слов, используемых в статьях, чтобы обнаружить терминологическое сходство. Для выявления плагиата анализируется сочетание слов (N-грамм,

предложений) [25]. Но в нашей системе можно использовать и методы текстового майнинга, и методы выявления плагиата.
Ученые из Чили Габриэль Оберройтер и Хуан Д. Веласкес, в своих исследованиях пытались использовать методы текстового майнинга для анализа лингвистических особенностей текста и моделирования стиля письма автора [25].
...

1.6. Технологии и инструменты интеллектуального анализа текста

Технологии и инструменты стремительно развиваются, и рассмотреть их актуальную версию практически невозможно. Здесь рассматриваются технологии и инструменты, которые в основном используются при разработке приложений интеллектуального анализа данных.
1.6.1. Языки программирования

Согласно статистике [30], в основном при разработке систем интеллектуального анализа данных использовались языки программирования python, java, R и SAS.
1) Язык программирования Java

Java – это язык компьютерного программирования, специально разработанный для того, чтобы иметь меньше зависимостей реализации, он также является классовым, параллельным и объектно-ориентированным языком. Все платформы, поддерживающие Java, могут запускать скомпилированный код Java без перекомпиляции. Коды приложений Java компилируются в байт-код и могут быть запущены с помощью JVM (Java Virtual Machine).
...

2.1. Назначение

В академической среде число научных работ растёт все больше и больше. Следить за новыми исследовательскими работы парой становиться невозможно. Среди этого огромного количество данных исследователи могут не выявит исследовании связанные с их темой исследовании. Это проведёт к неиспользованию результатов других работ, которые помогли бы исходу исследовании. По этой причине существует потребность в системе, которая будет определять связь сходства, между статьями, которые исследуют похожей сфере не ссылаясь друг на друга.
Разработанная система интеллектуального анализа данных предназначена для осуществления обработки научных документов и выявление сходства между текстами документов. Пользователи системы могут загрузить выбранные документы и в результате получат статистическое сравнение 2-х или более текстов.
В системе анализируются научные работы общего доступа, которые прошли все проверки системы антиплагиата.
...

2.2. Требовании к системе

Для достижения ожидаемых результатов установлены требования для разработки системы.

Бизнес требовании
1
Система должна обработать документы в соответствии с настроенными алгоритмами
2
Система должна показать результаты обработки данных.
3
Система должно показать результаты обработки данных.
...

2.3. Ограничении системы

Чтобы не выходить за рамки определённого времени и для достижения поставленных целей определяется ограничение системы. Ограничениями системы являются:
▪ Система может одновременно анализировать не менее 2-х и не более 5 документов.
▪ Система обрабатывает и анализирует документы только с форматом PDF.

ГЛАВА 3. АРХИТЕКТУРА, СХЕМА И АЛГОРИТМЫ СИСТЕМЫ

3.1. Архитектура системы

Архитектура системы состоит из интерфейса взаимодействие пользователя и серверная часть системы. Сервер взаимодействует с системой для ввода информации (документов) и для получения результатов обработки вводных данных.
В серверной части системы вводные данные обрабатываются из двух этапов. Это предварительная обработка и процесс анализа данных. Предварительная обработка осуществляется в несколько этапов:
1) Удаление определённых слов, которые не имеют ценности для анализа текста. Слова предварительно определены автором.
...

3.2. Схемы работы системы.

3.2.1. UML диаграмма системы

Рисунок-3: UML класс диаграмма системы
3.2.2. Диаграмма последовательности работы системы

Рисунок-4: Диаграмма последовательности работы системы

3.3. Алгоритмы системы

В начале производится предварительная обработка данных, где выполняются эти шаги:
◦ Чтение файлов из входных данных
◦ Извлечение текста из pdf-файлов
◦ Удалить верхний и нижний колонтитулы из текстов, удалить стоп- слова
Потом начинается статистический анализ данных, репрезентация текста на векторы и подсчет сходства. Шаги для выполнение этих задач:
◦ Подсчитать матрицу TF-IDF для текстов и выберите 10 лучших слов с наибольшим количеством повторение.
◦ Морфологический поиск или стемминг текста.
◦ Подсчет вектора внедрения для каждого текста с помощью обученных даты.
◦ Подсчет косинусного сходства для этих вложений.
◦ Вывод результатов в виде таблицы HTML.
ГЛАВА 4.
...

[1] L. Bornmann, R. Mutz. Growth rates of modern science: A bibliometric analysis based on the number of publications and cited references // Journal of the Association for Information Science and Technology. 2015. V.66. № 11. - p. 2215-2222.
[2] S. Inzalkar, J. Sharma. A survey on text mining-techniques and application // International Journal of Research in Science & Engineering. 2015. V.24. -p.1- 14.
[3] U. Singh, S. Hasan. Survey paper on document classification and classifiers // Int. J. Comput. Sci. Trends Technol. 2015. V.3. №2. -p.83-87.
[4] A. Kao, S.R. Poteet. Natural language processing and text mining // Springer Science & Business Media. 2007.
[5] R. Kohavi, F. Provost. Glossary of terms // Machine Learning. 1998. V.30. -p. 271–274.
[6] S. Arthur. Some Studies in Machine Learning Using the Game of Checkers // IBM Journal of Research and Development. 1959. V.3. №3. -p. 210–229.
[7] J.H. Friedman. Data Mining and Statistics: What's the connection? // Computing Science and Statistics. 1998. V.29. №1. -p. 3–9.
[8] S.K. Mohamad, Z. Tasir. Educational data mining: A review // Procedia-Social and Behavioral Sciences. 2013. V.97. -p.320-324.
[9] A. Joshi, R. Kaur. A review: Comparative study of various clustering techniques in data mining // International Journal of Advanced Research in Computer Science and Software Engineering. 2013. V.3. № 3.
[10] K. Varun, C. Anupama. An Empirical Study of the Applications of Data Mining // Techniques in Higher Education. 2011.

[11] N.R. Mabroukeh, C.I. Ezeife. A taxonomy of sequential pattern mining algorithms // ACM Computing Surveys. 2010. V.43. -p.1–41.
[12] A.B.E.D. Ahmed, I.S. Elaraby. Data Mining: A prediction for Student's Performance Using Classification Method // World Journal of Computer Application and Technology. 2014. V.2. № 2. -p.43-47.
[13] J.D. Rennie, L. Shih, J. Teevan, D.R. Karger. Tackling the poor assumptions of naive bayes text classifiers // In Proceedings of the 20th international conference on machine learning (ICML-03). 2003. -p. 616-623.
[14] S.J. Russell, P. Norvig. Artificial intelligence: a modern approach (International Edition). 2002.
[15] W. Cherif, A. Madani, M. Kissi. Towards an efficient opinion measurement in Arabic comments // Procedia Computer Science. 2015. V.73. -p. 122-129.
[16] R.R. Larson. Introduction to information retrieval // Journal of the American Society for Information Science and Technology. 2010. V.61. № 4. -p.852- 853.
[17] T.K. Ho. The random subspace method for constructing decision forests // IEEE transactions on pattern analysis and machine intelligence. 1998. V.20.
№8. -p. 832-844.

[18] J. Friedman, T. Hastie, R. Tibshirani. Sparse inverse covariance estimation with the graphical lasso // Biostatistics. 2008. V.9. № 3. -p. 432-441.
[19] J. Leskovec, A. Rajaraman, J.D. Ullman. Mining of massive datasets // Cambridge university press. 2014.
[20] C. Breitinger, B. Gipp, S. Langer. Research-paper recommender systems: a literature survey // International Journal on Digital Libraries. 2015. V.17. № 4. -p. 305-338.

[23] W.H. Gomaa, A.A. Fahmy. A survey of text similarity approaches // International Journal of Computer Applications. 2013. V.68. № 13.
[24] E.S. Pramukantoro, M.A. Fauzi. Comparative analysis of string similarity and corpus-based similarity for automatic essay scoring system on e-learning gamification // In Advanced Computer Science and Information Systems (ICACSIS). 2016. -p. 149-155.
[22] D.S. Hunnisett, W.J. Teahan. Context-based methods for text categorization // In Proceedings of the 27th annual international ACM SIGIR conference on Research and development in information retrieval. ACM Press, Sheffield, United Kingdom. 2004. -p. 578-579.
[21] H. Liu, H. Motoda. Feature Selection for Knowledge Discovery and Data Mining // Kluwer Academic Publisher. 1998.
[25] G. Oberreuter, J.D. VeláSquez. Text mining applied to plagiarism detection: The use of words for detecting deviations in the writing style // Expert Systems with Applications. 2013. V.40. № 9. -p.3756-3763.
[26] M. Szczuka, A. Janusz. Semantic clustering of scientific articles using explicit semantic analysis // In Transactions on Rough Sets XVI Springer. Berlin. Hiedelberg. 2013. -p. 83-102.
[27] Y. Shinyama. PDFMiner: Python PDF parser and analyzer. 2010. Режим доступа: http://www.unixuser.org/~euske/python/pdfminer/.
[28] K.S. Jones, P. Willet. Readings in Information Retrieval // Morgan Kaufmann, San Francisco. 1997.
[29] A. Shetty, R. Bajaj. Auto Text Summarization with Categorization and Sentiment Analysis // International Journal of Computer Applications. 2015. V.130. № 7. -p. 57-60.
[30] https://analyticsindiamag.com/top-10-programming-languages-data-scientists- learn-2018/

[31] S. Tippmann. Programming tools: Adventures with R // Nature. 2014. V.517.
-p. 109–110. Режим доступа: https://www.nature.com/news/programming- tools-adventures-with-r-1.16609 (дата обращения 22.05.2018).
[32] TIOBE Index for May 2018 // www.tiobe.com. Режим доступа: https://www.tiobe.com/tiobe-index/ (дата обращения 22.05.2018).
[33] D. Kuhlman. A python book: Beginning python, advanced python, and python exercises // Dave Kuhlman. 2009. -p. 1-227.
[34] M. Lutz. Learning Python: Powerful Object-Oriented Programming // O'Reilly Media, Inc. 2013.
[35] Python frameworks: full stack vs micro framework. Режим доступа: https://dzone.com/articles/python-frameworks-full-stack-vs-micro-framework (дата обращения 22.05.2018).
[36] Режим доступа: http://snowball.tartarus.org/algorithms/english/stemmer.html (дата обрашение 26.05.2018)
[37] Корпусы NLTK. Режим доступа: https://raw.githubusercontent.com/nltk/nltk_data/gh- pages/packages/corpora/stopwords.zip (дата обрашение 26.05.2018).
[38] Режим доступа: http://scikit- learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVecto rizer.html. (дата обрашение 26.05.2018)
[39] Режим доступа: https://www.kaggle.com/benhamner/nips-papers/data (дата обрашение. 26.05.2018)
[40] Pearson correlation coefficient statistical guide. Режим доступа: https://statistics.laerd.com/statistical-guides/pearson-correlation-coefficient- statistical-guide.php (дата обрашение. 17.06.2018)

[41] B. Li, L. Han. Distance weighted cosine similarity measure for text classification // In International Conference on Intelligent Data Engineering and Automated Learning. Springer, Berlin, Heidelberg. 2013. -p. 611-618.

Форма заказа новой работы

Не подошла эта работа?

Закажи новую работу, сделанную по твоим требованиям

Согласен с условиями политики конфиденциальности и  пользовательского соглашения

Фрагменты работ

ТЕРМИНЫ, ОПРЕДЕЛЕНИЯ И СОКРАЩЕНИЯ 3
ВВЕДЕНИЕ 4
ГЛАВА 1. ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ТЕКСТА 6
1.1. Общие понятие 6
1.2. Методы Интеллектуального Анализа Данных 7
1.3. Этапы интеллектуального анализа данных 13
1.4. Подходы к анализу близости текста 17
1.5. Анализ аналогов 21
1.6. Технологии и инструменты интеллектуального анализа текста 25
ГЛАВА 2. НАЗНАЧЕНИЕ И СПЕЦИФИКАФИЯ ТРЕБОВАНИЙ 33
2.1. Назначение 33
2.2. Требовании к системе 34
2.3. Ограничении системы 35
ГЛАВА 3. АРХИТЕКТУРА, СХЕМА И АЛГОРИТМЫ СИСТЕМЫ 36
3.1. Архитектура Системы 36
3.2. Схемы работы системы 38
ГЛАВА 4. РАЗРАБОТКА СИСТЕМЫ 41
4.1. Использованные технологии 41
4.2 Интерфейс системы 41
4.3. Модель Машинного Обучения 43
ГЛАВА 5. АНАЛИЗ РЕЗУЛЬТАТОВ 44
5.1. Этапы анализа результатов 44
5.2. Тест даты 44
5.3. Оценки эксперта и системы 44
5.4. Формула метода Пирсона и граф результата 46
5.5. Измерение результата 48
5.6. Результат сравнение использование метода Пирсона. 48
ГЛАВА 6. ЗАКЛЮЧЕНИЕ 50
СПИСОК ЛИТЕРАТУРЫ 51
ПРИЛОЖЕНИИ 56

ВВЕДЕНИЕ

Цель диссертационной работы:

Разработка системы сравнительного анализа текстов научных публикаций которая поможет распознать сходства между научными работами.
Актуальность работы:

Технологии интеллектуального анализа текста дают нам много возможностей для анализа гигантских текстовых баз данных, которые с каждым днем растут все больше и больше. В академической среде эта технология используется для многих причин, таких как плагиат и т. д. научных статей. Но есть научные исследования, которые проводятся без знания о существовании других исследований, связанных с темой исследования (без ссылки друг на друга). В результате, не выявленные результаты исследований, которые связанные с исследуемой сфере не используются в других работах, которые могли бы предоставить больше информации, не повторяя их. По этой причине существует потребность в системе, которая будет определять связь сходства, между статьями, которые исследуют похожей сфере не ссылаясь друг на друга.
...

1.1. Общие понятие

Научные исследования помогают углубить знания и открыть научные достижении, которые в результате принесут пользу человечеству. С прошлых веков и до наших дней было проведено много научных исследований и их рост в наши дни огромен. Исследователи Борнманн и Мутц [1] проанализировали 15,435,641 публикации изданные с 1980 по 2012 годов, и соответствующие 379,294,777 приведенных ссылок от 1650 до 2012 года. Они обнаружили, что после Второй мировой войны и до 2012 года рост научных исследований составляет от 8 до 9%, что означает, что каждые 9 лет научные исследовании удваиваются.
Рост объема академических исследований сегодня неоспорим. Результат этих исследований в основном сохраняется в виде текстового файла или документов, и их количество также становится все больше и больше. В результате этого, чтобы обнаружить необходимые данные, которые также могут быть упомянуты как, высококачественные данные, становится все труднее.
...

1.3. Этапы интеллектуального анализа данных

В основном, этапы которые следуют для анализа текстовых документов, следующие [2]:
1) Сбор документов
2) Маркирование
3) Выделение признаков
4) Обработка естественного языка
5) Уменьшение признаков
6) Тренировка данных
7) Классификация

1.3.1. Сбор документов

Процесс интеллектуального анализа данных начинается со сбора документов или данных, которые будут обработаны. Это могут быть текстовые документы с различными типами документов или данные, полученные приложениями так называемых пауков.
1.3.2. Токенизация

Токенизация применяется для замены элементов конфиденциальных данных другими эквивалентными данными, которые называются токенами. Токен не имеет смысла, который может быть связан с какой-либо другой информацией.
1.3.3.
...

1.4. Подходы к анализу близости текста

В нашем исследовании мы попытались сравнить и проанализировать близости между двумя или более текстовых документов. Анализируя близости текста, можно догадаться, как текстовые документы соотносятся друг с другом. Сходство текстовых документов можно вычислить проанализировав сходство используемых в них слов. Слова можно сравнить, используя лексические и семантические близости. Лексическое сходство слов - это значит, что слова имеют одинаковую последовательность символов. Семантическое сходство слов заключается в том, что слова означают одно и то же или противоположное друг другу, используются одинаково и в одном контексте или являются одинаковыми типами слов. Для расчета лексической близости используются алгоритмы близости на основе строк, а для семантической близости – корпусное и наукоемкое сходство.
1.4.1.
...

1.5. Анализ аналогов

Методы интеллектуального анализа текста используются во многих областях. Полученные результаты дают возможность анализировать или прогнозировать события, что очень полезно для интересов во многих областях деятельности. Одним из таких практических применений является выявление плагиата в научном или другом используемом тексте. Наша система не является системой плагиата, потому что мы анализируем научные статьи, которые уже прошли проверку на плагиат. Кроме того, мы анализируем сходство слов, используемых в статьях, чтобы обнаружить терминологическое сходство. Для выявления плагиата анализируется сочетание слов (N-грамм,

предложений) [25]. Но в нашей системе можно использовать и методы текстового майнинга, и методы выявления плагиата.
Ученые из Чили Габриэль Оберройтер и Хуан Д. Веласкес, в своих исследованиях пытались использовать методы текстового майнинга для анализа лингвистических особенностей текста и моделирования стиля письма автора [25].
...

1.6. Технологии и инструменты интеллектуального анализа текста

Технологии и инструменты стремительно развиваются, и рассмотреть их актуальную версию практически невозможно. Здесь рассматриваются технологии и инструменты, которые в основном используются при разработке приложений интеллектуального анализа данных.
1.6.1. Языки программирования

Согласно статистике [30], в основном при разработке систем интеллектуального анализа данных использовались языки программирования python, java, R и SAS.
1) Язык программирования Java

Java – это язык компьютерного программирования, специально разработанный для того, чтобы иметь меньше зависимостей реализации, он также является классовым, параллельным и объектно-ориентированным языком. Все платформы, поддерживающие Java, могут запускать скомпилированный код Java без перекомпиляции. Коды приложений Java компилируются в байт-код и могут быть запущены с помощью JVM (Java Virtual Machine).
...

2.1. Назначение

В академической среде число научных работ растёт все больше и больше. Следить за новыми исследовательскими работы парой становиться невозможно. Среди этого огромного количество данных исследователи могут не выявит исследовании связанные с их темой исследовании. Это проведёт к неиспользованию результатов других работ, которые помогли бы исходу исследовании. По этой причине существует потребность в системе, которая будет определять связь сходства, между статьями, которые исследуют похожей сфере не ссылаясь друг на друга.
Разработанная система интеллектуального анализа данных предназначена для осуществления обработки научных документов и выявление сходства между текстами документов. Пользователи системы могут загрузить выбранные документы и в результате получат статистическое сравнение 2-х или более текстов.
В системе анализируются научные работы общего доступа, которые прошли все проверки системы антиплагиата.
...

2.2. Требовании к системе

Для достижения ожидаемых результатов установлены требования для разработки системы.

Бизнес требовании
1
Система должна обработать документы в соответствии с настроенными алгоритмами
2
Система должна показать результаты обработки данных.
3
Система должно показать результаты обработки данных.
...

2.3. Ограничении системы

Чтобы не выходить за рамки определённого времени и для достижения поставленных целей определяется ограничение системы. Ограничениями системы являются:
▪ Система может одновременно анализировать не менее 2-х и не более 5 документов.
▪ Система обрабатывает и анализирует документы только с форматом PDF.

ГЛАВА 3. АРХИТЕКТУРА, СХЕМА И АЛГОРИТМЫ СИСТЕМЫ

3.1. Архитектура системы

Архитектура системы состоит из интерфейса взаимодействие пользователя и серверная часть системы. Сервер взаимодействует с системой для ввода информации (документов) и для получения результатов обработки вводных данных.
В серверной части системы вводные данные обрабатываются из двух этапов. Это предварительная обработка и процесс анализа данных. Предварительная обработка осуществляется в несколько этапов:
1) Удаление определённых слов, которые не имеют ценности для анализа текста. Слова предварительно определены автором.
...

3.2. Схемы работы системы.

3.2.1. UML диаграмма системы

Рисунок-3: UML класс диаграмма системы
3.2.2. Диаграмма последовательности работы системы

Рисунок-4: Диаграмма последовательности работы системы

3.3. Алгоритмы системы

В начале производится предварительная обработка данных, где выполняются эти шаги:
◦ Чтение файлов из входных данных
◦ Извлечение текста из pdf-файлов
◦ Удалить верхний и нижний колонтитулы из текстов, удалить стоп- слова
Потом начинается статистический анализ данных, репрезентация текста на векторы и подсчет сходства. Шаги для выполнение этих задач:
◦ Подсчитать матрицу TF-IDF для текстов и выберите 10 лучших слов с наибольшим количеством повторение.
◦ Морфологический поиск или стемминг текста.
◦ Подсчет вектора внедрения для каждого текста с помощью обученных даты.
◦ Подсчет косинусного сходства для этих вложений.
◦ Вывод результатов в виде таблицы HTML.
ГЛАВА 4.
...

[1] L. Bornmann, R. Mutz. Growth rates of modern science: A bibliometric analysis based on the number of publications and cited references // Journal of the Association for Information Science and Technology. 2015. V.66. № 11. - p. 2215-2222.
[2] S. Inzalkar, J. Sharma. A survey on text mining-techniques and application // International Journal of Research in Science & Engineering. 2015. V.24. -p.1- 14.
[3] U. Singh, S. Hasan. Survey paper on document classification and classifiers // Int. J. Comput. Sci. Trends Technol. 2015. V.3. №2. -p.83-87.
[4] A. Kao, S.R. Poteet. Natural language processing and text mining // Springer Science & Business Media. 2007.
[5] R. Kohavi, F. Provost. Glossary of terms // Machine Learning. 1998. V.30. -p. 271–274.
[6] S. Arthur. Some Studies in Machine Learning Using the Game of Checkers // IBM Journal of Research and Development. 1959. V.3. №3. -p. 210–229.
[7] J.H. Friedman. Data Mining and Statistics: What's the connection? // Computing Science and Statistics. 1998. V.29. №1. -p. 3–9.
[8] S.K. Mohamad, Z. Tasir. Educational data mining: A review // Procedia-Social and Behavioral Sciences. 2013. V.97. -p.320-324.
[9] A. Joshi, R. Kaur. A review: Comparative study of various clustering techniques in data mining // International Journal of Advanced Research in Computer Science and Software Engineering. 2013. V.3. № 3.
[10] K. Varun, C. Anupama. An Empirical Study of the Applications of Data Mining // Techniques in Higher Education. 2011.

[11] N.R. Mabroukeh, C.I. Ezeife. A taxonomy of sequential pattern mining algorithms // ACM Computing Surveys. 2010. V.43. -p.1–41.
[12] A.B.E.D. Ahmed, I.S. Elaraby. Data Mining: A prediction for Student's Performance Using Classification Method // World Journal of Computer Application and Technology. 2014. V.2. № 2. -p.43-47.
[13] J.D. Rennie, L. Shih, J. Teevan, D.R. Karger. Tackling the poor assumptions of naive bayes text classifiers // In Proceedings of the 20th international conference on machine learning (ICML-03). 2003. -p. 616-623.
[14] S.J. Russell, P. Norvig. Artificial intelligence: a modern approach (International Edition). 2002.
[15] W. Cherif, A. Madani, M. Kissi. Towards an efficient opinion measurement in Arabic comments // Procedia Computer Science. 2015. V.73. -p. 122-129.
[16] R.R. Larson. Introduction to information retrieval // Journal of the American Society for Information Science and Technology. 2010. V.61. № 4. -p.852- 853.
[17] T.K. Ho. The random subspace method for constructing decision forests // IEEE transactions on pattern analysis and machine intelligence. 1998. V.20.
№8. -p. 832-844.

[18] J. Friedman, T. Hastie, R. Tibshirani. Sparse inverse covariance estimation with the graphical lasso // Biostatistics. 2008. V.9. № 3. -p. 432-441.
[19] J. Leskovec, A. Rajaraman, J.D. Ullman. Mining of massive datasets // Cambridge university press. 2014.
[20] C. Breitinger, B. Gipp, S. Langer. Research-paper recommender systems: a literature survey // International Journal on Digital Libraries. 2015. V.17. № 4. -p. 305-338.

[23] W.H. Gomaa, A.A. Fahmy. A survey of text similarity approaches // International Journal of Computer Applications. 2013. V.68. № 13.
[24] E.S. Pramukantoro, M.A. Fauzi. Comparative analysis of string similarity and corpus-based similarity for automatic essay scoring system on e-learning gamification // In Advanced Computer Science and Information Systems (ICACSIS). 2016. -p. 149-155.
[22] D.S. Hunnisett, W.J. Teahan. Context-based methods for text categorization // In Proceedings of the 27th annual international ACM SIGIR conference on Research and development in information retrieval. ACM Press, Sheffield, United Kingdom. 2004. -p. 578-579.
[21] H. Liu, H. Motoda. Feature Selection for Knowledge Discovery and Data Mining // Kluwer Academic Publisher. 1998.
[25] G. Oberreuter, J.D. VeláSquez. Text mining applied to plagiarism detection: The use of words for detecting deviations in the writing style // Expert Systems with Applications. 2013. V.40. № 9. -p.3756-3763.
[26] M. Szczuka, A. Janusz. Semantic clustering of scientific articles using explicit semantic analysis // In Transactions on Rough Sets XVI Springer. Berlin. Hiedelberg. 2013. -p. 83-102.
[27] Y. Shinyama. PDFMiner: Python PDF parser and analyzer. 2010. Режим доступа: http://www.unixuser.org/~euske/python/pdfminer/.
[28] K.S. Jones, P. Willet. Readings in Information Retrieval // Morgan Kaufmann, San Francisco. 1997.
[29] A. Shetty, R. Bajaj. Auto Text Summarization with Categorization and Sentiment Analysis // International Journal of Computer Applications. 2015. V.130. № 7. -p. 57-60.
[30] https://analyticsindiamag.com/top-10-programming-languages-data-scientists- learn-2018/

[31] S. Tippmann. Programming tools: Adventures with R // Nature. 2014. V.517.
-p. 109–110. Режим доступа: https://www.nature.com/news/programming- tools-adventures-with-r-1.16609 (дата обращения 22.05.2018).
[32] TIOBE Index for May 2018 // www.tiobe.com. Режим доступа: https://www.tiobe.com/tiobe-index/ (дата обращения 22.05.2018).
[33] D. Kuhlman. A python book: Beginning python, advanced python, and python exercises // Dave Kuhlman. 2009. -p. 1-227.
[34] M. Lutz. Learning Python: Powerful Object-Oriented Programming // O'Reilly Media, Inc. 2013.
[35] Python frameworks: full stack vs micro framework. Режим доступа: https://dzone.com/articles/python-frameworks-full-stack-vs-micro-framework (дата обращения 22.05.2018).
[36] Режим доступа: http://snowball.tartarus.org/algorithms/english/stemmer.html (дата обрашение 26.05.2018)
[37] Корпусы NLTK. Режим доступа: https://raw.githubusercontent.com/nltk/nltk_data/gh- pages/packages/corpora/stopwords.zip (дата обрашение 26.05.2018).
[38] Режим доступа: http://scikit- learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVecto rizer.html. (дата обрашение 26.05.2018)
[39] Режим доступа: https://www.kaggle.com/benhamner/nips-papers/data (дата обрашение. 26.05.2018)
[40] Pearson correlation coefficient statistical guide. Режим доступа: https://statistics.laerd.com/statistical-guides/pearson-correlation-coefficient- statistical-guide.php (дата обрашение. 17.06.2018)

[41] B. Li, L. Han. Distance weighted cosine similarity measure for text classification // In International Conference on Intelligent Data Engineering and Automated Learning. Springer, Berlin, Heidelberg. 2013. -p. 611-618.

Купить эту работу

Разработка системы сравнительного анализа текстов научных публикаций в некоторых предметных областях

850 ₽

или заказать новую

Лучшие эксперты сервиса ждут твоего задания

от 3000 ₽

Гарантии Автор24

Изображения работ

Страница работы
Страница работы
Страница работы

Понравилась эта работа?

или

25 июля 2020 заказчик разместил работу

Выбранный эксперт:

Автор работы
ksfei121
4.7
В основном сосредоточен на продажу готовых своих личных работ по символическим ценам.
Купить эту работу vs Заказать новую
0 раз Куплено Выполняется индивидуально
Не менее 40%
Исполнитель, загружая работу в «Банк готовых работ» подтверждает, что уровень оригинальности работы составляет не менее 40%
Уникальность Выполняется индивидуально
Сразу в личном кабинете Доступность Срок 1—6 дней
850 ₽ Цена от 3000 ₽

5 Похожих работ

Дипломная работа

Диплом Нейросети "Распознавание сервированных блюд с использованием нейронных сетей" сдан на 5 + исходный код

Уникальность: от 40%
Доступность: сразу
249 ₽
Дипломная работа

Разработка програмного обеспечения для предоставления государственных услуг через портал

Уникальность: от 40%
Доступность: сразу
2800 ₽
Дипломная работа

Разработка компьютерного демонстрационного эксперемента по физике на флеше

Уникальность: от 40%
Доступность: сразу
2800 ₽
Дипломная работа

Разработка AMR-специалиста отдела снабжения предприятия малого бизнеса

Уникальность: от 40%
Доступность: сразу
2800 ₽
Дипломная работа

Разработка WEB-cистемы "АРМ сотрудник УМО" средствами ASP.NET версии 4.0 и СУБД Microsoft SQL сервер

Уникальность: от 40%
Доступность: сразу
2800 ₽

Отзывы студентов

Отзыв Геннадий Полушкин об авторе ksfei121 2018-04-25
Дипломная работа

Автор молодец, просто работа не нужна больше

Общая оценка 5
Отзыв Lesha об авторе ksfei121 2014-06-17
Дипломная работа

Работа сложная, диплом по программированию. Большое спасибо за ответственный подход.

Общая оценка 5
Отзыв user13484 об авторе ksfei121 2016-05-11
Дипломная работа

Большое спасибо, все замечательно!

Общая оценка 5
Отзыв vovikluch об авторе ksfei121 2014-06-24
Дипломная работа

очень хороший автор Спасибо за работу

Общая оценка 5

другие учебные работы по предмету

Готовая работа

Принципы работы нейросетей. Виды и принципы работы нейросетей

Уникальность: от 40%
Доступность: сразу
300 ₽
Готовая работа

Рисунок нарисованный в Visual Studio на C++ MFC-приложение

Уникальность: от 40%
Доступность: сразу
200 ₽
Готовая работа

Шифрование C# - AES; WPF.

Уникальность: от 40%
Доступность: сразу
3000 ₽
Готовая работа

Зачётная работа по предмету Web-инженеринг. Сайт

Уникальность: от 40%
Доступность: сразу
100 ₽
Готовая работа

парсинг Python

Уникальность: от 40%
Доступность: сразу
2000 ₽
Готовая работа

Вращающиеся кольца ( Торы )

Уникальность: от 40%
Доступность: сразу
400 ₽
Готовая работа

Парсинг веб-сайта elibrary на Python

Уникальность: от 40%
Доступность: сразу
15000 ₽
Готовая работа

Шифрование текста с Аутентификацией каждого пользователя, на основе алгоритма AES - 128 битного ключа, реализованного на WPF

Уникальность: от 40%
Доступность: сразу
400 ₽
Готовая работа

Основные понятия и проблемы технологии программирования

Уникальность: от 40%
Доступность: сразу
250 ₽
Готовая работа

Доклад по дисциплине "Программирование", тема "Сортировка Пузырьком"

Уникальность: от 40%
Доступность: сразу
100 ₽
Готовая работа

Доклад по дисциплине "Программирование", тема "Сортировка Шелла"

Уникальность: от 40%
Доступность: сразу
150 ₽
Готовая работа

Доклад по дисциплине "Программирование", тема "Сортировка слиянием"

Уникальность: от 40%
Доступность: сразу
150 ₽