Автор молодец, просто работа не нужна больше
Подробнее о работе
Гарантия сервиса Автор24
Уникальность не ниже 50%
ТЕРМИНЫ, ОПРЕДЕЛЕНИЯ И СОКРАЩЕНИЯ 3
ВВЕДЕНИЕ 4
ГЛАВА 1. ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ТЕКСТА 6
1.1. Общие понятие 6
1.2. Методы Интеллектуального Анализа Данных 7
1.3. Этапы интеллектуального анализа данных 13
1.4. Подходы к анализу близости текста 17
1.5. Анализ аналогов 21
1.6. Технологии и инструменты интеллектуального анализа текста 25
ГЛАВА 2. НАЗНАЧЕНИЕ И СПЕЦИФИКАФИЯ ТРЕБОВАНИЙ 33
2.1. Назначение 33
2.2. Требовании к системе 34
2.3. Ограничении системы 35
ГЛАВА 3. АРХИТЕКТУРА, СХЕМА И АЛГОРИТМЫ СИСТЕМЫ 36
3.1. Архитектура Системы 36
3.2. Схемы работы системы 38
ГЛАВА 4. РАЗРАБОТКА СИСТЕМЫ 41
4.1. Использованные технологии 41
4.2 Интерфейс системы 41
4.3. Модель Машинного Обучения 43
ГЛАВА 5. АНАЛИЗ РЕЗУЛЬТАТОВ 44
5.1. Этапы анализа результатов 44
5.2. Тест даты 44
5.3. Оценки эксперта и системы 44
5.4. Формула метода Пирсона и граф результата 46
5.5. Измерение результата 48
5.6. Результат сравнение использование метода Пирсона. 48
ГЛАВА 6. ЗАКЛЮЧЕНИЕ 50
СПИСОК ЛИТЕРАТУРЫ 51
ПРИЛОЖЕНИИ 56
ВВЕДЕНИЕ
Цель диссертационной работы:
Разработка системы сравнительного анализа текстов научных публикаций которая поможет распознать сходства между научными работами.
Актуальность работы:
Технологии интеллектуального анализа текста дают нам много возможностей для анализа гигантских текстовых баз данных, которые с каждым днем растут все больше и больше. В академической среде эта технология используется для многих причин, таких как плагиат и т. д. научных статей. Но есть научные исследования, которые проводятся без знания о существовании других исследований, связанных с темой исследования (без ссылки друг на друга). В результате, не выявленные результаты исследований, которые связанные с исследуемой сфере не используются в других работах, которые могли бы предоставить больше информации, не повторяя их. По этой причине существует потребность в системе, которая будет определять связь сходства, между статьями, которые исследуют похожей сфере не ссылаясь друг на друга.
...
1.1. Общие понятие
Научные исследования помогают углубить знания и открыть научные достижении, которые в результате принесут пользу человечеству. С прошлых веков и до наших дней было проведено много научных исследований и их рост в наши дни огромен. Исследователи Борнманн и Мутц [1] проанализировали 15,435,641 публикации изданные с 1980 по 2012 годов, и соответствующие 379,294,777 приведенных ссылок от 1650 до 2012 года. Они обнаружили, что после Второй мировой войны и до 2012 года рост научных исследований составляет от 8 до 9%, что означает, что каждые 9 лет научные исследовании удваиваются.
Рост объема академических исследований сегодня неоспорим. Результат этих исследований в основном сохраняется в виде текстового файла или документов, и их количество также становится все больше и больше. В результате этого, чтобы обнаружить необходимые данные, которые также могут быть упомянуты как, высококачественные данные, становится все труднее.
...
1.3. Этапы интеллектуального анализа данных
В основном, этапы которые следуют для анализа текстовых документов, следующие [2]:
1) Сбор документов
2) Маркирование
3) Выделение признаков
4) Обработка естественного языка
5) Уменьшение признаков
6) Тренировка данных
7) Классификация
1.3.1. Сбор документов
Процесс интеллектуального анализа данных начинается со сбора документов или данных, которые будут обработаны. Это могут быть текстовые документы с различными типами документов или данные, полученные приложениями так называемых пауков.
1.3.2. Токенизация
Токенизация применяется для замены элементов конфиденциальных данных другими эквивалентными данными, которые называются токенами. Токен не имеет смысла, который может быть связан с какой-либо другой информацией.
1.3.3.
...
1.4. Подходы к анализу близости текста
В нашем исследовании мы попытались сравнить и проанализировать близости между двумя или более текстовых документов. Анализируя близости текста, можно догадаться, как текстовые документы соотносятся друг с другом. Сходство текстовых документов можно вычислить проанализировав сходство используемых в них слов. Слова можно сравнить, используя лексические и семантические близости. Лексическое сходство слов - это значит, что слова имеют одинаковую последовательность символов. Семантическое сходство слов заключается в том, что слова означают одно и то же или противоположное друг другу, используются одинаково и в одном контексте или являются одинаковыми типами слов. Для расчета лексической близости используются алгоритмы близости на основе строк, а для семантической близости – корпусное и наукоемкое сходство.
1.4.1.
...
1.5. Анализ аналогов
Методы интеллектуального анализа текста используются во многих областях. Полученные результаты дают возможность анализировать или прогнозировать события, что очень полезно для интересов во многих областях деятельности. Одним из таких практических применений является выявление плагиата в научном или другом используемом тексте. Наша система не является системой плагиата, потому что мы анализируем научные статьи, которые уже прошли проверку на плагиат. Кроме того, мы анализируем сходство слов, используемых в статьях, чтобы обнаружить терминологическое сходство. Для выявления плагиата анализируется сочетание слов (N-грамм,
предложений) [25]. Но в нашей системе можно использовать и методы текстового майнинга, и методы выявления плагиата.
Ученые из Чили Габриэль Оберройтер и Хуан Д. Веласкес, в своих исследованиях пытались использовать методы текстового майнинга для анализа лингвистических особенностей текста и моделирования стиля письма автора [25].
...
1.6. Технологии и инструменты интеллектуального анализа текста
Технологии и инструменты стремительно развиваются, и рассмотреть их актуальную версию практически невозможно. Здесь рассматриваются технологии и инструменты, которые в основном используются при разработке приложений интеллектуального анализа данных.
1.6.1. Языки программирования
Согласно статистике [30], в основном при разработке систем интеллектуального анализа данных использовались языки программирования python, java, R и SAS.
1) Язык программирования Java
Java – это язык компьютерного программирования, специально разработанный для того, чтобы иметь меньше зависимостей реализации, он также является классовым, параллельным и объектно-ориентированным языком. Все платформы, поддерживающие Java, могут запускать скомпилированный код Java без перекомпиляции. Коды приложений Java компилируются в байт-код и могут быть запущены с помощью JVM (Java Virtual Machine).
...
2.1. Назначение
В академической среде число научных работ растёт все больше и больше. Следить за новыми исследовательскими работы парой становиться невозможно. Среди этого огромного количество данных исследователи могут не выявит исследовании связанные с их темой исследовании. Это проведёт к неиспользованию результатов других работ, которые помогли бы исходу исследовании. По этой причине существует потребность в системе, которая будет определять связь сходства, между статьями, которые исследуют похожей сфере не ссылаясь друг на друга.
Разработанная система интеллектуального анализа данных предназначена для осуществления обработки научных документов и выявление сходства между текстами документов. Пользователи системы могут загрузить выбранные документы и в результате получат статистическое сравнение 2-х или более текстов.
В системе анализируются научные работы общего доступа, которые прошли все проверки системы антиплагиата.
...
2.2. Требовании к системе
Для достижения ожидаемых результатов установлены требования для разработки системы.
Бизнес требовании
1
Система должна обработать документы в соответствии с настроенными алгоритмами
2
Система должна показать результаты обработки данных.
3
Система должно показать результаты обработки данных.
...
2.3. Ограничении системы
Чтобы не выходить за рамки определённого времени и для достижения поставленных целей определяется ограничение системы. Ограничениями системы являются:
▪ Система может одновременно анализировать не менее 2-х и не более 5 документов.
▪ Система обрабатывает и анализирует документы только с форматом PDF.
ГЛАВА 3. АРХИТЕКТУРА, СХЕМА И АЛГОРИТМЫ СИСТЕМЫ
3.1. Архитектура системы
Архитектура системы состоит из интерфейса взаимодействие пользователя и серверная часть системы. Сервер взаимодействует с системой для ввода информации (документов) и для получения результатов обработки вводных данных.
В серверной части системы вводные данные обрабатываются из двух этапов. Это предварительная обработка и процесс анализа данных. Предварительная обработка осуществляется в несколько этапов:
1) Удаление определённых слов, которые не имеют ценности для анализа текста. Слова предварительно определены автором.
...
3.2. Схемы работы системы.
3.2.1. UML диаграмма системы
Рисунок-3: UML класс диаграмма системы
3.2.2. Диаграмма последовательности работы системы
Рисунок-4: Диаграмма последовательности работы системы
3.3. Алгоритмы системы
В начале производится предварительная обработка данных, где выполняются эти шаги:
◦ Чтение файлов из входных данных
◦ Извлечение текста из pdf-файлов
◦ Удалить верхний и нижний колонтитулы из текстов, удалить стоп- слова
Потом начинается статистический анализ данных, репрезентация текста на векторы и подсчет сходства. Шаги для выполнение этих задач:
◦ Подсчитать матрицу TF-IDF для текстов и выберите 10 лучших слов с наибольшим количеством повторение.
◦ Морфологический поиск или стемминг текста.
◦ Подсчет вектора внедрения для каждого текста с помощью обученных даты.
◦ Подсчет косинусного сходства для этих вложений.
◦ Вывод результатов в виде таблицы HTML.
ГЛАВА 4.
...
[1] L. Bornmann, R. Mutz. Growth rates of modern science: A bibliometric analysis based on the number of publications and cited references // Journal of the Association for Information Science and Technology. 2015. V.66. № 11. - p. 2215-2222.
[2] S. Inzalkar, J. Sharma. A survey on text mining-techniques and application // International Journal of Research in Science & Engineering. 2015. V.24. -p.1- 14.
[3] U. Singh, S. Hasan. Survey paper on document classification and classifiers // Int. J. Comput. Sci. Trends Technol. 2015. V.3. №2. -p.83-87.
[4] A. Kao, S.R. Poteet. Natural language processing and text mining // Springer Science & Business Media. 2007.
[5] R. Kohavi, F. Provost. Glossary of terms // Machine Learning. 1998. V.30. -p. 271–274.
[6] S. Arthur. Some Studies in Machine Learning Using the Game of Checkers // IBM Journal of Research and Development. 1959. V.3. №3. -p. 210–229.
[7] J.H. Friedman. Data Mining and Statistics: What's the connection? // Computing Science and Statistics. 1998. V.29. №1. -p. 3–9.
[8] S.K. Mohamad, Z. Tasir. Educational data mining: A review // Procedia-Social and Behavioral Sciences. 2013. V.97. -p.320-324.
[9] A. Joshi, R. Kaur. A review: Comparative study of various clustering techniques in data mining // International Journal of Advanced Research in Computer Science and Software Engineering. 2013. V.3. № 3.
[10] K. Varun, C. Anupama. An Empirical Study of the Applications of Data Mining // Techniques in Higher Education. 2011.
[11] N.R. Mabroukeh, C.I. Ezeife. A taxonomy of sequential pattern mining algorithms // ACM Computing Surveys. 2010. V.43. -p.1–41.
[12] A.B.E.D. Ahmed, I.S. Elaraby. Data Mining: A prediction for Student's Performance Using Classification Method // World Journal of Computer Application and Technology. 2014. V.2. № 2. -p.43-47.
[13] J.D. Rennie, L. Shih, J. Teevan, D.R. Karger. Tackling the poor assumptions of naive bayes text classifiers // In Proceedings of the 20th international conference on machine learning (ICML-03). 2003. -p. 616-623.
[14] S.J. Russell, P. Norvig. Artificial intelligence: a modern approach (International Edition). 2002.
[15] W. Cherif, A. Madani, M. Kissi. Towards an efficient opinion measurement in Arabic comments // Procedia Computer Science. 2015. V.73. -p. 122-129.
[16] R.R. Larson. Introduction to information retrieval // Journal of the American Society for Information Science and Technology. 2010. V.61. № 4. -p.852- 853.
[17] T.K. Ho. The random subspace method for constructing decision forests // IEEE transactions on pattern analysis and machine intelligence. 1998. V.20.
№8. -p. 832-844.
[18] J. Friedman, T. Hastie, R. Tibshirani. Sparse inverse covariance estimation with the graphical lasso // Biostatistics. 2008. V.9. № 3. -p. 432-441.
[19] J. Leskovec, A. Rajaraman, J.D. Ullman. Mining of massive datasets // Cambridge university press. 2014.
[20] C. Breitinger, B. Gipp, S. Langer. Research-paper recommender systems: a literature survey // International Journal on Digital Libraries. 2015. V.17. № 4. -p. 305-338.
[23] W.H. Gomaa, A.A. Fahmy. A survey of text similarity approaches // International Journal of Computer Applications. 2013. V.68. № 13.
[24] E.S. Pramukantoro, M.A. Fauzi. Comparative analysis of string similarity and corpus-based similarity for automatic essay scoring system on e-learning gamification // In Advanced Computer Science and Information Systems (ICACSIS). 2016. -p. 149-155.
[22] D.S. Hunnisett, W.J. Teahan. Context-based methods for text categorization // In Proceedings of the 27th annual international ACM SIGIR conference on Research and development in information retrieval. ACM Press, Sheffield, United Kingdom. 2004. -p. 578-579.
[21] H. Liu, H. Motoda. Feature Selection for Knowledge Discovery and Data Mining // Kluwer Academic Publisher. 1998.
[25] G. Oberreuter, J.D. VeláSquez. Text mining applied to plagiarism detection: The use of words for detecting deviations in the writing style // Expert Systems with Applications. 2013. V.40. № 9. -p.3756-3763.
[26] M. Szczuka, A. Janusz. Semantic clustering of scientific articles using explicit semantic analysis // In Transactions on Rough Sets XVI Springer. Berlin. Hiedelberg. 2013. -p. 83-102.
[27] Y. Shinyama. PDFMiner: Python PDF parser and analyzer. 2010. Режим доступа: http://www.unixuser.org/~euske/python/pdfminer/.
[28] K.S. Jones, P. Willet. Readings in Information Retrieval // Morgan Kaufmann, San Francisco. 1997.
[29] A. Shetty, R. Bajaj. Auto Text Summarization with Categorization and Sentiment Analysis // International Journal of Computer Applications. 2015. V.130. № 7. -p. 57-60.
[30] https://analyticsindiamag.com/top-10-programming-languages-data-scientists- learn-2018/
[31] S. Tippmann. Programming tools: Adventures with R // Nature. 2014. V.517.
-p. 109–110. Режим доступа: https://www.nature.com/news/programming- tools-adventures-with-r-1.16609 (дата обращения 22.05.2018).
[32] TIOBE Index for May 2018 // www.tiobe.com. Режим доступа: https://www.tiobe.com/tiobe-index/ (дата обращения 22.05.2018).
[33] D. Kuhlman. A python book: Beginning python, advanced python, and python exercises // Dave Kuhlman. 2009. -p. 1-227.
[34] M. Lutz. Learning Python: Powerful Object-Oriented Programming // O'Reilly Media, Inc. 2013.
[35] Python frameworks: full stack vs micro framework. Режим доступа: https://dzone.com/articles/python-frameworks-full-stack-vs-micro-framework (дата обращения 22.05.2018).
[36] Режим доступа: http://snowball.tartarus.org/algorithms/english/stemmer.html (дата обрашение 26.05.2018)
[37] Корпусы NLTK. Режим доступа: https://raw.githubusercontent.com/nltk/nltk_data/gh- pages/packages/corpora/stopwords.zip (дата обрашение 26.05.2018).
[38] Режим доступа: http://scikit- learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVecto rizer.html. (дата обрашение 26.05.2018)
[39] Режим доступа: https://www.kaggle.com/benhamner/nips-papers/data (дата обрашение. 26.05.2018)
[40] Pearson correlation coefficient statistical guide. Режим доступа: https://statistics.laerd.com/statistical-guides/pearson-correlation-coefficient- statistical-guide.php (дата обрашение. 17.06.2018)
[41] B. Li, L. Han. Distance weighted cosine similarity measure for text classification // In International Conference on Intelligent Data Engineering and Automated Learning. Springer, Berlin, Heidelberg. 2013. -p. 611-618.
Не подошла эта работа?
Закажи новую работу, сделанную по твоим требованиям
ТЕРМИНЫ, ОПРЕДЕЛЕНИЯ И СОКРАЩЕНИЯ 3
ВВЕДЕНИЕ 4
ГЛАВА 1. ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗ ТЕКСТА 6
1.1. Общие понятие 6
1.2. Методы Интеллектуального Анализа Данных 7
1.3. Этапы интеллектуального анализа данных 13
1.4. Подходы к анализу близости текста 17
1.5. Анализ аналогов 21
1.6. Технологии и инструменты интеллектуального анализа текста 25
ГЛАВА 2. НАЗНАЧЕНИЕ И СПЕЦИФИКАФИЯ ТРЕБОВАНИЙ 33
2.1. Назначение 33
2.2. Требовании к системе 34
2.3. Ограничении системы 35
ГЛАВА 3. АРХИТЕКТУРА, СХЕМА И АЛГОРИТМЫ СИСТЕМЫ 36
3.1. Архитектура Системы 36
3.2. Схемы работы системы 38
ГЛАВА 4. РАЗРАБОТКА СИСТЕМЫ 41
4.1. Использованные технологии 41
4.2 Интерфейс системы 41
4.3. Модель Машинного Обучения 43
ГЛАВА 5. АНАЛИЗ РЕЗУЛЬТАТОВ 44
5.1. Этапы анализа результатов 44
5.2. Тест даты 44
5.3. Оценки эксперта и системы 44
5.4. Формула метода Пирсона и граф результата 46
5.5. Измерение результата 48
5.6. Результат сравнение использование метода Пирсона. 48
ГЛАВА 6. ЗАКЛЮЧЕНИЕ 50
СПИСОК ЛИТЕРАТУРЫ 51
ПРИЛОЖЕНИИ 56
ВВЕДЕНИЕ
Цель диссертационной работы:
Разработка системы сравнительного анализа текстов научных публикаций которая поможет распознать сходства между научными работами.
Актуальность работы:
Технологии интеллектуального анализа текста дают нам много возможностей для анализа гигантских текстовых баз данных, которые с каждым днем растут все больше и больше. В академической среде эта технология используется для многих причин, таких как плагиат и т. д. научных статей. Но есть научные исследования, которые проводятся без знания о существовании других исследований, связанных с темой исследования (без ссылки друг на друга). В результате, не выявленные результаты исследований, которые связанные с исследуемой сфере не используются в других работах, которые могли бы предоставить больше информации, не повторяя их. По этой причине существует потребность в системе, которая будет определять связь сходства, между статьями, которые исследуют похожей сфере не ссылаясь друг на друга.
...
1.1. Общие понятие
Научные исследования помогают углубить знания и открыть научные достижении, которые в результате принесут пользу человечеству. С прошлых веков и до наших дней было проведено много научных исследований и их рост в наши дни огромен. Исследователи Борнманн и Мутц [1] проанализировали 15,435,641 публикации изданные с 1980 по 2012 годов, и соответствующие 379,294,777 приведенных ссылок от 1650 до 2012 года. Они обнаружили, что после Второй мировой войны и до 2012 года рост научных исследований составляет от 8 до 9%, что означает, что каждые 9 лет научные исследовании удваиваются.
Рост объема академических исследований сегодня неоспорим. Результат этих исследований в основном сохраняется в виде текстового файла или документов, и их количество также становится все больше и больше. В результате этого, чтобы обнаружить необходимые данные, которые также могут быть упомянуты как, высококачественные данные, становится все труднее.
...
1.3. Этапы интеллектуального анализа данных
В основном, этапы которые следуют для анализа текстовых документов, следующие [2]:
1) Сбор документов
2) Маркирование
3) Выделение признаков
4) Обработка естественного языка
5) Уменьшение признаков
6) Тренировка данных
7) Классификация
1.3.1. Сбор документов
Процесс интеллектуального анализа данных начинается со сбора документов или данных, которые будут обработаны. Это могут быть текстовые документы с различными типами документов или данные, полученные приложениями так называемых пауков.
1.3.2. Токенизация
Токенизация применяется для замены элементов конфиденциальных данных другими эквивалентными данными, которые называются токенами. Токен не имеет смысла, который может быть связан с какой-либо другой информацией.
1.3.3.
...
1.4. Подходы к анализу близости текста
В нашем исследовании мы попытались сравнить и проанализировать близости между двумя или более текстовых документов. Анализируя близости текста, можно догадаться, как текстовые документы соотносятся друг с другом. Сходство текстовых документов можно вычислить проанализировав сходство используемых в них слов. Слова можно сравнить, используя лексические и семантические близости. Лексическое сходство слов - это значит, что слова имеют одинаковую последовательность символов. Семантическое сходство слов заключается в том, что слова означают одно и то же или противоположное друг другу, используются одинаково и в одном контексте или являются одинаковыми типами слов. Для расчета лексической близости используются алгоритмы близости на основе строк, а для семантической близости – корпусное и наукоемкое сходство.
1.4.1.
...
1.5. Анализ аналогов
Методы интеллектуального анализа текста используются во многих областях. Полученные результаты дают возможность анализировать или прогнозировать события, что очень полезно для интересов во многих областях деятельности. Одним из таких практических применений является выявление плагиата в научном или другом используемом тексте. Наша система не является системой плагиата, потому что мы анализируем научные статьи, которые уже прошли проверку на плагиат. Кроме того, мы анализируем сходство слов, используемых в статьях, чтобы обнаружить терминологическое сходство. Для выявления плагиата анализируется сочетание слов (N-грамм,
предложений) [25]. Но в нашей системе можно использовать и методы текстового майнинга, и методы выявления плагиата.
Ученые из Чили Габриэль Оберройтер и Хуан Д. Веласкес, в своих исследованиях пытались использовать методы текстового майнинга для анализа лингвистических особенностей текста и моделирования стиля письма автора [25].
...
1.6. Технологии и инструменты интеллектуального анализа текста
Технологии и инструменты стремительно развиваются, и рассмотреть их актуальную версию практически невозможно. Здесь рассматриваются технологии и инструменты, которые в основном используются при разработке приложений интеллектуального анализа данных.
1.6.1. Языки программирования
Согласно статистике [30], в основном при разработке систем интеллектуального анализа данных использовались языки программирования python, java, R и SAS.
1) Язык программирования Java
Java – это язык компьютерного программирования, специально разработанный для того, чтобы иметь меньше зависимостей реализации, он также является классовым, параллельным и объектно-ориентированным языком. Все платформы, поддерживающие Java, могут запускать скомпилированный код Java без перекомпиляции. Коды приложений Java компилируются в байт-код и могут быть запущены с помощью JVM (Java Virtual Machine).
...
2.1. Назначение
В академической среде число научных работ растёт все больше и больше. Следить за новыми исследовательскими работы парой становиться невозможно. Среди этого огромного количество данных исследователи могут не выявит исследовании связанные с их темой исследовании. Это проведёт к неиспользованию результатов других работ, которые помогли бы исходу исследовании. По этой причине существует потребность в системе, которая будет определять связь сходства, между статьями, которые исследуют похожей сфере не ссылаясь друг на друга.
Разработанная система интеллектуального анализа данных предназначена для осуществления обработки научных документов и выявление сходства между текстами документов. Пользователи системы могут загрузить выбранные документы и в результате получат статистическое сравнение 2-х или более текстов.
В системе анализируются научные работы общего доступа, которые прошли все проверки системы антиплагиата.
...
2.2. Требовании к системе
Для достижения ожидаемых результатов установлены требования для разработки системы.
Бизнес требовании
1
Система должна обработать документы в соответствии с настроенными алгоритмами
2
Система должна показать результаты обработки данных.
3
Система должно показать результаты обработки данных.
...
2.3. Ограничении системы
Чтобы не выходить за рамки определённого времени и для достижения поставленных целей определяется ограничение системы. Ограничениями системы являются:
▪ Система может одновременно анализировать не менее 2-х и не более 5 документов.
▪ Система обрабатывает и анализирует документы только с форматом PDF.
ГЛАВА 3. АРХИТЕКТУРА, СХЕМА И АЛГОРИТМЫ СИСТЕМЫ
3.1. Архитектура системы
Архитектура системы состоит из интерфейса взаимодействие пользователя и серверная часть системы. Сервер взаимодействует с системой для ввода информации (документов) и для получения результатов обработки вводных данных.
В серверной части системы вводные данные обрабатываются из двух этапов. Это предварительная обработка и процесс анализа данных. Предварительная обработка осуществляется в несколько этапов:
1) Удаление определённых слов, которые не имеют ценности для анализа текста. Слова предварительно определены автором.
...
3.2. Схемы работы системы.
3.2.1. UML диаграмма системы
Рисунок-3: UML класс диаграмма системы
3.2.2. Диаграмма последовательности работы системы
Рисунок-4: Диаграмма последовательности работы системы
3.3. Алгоритмы системы
В начале производится предварительная обработка данных, где выполняются эти шаги:
◦ Чтение файлов из входных данных
◦ Извлечение текста из pdf-файлов
◦ Удалить верхний и нижний колонтитулы из текстов, удалить стоп- слова
Потом начинается статистический анализ данных, репрезентация текста на векторы и подсчет сходства. Шаги для выполнение этих задач:
◦ Подсчитать матрицу TF-IDF для текстов и выберите 10 лучших слов с наибольшим количеством повторение.
◦ Морфологический поиск или стемминг текста.
◦ Подсчет вектора внедрения для каждого текста с помощью обученных даты.
◦ Подсчет косинусного сходства для этих вложений.
◦ Вывод результатов в виде таблицы HTML.
ГЛАВА 4.
...
[1] L. Bornmann, R. Mutz. Growth rates of modern science: A bibliometric analysis based on the number of publications and cited references // Journal of the Association for Information Science and Technology. 2015. V.66. № 11. - p. 2215-2222.
[2] S. Inzalkar, J. Sharma. A survey on text mining-techniques and application // International Journal of Research in Science & Engineering. 2015. V.24. -p.1- 14.
[3] U. Singh, S. Hasan. Survey paper on document classification and classifiers // Int. J. Comput. Sci. Trends Technol. 2015. V.3. №2. -p.83-87.
[4] A. Kao, S.R. Poteet. Natural language processing and text mining // Springer Science & Business Media. 2007.
[5] R. Kohavi, F. Provost. Glossary of terms // Machine Learning. 1998. V.30. -p. 271–274.
[6] S. Arthur. Some Studies in Machine Learning Using the Game of Checkers // IBM Journal of Research and Development. 1959. V.3. №3. -p. 210–229.
[7] J.H. Friedman. Data Mining and Statistics: What's the connection? // Computing Science and Statistics. 1998. V.29. №1. -p. 3–9.
[8] S.K. Mohamad, Z. Tasir. Educational data mining: A review // Procedia-Social and Behavioral Sciences. 2013. V.97. -p.320-324.
[9] A. Joshi, R. Kaur. A review: Comparative study of various clustering techniques in data mining // International Journal of Advanced Research in Computer Science and Software Engineering. 2013. V.3. № 3.
[10] K. Varun, C. Anupama. An Empirical Study of the Applications of Data Mining // Techniques in Higher Education. 2011.
[11] N.R. Mabroukeh, C.I. Ezeife. A taxonomy of sequential pattern mining algorithms // ACM Computing Surveys. 2010. V.43. -p.1–41.
[12] A.B.E.D. Ahmed, I.S. Elaraby. Data Mining: A prediction for Student's Performance Using Classification Method // World Journal of Computer Application and Technology. 2014. V.2. № 2. -p.43-47.
[13] J.D. Rennie, L. Shih, J. Teevan, D.R. Karger. Tackling the poor assumptions of naive bayes text classifiers // In Proceedings of the 20th international conference on machine learning (ICML-03). 2003. -p. 616-623.
[14] S.J. Russell, P. Norvig. Artificial intelligence: a modern approach (International Edition). 2002.
[15] W. Cherif, A. Madani, M. Kissi. Towards an efficient opinion measurement in Arabic comments // Procedia Computer Science. 2015. V.73. -p. 122-129.
[16] R.R. Larson. Introduction to information retrieval // Journal of the American Society for Information Science and Technology. 2010. V.61. № 4. -p.852- 853.
[17] T.K. Ho. The random subspace method for constructing decision forests // IEEE transactions on pattern analysis and machine intelligence. 1998. V.20.
№8. -p. 832-844.
[18] J. Friedman, T. Hastie, R. Tibshirani. Sparse inverse covariance estimation with the graphical lasso // Biostatistics. 2008. V.9. № 3. -p. 432-441.
[19] J. Leskovec, A. Rajaraman, J.D. Ullman. Mining of massive datasets // Cambridge university press. 2014.
[20] C. Breitinger, B. Gipp, S. Langer. Research-paper recommender systems: a literature survey // International Journal on Digital Libraries. 2015. V.17. № 4. -p. 305-338.
[23] W.H. Gomaa, A.A. Fahmy. A survey of text similarity approaches // International Journal of Computer Applications. 2013. V.68. № 13.
[24] E.S. Pramukantoro, M.A. Fauzi. Comparative analysis of string similarity and corpus-based similarity for automatic essay scoring system on e-learning gamification // In Advanced Computer Science and Information Systems (ICACSIS). 2016. -p. 149-155.
[22] D.S. Hunnisett, W.J. Teahan. Context-based methods for text categorization // In Proceedings of the 27th annual international ACM SIGIR conference on Research and development in information retrieval. ACM Press, Sheffield, United Kingdom. 2004. -p. 578-579.
[21] H. Liu, H. Motoda. Feature Selection for Knowledge Discovery and Data Mining // Kluwer Academic Publisher. 1998.
[25] G. Oberreuter, J.D. VeláSquez. Text mining applied to plagiarism detection: The use of words for detecting deviations in the writing style // Expert Systems with Applications. 2013. V.40. № 9. -p.3756-3763.
[26] M. Szczuka, A. Janusz. Semantic clustering of scientific articles using explicit semantic analysis // In Transactions on Rough Sets XVI Springer. Berlin. Hiedelberg. 2013. -p. 83-102.
[27] Y. Shinyama. PDFMiner: Python PDF parser and analyzer. 2010. Режим доступа: http://www.unixuser.org/~euske/python/pdfminer/.
[28] K.S. Jones, P. Willet. Readings in Information Retrieval // Morgan Kaufmann, San Francisco. 1997.
[29] A. Shetty, R. Bajaj. Auto Text Summarization with Categorization and Sentiment Analysis // International Journal of Computer Applications. 2015. V.130. № 7. -p. 57-60.
[30] https://analyticsindiamag.com/top-10-programming-languages-data-scientists- learn-2018/
[31] S. Tippmann. Programming tools: Adventures with R // Nature. 2014. V.517.
-p. 109–110. Режим доступа: https://www.nature.com/news/programming- tools-adventures-with-r-1.16609 (дата обращения 22.05.2018).
[32] TIOBE Index for May 2018 // www.tiobe.com. Режим доступа: https://www.tiobe.com/tiobe-index/ (дата обращения 22.05.2018).
[33] D. Kuhlman. A python book: Beginning python, advanced python, and python exercises // Dave Kuhlman. 2009. -p. 1-227.
[34] M. Lutz. Learning Python: Powerful Object-Oriented Programming // O'Reilly Media, Inc. 2013.
[35] Python frameworks: full stack vs micro framework. Режим доступа: https://dzone.com/articles/python-frameworks-full-stack-vs-micro-framework (дата обращения 22.05.2018).
[36] Режим доступа: http://snowball.tartarus.org/algorithms/english/stemmer.html (дата обрашение 26.05.2018)
[37] Корпусы NLTK. Режим доступа: https://raw.githubusercontent.com/nltk/nltk_data/gh- pages/packages/corpora/stopwords.zip (дата обрашение 26.05.2018).
[38] Режим доступа: http://scikit- learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVecto rizer.html. (дата обрашение 26.05.2018)
[39] Режим доступа: https://www.kaggle.com/benhamner/nips-papers/data (дата обрашение. 26.05.2018)
[40] Pearson correlation coefficient statistical guide. Режим доступа: https://statistics.laerd.com/statistical-guides/pearson-correlation-coefficient- statistical-guide.php (дата обрашение. 17.06.2018)
[41] B. Li, L. Han. Distance weighted cosine similarity measure for text classification // In International Conference on Intelligent Data Engineering and Automated Learning. Springer, Berlin, Heidelberg. 2013. -p. 611-618.
Купить эту работу vs Заказать новую | ||
---|---|---|
0 раз | Куплено | Выполняется индивидуально |
Не менее 40%
Исполнитель, загружая работу в «Банк готовых работ» подтверждает, что
уровень оригинальности
работы составляет не менее 40%
|
Уникальность | Выполняется индивидуально |
Сразу в личном кабинете | Доступность | Срок 1—6 дней |
850 ₽ | Цена | от 3000 ₽ |
Не подошла эта работа?
В нашей базе 55693 Дипломной работы — поможем найти подходящую