Создан заказ №4291838
24 октября 2019
Цель настоящей работы - изучение задачи и рассмотрение подходов к созданию интеллектуальной программной системы, предназначенной для мониторинга больших информационных потоков в сетевом публицистическом дискурсе на английском и русском языках для их анализа, извлечения требуемой информации и обобщения этой информации в соответствии с заданными контекстами.
Как заказчик описал требования к работе:
Повысить уникальность без скрытых символов и синонимов
Фрагмент выполненной работы:
ВВЕДЕНИЕ
Вопросы автоматического извлечения знаний из неструктурированной текстовой информации, бесспорно, являются актуальными в современном мире, что объясняется необходимостью решения практических задач мониторинга больших информационных потоков в сетевом дискурсе с целью их адаптивного агрегирования. В настоящее время происходит стабильно высокий рост количества информационного контента в мире, что привело к появлению такого понятия, как «информационное общество».
Одной из причин такого роста является повсеместное внедрение социальных средств общения в сети Интернет. (работа была выполнена специалистами author24.ru) Сама концепция развития сети Интернет, названная Web 2.0 [O'Reily, 2005], подразумевает глубокую социализацию сетевых ресурсов. Теперь каждый пользователь сети может высказать свое мнение относительно любого события, мнения, факта и т.д.
Если не учитывать некоторые искажающие факторы (например, сетевые тролли, провокаторы, агитаторы), то можно заметить, что социальная сетевая паутина может быть использована в политике для получения информации о некотором обществе - его настроении, требованиях, тенденциях. В настоящий момент такую работу выполняют лингвисты, психологи, социологи [Gee, 2006]. и на волне информационного общество привело к развитию направления дискурсивного aHann3a(discourse analysis). Очевидно, что за приемлемое время специалисты могут провести дискурсивный анализ только сравнительно небольшого сообщества, посему задача автоматизации для данного направления стоит особо остро. Но автоматизацию усложняет тот факт, что анализ проводится по артефактам обычного человека из сети, то есть неструктурированной информации (запись из блога, твит, комментарий).
Самым простым промежуточным решением являются системы извлечения знаний. Существует ряд разработок - анализаторов текстов на естественном языке, которые способны обеспечивать процесс извлечения знаний из текстов на руссхом и английском языках. В силу лингвистической направленности системы обработки связных текстов называют лингвистическими процессорами [Шаров, 1997]. Однако существующие анализаторы ограничены в своих функциях из-за направленности исключительно на извлечение информации, при этом задача хранения знаний и поиска по ним остается нерешенной (для этих целей используются внешние модули). Для целей обработки неструктурированной текстовой информации, направленной на повышение эффективности использования текстов, прибегают к методам построения формальной объектной структуры [Тригуб. 2004].
Однако стоит заметить, что задача поиска и извлечения знаний должна происходить в каком-то определённом контексте. В случае ручного дискурсивного анализа такая задача выполняется на стадии поиска неструктурированной информации, но в случае автоматизированных систем это уже будет невозможно сделать на уровне, достаточном для игнорирования этого в последующем анализе.
Цель настоящей работы - изучение задачи и рассмотрение подходов к созданию интеллектуальной программной системы, предназначенной для мониторинга больших информационных потоков в сетевом публицистическом дискурсе на английском и русском языках для их анализа, извлечения требуемой информации и обобщения этой информации в соответствии с заданными контекстами.
Попробуем определить что из себя представляет неструктурированные данные. Неструктурированным называют данные, которые не имеют описанной внутренней структуры или определения, соответствующего задаче, которую предполагается решать[2].
Разработка и реализация качественных механизмов сбора информации является залогом успешной ее обработки и в этой курсовой работе дается руководство по подходам и методам решения этой задачи с помощью популярного языка программирования Python[3].
Natural Language Toolkit(NLTK) – это набор библиотек Python, предназначенный для поиска и тегирования частей речи в естественном (английском) тексте. Его разработка началась в 2000 году и в течение последних 15 лет десятки разработчиков по всему миру внесли свой вклад в этот проект[4].
В настоящее время интенсивно развивается направление математической лингвистики, называемое Natural Language Processing (англ. Обработка естественного текста). Главная цель этого научного направления – компьютерный анализ и синтез естественных языков. Для компьютерной обработки неструктурированных текстов существует значительное число программных продуктов и специальных библиотек, в том числе и для языка программирования Python[5].
Одним из наиболее важных факторов ранжирования сайтов является плотность ключевых слов. Плотность ключевых слов — это процентное соотношение количества ключевых слов к общему числу слов в тексте. То есть, если поисковый запрос упоминается в контенте страницы достаточное количество раз, то эта страница более релевантна данному запросу, чем страница, где ключевое слово встречается один раз или не встречается вовсе.
Цель настоящей работы: разработать программу для получения плотности ключевого слова английского неструктурированного текста. Для достижения поставленной цели необходимо решить следующие задачи:
Исследовать методы анализа неструктурированного текста
Изучить обработку неструктурированного текста с помощью библиотеки NLTK
Сбор HTML-данных c домена и парсинг данных с целью получения интересующей информации
Разработка программы для получения плотности ключевых слоПосмотреть предложения по расчету стоимости
Заказчик
заплатил
заплатил
500 ₽
Заказчик не использовал рассрочку
Гарантия сервиса
Автор24
Автор24
20 дней
Заказчик воспользовался гарантией, чтобы исполнитель повысил уникальность работы
27 октября 2019
Заказ завершен, заказчик получил финальный файл с работой
5
Цель настоящей работы - изучение задачи и рассмотрение подходов к созданию интеллектуальной программной системы, предназначенной для мониторинга больших информационных потоков в сетевом публицистическом дискурсе на английском и русском языках для их анализа, извлечения требуемой информации и обобщения этой информации в соответствии с заданными контекстами..docx
2020-01-14 09:59
Последний отзыв студента о бирже Автор24
Общая оценка
4.5
Положительно
Очень хороший и отзывчивый автор. Всё выполняет в срок и отвечает на все интересующие вопросы. Разбирается в своём деле и делает это на высшем уровне.