Создан заказ №384263
12 декабря 2014
Использование расстояния Левенштейна для анализа подобия данных
Как заказчик описал требования к работе:
Имеется ввиду по большей части анализ подобия текстовых данных.
Приведу пример. Допустим, есть сайт, который занимается страхованием мотоциклов. Этот сайт автоматически собирает тарифы на страховку от разных страховых агентов. Но тут возникает проблема, что у одного страхового агента модели и марки
мотоциклов называются по-одному, а у другого страхового агента эти же марки и модели называются по-другому.
Пример: Yamaha Epsylon 300 и Yamaha EPSILON пишутся по-разному, но имеется ввиду один и тот же мотоцикл.
Для того, чтобы сравнивать названия можно использовать например длину Левенштейна.
Но поскольку с одной длиной Левенштейна сильно не разгуляешься, то было решено с преподавателем рассмотреть также более общую тему: "Использование нечеткого поиска в тексте". Но, тема все равно остается "Использование расстояния Левенштейна для анализа подобия данных". Её уже утвердили на кафедре :)
Я сдаю работу 21 января, но преподователь хочет уже до 28 декабря иметь текстовый вариант, а после Нового года небольшой программный продукт.
ЧТО ЕСТЬ НА ДАННЫЙ МОМЕНТ
Пример оформления дипломной работы (прикреплен в письме)
Статьи по теме
http://elbuz.com/spravochnie-materiali/algoritmi-primernogo-sopostavleniya-slov-veroyatnosti-raspoznavaniya-naimenovaniy-tovarov-pri-obrabotke-i-analize-prays-listov-postavschikov-konkurentov.-chasti-№1.html
http://elbuz.com/spravochnie-materiali/algoritmi-primernogo-sopostavleniya-slov-veroyatnosti-raspoznavaniya-naimenovaniy-tovarov-pri-obrabotke-i-analize-prays-listov-postavschikov-konkurentov.-chasti-№2.html
http://habrahabr.ru/post/114997/
http://habrahabr.ru/post/117063/
http://muzhig.ru/levenstein-distance-python/
http://levenshtein.blogspot.fr/
http://www.kodyaz.com/articles/fuzzy-string-matching-using-levenshtein-distance-sql-server.aspx
Есть база данных в MSSQL с марками и моделями из 2-х разных источников. Эти марки и модели в каждом источнике записаны по-своему. Эти таблицы могу вам сбросить в любом формате и виде.
ОРИЕНТИРОВОЧНОЕ СОДЕРЖАНИЕ (Его можно поменять)
Постановка задачи
Определение метрики сходства данных
Примеры задач, которые требуют анализа сходства данных
Утилиты операционных систем
Сравнение в Базах Данных
Виды метрик
Длина Хемминг
Длина Левенштейна
Длина Дамерау-Левенштейна
Основная часть
Методы расчета длины Левенштейна
Алгоритм Вагнера - Фишера
Встречный расчет (алгоритм Хиршберг)
Возможности оптимизации и улучшения
Программный продукт
ЧТО НЕОБХОДИМО СДЕЛАТЬ
Текстовую часть до 28 декабря
При этом нужно показывать преподавателю работу частями (хотя бы тремя частями). Желательно первую часть показать в это воскресенье, а также список литературы, который будем использовать.
Небольшой программный продукт (желательно на C#). Например, можно применить метод Левенштейна к той простой базе данных, что я Вам вышлю.
ВЫПОЛНЯТЬ МОЖНО НА ЛЮБОМ ЯЗЫКЕ
подробнее
Заказчик
заплатил
заплатил
3000 ₽
Заказчик оплатил в рассрочку
Гарантия сервиса
Автор24
Автор24
20 дней
Заказчик воспользовался гарантией для внесения правок на основе комментариев преподавателя
19 декабря 2014
Заказ завершен, заказчик получил финальный файл с работой
5
Использование расстояния Левенштейна для анализа подобия данных.docx
2019-07-03 08:52
Последний отзыв студента о бирже Автор24
Общая оценка
5
Положительно
Автор грамотный, общительный,все замечательно, ВКР сдал на 5! Спасибо вам большое!