From e935b28d64c0385b3360b2bef0f44501d009933e Mon Sep 17 00:00:00 2001 From: Ivan Pazhitnykh Date: Tue, 20 Dec 2016 15:34:01 +0300 Subject: [PATCH] fix bugs --- introduction.tex | 2 +- theory.tex | 8 ++++---- 2 files changed, 5 insertions(+), 5 deletions(-) diff --git a/introduction.tex b/introduction.tex index 46efb51..d9520f2 100644 --- a/introduction.tex +++ b/introduction.tex @@ -5,7 +5,7 @@ \chapter*{ВВЕДЕНИЕ} Алгоритмы компьютерного зрения активно используются в системах управления процессами (промышленные роботы, автономные транспортные средства), системах видеонаблюдения, системах организации информации (индексация баз данных изображений), системах моделирования объектов или окружающей среды (анализ медицинских изображений, топографическое моделирование), системах взаимодействия (устройства ввода для системы человеко-машинного взаимодействия), системы дополненной реальности. -Крупнейшая мировая IT корпорация Google разрабатывает self-driving cars (машины с автопилотом) и предполагается, что в будущем человеку вообще не придётся управлять автомобилем. Это должно уменьшить число происшествий исключая "человеческий фактор" и, соответственно, сделать передвижение с помощью автомобиля безопаснее. Самый популярный сервис такси - Uber уже использует машины с автопилотом, что в будущем позволит снизить стоимость услуг сокращением траты средств на человеческие ресурсы (Компания уже уменьшила траты, используя мобильное приложение вместо диспетчеров). Американская компания Amazon открыла магазин без кассиров, в котором с помощью алгоритмов компьютерного зрения определяется какие товары клиент положил себе в корзину и их стоимость автоматически списывается с карты при выходе из магазина. +Крупнейшая мировая IT корпорация Google разрабатывает self-driving cars (машины с автопилотом) и предполагается, что в будущем человеку вообще не придётся управлять автомобилем. Это должно уменьшить число происшествий исключая \quotes{человеческий фактор} и, соответственно, сделать передвижение с помощью автомобиля безопаснее. Самый популярный сервис такси - Uber уже использует машины с автопилотом, что в будущем позволит снизить стоимость услуг сокращением траты средств на человеческие ресурсы (Компания уже уменьшила траты, используя мобильное приложение вместо диспетчеров). Американская компания Amazon открыла магазин без кассиров, в котором с помощью алгоритмов компьютерного зрения определяется какие товары клиент положил себе в корзину и их стоимость автоматически списывается с карты при выходе из магазина. Таким образом компьютерное зрение, наряду с машинным обучением, является сейчас наиболее новой и активно развивающейся областью информатики, используемой всеми лидерами отрасли. Основное применение компьютерного зрения - уменьшение человеческой работы, высвобождения одного из самых дорогих ресурсов - человеческого времени. diff --git a/theory.tex b/theory.tex index 4265c5a..9ee795d 100644 --- a/theory.tex +++ b/theory.tex @@ -33,13 +33,13 @@ \section{Актуальность и практическая значимост \section{Общие теоретические положения} -Человек может сравнить изображения и выделять на них объекты визуально, на интуитивном уровне. Однако, для машины изображение — всего лишь ни о чем не говорящий набор данных. Одной из больших проблем в сопоставлении изображений является очень большая размерность пространства, по которому "размазана" информация. Если взять картинку размером хотя бы $100*100$, то уже получим размерность равную $10^4$. Как же компьютер обретает зрение? +Человек может сравнить изображения и выделять на них объекты визуально, на интуитивном уровне. Однако, для машины изображение — всего лишь ни о чем не говорящий набор данных. Одной из больших проблем в сопоставлении изображений является очень большая размерность пространства, по которому \quotes{размазана} информация. Если взять картинку размером хотя бы $100*100$, то уже получим размерность равную $10^4$. Как же компьютер обретает зрение? -Основная идея состоит в том, чтобы получить какую-то характеристику, которая будет хорошо описывать изображение, легко вычисляться и к которой можно применить логическую операцию сравнения. Эта "характеристика" должна быть устойчива к различным преобразованиям (сдвиг, поворот и масштабирование изображений, изменения яркости, изменения положения камеры). Чтобы определять один и тот же объект на изображениях сделанных с разных углов, расстояний и при разном освещении. +Основная идея состоит в том, чтобы получить какую-то характеристику, которая будет хорошо описывать изображение, легко вычисляться и к которой можно применить логическую операцию сравнения. Эта \quotes{характеристика} должна быть устойчива к различным преобразованиям (сдвиг, поворот и масштабирование изображений, изменения яркости, изменения положения камеры). Чтобы определять один и тот же объект на изображениях сделанных с разных углов, расстояний и при разном освещении. Все эти условия приводят к необходимости выделения на изображении особых, ключевых точек (\textbf{key points}). Этот процесс называется \textbf{feature extraction}. Ключевая точка - эта такая особая точка, которая отличается от соседних точек и будет не похожа на остальные, соответственно является, в какой-то степени, уникальным свойством этого изображения. Таким образом машина может представить изображение как модель состоящие из ключевых точек. Примером особых точек, если говорить об изображении лица человека, могут служить глаза, уголки губ, кончик носа. -После выделения особых точек компьютеру нужно уметь их сравнивать. Этот процесс называется \textbf{feature matching}. Для сравнения удобно использовать дескрипторы (\textbf{descriptor} - "описатель"). Дескриптор - своеобразный описатель или идентификатор ключевой точки, выделяющий её из остальной массы особых точек. Как мы увидим далее именно благодаря дескрипторам получается инвариантность относительно преобразований изображений. +После выделения особых точек компьютеру нужно уметь их сравнивать. Этот процесс называется \textbf{feature matching}. Для сравнения удобно использовать дескрипторы (\textbf{descriptor} - \quotes{описатель}). Дескриптор - своеобразный описатель или идентификатор ключевой точки, выделяющий её из остальной массы особых точек. Как мы увидим далее именно благодаря дескрипторам получается инвариантность относительно преобразований изображений. В итоге получается следующая схема решения задачи сопоставления изображений: \begin{enumerate} @@ -173,7 +173,7 @@ \subsection{FAST детектор} \subsection{Дескриптор ORB} -\hyperref[itm:orb]{ ORB (Oriented FAST and rotated BRIEF) [\ref{itm:orb}]} - ещё один алгоритм соединяющий в себе и дополняющий детектора ключевых точек FAST и бинарных дескрипторов BRIEF. Был предложен Ethan Rublee в 2010 году. Также как и BRIEF, ORB имеет размер 32 байта и для сравнения использует расстояния Хэминга. После детектирования точек с помощью FAST-a ORB выделяет $N$ топ точек используя меру Харисса. Как следует из названия, далее ORB ориентирует найденные ключевые точки. Так как BRIEF плохо работает с поворотом, ORB исправляет это с помощью ориентации, полученной на предыдущем шаге. +\hyperref[itm:orb]{ ORB (Oriented FAST and rotated BRIEF) [\ref{itm:orb}]} - ещё один алгоритм основанный на детекторе ключевых точек FAST и бинарных дескрипторах BRIEF. Как следует из названия ORB дополняет первоначальные алгоритмы. Был предложен Ethan Rublee в 2010 году. Также как и BRIEF, ORB имеет размер 32 байта и для сравнения использует расстояния Хэминга. После детектирования точек с помощью FAST-a ORB выделяет $N$ топ точек используя меру Харисса. Как следует из названия, далее ORB ориентирует найденные ключевые точки. Так как BRIEF плохо работает с поворотом, ORB исправляет это с помощью ориентации, полученной на предыдущем шаге. \section{Выводы}