10 июля 2025 года на семинаре Института прикладной математики им. М.В. Келдыша РАН была рассмотрена кандидатская диссертация по теме «Исследование и разработка гибридных алгоритмов распознавания объектов на основе зрительных данных«, написанная под научным руководством ведущего научного сотрудника Института прикладной математики им. М.В. Келдыша РАН, профессора, доктора физико-математических наук Богуславского Андрея Александровича, и, поскольку все результаты диссертации опубликованы в соавторстве с проф. А.А. Богуславским, написанная в соавторстве с проф. А.А. Богуславским.
Содержание:
На старом алгоритме — в светлое будущее!
С точки зрения современного мирового научного ландшафта, выбор алгоритма Хюккеля в диссертационном исследовании выглядит как явный анахронизм.
Ведь указанный алгоритм был предложен Хюккелем ещё в начале 1970-х годов, и относится к самому раннему поколению методов обнаружения границ, наряду с операторами Собеля и Робертса.
Уже тогда, 50 лет назад у алгоритма Хюккеля были выявлены теоретические недостатки, связанные с аппроксимацией непрерывных функций в дискретном пространстве.
Алгоритм Хюккеля не позднее 1986 (!) года, 40 лет назад, был полностью вытеснен алгоритмом Кэнни, причём по двум направлениям.
Во-первых, алгоритм Хюккеля проиграл конкуренцию по прагматическим соображениям (вычислительные затраты и сложность) более простым и быстрым методам, основанным на градиенте.
Во-вторых, и это более важно, вся его теоретическая основа устарела с появлением новой, более мощной вычислительной философии обнаружения границ, воплощенной в алгоритме Кэнни, который переопределил само значение «оптимальности» в области компьютерного зрения.
В современных международных исследованиях, посвященных обнаружению границ, алгоритм Хюккеля уже давно даже и не упоминается. Безоговорочным классическим современным стандартом, с которым сравнивают любые новые подходы в исследованиях, является алгоритм и детектор Кэнни.
Современные международные исследования в США, особенно те, что публикуются на ведущих конференциях — CVPR, ICCV, в основном сфокусированы на разработке и улучшении методов обнаружения границ на основе глубокого обучения (например, HED, BDCN, CASENet).
Эти подходы рассматривают обнаружение границ как задачу попиксельной классификации и показывают значительно более высокие результаты на стандартных бенчмарках (программах или тестах, разработанных для измерения производительности различных компонентов). Даже гибридные методы чаще всего используют CNN, свёрточные нейронные сети, для улучшения результатов классических, но общепринятых алгоритмов, таких как алгоритм Кэнни.
С этой точки зрения, исследование в диссертации алгоритма Хюккеля, который был вытеснен из научной практики десятилетия назад, может свидетельствовать об оторванности от текущей глобальной научной дискуссии, о проведении дисертационного исследования с устаревшим инструментарием.
Таким образом, использование алгоритма Хюккеля в диссертации — это изолированный инженерный выбор.
Это даже не новация, так как метод не является новым, его применение не привело к созданию алгоритма, конкурентоспособного с современными мировыми разработками на стандартных бенчмарках.
Наиболее точная характеристика — это методологический выброс (methodological outlier). В работе проведено исследование специфического инструмента, который мейнстримная наука давно списала со счетов.
И хотя в работе найдено узкое применение в рамках исследовательской программы конкретной диссертации, это ещё больше подчеркивает дистанцию от переднего края современных исследований в области компьютерного зрения.
Критически неполный и устаревший обзор специальной литературы
Обзор специальной литературы для диссертации, датированной 2025 годом, является критически неполным и устаревшим. Он упускает из виду несколько важнейших трансформационных тенденций, которые кардинально изменили научный ландшафт темы распознавания объектов в период с 2022 по 2025 год. Это упущение диссертации создает исследовательский вакуум, который подрывает актуальность и практическую значимость предложенных в диссертации решений.
Отсутствие Vision Transformers (ViT) и гибридных CNN-Transformer архитектур
Начиная с 2021 года, архитектуры на основе механизма внимания (Transformers), изначально разработанные для обработки естественного языка, были успешно адаптированы для задач компьютерного зрения. Гибридные модели, сочетающие сверточные слои для извлечения локальных признаков и блоки трансформеров для моделирования глобальных зависимостей, стали новым стандартом де-факто во многих задачах, включая распознавание объектов, часто превосходя чисто сверточные сети. Полное отсутствие упоминания этой архитектурной революции является серьезным пробелом.
Игнорирование современных итераций семейства YOLO.
Диссертация фокусируется на системах реального времени, однако в обзоре отсутствуют наиболее производительные и широко используемые модели этого класса — YOLOv8, YOLOv9 и YOLOv10.
Эти модели, выпущенные в 2023-2024 годах, установили новые стандарты соотношения скорости и точности, и являются прямыми, наиболее сильными конкурентами для любой новой разработки в области real-time object detection.
Без анализа этих моделей оценка производительности предложенных гибридных алгоритмов проводится в отрыве от реального состояния дел в практике и в науке.
Недостаточное внимание к Foundation Models и Vision-Language Models (VLM).
С 2023 года наблюдается взрывной рост профессионального и научного интереса к фундаментальным моделям, предварительно обученным на огромных массивах мультимодальных данных (изображения и текст). Модели, такие как CLIP, и их последующие итерации, интегрированные с большими языковыми моделями (LLM), открыли новые возможности для задач компьютерного зрения, включая распознавание с открытым словарем (open-vocabulary detection), верификацию и семантическое осмысление результатов.
Эти подходы представляют собой следующую парадигму в развитии ИИ и напрямую относятся к задачам повышения надежности распознавания, которые в диссертации пытаются решить классическими методами.
Таким образом, обзор профессиональной литературы формирует устаревшую картину предметной области. Предложенные в диссертации решения сравниваются с технологиями, которые уже не являются передовыми.
Данное обстоятельство фундаментально ослабляет аргументацию в пользу новизны и практической ценности диссертации, поскольку «пробел в исследованиях», который диссертация пытается заполнить, в значительной степени уже был закрыт другими, более современными и мощными подходами.
Методологическая слабость диссертации, необоснованность проектных решений и их несоответствие поставленным перед диссертацией задачам
Анализ выбора устаревших компонентов глубокого обучения (глава 2.3 диссертации)
В качестве нейросетевого компонента в диссертации выбраны четыре архитектуры из репозитория TensorFlow 2 Model Zoo: CenterNet, EfficientDet, SSD MobileNet и Faster R-CNN.
Выбор обосновывается необходимостью охватить различные подходы (одноэтапные и двухэтапные детекторы) и найти компромисс между скоростью и точностью, ссылаясь на данные из документации TensorFlow.
Однако этот выбор имеет существенный недостаток: он демонстративно игнорирует семейство моделей YOLO, которое является доминирующей парадигмой в области распознавания объектов в реальном времени. Это упущение создает искусственный потолок производительности для гибридных систем, предложенных в диссертации.
Начиная с 2016 года, модели YOLO последовательно устанавливали стандарты производительности для задач, где скорость является критическим фактором.
На момент проведения диссертационного исследования (предположительно 2023-2024 гг.) были доступны и широко использовались версии YOLOv7 и YOLOv8, а к моменту защиты (2025 г.) — YOLOv9 и YOLOv10, 11.
Эти модели предлагают значительно лучшее соотношение скорости и точности по сравнению с выбранными автором архитектурами.
Например, Faster R-CNN известен своей высокой точностью, но является двухэтапным и медленным, что делает его плохим кандидатом для систем реального времени. SSD MobileNet, наоборот, быстр, но его точность уступает современным версиям YOLO.
Не включив в сравнение или в качестве базовой модели ни одну из актуальных версий YOLO, диссертация невольно сравнивает свои гибридные подходы с заведомо неоптимальными базовыми детекторами.
Это приводит к тому, что любые улучшения, достигнутые за счет гибридизации, могут выглядеть более значительными, чем они есть на самом деле.
Если бы в качестве базовой модели использовался, например, YOLOv8, то прирост от добавления классических компонентов мог бы оказаться незначительным или вовсе отсутствовать.
Таким образом, методологический выбор нейросетевых компонентов является слабым местом диссертации, так как он не отражает реального состояния дел в исследуемой области.
Недостатки предложенных гибридных архитектур (глава 3 диссертации)
В работе предложены и реализованы три гибридные архитектуры.
Алгоритм 1: Предобработка контуров → Детектирование с помощью СНС
Это простая последовательная схема, в которой исходное изображение сначала преобразуется в бинарную карту контуров (с помощью Хюккеля или Кэнни+Хафа), а затем эта карта подается на вход сверточной нейронной сети для распознавания объектов.
Вывод диссертации о том, что такая предобработка не дает выигрыша в точности или времени, является артефактом крайне упрощенной реализации, а не обобщаемым научным фактом.
Данный подход не использует синергетический потенциал геометрических и семантических признаков, что является предметом активных и успешных исследований в данной области.
Проблема предложенной схемы заключается в фундаментальном несоответствии доменов данных. Сверточные нейронные сети, предварительно обученные на наборах данных типа COCO или ImageNet, ожидают на входе плотные RGB-изображения, из которых они научились извлекать богатые признаки цвета, текстуры и формы.
Подавая на вход такой сети разреженное бинарное изображение, состоящее только из контуров, диссертация лишает модель большей части информации, на которую она привыкла опираться.
Неудивительно, что результат оказывается неудовлетворительным.
Современные подходы к интеграции геометрических априорных знаний (таких как контуры) в глубокие сети используют гораздо более сложные механизмы. Вместо полной замены входных данных, контурная информация используется для:
○ Модуляции внимания: Геометрические признаки могут направлять механизмы внимания сети, заставляя ее фокусироваться на наиболее значимых областях изображения.
○ Вспомогательных задач (Auxiliary Tasks): Сеть может обучаться одновременно решать основную задачу (распознавание) и вспомогательную (предсказание контуров), что улучшает качество извлекаемых признаков.
○ Мультимодального слияния признаков: Признаки, извлеченные из RGB-изображения, и признаки, извлеченные из карты контуров, могут быть объединены на промежуточных слоях сети с помощью специальных блоков слияния.
Таким образом, эксперимент диссертации проверяет самую наивную гипотезу о пользе контуров.
Полученный отрицательный результат следует интерпретировать узко: именно такая простая последовательная обработка неэффективна.
Этот вывод не опровергает более общую и подтвержденную другими исследованиями гипотезу о том, что геометрическая информация при правильной интеграции способна значительно улучшить качество работы нейросетевых детекторов.
Алгоритм 2: Детектор на СНС → Верификатор на ORB
Основной детектор на базе СНС генерирует гипотезы о местоположении объектов. Для каждой гипотезы (ограничивающего прямоугольника) извлекается соответствующий фрагмент изображения. На этом фрагменте вычисляются особые точки ORB и сопоставляются с заранее подготовленной базой эталонных изображений объекта. Если количество совпадений превышает заданный порог, детекция подтверждается, в противном случае — отклоняется как ложное срабатывание.
Новизна данного алгоритма является инкрементальной, поскольку он адаптирует классический паттерн компьютерного зрения (каскадные классификаторы) к современному контексту и сталкивается с конкуренцией со стороны более интегрированных методов уточнения на основе глубокого обучения.
Идея данного Алгоритма 2 была реализована еще в 2001 году, в классическом каскадном детекторе Виолы-Джонса.
Модель диссертации CNN→ORB при этом является устаревшим, классическим решением проблемы, для которой сейчас активно разрабатываются чисто нейросетевые и VLM-ориентированные решения.
Алгоритм 3: Фильтр на ORB → Верификатор на СНС
Изображение сначала полностью обрабатывается для поиска кластеров особых точек ORB, которые совпадают с эталонными видами объекта. Только те области изображения, которые содержат такие кластеры, передаются на вход СНС для окончательной классификации.
Эта архитектура с «классическим фильтром на входе» на практике является хрупкой эвристикой. Ее производительность критически зависит от качества классического детектора, а выигрыш в скорости нивелируется современными, высокооптимизированными легковесными end-to-end детекторами.
Цель этого подхода — избежать запуска дорогостоящей СНС на тех участках изображения, где объекта заведомо нет. Та же самая мотивация лежит в основе сетей генерации предложений (Region Proposal Networks, RPN) в двухэтапных детекторах, таких как Faster R-CNN.54 Метод диссертации, по сути, заменяет обучаемую RPN на эвристику, основанную на кластеризации признаков ORB.
Эта эвристика крайне неустойчива: она даст сбой, если объект частично перекрыт, виден с нового ракурса (отсутствующего в эталонной базе) или если фон имеет богатую текстуру, что приведет к ложным совпадениям признаков. Это неизбежно приведет к большому количеству пропущенных объектов (низкая полнота, recall).
С точки зрения скорости, в диссертации отмечено, что обработка всего изображения с помощью ORB и последующий запуск СНС на предложенных областях может быть быстрее, чем запуск СНС на всем изображении, только если объект отсутствует.
Однако ключевой метрикой является среднее время вывода на репрезентативном наборе данных. Современный легковесный детектор, такой как YOLOv10-N, имеет задержку всего 1.84 мс на современном GPU.
Крайне маловероятно, что полный цикл (запуск ORB на HD-изображении, кластеризация признаков, извлечение RoI и запуск СНС на них) может быть выполнен быстрее, чем один проход YOLOv10-N. Таким образом, этап предварительной фильтрации из ускорителя превращается в узкое место с точки зрения вычислений.
Низкая практическая конкурентоспособность диссертации
Дефекты наборов данных и метрик
Для экспериментальной проверки своих гипотез диссертация использует два типа данных: спутниковые снимки для задачи обнаружения мостов и три специально подготовленные видеопоследовательности для задачи обнаружения БПЛА.
Набор данных для БПЛА был взят из открытого источника, указанного под номером в списке литературы. В качестве метрик производительности используются время обработки (или FPS), процент успешных обнаружений и процент ложных срабатываний.
Такой подход к выбору данных и метрик имеет два существенных дефекта:
Дефект 1. Использование нестандартных наборов данных. Применение собственных или малоизвестных наборов данных допустимо для первоначальной проверки концепции, однако оно серьезно ограничивает возможность сопоставления и обобщения полученных результатов. В сообществе исследователей, занимающихся обнаружением объектов с БПЛА, приняты стандартные бенчмарки, такие как VisDrone и UAVDT, которые позволяют объективно сравнивать производительность различных алгоритмов. Без оценки на этих эталонных наборах данных результаты диссертации остаются изолированными и не могут быть напрямую сопоставлены с современными state-of-the-art решениями.
Дефект 2. Неполный набор метрик. Используемые метрики (процент обнаружений, процент ложных срабатываний) являются интуитивно понятными, но неполными. Стандартом для оценки качества детекторов объектов является Mean Average Precision (mAP) при различных порогах пересечения над объединением (Intersection over Union, IoU), например, mAP@0.5 и mAP@0.5:0.95. Эта метрика комплексно оценивает как точность (precision), так и полноту (recall) детектора, а также точность локализации объектов.
Отсутствие расчетов mAP является значительным методологическим упущением диссертации, не позволяющим провести полноценную оценку качества предложенных в диссертации алгоритмов.
Дефекты результатов Алгоритма 1
Заявленный результат: применение СНС ко всему контурному изображению «не дает выигрыша в точности или времени» и может даже увеличить количество ложных срабатываний.
На самом деле, этот вывод справедлив исключительно для той наивной реализации, которая была протестирована.
Эксперимент не дает оснований для общего вывода о бесполезности геометрических априорных знаний в задачах распознавания.
Увеличение числа ложных срабатываний (например, с 1.5% до 5-7% для SSD MobileNet) легко объяснимо: детектор контуров выделяет не только границы целевого объекта («мост»), но и границы фоновых объектов со схожей структурой (например, края дороги, разметка), которые затем СНС ошибочно классифицирует как целевой объект.
Это подтверждает, что простая замена входных данных без изменения архитектуры сети или процесса обучения является неэффективной стратегией.
Дефекты результатов Алгоритма 2
Заявленный результат: каскад CNN→ORB позволяет снизить количество ложных срабатываний на 40-100% при минимальном влиянии на общее время обработки.
На самом деле, заявленное снижение числа ложных срабатываний скрывает критически важный компромисс между точностью и полнотой.
Этап верификации с помощью ORB, отсеивая ложные тревоги, одновременно увеличивает количество пропущенных реальных объектов (ложноотрицательных срабатываний), что является существенным ухудшением производительности, не получившим должного акцента в диссертации.
Рассмотрим данные из Таблицы 4.2.1. диссертации, где акцентируется внимание на столбце «Ложные обнаружения».
Например, для модели EfficientDet на видео №1 количество ложных обнаружений падает с 20 до 1 (снижение на 95%), что и лежит в основе заявленного результата.
Однако, если посмотреть на соседний столбец «Не обнаружено объектов», то можно увидеть, что их количество, наоборот, увеличивается.
Для того же эксперимента оно возрастает со 181 до 185.
Для видео №3 при увеличении порога совпадения особых точек с 15 до 20, количество пропущенных объектов возрастает со 174 до 302.
Это демонстрирует классический компромисс: повышение порога детектирования (в данном случае, требуемого числа совпадений точек ORB) улучшает точность (precision, меньше ложных срабатываний) за счет снижения полноты (recall, больше пропущенных объектов).
Диссертация представляет этот результат почти исключительно как успех в борьбе с ложными срабатываниями, что является неполной и потенциально вводящей в заблуждение интерпретацией.
Корректным способом визуализации и анализа такого компромисса было бы построение кривой «точность-полнота» (Precision-Recall curve) и сравнение площади под ней (Average Precision).
Дефекты результатов Алгоритма 3
Заявленный результат: Фильтр ORB→CNN может сократить среднее время обработки массива изображений за счет отказа от использования нейросети, когда на изображении отсутствуют признаки объекта.
На самом деле, этот тезис технически верен, но практически слаб.
Согласно данным диссертации, скорость работы детектора ORB составляет до 16.72 FPS, в то время как верификатор на СНС работает со скоростью до 9.29 FPS. Общая скорость конвейера будет ограничена его самым медленным компонентом и накладными расходами на передачу данных между этапами.
Один оптимизированный end-to-end детектор в среднем окажется быстрее.
Эксперимент демонстрирует работоспособность концепции, но не предоставляет убедительных доказательств ее практического превосходства над современными альтернативами.
Отсутствие в диссертации научной новизны
Научная новизна диссертации, согласно автореферату, заключается в предложении новой классификации алгоритмов и разработке трех новых гибридных алгоритмов.
Рассмотрим как классификацию алгоритмов, так и результат разработки трёх гибридных алгоритмов.
Классификация алгоритмов: предложенная в диссертации схема классификации алгоритмов является полезным организационным инструментом для структурирования самой диссертационной работы, но не представляет собой нового теоретического вклада, поскольку базовые принципы разделения на классические, нейросетевые и гибридные подходы уже давно являются устоявшимися в научном сообществе.
Гибридные алгоритмы: три предложенных алгоритма являются новыми, но новыми являются только конкретные комбинации использованных в диссертации неновых компонентов.
Однако сами эти принципы, лежащие в основе алгоритмов — последовательная предобработка, каскадное уточнение и предварительная фильтрация — являются хорошо известными и давно применяемыми в компьютерном зрении приёмами и концепциями.
Отсутствие практической значимости в контексте современного состояния науки и техники
Основной прикладной фокус диссертации — распознавание объектов в реальном времени, в частности для БПЛА. Наиболее производительная модель, предложенная автором (Алгоритм 2), достигает скорости до 7.7 FPS на изображениях с разрешением 1920×1080 пикселей на универсальном компьютере.
Этот результат необходимо сравнить с современными альтернативами, чтобы оценить практическую значимость работы.
Предложенные в диссертации алгоритмы, будучи концептуально интересными, не являются практически конкурентоспособными в реалиях 2024-2025 годов.
Их производительность как по скорости, так и по точности, значительно уступает легкодоступным, негибридным state-of-the-art моделям.
Поясним этот вывод на конкретных данных.
Порог для систем реального времени часто определяется в 20-30 FPS. Результат диссертации в 7.7 FPS не соответствует этому требованию.
В то же время, современные модели семейства YOLO демонстрируют на порядок более высокую производительность. Например, YOLOv10-S достигает точности 46.3 AP на стандартном бенчмарке COCO при задержке всего в 2.49 мс на высокопроизводительном GPU, что эквивалентно ~400 FPS.
Даже на встраиваемых устройствах, таких как NVIDIA Jetson, специализированные легковесные модели достигают производительности в реальном времени.
Если рассматривать конкретную задачу обнаружения объектов с БПЛА на эталонном наборе данных VisDrone, то модифицированные версии YOLOv8 показывают результаты, значительно превосходящие те, что можно ожидать от моделей диссертации.
Например, модель DBYOLOv8s сообщает о достижении mAP@0.5 в 49.3%, а RLRD-YOLO — об улучшении базовой YOLOv8 на 12.2% по метрике mAP.
Эти state-of-the-art модели представляют собой единые end-to-end сети, которые проще в обучении и развертывании, чем многоэтапные гибридные конвейеры, предложенные в диссертации.
Таким образом, у инженера или исследователя в 2025 году не будет веских причин реализовывать алгоритмы, предложенные в диссертации, вместо того, чтобы взять стандартную модель YOLOv10 или 11, и дообучить ее на своей задаче. Это сводит практическую значимость разработанных алгоритмов к минимуму.
Сравнительная таблица производительности для задачи обнаружения объектов с БПЛА
Модель | Набор данных | Производительность (Точность) | Производительность (Скорость) | Тип архитектуры |
Алгоритм 2 диссертации (CenterNet + ORB) | Пользовательский (БПЛА) | % обнаружения (не mAP) | ~7.7 FPS | Гибридная (Классика+ГЛ) |
DBYOLOv8s | VisDrone | 49.3% mAP@0.5 | 45 FPS | End-to-End ГЛ |
RLRD-YOLO | VisDrone | +12.2% mAP@0.5 (отн. YOLOv8) | н/д | End-to-End ГЛ |
YOLOv10-S | COCO | 46.3% mAP@0.5:0.95 | ~400 FPS (на A100) | End-to-End ГЛ |
Данная таблица наглядно демонстрирует разрыв в производительности между предложенными в диссертации гибридными методами и современными end-to-end нейросетевыми детекторами, и подтверждает вывод о низкой практической конкурентоспособности диссертации.
В результате анализа вышеуказанной диссертации, выполненной в отрыве от реального и быстро развивающегося контекста современного компьютерного зрения, приходим к неутешительным выводам о её критически важных недостатках:
● Использование устаревших базовых моделей, что приводит к неконкурентоспособной итоговой производительности.
● Неполный литературный обзор, упускающий из виду ключевые современные тенденции (трансформеры, новые версии YOLO, фундаментальные модели).
● Методологические пробелы в экспериментальной части, такие как использование нестандартных наборов данных и отсутствие общепринятых метрик (mAP).
● Формулировка выводов, которые либо слишком широки (например, о бесполезности контурной предобработки), либо неполны (например, сокрытие компромисса между точностью и полнотой при верификации).
На фоне проведения СВО и огромной потребности в действительно мощных и современных решениях в области компьютерного зрения, обнаруженный нами низкий научный уровень проведения исследований в головном академическом институте представляется недопустимым.
Список литературы
- Диссертация по теме «Исследование и разработка гибридных алгоритмов распознавания объектов на основе зрительных данных», https://keldysh.ru/postgraduate/attestation_doc/Vlasov_diss.pdf
- Real-Time Object Detection Based on UAV Remote Sensing: A Systematic Literature Review — MDPI, accessed August 9, 2025, https://www.mdpi.com/2504-446X/7/10/620
- YOLO-TLA: An Efficient and Lightweight Small Object Detection Model based on YOLOv5, accessed August 9, 2025, https://arxiv.org/html/2402.14309v1
- Small-Object Detection for UAV-Based Images Using a Distance Metric Method — MDPI, accessed August 9, 2025, https://www.mdpi.com/2504-446X/6/10/308
- Urban traffic tiny object detection via attention and multi-scale feature driven in UAV-vision, accessed August 9, 2025, https://pmc.ncbi.nlm.nih.gov/articles/PMC11374784/
- Object Detection with Deep Learning: A Review — arXiv, accessed August 9, 2025, http://arxiv.org/pdf/1807.05511
- From classical techniques to convolution-based models: A review of object detection algorithms The first author contributed the most to this paper. Corresponding author: mamiruzzaman@wcupa.edu — arXiv, accessed August 9, 2025, https://arxiv.org/html/2412.05252v1
- A Review of Machine Learning and Deep Learning for Object Detection, Semantic Segmentation, and Human Action Recognition in Machine and Robotic Vision — MDPI, accessed August 9, 2025, https://www.mdpi.com/2227-7080/12/2/15
- Deep Learning vs. Traditional Computer Vision — arXiv, accessed August 9, 2025, https://arxiv.org/pdf/1910.13796
- CNN based 2D object detection techniques: a review — Frontiers, accessed August 9, 2025, https://www.frontiersin.org/journals/computer-science/articles/10.3389/fcomp.2025.1437664/full
- Investigations of Object Detection in Images/Videos Using Various Deep Learning Techniques and Embedded Platforms—A Comprehensive Review — MDPI, accessed August 9, 2025, https://www.mdpi.com/2076-3417/10/9/3280
- (PDF) A novel hybrid deep learning approach for super-resolution and objects detection in remote sensing — ResearchGate, accessed August 9, 2025, https://www.researchgate.net/publication/391840688_A_novel_hybrid_deep_learning_approach_for_super-resolution_and_objects_detection_in_remote_sensing
- Enhancing Object Detection in Remote Sensing: A Hybrid YOLOv7 and Transformer Approach with Automatic Model Selection — MDPI, accessed August 9, 2025, https://www.mdpi.com/2072-4292/16/1/51
- EasyChair Preprint Mathematics-Driven Enhancements in Object Detection: a Hybrid Deep Learning Framework, accessed August 9, 2025, https://easychair.org/publications/preprint/Xmj5/open
- [2507.11040] Combining Transformers and CNNs for Efficient Object Detection in High-Resolution Satellite Imagery — arXiv, accessed August 9, 2025, https://arxiv.org/abs/2507.11040
- HCLT-YOLO: A Hybrid CNN and Lightweight Transformer …, accessed August 9, 2025, https://www.researchgate.net/publication/385758083_HCLT-YOLO_A_Hybrid_CNN_and_Lightweight_Transformer_Architecture_for_Object_Detection_in_Complex_Traffic_Scenes
- [2505.00564] X-ray illicit object detection using hybrid CNN-transformer neural network architectures — arXiv, accessed August 9, 2025, https://arxiv.org/abs/2505.00564
- Top 6 Most Favored Object Detection Models in 2024 |YOLOv10, EfficientDet, DETR, etc — DFRobot, accessed August 9, 2025, https://www.dfrobot.com/blog-13914.html
- YOLOv10: Real-Time End-to-End Object Detection — arXiv, accessed August 9, 2025, https://arxiv.org/html/2405.14458v1
- YOLOv10: Real-Time End-to-End Object Detection, accessed August 9, 2025, https://arxiv.org/pdf/2405.14458
- YOLOv10: Real-Time End-to-End Object Detection — Ultralytics YOLO Docs, accessed August 9, 2025, https://docs.ultralytics.com/models/yolov10/
- YOLOv10: Real-Time End-to-End Object Detection | OpenReview, accessed August 9, 2025, https://openreview.net/forum?id=tz83Nyb71l&referrer=%5Bthe%20profile%20of%20Jungong%20Han%5D(%2Fprofile%3Fid%3D~Jungong_Han1)
- [2405.14458] YOLOv10: Real-Time End-to-End Object Detection — arXiv, accessed August 9, 2025, https://arxiv.org/abs/2405.14458
- YOLOv10: Real-Time End-to-End Object Detection [NeurIPS 2024] — GitHub, accessed August 9, 2025, https://github.com/THU-MIG/yolov10
- A Review of 3D Object Detection with Vision-Language Models — arXiv, accessed August 9, 2025, https://arxiv.org/html/2504.18738v1
- Visual Large Language Models for Generalized and Specialized Applications — arXiv, accessed August 9, 2025, https://arxiv.org/html/2501.02765v1
- Can Large Vision-Language Models Correct Semantic Grounding Errors By Themselves?, accessed August 9, 2025, https://arxiv.org/html/2404.06510v2
- Workshop on Computer Vision in the Wild 2025, accessed August 9, 2025, https://computer-vision-in-the-wild.github.io/cvpr-2025/
- Awesome-Foundation-Models/README.md at main — GitHub, accessed August 9, 2025, https://github.com/uncbiag/Awesome-Foundation-Models/blob/main/README.md
- Recent Advanced in Vision Foundation Models: CVPR2025 Tutorial, accessed August 9, 2025, https://vlp-tutorial.github.io/
- Foundation Models Defining a New Era in Vision: A Survey and Outlook, accessed August 9, 2025, https://www.computer.org/csdl/journal/tp/2025/04/10834497/23mYUeDuDja
- A Survey on Remote Sensing Foundation Models: From Vision to Multimodality — arXiv, accessed August 9, 2025, https://arxiv.org/abs/2503.22081
- [2502.19106] A Survey on Foundation-Model-Based Industrial Defect Detection — arXiv, accessed August 9, 2025, https://arxiv.org/abs/2502.19106
- [2501.12203] Explainability for Vision Foundation Models: A Survey — arXiv, accessed August 9, 2025, https://arxiv.org/abs/2501.12203
- [2408.12957] Image Segmentation in Foundation Model Era: A Survey — arXiv, accessed August 9, 2025, https://arxiv.org/abs/2408.12957
- [2410.22217] Towards Unifying Understanding and Generation in the Era of Vision Foundation Models: A Survey from the Autoregression Perspective — arXiv, accessed August 9, 2025, https://arxiv.org/abs/2410.22217
- Multimodal Foundation Models: From Specialists to General-Purpose Assistants — arXiv, accessed August 9, 2025, https://arxiv.org/abs/2309.10020
- Top 30+ Computer Vision Models For 2025 — Analytics Vidhya, accessed August 9, 2025, https://www.analyticsvidhya.com/blog/2025/03/computer-vision-models/
- Comparison of CNN-Based Architectures for Detection of Different Object Classes — OPUS, accessed August 9, 2025, https://opus4.kobv.de/opus4-th-wildau/files/1963/ai-05-00113.pdf
- arXiv:1904.13353v2 [cs.CV] 2 May 2019, accessed August 9, 2025, https://arxiv.org/pdf/1904.13353
- Segmenting objects with Bayesian fusion of active contour models and convnet priors — arXiv, accessed August 9, 2025, https://arxiv.org/html/2410.07421v1
- MonoDGP: Monocular 3D Object Detection with Decoupled-Query and Geometry-Error Priors — arXiv, accessed August 9, 2025, https://arxiv.org/html/2410.19590v2
- CVPR Poster 3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features, accessed August 9, 2025, https://cvpr.thecvf.com/virtual/2024/poster/30607
- CVPR Poster Shadow Generation Using Diffusion Model with Geometry Prior, accessed August 9, 2025, https://cvpr.thecvf.com/virtual/2025/poster/32825
- CVPR Poster One-shot 3D Object Canonicalization based on Geometric and Semantic Consistency, accessed August 9, 2025, https://cvpr.thecvf.com/virtual/2025/poster/34193
- CVPR Poster Bridging Viewpoint Gaps: Geometric Reasoning Boosts Semantic Correspondence, accessed August 9, 2025, https://cvpr.thecvf.com/virtual/2025/poster/34582
- CVPR 2024 – Research Impact & Leadership, accessed August 9, 2025, https://sites.gatech.edu/research/cvpr-2024/
- Sample Selection for Training Cascade Detectors | PLOS One — Research journals, accessed August 9, 2025, https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0133059
- LOWERING FALSE POSITIVE DETECTION RATES USING MULTIPLE HAAR CLASSIFIERS — FSU Computer Science, accessed August 9, 2025, https://www.cs.fsu.edu/~cop4601p/project/students/gregory-milner/HaarClassifiers_milner.pdf
- An Improved DETR Based on Angle Denoising and Oriented Boxes Refinement for Remote Sensing Object Detection — MDPI, accessed August 9, 2025, https://www.mdpi.com/2072-4292/16/23/4420
- CaKDP: Category-aware Knowledge Distillation and Pruning Framework for Lightweight 3D Object Detection — CVPR 2024 Open Access Repository, accessed August 9, 2025, https://openaccess.thecvf.com/content/CVPR2024/html/Zhang_CaKDP_Category-aware_Knowledge_Distillation_and_Pruning_Framework_for_Lightweight_3D_CVPR_2024_paper.html
- A Lightweight Object Detector Based on Spatial-Coordinate Self-Attention for UAV Aerial Images — MDPI, accessed August 9, 2025, https://www.mdpi.com/2072-4292/15/1/83
- History-Augmented Vision-Language Models for Frontier-Based Zero-Shot Object Navigation This material is based upon work supported by the National Aeronautics and Space Administration (NASA) under award number 80NSSC23K1393, the National Science Foundation under Grant Number CNS-2232048. — arXiv, accessed August 9, 2025, https://arxiv.org/html/2506.16623v1
- Faster RCNN in 2025: How it works and why it’s still the benchmark for Object Detection, accessed August 9, 2025, https://www.thinkautonomous.ai/blog/faster-rcnn/
- From R-CNN to Faster R-CNN – The Evolution of Object Detection Technology — Alibaba Cloud Community, accessed August 9, 2025, https://www.alibabacloud.com/blog/from-r-cnn-to-faster-r-cnn-the-evolution-of-object-detection-technology_593829
- Papers with code · GitHub, accessed August 9, 2025, https://paperswithcode.com/sota/object-detection-on-visdrone-det2019-1
- VisDrone Dataset — Ultralytics YOLO Docs, accessed August 9, 2025, https://docs.ultralytics.com/datasets/detect/visdrone/
- UAVDT — Dataset Ninja, accessed August 9, 2025, https://datasetninja.com/uavdt
- Real-Time Object Detection from UAV Inspection Videos by Combining YOLOv5s and DeepStream — MDPI, accessed August 9, 2025, https://www.mdpi.com/1424-8220/24/12/3862
- Hybrid Architecture for Real-Time Object Detection from UAV Video Streams Using External ROI Processing and Embedded Optimization — ResearchGate, accessed August 9, 2025, https://www.researchgate.net/publication/393920050_Hybrid_Architecture_for_Real-Time_Object_Detection_from_UAV_Video_Streams_Using_External_ROI_Processing_and_Embedded_Optimization
- DBYOLOv8: Dual-Branch YOLOv8 Network for Small Object …, accessed August 9, 2025, https://thesai.org/Downloads/Volume16No1/Paper_124-DBYOLOv8_Dual_Branch_YOLOv8_Network.pdf
- RLRD-YOLO: An Improved YOLOv8 Algorithm for Small Object Detection from an Unmanned Aerial Vehicle (UAV) Perspective — ResearchGate, accessed August 9, 2025, https://www.researchgate.net/publication/390692325_RLRD-YOLO_An_Improved_YOLOv8_Algorithm_for_Small_Object_Detection_from_an_Unmanned_Aerial_Vehicle_UAV_Perspective
- VLM-R3: Region Recognition, Reasoning, and Refinement for Enhanced Multimodal Chain-of-Thought — arXiv, accessed August 9, 2025, https://arxiv.org/html/2505.16192v1