Диссертация Грицкевича И.Ю. «Исследование и разработка методов реализации и обработки малоконтрастных изображений в условиях ограниченной видимости»

На 17 сентября 2025 года намечена зашита диссертации на соискание ученой степени кандидата технических наук «Исследование и разработка методов реализации и обработки малоконтрастных изображений в условиях ограниченной видимости» по специальности 2.2.13. Радиотехника, в том числе системы и устройства телевидения, подготовленной Грицкевичем Иваном Юрьевичем под научным руководством д.т.н., профессора Гоголя Александра Александровича для защиты в Федеральном государственном бюджетном образовательном учреждении высшего образования «Санкт-Петербургский государственный университет телекоммуникаций им. проф. М.А. Бонч-Бруевича».

Содержание:

Настоящий материал был направлен Ректору СПбГУТ, д.т.н., профессору Киричек Руслану Валентиновичу, и в диссертационный совет 55.2.004.01 СПбГУТ.

Раздел 1: Оценка отсутствия научной новизны и оригинальности

Гибридная архитектура с предсказанием параметров: отсутствие первенства

Анализ тезисов диссертации. Центральным элементом диссертации является «новый гибридный метод», в котором сверточная нейронная сеть (CNN) динамически определяет оптимальные параметры (размер окна r, порог отсечения Tc​) для модифицированного классического алгоритма, названного Адаптивным Локальным Контрастированием (АЛК).

По своей сути, АЛК является вариантом широко известного метода CLAHE (Contrast Limited Adaptive Histogram Equalization).

Автор позиционирует этот подход как новую парадигму для адаптивного улучшения изображений в реальном времени.

Сравнение с предшествующими работами. Это содержащееся в диссертации утверждение о новизне вступает в прямое противоречие с существующими исследованиями, проводившимися в том числе в Китае.

Работа Ли и Цзяо «Deep Learning-Optimized CLAHE for Contrast and Color Enhancement in Suzhou Garden Images», опубликованная в 2024 году, и ссылающаяся на ранее опубликованные в 2021 – 2024 годах исследования авторов, детально описывает метод, который «использует VGG16, глубокую сверточную нейронную сеть, для динамической оптимизации параметров CLAHE, а именно — Clip Limit и Tile Grid Size».[1]

Эта работа была опубликована в 2024 году, до защиты диссертации И.Ю. Грицкевича, работа И.Ю. Грицкевича представляет собой очень схожее направление исследований, осуществлённых в Китае в 2021 – 2024 годах, что подрывает уникальность основной идеи диссертации.

Другие работы также исследуют гибридные подходы, например, комбинацию CLAHE с теорией Retinex или с методами нечеткой логики[2], что указывает на более широкий научный тренд.

Таким образом, центральная идея диссертации не является уникальной, а скорее представляет собой пример современной, параллельно развивающейся исследовательской тенденции. Цепочка рассуждений здесь проста:

  1. Основное утверждение диссертации — использование CNN для предсказания параметров классического фильтра (АЛК/CLAHE).
  2. Исследование Ли и Цзяо описывает использование CNN VGG16 для предсказания тех же самых параметров (порог отсечения, размер области) для того же самого алгоритма (CLAHE).
  3. Существование этого очень похожего метода показывает, что концепция не является уникальным прорывом, а идеей, время которой пришло и которая как минимум исследуется несколькими научными группами одновременно.

Следовательно, вклад диссертации смещается с концептуального изобретения к конкретной реализации и применению, что значительно снижает планку заявленной научной новизны.

Вывод. Фундаментальная концепция использования CNN для регрессии параметров CLAHE не является оригинальной разработкой автора диссертации.

Рассмотрим вопрос о том, предлагает ли конкретная реализация автора какие-либо доказуемые преимущества по сравнению с другими, схожими подходами.

Безэталонная метрика качества: беззастенчивое заимствование концепций

Анализ тезисов диссертации. Диссертация вводит «новую» безэталонную метрику оценки качества изображения (NR-IQA), обозначаемую как E(x,y), которая играет ключевую роль, поскольку служит функцией потерь для обучения CNN, предсказывающей параметры. Метрика строится на двух компонентах:

«средний нормированный контраст» C(i,j) (Формула 2.9)

и «коэффициент искажения» γ (Формула 2.13).

Математическое сравнение. Формулировка этих компонентов демонстрирует поразительное сходство с основополагающими принципами алгоритма BRISQUE, разработанного в Техасском университете в Остине (США) Митталом, Мурти и Бовиком.

  • «Средний нормированный контраст» в диссертации, C(i,j)=(I(i,j)−μ(i,j))/(σ(i,j)+1), математически практически идентичен коэффициентам MSCN (Mean Subtracted Contrast Normalized), которые являются краеугольным камнем алгоритма BRISQUE и определяются как
    I^(i,j)=(I(i,j)−μ(i,j))/(σ(i,j)+C).[3]
  • «Коэффициент искажения» γ в диссертации рассчитывается на основе стандартных отклонений локальных блоков изображения. Этот метод количественной оценки локальных искажений является центральным в подходе, основанном на статистике естественных сцен (Natural Scene Statistics, NSS), который используется как в алгоритме BRISQUE, так и в Naturalness Image Quality Evaluator, NIQE.[4]
  • Итоговая оценка качества E в диссертации представляет собой агрегацию этих локальных мер искажений, что аналогично тому, как BRISQUE использует признаки из распределения коэффициентов MSCN для обучения регрессора.[5]

Предложенная в диссертации метрика NR-IQA не является новым изобретением, а представляет собой прямое перекомбинирование ключевых математических конструкций из алгоритмов BRISQUE и NIQE.

Хотя в библиографии диссертации и присутствует ссылка (№44) на основополагающую работу Миттала, Мурти и Бовика 2012 года, простая ссылка на источник без явного указания на заимствование методологии является недостаточным.

Комбинация двух специфических, нетривиальных концепций (MSCN и оценка искажений через локальную статистику) из одной и той же исследовательской работы других исследователей указывает на концептуальное заимствование.

Вывод. Новизна предложенной метрики качества вызывает серьезные сомнения. Она выглядит как производная работа, что ставит под вопрос оригинальность ключевого компонента методологии диссертации.

Для наглядности приведём следующую сравнительную таблицу

 

Характеристика Метрика из диссертации E(x,y) BRISQUE (Mittal, Bovik, США) NIQE (Mittal, Moorthy, Bovik, США)
Основной принцип Статистика естественных сцен (неявно) Статистика естественных сцен (NSS) Статистика естественных сцен (NSS)
Ключевой коэффициент Средний нормированный контраст: C(i,j)=σ(i,j)+1I(i,j)−μ(i,j)​ Коэффициент MSCN: I^(i,j)=σ(i,j)+CI(i,j)−μ(i,j)​ Нормированная яркость: I^(i,j)=σ(i,j)+1I(i,j)−μ(i,j)​
Статистическое моделирование Через стандартные отклонения для «коэффициента искажения» γ Асимметричное обобщенное распределение Гаусса (AGGD) для MSCN Многомерная гауссовская модель (MVG) для параметров GGD/AGGD
Расчет итоговой оценки Агрегация локальных «значений искажения» K Регрессия (SVR) на признаках из модели AGGD Расстояние Махаланобиса между MVG-моделями

 

Невосполнимые пробелы в списке литературы = контекстная изоляция

Анализ библиографии. Обзор списка литературы диссертации показывает сильный акцент на русскоязычных источниках и фундаментальных, но часто устаревших, международных работах.

При этом отсутствуют ссылки на современные и крайне релевантные международные исследования.

Существенные упущения:

  • Легковесные CNN: Отсутствуют ссылки на основополагающие легковесные архитектуры, такие как MobileNet (Howard et al., Google), SqueezeNet (Iandola et al., Berkeley) или ShuffleNet (Zhang et al., Megvii). Эти модели являются прямыми конкурентами и эталонами для любой работы, претендующей на разработку «легковесной» CNN для встраиваемых систем.[6]
  • Сквозное (End-to-End) улучшение изображений: Ключевые работы по современным методам улучшения изображений при низкой освещенности, основанные на сквозном обучении (например, подходы на базе U-Net или GAN, такие как EnlightenGAN), представлены недостаточно полно.[7]
  • Ускорение CNN на ПЛИС: Хотя цитируются некоторые работы по реализации CLAHE на ПЛИС, обширная и быстро развивающаяся область ускорения CNN на ПЛИС, включая работы по квантованию, оптимизации потоков данных и инструментам высокоуровневого синтеза с ведущих конференций (FPGA, FPL, DATE), в значительной степени проигнорирована.[8]

Неполный литературный обзор создает «контекстный вакуум», позволяя работе автора выглядеть более новой, чем она есть на самом деле, и препятствуя справедливому сравнению с истинным международным уровнем техники.

Например, утверждение о разработке «легковесной» CNN не подкреплено сравнением с общепринятыми эталонами, такими как MobileNet.

Без этого сравнения утверждение об эффективности остается необоснованным.

Эта модель упущений повторяется во всех ключевых областях диссертации, что свидетельствует о систематическом нежелании или неспособности взаимодействовать с наиболее актуальными современными международными исследованиями.

Вывод. Список литературы недостаточен для работы уровня кандидата наук в 2025 году, он не позволяет правильно позиционировать исследование, упускает критически важные стандарты и ослабляет основу, на которой строятся утверждения о новизне и производительности.

 

Раздел 2: Дефектная методология исследования

Алгоритм Адаптивного Локального Контрастирования (АЛК): выбор признаков и стабильность

Обзор методологии диссертации. Алгоритм АЛК адаптирует размер окна r и порог отсечения Tc​ на основе локальной энтропии H(x,y) и доли высокочастотных коэффициентов ДКП (DCT) RHF(x,y).

 Дефекты выбора признаков. Хотя локальная энтропия и коэффициенты ДКП являются правдоподобными индикаторами сложности изображения, диссертация не предоставляет строгого обоснования для выбора именно этого набора признаков по сравнению с другими. Например, не рассматривается использование градиентной информации или локальной дисперсии. Отсутствует исследование (ablation study), которое бы продемонстрировало оптимальность выбранной комбинации.

Дефекты формул адаптации. Формулы для адаптации rtarget​ (3.1) и Tc​ (3.8) представлены как эвристические, с несколькими «магическими числами» (например, β, γ). Отсутствует теоретический вывод или эмпирическое исследование для подтверждения их формы или стабильности создаваемой ими петли обратной связи. Этот недостаток анализа робастности, устойчивости, является существенным методологическим упущением.

Вывод. Основной механизм адаптации алгоритма АЛК основан на эвристических выборах и необоснованных формулах, что не соответствует уровню математической строгости и эмпирической валидации, ожидаемым в диссертационной работе.

Наивный дизайн архитектуры «легковесной» CNN

Описание архитектуры. В диссертации предлагается собственная CNN с тремя сверточными слоями, активацией ELU и пропускными соединениями (skip connections). Автор утверждает, что эта архитектура является «легковесной» и «оптимизированной для аппаратной реализации».

Сравнение с современными легковесными моделями. Этот дизайн является упрощенным по сравнению с устоявшимися легковесными архитектурами из США и Китая.

  • В нем не используются эффективные строительные блоки, такие как глубинно-разделимые свертки (depthwise separable convolutions) из MobileNetV2[9] или «бутылочные» слои (bottleneck layers) с 1×1 свертками из SqueezeNet. Эти методы специально разработаны для сокращения количества параметров и вычислительных затрат при сохранении репрезентативной мощности.[10]
  • Утверждение о «легковесности» в диссертации основано на малом количестве слоев, а не на архитектурной эффективности. Более глубокая сеть с более эффективными блоками потенциально могла бы достичь лучшей точности при аналогичном или меньшем количестве параметров.

Предложенная в диссертации архитектура CNN является «легковесной» в силу своей простоты, а не эффективности, что отражает устаревшее понимание проектирования эффективных моделей глубокого обучения.

Отсутствие современных, хорошо зарекомендовавших себя техник снижает способность сети изучать сложные взаимосвязи между характеристиками изображения и оптимальными параметрами улучшения.

Вывод. Архитектура CNN является рудиментарной и не отражает современных принципов эффективного проектирования сетей. Обоснование ее дизайна слабое, и маловероятно, что она является оптимальной с точки зрения компромисса между точностью и вычислительными затратами по сравнению с устоявшимися международными моделями.

 

Необоснованный выбор: парадигма предсказания параметров против сквозного обучения

Анализ положений диссертации. Вся методология диссертации основана на парадигме предсказания параметров: CNN предсказывает параметры → Классический алгоритм улучшает изображение.

Это контрастирует с доминирующей парадигмой сквозного обучения (end-to-end), где глубокая сеть напрямую изучает отображение от низкоконтрастного изображения к улучшенному.[11]

Дефекты обоснования. Диссертация не предоставляет убедительного, подкрепленного доказательствами аргумента в пользу превосходства выбранной парадигмы.

  • Преимущества сквозного обучения: Модели end-to-end могут изучать гораздо более сложные и нелинейные преобразования, чем классический алгоритм, такой как CLAHE, с несколькими настраиваемыми параметрами.[12]
  • Они могут совместно оптимизировать шумоподавление, цветокоррекцию и улучшение контраста. Они также избавляют от необходимости разрабатывать промежуточную, потенциально ошибочную, метрику качества в качестве функции потерь.[13]
  • Недостатки предсказания параметров: Производительность всей системы фундаментально ограничена выразительной мощностью базового классического алгоритма (CLAHE). Независимо от того, насколько хорошо CNN предсказывает параметры, она никогда не сможет создать результат, который CLAHE не способен сгенерировать. Это является серьезным узким местом.

Вывод. Выбор парадигмы предсказания параметров вместо более мощного и гибкого подхода сквозного обучения является основной стратегической слабостью диссертации. Работа не может адекватно обосновать этот выбор или продемонстрировать его превосходство над хорошо зарекомендовавшими себя методами end-to-end, которые доминируют в этой области.

Раздел 3: Оценка реализации на ПЛИС и производительности

Архитектура и эффективность аппаратной части

Детали реализации. Система реализована на ПЛИС Xilinx Kintex-7, в отчете утверждается, что использование ресурсов составляет <70%, а энергопотребление < 5 Вт.

 Сравнительный анализ. Эти цифры необходимо сравнить с другими опубликованными ускорителями на ПЛИС.

Например, в работе 2023 года сообщается о легковесной CNN на ПЛИС с энергопотреблением 4.8 Вт.[14]

В другой работе описывается модель 1D-CNN-LSTM на Xilinx XCKU040 с потреблением 5.022 Вт.[15]

В то же время, работа 2021 года на менее мощной ПЛИС Xilinx Artix-7 демонстрирует энергопотребление менее 700 мВт (0.7 Вт) для реализации LeNet.[16]

 Вывод. Заявленное энергопотребление < 5 Вт является приемлемым, но не выдающимся, особенно по сравнению с реализациями на менее мощных ПЛИС. Для справедливого сравнения требуется детальная разбивка использования ресурсов (LUT, DSP, BRAM).

 

Производительность и пропускная способность

Заявленная производительность. Ключевое утверждение — пропускная способность >60 кадров/с для разрешения 1920×1080. Это соответствует пропускной способности более 124 Мпикс/с.

Сравнительный анализ. Эта производительность является высокой. Для сравнения, реализация CLAHE на ПЛИС в 2019 году достигала 57 кадров/с для того же разрешения.

Работа 2022 года по развертыванию CNN на Xilinx AC701 (ПЛИС 7-й серии) достигла производительности ~23 GOPS.[17]

Для расчета эффективности (GOPS/Вт) необходимо оценить вычислительную нагрузку диссертационной работы. 20-кратное ускорение по сравнению с CPU является стандартным и ожидаемым результатом для ПЛИС и само по себе не является сильным утверждением.

Вывод. Абсолютная пропускная способность (кадры/с) конкурентоспособна для данного разрешения и семейства ПЛИС. Однако без четкого расчета общего числа операций критическая оценка вычислительной эффективности (GOPS/Вт) затруднена. Указанная в диссертации производительность является результатом быстрой работы простой модели, а не эффективной работы сложной модели.

 

Стратегия квантования: упущенная возможность для оптимизации

Методология диссертации. В диссертации упоминается использование арифметики с фиксированной точкой и таблиц поиска (LUT) для функции ELU, что предполагает базовую 8-битную схему квантования.

 Дефекты предложенной методологии. Это очень простая стратегия квантования. Современные исследования в области ускорения на ПЛИС из США и Великобритании активно изучают более продвинутые методы, предлагающие лучший компромисс между точностью и использованием ресурсов:

  • Квантование со смешанной точностью (Mixed-Precision): Использование разной разрядности для разных слоев для оптимизации использования ресурсов.[18]
  • Продвинутое обучение с учетом квантования (QAT): Методы, такие как QFX, которые изучают оптимальное представление с фиксированной точкой во время обучения.[19]
  • Представления Minifloat: Исследование форматов с плавающей запятой низкой точности (например, FP8), которые могут предложить лучший динамический диапазон.[20]

Упрощенный подход к квантованию представляет собой значительную упущенную возможность для оптимизации и отражает устаревшее понимание аппаратно-ориентированного проектирования нейронных сетей.

Не используя и даже не обсуждая эти передовые методы, автор диссертации пошёл по пути неоптимальной, мягко говоря, методологии, что свидетельствует о том, что автор не находится на переднем крае научных исследований.

Вывод. Аппаратная реализация функциональна, но ей не хватает технологической сложности современных исследований в области эффективного развертывания глубокого обучения. Использование простой 8-битной схемы квантования является существенным недостатком диссертации.

Раздел 4: Неутешительный анализ экспериментальной валидации и выводов

Достоверность заявлений о производительности

Анализ положений диссертации. В диссертации утверждается о «6-кратном увеличении количества распознаваемых объектов» и «4-кратном увеличении обнаружений» людей при использовании предложенного метода в качестве предобработки для последующей сети-детектора. Также заявляется о «20-кратном уменьшении времени обработки».

 Дефекты базовых утверждений. 20-кратное ускорение сравнивается с реализацией на CPU, что является низкой и ожидаемой планкой для ПЛИС. Ключевым было бы сравнение с другими методами улучшения на GPU или ПЛИС, которое отсутствует. 6-кратное и 4-кратное увеличение обнаружений впечатляет, но полностью зависит от базовой линии. Сравнение проводится с «базовым алгоритмом локального контрастирования», что является расплывчатым определением.

Является ли это стандартным CLAHE? Неадаптивным методом? Без точной, стандартизированной и хорошо обоснованной базовой линии эти впечатляюще звучащие цифры не имеют научной ценности.

Вывод. Ключевые заявления о производительности недостаточно обоснованы. Базовые линии для сравнения либо слабые (CPU), либо плохо определены, что делает невозможной справедливую оценку практического улучшения, предлагаемого методом.

Отсутствие корреляции предложенной метрики с результатами прикладных задач

Обзор методологии. Весь процесс обучения контролируется пользовательской метрикой NR-IQA E(x,y). В диссертации утверждается, что эта метрика коррелирует с субъективными экспертными оценками (MOS).

 Дефекты методологии. Необходимо установить ключевую связь: приводит ли оптимизация для более низкого значения E(x,y) к надежному улучшению производительности в последующей задаче (обнаружение объектов)?

Диссертация утверждает это, но не доказывает.

Вполне возможно, что метрика E(x,y) отдает предпочтение изображениям, которые субъективно приятны, но при этом непреднамеренно удаляет тонкие текстуры или градиенты, жизненно важные для детектора объектов.

Тщательный анализ потребовал бы построения графика производительности обнаружения объектов (например, mAP) в зависимости от оценки E(x,y) на валидационном наборе данных для демонстрации сильной положительной корреляции.

Отсутствие этого анализа является серьезным пробелом в экспериментальной валидации.

Вывод. Диссертация не может подтвердить свое основное предположение при обучении о том, что ее собственная метрика качества является действительным прокси для производительности в прикладной задаче. Это показывает, что вся основанная на обучении компонента методологии зиждется на недоказанном, необоснованном фундаменте.

Неутешительное заключение

  • Новизна: Основные идеи (CNN для предсказания параметров, метрика NR-IQA на основе NSS) не являются новыми и демонстрируют значительное совпадение с предшествующими работами из США и Китая.
  • Методология: Конкретные алгоритмы и архитектуры основаны на эвристиках и упрощенных конструкциях, которые игнорируют более чем десятилетний прогресс в области эффективного глубокого обучения и аппаратно-ориентированного проектирования.
  • Реализация: Реализация на ПЛИС достигает хорошей пропускной способности, но ей не хватает технологической сложности современных ускорителей, особенно в стратегии квантования.
  • Валидация: Экспериментальные утверждения основаны на слабых базовых линиях и не могут подтвердить центральную гипотезу, связывающую пользовательскую метрику качества с производительностью в реальных задачах.

Работа представляет собой компетентную инженерную попытку реализовать гибридную систему улучшения изображений на ПЛИС. Однако как диссертация на соискание ученой степени кандидата наук, она не соответствует требуемому стандарту научной оригинальности и методологической строгости. Список литературы неадекватен, основной результат является производным, а экспериментальная валидация недостаточно надежна для поддержки основных выводов.

Диссертация в ее нынешнем виде не представляет достаточных оснований для признания нового научного вклада. Потребуются значительные переработки, включая всестороннее обновление списка литературы, прямое и честное сравнение с очень похожими предшествующими работами и гораздо более строгую экспериментальную валидацию с использованием сильных, стандартизированных базовых концепций.

Список цитат и литературы

[1] Deep Learning-Optimized CLAHE for Contrast and Color Enhancement in Suzhou Garden Images — The Science and Information (SAI) Organization, 2024, https://thesai.org/Downloads/Volume15No12/Paper_81-Deep_Learning_Optimized_CLAHE_for_Contrast_and_Color_Enhancement.pdf

 

[2] [2502.17850] A Novel Retinal Image Contrast Enhancement — Fuzzy-Based Method — arXiv, February 25, 2025, https://arxiv.org/abs/2502.17850

 

[3] BLIND/REFERENCELESS IMAGE SPATIAL QUALITY EVALUATOR, Department of Electrical and Computer Engineering University of Texas at Austin, 2011, https://live.ece.utexas.edu/publications/2011/am_asilomar_2011.pdf

 

[4] No-Reference Quality Assessment — Laboratory for Image and Video Engineering — The University of Texas at Austin, 2013, http://live.ece.utexas.edu/research/Quality/nrqa.htm

 

[5] BLIND/REFERENCELESS IMAGE SPATIAL QUALITY EVALUATOR, 2011, https://live.ece.utexas.edu/publications/2011/am_asilomar_2011.pdf

 

[6] An Efficient FPGA-Based Convolutional Neural Network for Classification: Ad-MobileNet, July 2021, https://www.mdpi.com/2079-9292/10/18/2272

 

[7] Learning a Simple Low-Light Image Enhancer From Paired Low-Light Instances — CVF Open Access, 2023, https://openaccess.thecvf.com/content/CVPR2023/papers/Fu_Learning_a_Simple_Low-Light_Image_Enhancer_From_Paired_Low-Light_Instances_CVPR_2023_paper.pdf

 

[8] Optimization of Energy Efficiency for FPGA-Based Convolutional Neural Networks Accelerator — ResearchGate, March 2020, https://www.researchgate.net/publication/340532151_Optimization_of_Energy_Efficiency_for_FPGA-Based_Convolutional_Neural_Networks_Accelerator

 

[9] FPGA based Flexible Implementation of Light weight Inference on Deep Convolutional Neural Networks — iajit, May 2024, https://www.iajit.org/upload/files/FPGA-based-Flexible-Implementation-of-Light-Weight-Inference-on-Deep-Convolutional-Neural-Networks.pdf

 

[10] An Efficient FPGA-Based Convolutional Neural Network for Classification: Ad-MobileNet, July 2021, https://www.mdpi.com/2079-9292/10/18/2272

 

[11] Learning a Simple Low-Light Image Enhancer From Paired Low-Light Instances — CVF Open Access, 2023, https://openaccess.thecvf.com/content/CVPR2023/papers/Fu_Learning_a_Simple_Low-Light_Image_Enhancer_From_Paired_Low-Light_Instances_CVPR_2023_paper.pdf

 

[12] (PDF) Deep Learning for Image/Video Restoration and Super-resolution, March 2022, https://www.researchgate.net/publication/359790067_Deep_Learning_for_ImageVideo_Restoration_and_Super-resolution

 

[13] Там же

[14] Implementing Convolutional Neural Networks on FPGA: A Survey and Research, May 2023,

http://www.researchgate.net/publication/370612501_Implementing_Convolutional_Neural_Networks_on_FPGA_A_Survey_and_Research

 

[15] Efficient FPGA Implementation of Convolutional Neural Networks and Long Short-Term Memory for Radar Emitter Signal Recognition — MDPI,  January 5, 2024, https://www.mdpi.com/1424-8220/24/3/889

 

[16] An Energy-Efficient FPGA-based Convolutional Neural Network Implementation — University of Twente Research Information,  2021, https://research.utwente.nl/files/264716753/Irmak2021energy_efficient.pdf

 

[17] Automatic Deployment of Convolutional Neural Networks on FPGA for Spaceborne Remote Sensing Application — MDPI, May 2022, https://www.mdpi.com/2072-4292/14/13/3130

 

[18] [2102.01341] Benchmarking Quantized Neural Networks on FPGAs with FINN — arXiv, February 2, 2021, https://arxiv.org/abs/2102.01341

 

[19] Trainable Fixed-Point Quantization for Deep Learning Acceleration on FPGAs — arXiv, January 31, 2024, https://arxiv.org/pdf/2401.17544

 

[20] Shedding the Bits: Pushing the Boundaries of Quantization with Minifloats on FPGAs Work by Shivam Aggarwal and Hans Jakob Damsgaard was carried out during internships with AMD Research. — arXiv, July 5, 2024, https://arxiv.org/html/2311.12359v3