Искусственный интеллект научили накладывать шов при помощи робота да Винчи

Искусственный интеллект научили накладывать шов при помощи робота да Винчи

Вложение или вложенное пространство – низкоразмерное пространство1, в которое можно перевести многомерный вектор2. Во время перевода вложение сохраняет семантическую взаимосвязь входов, помещая сходные входы близко друг к другу в пространстве внедрения. Встраивания (или вложения) упрощают машинное обучение для больших входных данных, таких как разреженные векторы3. Многомерное пространство помогает группировать семантически связанные элементы, разделяя разнородные элементы друг от друга. Это может оказаться очень полезным в задаче машинного обучения.


Изучение эффективных методов визуального представления во вложенном пространстве может облегчить обобщение последующих задач, таких как сегментация и имитация действий. В статье “Motion2Vec: Semi-Supervised Representation Learning from Surgical Videos” (Motion2Vec: полуавтоматическое обучение на основе хирургических видео) исследователи изучают интерпретацию роботом хирургических видеоматериалов с кадрами манипуляций, группируя их в сегменты действий/подцели/варианты полуавтоматическом способом.

Motion2Vec


Чтобы наглядно понять, о чем идет речь, просмотрите интерактивную модель Word2Vec, основанную на том же принципе, что и Motion2Vec. В Word2Vec вложения охватывают семантические отношения между словами, такие как время глагола, отношения страна-столица, гендерные аналогии и пр.


Ученые разработали алгоритм Motion2Vec со способностью изучать пространство функций глубокого встраивания методом просмотра и анализа видеоматериалов, минимизируя потерю метрического обучения4 в сиамской нейронной сети5.  Изображения из одного и того же этапа(сегмента) действий объединяются, отделяясь от случайно выбранных изображений других сегментов. При этом временной порядок изображений соблюдается. Вложения итеративно сегментируются с помощью рекуррентной нейронной сети6 для заданной параметризации пространства вложения после предварительного обучения сиамской сети.


Исследователи используют только небольшой набор помеченных сегментов видео, чтобы семантически выровнять пространство встраивания и присвоить псевдо-метки оставшимся немаркированным данным путем вывода на основе изученных параметров модели. Использование этого представления демонстрируется для имитации хирургических движений наложения швов из общедоступных видеороликов. Таким образом, программа глубокого обучения Motion2Vec может воспринимать видеоролики, интерпретировать полученную информацию и воспроизводить последовательности заученных действий. 


В видеоролике ниже выученное представление (интерпретация) применяется ИИ для хирургической сигментации наложения швов, имитации движений при моделировании и практическом применении в интергации с технологией da Vinci


Разработка прошла первое тестирование. Алгоритму была поставлена задача: изучить процесс наложения шва и воспроизвести манипуляцию с использованием роботических рук da Vinci. Наложение шва было выбрано как состоящее из однотипных движений действие, оптимально поддающееся автоматизации. Результаты тестирования показали точность сегментации наложения шва 85,5% со средней ошибкой 0,94 сантиметра в точности нацеливания (имитации кинематической позы).


Будущее технологии Motion2Vec

Впоследствии искусственный интеллект сможет самостоятельно зашивать раны с высокой точностью на реальных пациентах. В данный момент ИИ еще не готов приступить к тестированию на людях. Исследователи заявляют, что до внедрения технологии в рутинную практику хирургов пройдет много времени. Однако в будущем ИИ сможет проводить сложные операции самостоятельно, выполняя маневренные и прецизионные движения, недоступные человеческой руке.


Сегодня такие манипуляции выполняются при помощи хирургического робота da Vinci. Однако система не производит действия самостоятельно: ей управляет опытный хирург.

1. Низкоразмерное пространство, то есть пространство со сниженной размерностью – это пространство преобразованых данных, состоящее в уменьшении числа переменных путем получения главных переменных. Преобразование может быть разделено на отбор признаков и выделение признаков. Метод отбора признаков пытается найти подмножество исходных переменных (которые называются признаками или атрибутами); 2. Многомерный вектор – это вектор векторов, т. е. вектор, элементами которого служат векторы; 3. Разреженная матрица-строка или матрица-столбец, разреженная матрица — это матрица с преимущественно нулевыми элементами. В противном случае, если бо́льшая часть элементов матрицы ненулевые, матрица считается плотной; 4. Метрическое обучение позволяет модифицировать расстояния между временными рядами, сближая временные ряды из одного класса и отдаляя временные ряды из разных классов. Расстояние между временными рядами измеряется с помощью метрики Махаланобиса. Процедура метрического обучения состоит в определении оптимальной матрицы трансформаций в метрике Махаланобиса. Для анализа качества построенного алгоритма проведен вычислительный эксперимент на синтетических и реальных данных показаний с акселерометра мобильного телефона; 5. Сиамская нейронная сеть (англ. Siamese neural network) — это разновидность искусственной нейронной сети (англ. artificial neural network), которая состоит из двух идентичных нейронных подсетей с одинаковыми наборами весов. Данный вид сетей позволяет сравнить вектора признаков двух объектов с целью выделить их семантическое сходство или различие. Сиамская нейронная сеть представляет собой нелинейное отображение данных с целью приблизить друг к другу схожие объекты и разнести различные объекты на максимально возможное расстояние. Сиамские сети получили свое название от сиамских близнецов, физически приросших друг к другу, из-за использования сразу двух подсетей, разделяющих один набор весов. Эти подсети могут быть представлены многослойными перцептронами (англ. multilayer perceptron), сверточными нейронными сетями (англ. convolutional neural network) и другими; 6. Рекуррентные нейронные сети (РНС, англ. Recurrent neural network; RNN) — вид нейронных сетей, где связи между элементами образуют направленную последовательность. Благодаря этому появляется возможность обрабатывать серии событий во времени или последовательные пространственные цепочки. В отличие от многослойных перцептронов, рекуррентные сети могут использовать свою внутреннюю память для обработки последовательностей произвольной длины. Поэтому сети RNN применимы в таких задачах, где нечто целостное разбито на части, например: распознавание рукописного текста или распознавание речи. Было предложено много различных архитектурных решений для рекуррентных сетей от простых до сложных. В последнее время наибольшее распространение получили сеть с долговременной и кратковременной памятью (LSTM) и управляемый рекуррентный блок (GRU).