Plain Concepts colabora con Microsoft para desarrollar Virtual Stage

Estos escenarios virtuales, utilizados en Microsoft Build 2020, se han diseñado con Speaker Recorder App, que permite grabar una conferencia usando uno o dos dispositivos Azure Kinect, y Background Matting, que elimina el fondo usando un modelo de IA y la información de los sensores.

L'azienda spagnola Plain Concepts ha colaborado con el equipo de investigación e inteligencia artificial (Intelligenza artificiale) di Valentina en el desarrollo de unos escenarios virtuales (Virtual Stage) que han permitido celebrar online Microsoft Build 2020, la gran cita con los desarrolladores de la compañía de Redmond, en la que se desvelan las últimas actualizaciones de sus herramientas y servicios.

Construida sobre IA y Azure Kinect, la solución ha permitido a los ponentes de Build dar sus ponencias desde sus domicilio como si estuvieran en un escenario. A lo largo de 48 horas de sesiones en directo y abiertas para todos los registrados, los desarrolladores han podido disfrutar de las ponencias de los expertos con una calidad de imagen y audio idéntica a la conseguida en un plató.

Este hito se ha logrado gracias a Virtual Stage, una aplicación que aprovecha la potencia del Azure Kinect y de los últimos avances en IA para grabar a los ponentes en sus hogares como si estuvieran en un estudio de grabación profesional hablando delante de un croma. Estas grabaciones se envían a posproducción donde se pueden realizar escenarios virtuales, animaciones o distintas composiciones.

Virtual Stage cuenta con dos componentes: Speaker Recorder App, que permite grabar una conferencia usando uno o dos dispositivos Azure Kinect, y Background Matting, una app que elimina el fondo con gran calidad, usando un sofisticado modelo de IA y la información de los sensores Azure Kinect.

La aplicación Speaker Recorder captura la información de color y profundidad de una o dos cámaras Azure Kinect (se pueden usar dos cámaras para grabar dos ángulos de la misma conferencia). Inoltre, el speaker puede utilizar un presentador para desplazarse por las diapositivas de PowerPoint y un micrófono inalámbrico. Cuando terminan, los vídeos se suben a Azure donde son procesados.

En Azure, la aplicación Background Matting utiliza la información de Depth obtenida del Azure Kinect para generar una máscara por segmentación del cuerpo y posteriormente un modelo de IA para mejorar la precisión de dicha máscara y aportar un mejor recorte en zonas con pelo o dedos. Esta máscara será utilizada en el paso final para recortar la información de color del ponente y generar un nuevo vídeo con fondo transparente al cual ya se le podrá sustituir el por el de un escenario virtual.

El Background Matting se basa en una nueva técnica de la Universidad de Washington. Debido a la falta de datos de entrenamiento etiquetados que retraten a los humanos de pie, la IA original fue entrenada con imágenes/vídeos cuadrados de 512×512 hasta la cadera o la rodilla.

Para conseguir un primer plano de alta calidad en zonas como el pelo, las manos o los pies se hicieron dos contribuciones importantes al método original.

Primero, se reemplazó el paso de segmentación original por los modelos de IA del Azure Body Tracking SDK, consiguiendo una segmentación más tolerante con las similitudes de color y las zonas ambiguas de la imagen.

Después, se dividió el cuerpo en dos imágenes cuadradas con una pequeña superposición y procesándolas por separado. Esto permite al modelo `ver´ mejor en zonas difíciles como la sombra entre los pies, sin perder precisión en el cabello o las manos.