Un campo de radiación neural (NeRF, siglas en inglés de Neural Radiance Field) é un método baseado na aprendizaxe profunda ou deep-learning para formar unha representación tridimensional dunha escena a partir de imaxes bidimensionais. O modelo NeRF permite aprender a síntese de novas vistas (view synthesis), a xeometría da escena e as propiedades de reflectancia da mesma, facendo posible renderizar vistas fotorrealistas desde puntos de vista novos.
Introducido por primeira vez en 2020 por Google,[1] desde entón gañou unha atención significativa polas súas potenciais aplicacións en gráficos por ordenador e creación de contidos.[2] Aínda que o concepto foi creado en 2020, un feixe de papers popularizaron o método especialmente desde o 2022.[3] De feito, a revista Time considerou NeRF como unha das mellores invencións dese ano.[4]
Rede neural perceptrón multicapa (MLP de 4 capas).
O termo campo de radiación neural (introducido por Xie, Yiheng)[5] refírese a unha rede neural que parametriza unha sinal, que pode ser unha escena 3D ou un obxecto. Ademais, sinais do tipo auditivo (audios), imaxes e practicamente calquera outro input discreto ou continuo pode ser representado por NeRF.[6]
En física, o concepto de campo involucra o mapeo de cantidades e coordenadas. Campos como o electromagnético ou o gravitatorio adoptan a representación dunha coordenada xunto á cantidade , que comunmente é un vector, escalar ou tensor. Os campos de radiación neural de NeRF alimentan a rede neural coas coordenadas da escena a replicar coa meta de producir cantidades de campo e reconstruír o problema cos sucesivos procesos de optimización.
A aplicación máis célebre do método NeRF é a síntese de vistas, é dicir, reconstruír unha contorna 3D a través dun conxunto de datos bidimensionais (usualmente fotografías). Métodos tradicionais como a fotogrametría ou modernos como o splatting gaussiano son outras aproximacións neste campo. NeRF implica tomar mostras de moitos puntos ao longo dos raios da cámara, así que pode apoiarse en técnicas tradicionais de renderizado de volume para producir unha imaxe final.[1]
O campo de radiación neural esixe capturar unha soa escena ou contorna para axustar os pesos da rede neural de tipo perceptrón multicapa (MLP, MultiLayer Perceptron) de forma eficaz. O obxectivo é sobreaxustar a rede para codificar os datos de entrada.
Mallas vóxel (sendo o vóxel a unidade cúbica mínima que compón un obxecto 3D, equivalente ao píxel 2D).
Mallas poligonais (conxunto de vértices, arestas e caras que definen a forma dun obxecto 3D).[7]
Cada unha destas representacións ten os seus propios inconvenientes:
Os vóxeles tenden a ser caros de almacenar.
As mallas poligonais están limitadas a certas superficies.
Golfiño representado por unha malla poligonal (polygon mesh).
A representación proposta por NeRF difire no sentido de que os campos de radiación neural son moito máis lixeiros (fácil almacenamento) e permiten formas e dimensións arbitrarias. Vóxel e mallas poligonais non son diferenciables e continuas, pero os campos neurais si, ademais de ser independentes do dominio (aceptan todo tipo de input sempre que se codifique en vectores de entrada).
O algoritmo NeRF representa unha escena como un campo de radiación parametrizado por unha rede neuronal profunda perceptrón multicapa (MLP). A rede predí unha densidade de volume e unha radiación emitida dependente da vista dada a localización espacial (x, y, z) e a dirección de visión en ángulos de Euler (θ, Φ) da cámara.
A arquitectura NeRF céntrase en concreto na síntese de vistas (reconstrución 3D). NeRF enténdese como un caso concreto dos campos neurais descritos no apartado anterior. Na seguinte táboa móstrase a nova terminoloxía asociada a NeRF.
Equivalencias Neural Fields e NeRF
Concepto
Notación
Elemento en NeRF
Coordenada do sensor
Imaxes 2D
Medición do sensor
Radiación
Sensor
Cámara dixital
Coordenada de entrada
Localización (x, y, z) e densidade de volume
Cantidade de campo
Cor (r, g, b) e dirección en ángulos de Euler (θ, Φ)
Campo
Rede neural perceptrón multicapa (MLP)
Mapeo completo
Renderizado 3D
NeRF require de coordenadas en cinco dimensións como entrada, sendo estas a compoñente espacial (x, y, z) e a dirección en ángulos de Euler (θ, Φ). A rede neural MLP recibe o vector 5D como input e devolve a intensidade de cor en RGB xunto á densidade de volume .
describe o efecto do punto na escena global. Pode entenderse como unha "probabilidade" intuitivamente que sinala a radiación do punto (a maior efecto, maior probabilidade de que a cor predita sexa correcta).
O output RGB é o valor devolto por NeRF que, posteriormente, é suxeito a procesos de renderizado de volume tendo en conta a distancia do raio e, finalmente, a función de perda (coñecida como rendering loss) que se optimiza ata conseguir o efecto desexado.
O algoritmo NeRF é diferenciable, o que permite a comparación entre a saída da rede neural (output) e as imaxes de orixe (input) a través dunha función de perda. É común empregar a regularización L2, é dicir, ridge, para tratar a suma de cadrados dos pesos.[8]
sendo
Pesos.
Parámetro de penalización. Controla a forza de penalización. Valores altos forzan aos pesos a ser máis pequenos, simplificando o modelo.
O renderizado volumétrico é unha parte fundamental do proceso, é dicir, obter novas imaxes bidimensionais a partir da saída 3D da rede neural.
Para NeRF é común empregar a técnica de "raio marchante" (ray marching) que, a diferenza do "raio trazado" (ray tracing) funciona correctamente para superficies suaves e condicións especiais de iluminación (néboas e formas sutís nas que os obxectos non están claramente delimitados).[9]
Visualización do método de ray marching por SDF (función de distancia con signo).
O raio marchante volumétrico traza raios co obxectivo de tomar mostras da cor e densidade ao longo do mesmo. Finalmente, combínanse todas as mostras na cor do píxel final. É un proceso iterativo, de modo que resulta necesario establecer os pasos ou "chanzos" que definen a frecuencia de mostraxe ao longo do raio. Cada iteración avanza en dirección ao obxecto ou superficie, ata que o proceso conclúe cerca do sólido.
Cada punto de mostraxe ten:
Localización espacial (x, y, z).
Cor
Densidade volumétrica.
As compoñentes necesarias para a expresión do raio son:
Orixe (posición)
Dirección
Pasos ou chanzos .
Así, o raio de luz como función das súas compoñentes tería a seguinte expresión:
,
e tendo en conta que tanto a densidade como a cor dependen do propio raio, poderían escribirse así mesmo como e , respectivamente.
Integrando os raios obtéñense as cores finais de cada píxel.
Os NeRF teñen unha ampla gama de aplicacións, entre as que se encontran:[10][11]
Creación de contidos. Os NeRF teñen un grande potencial na creación de contido con vistas fotorrealistas.[12] A tecnoloxía democratiza un espazo que antes só era accesible por equipos de artistas VFX con activos caros. Os campos de radiación neuronal permiten crear ambientes 3D atractivos co único requisito de posuír unha cámara.[10] NeRF pode combinarse con intelixencia articial xerativa, o que permite aos usuarios sen experiencia de modelaxe instruír cambios en escenas 3D fotorrealistas.[13] Os NeRF teñen usos potenciais na produción de vídeo, gráficos por ordenador e deseño de produtos.
Contido interactivo. O fotorrealismo dos NeRF posibilita o seu uso inmersivo en realidade virtual ou videoxogos. Os NeRF pódense combinar con técnicas de renderizado clásicas para inserir obxectos sintéticos e crear experiencias virtuais verosímiles.[14]
Tomografía 3D computarizada.Imaxe médica. Os NeRF foron utilizados para reconstruír tomografías computadorizadas 3D a partir de vistas de raios X escasas ou mesmo únicas. O modelo demostrou representacións de alta fidelidade dos datos de peito e xeonllos. De ser adopto, este método pode salvar aos pacientes de doses excesivas de radiación ionizante, permitindo un diagnóstico máis seguro.[15]
A capacidade dos NeRF para comprender obxectos transparentes e reflexivos fainos útiles para os robots que interactúan en tales ambientes. O uso de NeRF permitiu que un brazo robótico manipulase con precisión unha copa de viño transparente, unha tarefa na que a visión tradicional por ordenador tería dificultades.[16]
Os NeRF tamén poden xerar rostros humanos fotorrealistas ou avatares.[17]