Changed NN for dep coef to Transformer

aasensio · aasensio · commit e8f9a2109411 · 2024-10-14T15:27:52.000+01:00
diff --git a/docs/preparation/ambiguities.rst b/docs/preparation/ambiguities.rst
@@ -113,12 +113,12 @@ Under this change, we have that
 
 .. math:: \cos 2\Phi_B' = \cos 2\Phi_B, \quad \sin 2\Phi_B' = \sin 2\Phi_B, \quad \cos \Phi_B' = \cos \Phi_B, \quad \sin \Phi_B' = \sin \Phi_B.
 
- Making use of the previous relations between the angles wrt to the
+Making use of the previous relations between the angles wrt to the
 vertical and the LOS, we have to solve the following equation:
 
 .. math:: \left( 3 \cos^2\theta_B'-1 \right) \sin^2 \Theta_B' = \left( 3 \cos^2\theta_B-1 \right) \sin^2 \Theta_B,
 
- which can be written as:
+which can be written as:
 
 .. math::
 
diff --git a/examples/nonmpi/syn/caii_syn.py b/examples/nonmpi/syn/caii_syn.py
@@ -8,7 +8,7 @@
 
 
 # Test a single inversion in non-iterator mode
-mod = hazel.Model('../../configurations/conf_caii.ini', working_mode='synthesis', verbose=3, root='../../')
+mod = hazel.Model('../../configurations/conf_caii.ini', working_mode='synthesis', verbose=4, root='../../')
 mod.set_nlte(False)
 mod.synthesize()
 
@@ -29,4 +29,4 @@
 
 ax[1].legend()
 
-pl.show()
+pl.show()
diff --git a/hazel/__init__.py b/hazel/__init__.py
@@ -13,10 +13,12 @@
 from .util import *
 from . import codes
 
-try:
-    # import torch
-    # import torch_geometric
-    from .graphnet import *
-    from .forward_nn import *    
-except:
-    pass
+# try:
+#     # import torch
+#     # import torch_geometric
+#     from .graphnet import *
+#     from .forward_nn import *    
+# except:
+#     pass
+
+from .forward_nn_transformer import *
diff --git a/hazel/data/2024-09-13-11_17_34.best.pth b/hazel/data/2024-09-13-11_17_34.best.pth
diff --git a/hazel/forward_nn_transformer.py b/hazel/forward_nn_transformer.py
@@ -0,0 +1,147 @@
+import numpy as np
+import glob
+import torch
+import torch.nn as nn
+from sklearn import neighbors
+import logging
+
+
+class PositionalEncoding(nn.Module):
+    def __init__(self, d_emb, norm=10000.0):
+        """
+        Inputs
+            d_model - Hidden dimensionality.
+        """
+        super().__init__()
+        self.d_emb = d_emb
+        self.norm = norm
+
+    def forward(self, t):
+        pe = torch.zeros(t.shape[0], t.shape[1], self.d_emb).to(t.device)  # (B, T, D)
+        div_term = torch.exp(torch.arange(0, self.d_emb, 2).float() * (-np.log(self.norm) / self.d_emb))[None, None, :].to(t.device)  # (1, 1, D / 2)
+        t = t.unsqueeze(2)  # (B, 1, T)
+        pe[:, :, 0::2] = torch.sin(t * div_term)  # (B, T, D / 2)
+        pe[:, :, 1::2] = torch.cos(t * div_term)  # (B, T, D / 2)
+        return pe  # (B, T, D)
+    
+class TransformerModel(nn.Module):
+
+    def __init__(self, ninp, nemb, nout, nhead, nhid, nlayers, dropout=0.1, norm=1000.0):
+        """
+        Transformer model for sequence to sequence learning
+
+        Args:
+            ninp (_type_): input size
+            nemb (_type_): embedding size
+            nout (_type_): output size
+            nhead (_type_): number of heads
+            nhid (_type_): hidden layer size in feed forward network
+            nlayers (_type_): number of layers
+            dropout (float, optional): dropout probability. Defaults to 0.5.
+        """
+        super(TransformerModel, self).__init__()
+
+        self.model_type = 'Transformer'
+        
+        self.encoder = nn.Linear(ninp, nemb)
+
+        self.pos_encoder = PositionalEncoding(nemb, norm)
+        
+        encoder_layers = nn.TransformerEncoderLayer(nemb, nhead, nhid, dropout, norm_first=True, batch_first=True)
+        self.transformer_encoder = nn.TransformerEncoder(encoder_layers, nlayers, enable_nested_tensor=False)
+        
+        self.nemb = nemb
+        self.decoder = nn.Linear(nemb, nout)
+
+        self.init_weights()
+
+    def init_weights(self):
+
+        # Since TraansformerEncoder inputs a TransformerEncoderLayer, all layers will use exactly the same initialization
+        # We undo this here
+        for name, param in self.named_parameters():
+            if 'weight' in name and param.data.dim() == 2:
+                nn.init.kaiming_uniform_(param)
+
+    def forward(self, src, tau, src_mask):
+                        
+        # Get tau embedding
+        tau_emb = self.pos_encoder(tau)
+
+        # Embed the input sequence into the embedding space and add the tau embedding
+        x = self.encoder(src) + tau_emb
+            
+        # Apply the transformer encoder
+        x = self.transformer_encoder(x, src_key_padding_mask=src_mask)
+
+        # Apply the decoder to the output space
+        x = self.decoder(x)
+
+        output = (~src_mask).float()[:, :, None] * x
+
+        return output
+
+
+class Forward(object):
+    def __init__(self, gpu=0, checkpoint=None, readir=None, verbose=0):
+
+        self.logger = logging.getLogger("neural")
+        self.logger.setLevel(logging.DEBUG)
+        self.logger.handlers = []
+        ch = logging.StreamHandler()        
+        formatter = logging.Formatter('%(asctime)s - %(message)s')
+        ch.setFormatter(formatter)
+        self.logger.addHandler(ch)
+
+        # Is a GPU available?
+        self.cuda = torch.cuda.is_available()
+        self.gpu = gpu
+        self.device = torch.device("cpu") #f"cuda:{self.gpu}" if self.cuda else "cpu")        
+
+        if (checkpoint is None):
+            if readir is None:
+                raise ValueError('Not checkpoint or read directory selected')
+            files = glob.glob(readir + '*.pth')
+            self.checkpoint = sorted(files)[-1]
+        else:
+            self.checkpoint = checkpoint
+            
+        checkpoint = torch.load(self.checkpoint, map_location=lambda storage, loc: storage, weights_only=False)
+        
+        self.hyperparameters = checkpoint['hyperparameters']
+        self.predict_model = TransformerModel(ninp=self.hyperparameters['transformer']['n_input'],
+                                            nemb=self.hyperparameters['transformer']['n_embedding'], 
+                                            nout=self.hyperparameters['transformer']['n_output'], 
+                                            nhead=self.hyperparameters['transformer']['n_heads'], 
+                                            nhid=self.hyperparameters['transformer']['n_hidden'], 
+                                            nlayers=self.hyperparameters['transformer']['n_layers'],
+                                            norm=self.hyperparameters['transformer']['norm'],
+                                            dropout=self.hyperparameters['transformer']['dropout']).to(self.device)        
+        self.predict_model.load_state_dict(checkpoint['state_dict'])
+
+        self.predict_model.eval()
+
+        if (verbose >= 1):
+            npars = sum(p.numel() for p in self.predict_model.parameters() if p.requires_grad)
+            tmp = self.checkpoint.split('/')
+            self.logger.info(f'    * Using neural checkpoint {tmp[-1]} on {self.device} - N. parameters = {npars}')
+
+    def predict(self, tau_all, ne_all, vturb_all, T_all, vlos_all):        
+
+        tau = (np.log10(tau_all.astype('float32')) + 10.0) * 10.0
+        vturb = vturb_all.astype('float32') / 1e3 - 6.0
+        vlos = vlos_all.astype('float32') / 1e3
+        T = np.log10(T_all.astype('float32')) - 3.8
+        ne = np.log10(ne_all.astype('float32')) - 16.0
+
+        pars = np.concatenate([vturb[None, :], vlos[None, :], T[None, :], ne[None, :]], axis=0).T
+        mask = np.zeros(len(tau)).astype('bool')
+
+        pars = torch.tensor(pars, dtype=torch.float32).to(self.device)
+        tau = torch.tensor(tau, dtype=torch.float32).to(self.device)
+        mask = torch.tensor(mask, dtype=torch.bool).to(self.device)
+        
+        with torch.no_grad():
+            self.pred_out = self.predict_model(pars[None, ...], tau[None, ...], mask[None, ...])
+        
+        return self.pred_out[0, ...].cpu().numpy()
diff --git a/hazel/model.py b/hazel/model.py
@@ -637,7 +637,7 @@ def add_photosphere(self, atmosphere):
         self.atmospheres[atm['name']].add_active_line(lines=lines, spectrum=self.spectrum[atm['spectral region']], 
             wvl_range=np.array(wvl_range), verbose=self.verbose)
 
-        if (self.atmospheres[atm['name']].graphnet_nlte is not None):
+        if (self.atmospheres[atm['name']].transformer_nlte is not None):
             self.set_nlte(True)
 
         if ('ranges' in atm):
@@ -1334,6 +1334,13 @@ def set_nlte(self, option):
         self.use_nlte = option
         if (self.verbose >= 1):
             self.logger.info('Setting NLTE for Ca II 8542 A to {0}'.format(self.use_nlte))
+        if (self.use_nlte):
+            for atmospheres in self.order_atmospheres:
+                for n, order in enumerate(atmospheres):
+                    for k, atm in enumerate(order):
+                        if (self.atmospheres[atm].type == 'photosphere'):
+                            self.atmospheres[atm].load_nlte_model(verbose=self.verbose)
+            
 
     def synthesize(self, perturbation=False):
         """
diff --git a/hazel/photosphere.py b/hazel/photosphere.py
@@ -9,10 +9,15 @@
 from hazel.exceptions import NumericalErrorSIR
 from hazel.transforms import transformed_to_physical, jacobian_transformation
 
-try:
-    from hazel.forward_nn import Forward
-except:
-    pass
+# try:
+    # from hazel.forward_nn import Forward
+# except:
+    # pass
+
+# try:
+from hazel.forward_nn_transformer import Forward
+# except:
+    # pass
 
 
 __all__ = ['SIR_atmosphere']
@@ -27,7 +32,7 @@ def __init__(self, working_mode, name='', root='', verbose=0):
         self.ff = 1.0        
         self.macroturbulence = np.zeros(1)
         self.working_mode = working_mode
-        self.graphnet_nlte = None
+        self.transformer_nlte = None
         self.root = root
         
         self.parameters['T'] = None
@@ -175,15 +180,27 @@ def add_active_line(self, lines, spectrum, wvl_range, verbose):
         self.wvl_axis = spectrum.wavelength_axis[ind_low:ind_top+1]
         self.wvl_range = np.array([ind_low, ind_top+1])
 
-        # Check if Ca II 8542 is in the list of lines and instantiate the neural networks
+        # Check if Ca II 8542 is in the list of lines and instantiate the neural networks        
         if (self.nlte):            
             if 301 in self.lines:
-                if self.graphnet_nlte is None:                    
-                    path = str(__file__).split('/')
-                    checkpoint = '/'.join(path[0:-1])+'/data/20211114-131045_best.prd.pth'
-                    if (verbose >= 1):
-                        self.logger.info('    * Reading NLTE Neural Network')                    
-                    self.graphnet_nlte = Forward(checkpoint=checkpoint, verbose=verbose)
+                self.load_nlte_model(verbose=verbose)
+
+    def load_nlte_model(self, verbose):
+        if self.transformer_nlte is None:                    
+            # path = str(__file__).split('/')
+            # checkpoint = '/'.join(path[0:-1])+'/data/20211114-131045_best.prd.pth'
+            # if (verbose >= 1):
+            #     self.logger.info('    * Reading NLTE Neural Network')                    
+            # self.graphnet_nlte = Forward(checkpoint=checkpoint, verbose=verbose)
+            
+            path = str(__file__).split('/')
+            checkpoint = '/'.join(path[0:-1])+'/data/2024-09-13-11_17_34.best.pth'
+            if (verbose >= 1):
+                self.logger.info('    * Reading NLTE Transformer Neural Network')
+            self.transformer_nlte = Forward(checkpoint=checkpoint, verbose=verbose)
+
+            self.nlte = True
+        
                                         
     def interpolate_nodes(self, log_tau, reference, nodes, nodes_location):
         """
@@ -662,10 +679,10 @@ def synthesize(self, stokes_in, returnRF=False, nlte=False):
                 self.Pe = sir_code.hydroeq(self.log_tau, self.parameters['T'], 
                     self.Pe, 1e5*self.parameters['vmic'], 1e5*self.parameters['v'], self.parameters['Bx'], self.parameters['By'], 
                     self.parameters['Bz'])            
-
+            
             # Check if the line is 8542 and we want NLTE. If that is the case, then evaluate the
             # neural network to return the departure coefficients                        
-            if (nlte):
+            if (nlte):                
                 if (self.nlte):                    
                     dif = (self.parameters['T'] - self.t_old)                    
                     if (np.max(dif) > self.t_change_departure):
@@ -674,15 +691,15 @@ def synthesize(self, stokes_in, returnRF=False, nlte=False):
                                 if (self.verbose >= 4):
                                     self.logger.info('  - NLTE neural oracle')
                                 n = len(self.log_tau)                            
-                                tau = [10.0**self.log_tau[::-1]]
+                                tau = 10.0**self.log_tau[::-1]
                                 ne = self.Pe / (1.381e-16 * self.parameters['T'])
-                                ne = [ne[::-1] * 1e6]                                 # in m^-3
-                                tt = [self.parameters['T'][::-1]]
-                                vturb = [self.parameters['vmic'][::-1] * 1e3]         # in m/s                            
-                                vlos = [self.parameters['v'][::-1] * 1e3]             # in m/s
-                                prediction = self.graphnet_nlte.predict(tau, ne, vturb, tt, vlos)
-                                self.departure[0, i, :] = 10.0**prediction[0][::-1, 2]
-                                self.departure[1, i, :] = 10.0**prediction[0][::-1, 4]                                
+                                ne = ne[::-1] * 1e6                                 # in m^-3
+                                tt = self.parameters['T'][::-1]
+                                vturb = self.parameters['vmic'][::-1] * 1e3         # in m/s                            
+                                vlos = self.parameters['v'][::-1] * 1e3             # in m/s
+                                prediction = self.transformer_nlte.predict(tau, ne, vturb, tt, vlos)                                
+                                self.departure[0, i, :] = 10.0**prediction[::-1, 2]
+                                self.departure[1, i, :] = 10.0**prediction[::-1, 4]                                
             
                             self.t_old = self.parameters['T']