Add SENet.

danielhavir · danielhavir · commit ecddb8bcab93 · 2018-07-18T16:41:46.000+02:00
diff --git a/experiment.py b/experiment.py
@@ -11,6 +11,7 @@
 from sklearn.model_selection import KFold, StratifiedKFold
 from model.densenet import *
 from model.resnet import *
+from model.senet import *
 from core.mixup import Mixup, OneHotCrossEntropy
 from core.snap_scheduler import SnapScheduler
 from tqdm import tqdm
@@ -32,12 +33,17 @@
     'densenet169': densenet169,
     'densenet201': densenet201,
     'densenet161': densenet161,
+	'senet18': se_resnet18,
+    'senet34': se_resnet34,
+    'senet50': se_resnet50,
+    'senet101': se_resnet101,
+    'senet152': se_resnet152,
 }
 
 class Experiment(object):
 	def __init__(self, model: str, batch_size: int, epochs: int, lr: float, eval_interval: int=1,
 	optimizer: str='sgd', schedule: str=None, step_size: int=10, gamma: float=0.5, use_mixup: bool=True,
-	mixup_alpha: float=0.5, conv_fixed: bool=False, weighted: bool=False, cross_validate: bool=False,
+	mixup_alpha: float=0.5, weighted: bool=False, cross_validate: bool=False,
 	n_splits: int=5, seed: int=42, metric: str='accuracy', no_snaps: bool=False, debug_limit: int=None,
 	device: str=('cuda' if torch.cuda.is_available() else 'cpu'), num_processes: int=8, multi_gpu: bool=False, **kwargs):
 		self.set_seed(seed)
@@ -52,7 +58,6 @@ def __init__(self, model: str, batch_size: int, epochs: int, lr: float, eval_int
 		self.gamma = gamma
 		self.optimizer_str = optimizer
 		self.use_mixup = use_mixup
-		self.conv_fixed = conv_fixed
 		self.weighted = weighted
 		self.cross_validate = cross_validate
 		self.n_splits = n_splits
@@ -99,15 +104,9 @@ def __init__(self, model: str, batch_size: int, epochs: int, lr: float, eval_int
 		self.model = self.load_model()
 		
 		if optimizer == 'sgd':
-			if self.conv_fixed:
-				self.optimizer = optim.SGD(self.model.fc.parameters(), lr=self.lr, momentum=0.9)
-			else:
-				self.optimizer = optim.SGD(self.model.parameters(), lr=self.lr, momentum=0.9)
+			self.optimizer = optim.SGD(self.model.parameters(), lr=self.lr, momentum=0.9)
 		elif optimizer == 'adam':
-			if self.conv_fixed:
-				self.optimizer = optim.Adam(self.model.fc.parameters(), lr=self.lr, amsgrad=False)
-			else:
-				self.optimizer = optim.Adam(self.model.parameters(), lr=self.lr, amsgrad=False)
+			self.optimizer = optim.Adam(self.model.parameters(), lr=self.lr, amsgrad=False)
 		
 		if self.schedule is not None:
 			if self.schedule.lower() == 'step':
@@ -153,21 +152,19 @@ def get_loaders(self, num_workers=8):
 				'test': thd.DataLoader(self.testset, batch_size=self.batch_size, shuffle=False, num_workers=self.num_processes)}
 		
 	def load_model(self):
-		model = pretrained_models[self.model_str](pretrained=True)
-		if self.conv_fixed:
-			logger.warning("Fixing weights")
-			for param in model.parameters():
-				param.requires_grad = False
-
 		classifier = lambda num_features: nn.Linear(num_features, self.num_classes)
 
 		if self.model_str.startswith('densenet'):
+			model = pretrained_models[self.model_str](pretrained=True)
 			num_ftrs = model.classifier.in_features
 			model.classifier = classifier(num_ftrs)
 		elif self.model_str.startswith('resnet'):
+			model = pretrained_models[self.model_str](pretrained=True)
 			num_ftrs = model.fc.in_features
 			model.avgpool = torch.nn.AdaptiveAvgPool2d(1)
 			model.fc = classifier(num_ftrs)
+		elif self.model_str.startswith('senet'):
+			model = pretrained_models[self.model_str](num_classes=self.num_classes)
 		else:
 			raise ValueError(f'Invalid model string. Received {self.model_str}.')
 		
@@ -303,15 +300,9 @@ def split_run(self):
 				self.model = self.load_model()
 				
 				if self.optimizer_str == 'sgd':
-					if self.conv_fixed:
-						self.optimizer = optim.SGD(self.model.fc.parameters(), lr=self.lr, momentum=0.9)
-					else:
-						self.optimizer = optim.SGD(self.model.parameters(), lr=self.lr, momentum=0.9)
+					self.optimizer = optim.SGD(self.model.parameters(), lr=self.lr, momentum=0.9)
 				elif self.optimizer_str == 'adam':
-					if self.conv_fixed:
-						self.optimizer = optim.Adam(self.model.fc.parameters(), lr=self.lr, amsgrad=False)
-					else:
-						self.optimizer = optim.Adam(self.model.parameters(), lr=self.lr, amsgrad=False)
+					self.optimizer = optim.Adam(self.model.parameters(), lr=self.lr, amsgrad=False)
 			
 			self.single_run(run_fname=f'run-{split_num}')
 	
@@ -346,16 +337,14 @@ def run(self):
 	parser.add_argument('--gamma', type=float, default=0.5, help='Gamma argument for scheduler (only applies to step and exponential).')
 	# Prevent from using mixup
 	parser.add_argument('--no_mixup', action='store_true', help='Flag whether to use mixup.')
-	# Fix weights of convolutional layers
-	parser.add_argument('--conv_fixed', action='store_true', help='Flag whether to fix weights of convolutional layers.')
-	# Weight classes to tackle inbalance
-	parser.add_argument('-w', '--weighted', action='store_true', help='Flag whether to weight classes.')
 	# Use cross validation
 	parser.add_argument('-cv', '--cross_validate', action='store_true', help='Flag whether to use cross validation.')
 	# Alpha parameter for Mixup's Beta distribution
 	parser.add_argument('-alpha', '--mixup_alpha', type=float, default=0.8, help="Alpha parameter for Mixup's Beta distribution.")
 	# Prevent from storing snapshots
 	parser.add_argument('--no_snaps', action='store_true', help='Flag whether to prevent from storing snapshots.')
+	# Evaulation interval
+	parser.add_argument('--eval_interval', type=int, default=1, help='How often to run evaluation.')
 	# Debug limit to decrease size of dataset
 	parser.add_argument('--debug_limit', type=int, default=None, help='Debug limit to decrease size of dataset.')
 	# Seed
@@ -373,7 +362,7 @@ def run(self):
 	if args.gpu_device is not None:
 		torch.cuda.set_device(args.gpu_device)
 
-	exp = Experiment(args.model, args.batch_size, args.epochs, args.learning_rate, use_mixup=(not args.no_mixup),
-	mixup_alpha=args.mixup_alpha, conv_fixed=args.conv_fixed, weighted=args.weighted, cross_validate=args.cross_validate, schedule=args.scheduler,
+	exp = Experiment(args.model, args.batch_size, args.epochs, args.learning_rate, eval_interval= args.eval_interval, use_mixup=(not args.no_mixup),
+	mixup_alpha=args.mixup_alpha, cross_validate=args.cross_validate, schedule=args.scheduler,
 	seed=args.seed, no_snaps=args.no_snaps, debug_limit=args.debug_limit, num_processes=args.num_workers, multi_gpu=args.multi_gpu)
 	exp.run()
diff --git a/model/senet.py b/model/senet.py
@@ -0,0 +1,155 @@
+import math
+import torch.nn as nn
+from model.resnet import ResNet
+
+
+class SELayer(nn.Module):
+    def __init__(self, channel, reduction=16):
+        super(SELayer, self).__init__()
+        self.avg_pool = nn.AdaptiveAvgPool2d(1)
+        self.fc = nn.Sequential(
+                nn.Linear(channel, channel // reduction),
+                nn.ReLU(inplace=True),
+                nn.Linear(channel // reduction, channel),
+                nn.Sigmoid()
+        )
+
+    def forward(self, x):
+        b, c, _, _ = x.size()
+        y = self.avg_pool(x).view(b, c)
+        y = self.fc(y).view(b, c, 1, 1)
+        return x * y
+
+
+def conv3x3(in_planes, out_planes, stride=1):
+    return nn.Conv2d(in_planes, out_planes, kernel_size=3, stride=stride, padding=1, bias=False)
+
+
+class SEBasicBlock(nn.Module):
+    expansion = 1
+
+    def __init__(self, inplanes, planes, stride=1, downsample=None, reduction=16):
+        super(SEBasicBlock, self).__init__()
+        self.conv1 = conv3x3(inplanes, planes, stride)
+        self.bn1 = nn.BatchNorm2d(planes)
+        self.relu = nn.ReLU(inplace=True)
+        self.conv2 = conv3x3(planes, planes, 1)
+        self.bn2 = nn.BatchNorm2d(planes)
+        self.se = SELayer(planes, reduction)
+        self.downsample = downsample
+        self.stride = stride
+
+    def forward(self, x):
+        residual = x
+        out = self.conv1(x)
+        out = self.bn1(out)
+        out = self.relu(out)
+
+        out = self.conv2(out)
+        out = self.bn2(out)
+        out = self.se(out)
+
+        if self.downsample is not None:
+            residual = self.downsample(x)
+
+        out += residual
+        out = self.relu(out)
+
+        return out
+
+
+class SEBottleneck(nn.Module):
+    expansion = 4
+
+    def __init__(self, inplanes, planes, stride=1, downsample=None, reduction=16):
+        super(SEBottleneck, self).__init__()
+        self.conv1 = nn.Conv2d(inplanes, planes, kernel_size=1, bias=False)
+        self.bn1 = nn.BatchNorm2d(planes)
+        self.conv2 = nn.Conv2d(planes, planes, kernel_size=3, stride=stride,
+                               padding=1, bias=False)
+        self.bn2 = nn.BatchNorm2d(planes)
+        self.conv3 = nn.Conv2d(planes, planes * 4, kernel_size=1, bias=False)
+        self.bn3 = nn.BatchNorm2d(planes * 4)
+        self.relu = nn.ReLU(inplace=True)
+        self.se = SELayer(planes * 4, reduction)
+        self.downsample = downsample
+        self.stride = stride
+
+    def forward(self, x):
+        residual = x
+
+        out = self.conv1(x)
+        out = self.bn1(out)
+        out = self.relu(out)
+
+        out = self.conv2(out)
+        out = self.bn2(out)
+        out = self.relu(out)
+
+        out = self.conv3(out)
+        out = self.bn3(out)
+        out = self.se(out)
+
+        if self.downsample is not None:
+            residual = self.downsample(x)
+
+        out += residual
+        out = self.relu(out)
+
+        return out
+
+
+def se_resnet18(num_classes):
+    """Constructs a ResNet-18 model.
+
+    Args:
+        pretrained (bool): If True, returns a model pre-trained on ImageNet
+    """
+    model = ResNet(SEBasicBlock, [2, 2, 2, 2], num_classes=num_classes)
+    model.avgpool = nn.AdaptiveAvgPool2d(1)
+    return model
+
+
+def se_resnet34(num_classes):
+    """Constructs a ResNet-34 model.
+
+    Args:
+        pretrained (bool): If True, returns a model pre-trained on ImageNet
+    """
+    model = ResNet(SEBasicBlock, [3, 4, 6, 3], num_classes=num_classes)
+    model.avgpool = nn.AdaptiveAvgPool2d(1)
+    return model
+
+
+def se_resnet50(num_classes):
+    """Constructs a ResNet-50 model.
+
+    Args:
+        pretrained (bool): If True, returns a model pre-trained on ImageNet
+    """
+    model = ResNet(SEBottleneck, [3, 4, 6, 3], num_classes=num_classes)
+    model.avgpool = nn.AdaptiveAvgPool2d(1)
+    return model
+
+
+def se_resnet101(num_classes):
+    """Constructs a ResNet-101 model.
+
+    Args:
+        pretrained (bool): If True, returns a model pre-trained on ImageNet
+    """
+    model = ResNet(SEBottleneck, [3, 4, 23, 3], num_classes=num_classes)
+    model.avgpool = nn.AdaptiveAvgPool2d(1)
+    return model
+
+
+def se_resnet152(num_classes):
+    """Constructs a ResNet-152 model.
+
+    Args:
+        pretrained (bool): If True, returns a model pre-trained on ImageNet
+    """
+    model = ResNet(SEBottleneck, [3, 8, 36, 3], num_classes=num_classes)
+    model.avgpool = nn.AdaptiveAvgPool2d(1)
+    return model
+