deepspeedai · sakogan · May 10, 2023 · May 11, 2023 · May 12, 2023 · Aug 30, 2023
@@ -27,7 +27,7 @@
 from .runtime.hybrid_engine import DeepSpeedHybridEngine
 from .runtime.pipe.engine import PipelineEngine
 from .inference.engine import InferenceEngine
-from .inference.config import DeepSpeedInferenceConfig
+from .inference.config import DeepSpeedInferenceConfig, QuantizationConfig
 from .runtime.lr_schedules import add_tuning_arguments
 from .runtime.config import DeepSpeedConfig, DeepSpeedConfigError
 from .runtime.activation_checkpointing import checkpointing
@@ -337,6 +337,14 @@ def init_inference(model, config=None, **kwargs):
             raise ValueError(f"Conflicting argument '{key}' in 'config':{config_dict[key]} and kwargs:{kwargs[key]}")
     config_dict.update(kwargs)
 
+    # Set the number of weight quantization groups if an optional 'quantize_groups' argument is given
+    if "quantize_groups" in config_dict:
+        if not ("dtype", torch.int8) in config_dict.items():
+            raise ValueError("'dtype' argument expected int8 when 'quantize_groups' argument is provided")
+        quant = QuantizationConfig()
+        quant.weight.q_groups = config_dict.pop("quantize_groups")
+        config_dict["quant"] = quant
+
     ds_inference_config = DeepSpeedInferenceConfig(**config_dict)
 
     engine = InferenceEngine(model, config=ds_inference_config)

@@ -193,6 +193,7 @@ def replace_transformer_layer(orig_layer_impl, model, checkpoint_dict, config, m
     """
     # defining globals as internally defined functions inherit these everywhere
     quantize = (config.dtype == torch.int8)
+    quantize_groups = config.quant.weight.q_groups if quantize else 0
     # todo: Refactor later. In future, let's minimize the style used above and use config.** instead
 
     linear_layer_setting = None
@@ -237,7 +238,7 @@ def replace_with_policy(child, policy_cls, triangular_masking, inference=False,
             _container.convert_to_required_dtype()
 
         # 5. Set the quantization config
-        quantizer = GroupQuantizer(q_int8=quantize)
+        quantizer = GroupQuantizer(q_int8=quantize, num_groups=quantize_groups)
         _container.set_quantization_config(quantizer)
 
         # 6. create a DS Inference config object
@@ -341,7 +342,7 @@ def set_lm_head(module):
                                          replace_fn=replace_fn,
                                          _replace_policy=config.injection_policy_tuple)
 
-    quantizer = GroupQuantizer(q_int8=quantize)
+    quantizer = GroupQuantizer(q_int8=quantize, num_groups=quantize_groups)
     world_size = dist.get_world_size() if dist.is_initialized() else 1
     rank = dist.get_rank() if dist.is_initialized() else 0
     if checkpoint_dict is not None and config.replace_with_kernel_inject: